Cũng như tất cả trong kỉ nguyên thông tin, thay đổi cực nhanh và mau chóng trở thành một thứ thân thuộc hàng ngày mà chúng ta còn không để ý. Hệ thống xác thực người dùng trên mạng CAPTCHA là một ví dụ.
Khi bạn nhấp vào hộp kiểm I'm not a robot hình như chỉ là một hành động rất đơn giản, một cú nhấp, nhưng sự thực đằng sau phức tạp hơn như vậy. Bạn có thể đọc bài viết về I'm not a robot trên Truongthinh.info để biết rõ hơn về dạng CAPTCHA này.
Trong bài viết sau mình sẽ tìm hiểu về CAPTCHA là gì, nó ra đời như làm sao và tại sao các web lại cần thiết CAPTCHA, reCAPTCHA hay I'm not a robot.
CAPTCHA là gì? Tại sao cần thiết CAPTCHA?
CAPTCHA là viết tắt của “Completely Automated Public Turing test to tell Computers and Humans Apart” (tạm dịch là bài kiểm tra tính tự động để phân biệt máy tính và con người).
Trong thời buổi Internet ngày nay, khả năng độc giả của 1 trang web là một robot rất cao. Bot mạng được lập trình nhằm mục đích độc hại (chạy các tác vụ tự động) ngày càng phổ biến trên Internet. Chúng có thể được dùng ở nhiều quy mô khác nhau từ việc tạo tài khoản mạng xã hội giả mạo, đặt vé xem buổi hòa nhạc nổi tiếng hay dàn dựng 1 cuộc tiến công từ chối dịch vụ phân tán DDoS quy mô lớn. Điều này cũng có thể phá hủy hoạt động của mọi doanh nghiệp từ ngân hàng đến các trang web của chính phủ. Vì nguy cơ như vậy, cần thiết cách nào đó để phân biệt các bot mạng với mục tiêu xấu xa và người dùng thực sự, có thiện chí. Đó là lý do ra đời CAPTCHA.
Sự sinh ra của CAPTCHA
Giống như các bot mạng và nhiều nâng cấp trong ngành Internet, CAPTCHA bắt nguồn trong cộng đồng hacker. Quay trở lại những năm 1980, hacker đã phát minh ra leetspeek để vượt qua lớp bảo mật trên các diễn đàn chuyện trò trên Internet. Leet là phương pháp chuyển đổi các từ thành những ký tự hoặc chữ viết tắt nhìn có vẻ giống nhau mà máy tính không hiểu được, nó gần tương tự với ngôn ngữ teen hiện nay, ví dụ:
- leet > I33t
- censored > c3n50red
- p0rn hay 53x
Trong thời kỳ khi Internet chưa có Google, trang web được gửi thủ công đến các công cụ tìm kiếm. Dù việc gửi URL giúp mở rộng kho dữ liệu nhưng có một số người dùng bot để spam máy chủ của các trang web tìm kiếm, nhằm thao túng thuật toán xếp thứ hạng của cục tìm kiếm.
Vào năm 1997, để ngăn chặn việc gửi trang web giả mạo/tự động, AltaVista (một công cụ tìm kiếm thông dụng nhất khi bấy giờ) đã tiến hành hệ thống giống như CAPTCHA giờ đây để đòi hỏi người sử dụng nhập 1 loạt các ký tự bị bóp méo vào hộp văn bản. Kiểu CAPTCHA này chúng ta vẫn thường gặp khi đăng ký tài khoản mới hoặc gửi thông tin trên internet, nó dựa theo ba nguyên tắc:
- Con người cũng có thể có thể đơn giản nhận biết các ký tự bị biến dạng, xoay hoặc lệch nhiều hơn.
- Con người có thể đơn giản phân tách các ký tự chồng chéo hơn.
- Con người cũng đều có thể đơn giản đặt các ký tự trong một bối cảnh trực quan hơn để biết chúng là gì, ví dụ, xác định một ký tự dựa theo toàn bộ từ mà nó xuất hiện.
Thuật toán này do Andrei Broder, Chief Scientist tại Alta Vista phát triển, sau kia được hoàn thiện bởi các nhà nghiên cứu tại đại học Carnegie Mellon (đứng đầu là Luis von Ahn (hay Big Lou)) đầu những năm 2000.
Năm 2003, nhóm của von Ahn đã xuất bản bài nghiên cứu tiên phong miêu tả nhiều loại chương trình ứng dụng không trùng lặp có thể phân biệt nhân loại với máy tính. Chính họ cũng đã đặt ra các từ viết tắt hấp dẫn hơn.
reCAPTCHA xuất hiện
Khi CAPTCHA ngày càng được dùng phổ biến trong bảo mật trên Internet, Luis von Ahn cảm thấy nhân loại đã tốn kém quá độ thời gian để giải những câu đố hình ảnh này. Trong TED Talk 2011, von Ahn đã ước tính rằng toàn bộ con người đã lãng phí 500.000 giờ mỗi ngày để gõ CAPTCHA.
Khi được hỏi liệu có cách nào để CAPTCHA được sử dụng hùng mạnh và có ý nghĩa hơn không, ông đã phát triển reCAPTCHA, sau đó được bán cho Google vào năm 2009. Ngày nay, có 1 số dự án và công ty (bao gồm Google Books, Internet Archive, Amazon Kindle hay Thời báo New York) đang quét và lập chỉ mục con số lớn sách, tài liệu và hình ảnh để sử dụng trên web với sự bổ trợ từ reCAPTCHA.
reCAPTCHA hoạt động bằng phương pháp lấy những từ chẳng thể nhận biết trong công đoạn quét và đưa cho người dùng, đặt kế bên một từ đã biết để người dùng giải nghĩa. Bằng cách nhập chính xác từ đã biết, bạn sẽ có xác nhận là người và hệ thống reCAPTCHA tín nhiệm rằng bạn đã số hóa chuẩn xác từ thứ hai. Nếu 10 người khác cũng mang ra đáp án giống bạn về từ chưa biết, hệ thống sẽ nghĩ rằng từ bạn nhập là chính xác.
reCAPTCHA đã giúp số hóa hàng triệu cuốn sách hằng năm và cũng từng mở rộng để hỗ trợ các nỗ lực khác như số hóa tên đường và số trên Google Maps hoặc nhận biết các đối tượng phổ biến trong ảnh cho Google Images. Bạn muốn tìm hiểu nhiều hơn về dạng CAPTCHA này cũng đều có thể đọc trong bài viết Bí mật phía đằng sau chương trình miễn phí reCAPTCHA của Truongthinh.info.
CAPTCHA bằng hình ảnh không phải hình thức duy nhất, ngoài ra còn có dưới dạng âm thanh dành cho người khiếm thị (thường bị làm méo tiếng để ngăn các ứng dụng nhận diện giọng nói), câu hỏi bằng chữ mà máy tính chẳng thể hiểu được hay PiCAPTCHA, gồm một chuỗi các hình ảnh và đòi hỏi người sử dụng chọn theo một thứ tự nhất định.
I’m not a robot xuất hiện
Von Ahn rất hài lòng với phiên bản reCAPTCHA mới và sẽ cho là nó sẽ vẫn dùng được mãi vì “có rất nhiều văn bản in”. Nhưng đây là kỉ nguyên Internet và nhiều thứ chúng ta vẫn gọi là nghiễm nhiên hiện hữu trên mạng cũng có thể có thể biến mất 1 ngày nào đó. Hệ thống CAPTCHA cũng không phải ngoại lệ.
CAPTCHA không cần là chẳng thể phá vỡ. Năm 2014, phân tích của Google cho biết trí óc nhân tạo có thể giải được các hình ảnh CAPTCHA và reCAPTCHA phức tạp nhất với độ chuẩn xác lên tới 99.8%.
Google đã tạo nên hệ thống mới No CAPTCHA reCAPTCHA: I'm not a robot, không dựa vào khả năng giải mã văn bản của người dùng mà là hành vi trên mạng của họ trước lúc băng qua điểm kiểm tra an ninh. Khi người sử dụng ở trên trang, thuật toán sẽ xem cách họ tương tác với nội dung để quyết định xem đó là người hay robot.
Cụ thể, Google sẽ phân tích hành vi của bạn trước, trong và sau khi nhấp vào hộp kiểm để xác định xem bạn có những đặc điểm xuất hiện ở người không. Phân tích này còn có thể cho dù là mọi thứ từ lịch sử duyệt web của bạn (bot độc hại không cần thiết phải xem vài video YouTube và kiểm tra Gmail trước khi đăng ký tài khoản ngân hàng), cho tới cách bạn di chuyển chuột trên trang.
Nếu Google vẫn chưa chắc chắn rằng bạn có cần là người thật hay là không thì sau khi nhấp vào hộp kiểm, bạn sẽ được hiển thị reCAPTCHA trực giác (với các từ, ký hiệu đường phố hoặc hình ảnh) như một biện pháp bảo mật bổ sung. Cách tiếp cận đa diện đây là luôn phải có khi máy tính trở nên thành thạo hơn trong việc nhận dạng hình ảnh phức tạp và với sự gia tăng của các nông trại CAPTCHA (nơi có lượng lớn nhân viên được trả tiền để trả lời các câu đố của CAPTCHA).
Cuộc chiến giữa các chuyên gia bảo mật và spambot có lẽ sẽ không khi nào có hồi kết. Một ngày nào đó No CAPTCHA reCAPTCHA cũng cũng có thể có thể bị qua mặt và thay thế bằng công nghệ khác. Khi đó, hãy luôn cảnh giác.
Xem thêm:
- Google trình làng reCAPTCHA v3 mới
- Hướng dẫn bảo mật tài khoản Google với Google Authenticator
- Các ứng dụng tạo mã xác thực trên Windows 10
Từ khóa bài viết: truongthinh.info, CAPTCHA, reCAPTCHA, xác thực người dùng, lịch sử CAPTCHA, lịch sử hệ thống nhận diện người dùng, nguồn gốc CAPTCHA, CAPTCHA là gì, tại sao cần có CAPTCHA
Bài viết CAPTCHA là gì? Có những dạng CAPTCHA nào? được tổng hợp và biên tập bởi: truongthinh.info. Mọi ý kiến đóng góp và phản hồi vui lòng gửi Liên Hệ cho truongthinh.info để điều chỉnh. truongthinh.info xin cảm ơn.