reCAPTCHA - reCAPTCHA

reCAPTCHA
Autor (es) original (es)
Desarrollador (es)	Google
Versión inicial	27 de mayo de 2007 ; hace 14 años
Escribe	Versión clásica: CAPTCHA ; Nueva versión: Análisis de comportamiento
Sitio web	www .google .com / recaptcha

reCAPTCHA es un sistema CAPTCHA que permite a los servidores web distinguir entre el acceso humano y automatizado a los sitios web. La versión original pedía a los usuarios que descifraran textos difíciles de leer o que coincidieran con imágenes. La versión 2 también solicitó a los usuarios que descifraran texto o coincidieran imágenes si el análisis de las cookies y la representación del lienzo sugerían que la página se estaba descargando automáticamente. Desde la versión 3, reCAPTCHA nunca interrumpirá a los usuarios y está diseñado para ejecutarse automáticamente cuando los usuarios cargan páginas o hacen clic en botones. reCAPTCHA es propiedad de Google .

La iteración original del servicio era una plataforma de colaboración masiva diseñada para la digitalización de libros, particularmente aquellos que eran demasiado ilegibles para ser escaneados por computadoras . Las indicaciones de verificación utilizaron pares de palabras de páginas escaneadas, con una palabra conocida utilizada como control para la verificación, y la segunda utilizada para crowdsourcing de la lectura de una palabra incierta. reCAPTCHA fue desarrollado originalmente por Luis von Ahn , David Abraham, Manuel Blum , Michael Crawford, Ben Maurer, Colin McMillen y Edison Tan en el campus principal de Pittsburgh de la Carnegie Mellon University . Fue adquirido por Google en septiembre de 2009. El sistema ayudó a digitalizar los archivos de The New York Times y, posteriormente, fue utilizado por Google Books para fines similares.

El sistema fue reportado como mostrar más de 100 millones de letras cifradas todos los días, en sitios como Facebook , TicketMaster , Twitter , 4chan , CNN.com , StumbleUpon , Craigslist (desde junio de 2008), y los EE.UU. Telecomunicaciones y la Administración Nacional de Información 's televisión digital sitio web del programa de cupones de caja convertidora (como parte de la transición a DTV de EE . UU .).

En 2014, Google alejó el servicio de su concepto original, con un enfoque en reducir la cantidad de interacción del usuario necesaria para verificar a un usuario, y solo presenta desafíos de reconocimiento humano (como identificar imágenes en un conjunto que satisfaga un mensaje específico) si El análisis de comportamiento sospecha que el usuario puede ser un bot.

Origen

Distributed Proofreaders fue el primer proyecto que ofreció voluntariamente su tiempo para descifrar el texto escaneado que no se podía leer con los programas de reconocimiento óptico de caracteres (OCR). Trabaja con el Proyecto Gutenberg para digitalizar material de dominio público y utiliza métodos bastante diferentes de reCAPTCHA.

El programa reCAPTCHA se originó con el científico informático guatemalteco Luis von Ahn , y fue ayudado por una beca MacArthur . Uno de los primeros desarrolladores de CAPTCHA, se dio cuenta de que "sin saberlo, había creado un sistema que estaba desperdiciando, en incrementos de diez segundos, millones de horas de un recurso muy valioso: los ciclos del cerebro humano".

Operación

ReCAPTCHA v1 (OCR asistido por humanos)

Un ejemplo de cómo se veía un desafío reCAPTCHA en 2007, que contiene las palabras "siguiente" y "hallazgo". La ondulación y el trazo horizontal se agregaron para aumentar la dificultad de romper el CAPTCHA con un programa de computadora.

El texto escaneado se somete a análisis mediante dos OCR diferentes. Cualquier palabra que sea descifrada de manera diferente por los dos programas de OCR o que no esté en un diccionario de inglés se marca como "sospechosa" y se convierte en un CAPTCHA. La palabra sospechosa se muestra, fuera de contexto, a veces junto con una palabra de control ya conocida. Si el ser humano escribe la palabra de control correctamente, entonces la respuesta a la palabra cuestionable se acepta como probablemente válida. Si suficientes usuarios escribieran correctamente la palabra de control, pero escribieran incorrectamente la segunda palabra que el OCR no pudo reconocer, entonces la versión digital de los documentos podría terminar conteniendo la palabra incorrecta. La identificación realizada por cada programa de OCR recibe un valor de 0,5 puntos, y cada interpretación de un humano recibe un punto completo. Una vez que una identificación dada alcanza los 2.5 puntos, la palabra se considera válida. Aquellas palabras a las que los jueces humanos les dan constantemente una identidad única se reciclan más tarde como palabras de control. Si las tres primeras conjeturas coinciden entre sí pero no coinciden con ninguno de los OCR, se consideran una respuesta correcta y la palabra se convierte en una palabra de control. Cuando seis usuarios rechazan una palabra antes de elegir la ortografía correcta, la palabra se descarta como ilegible.

El método reCAPTCHA original fue diseñado para mostrar las palabras cuestionables por separado, como corrección fuera de contexto, en lugar de en uso, como dentro de una frase de cinco palabras del documento original. Además, la palabra de control puede confundir el contexto de la segunda palabra, como una solicitud de "/ metal / / fife /" que se ingresa como " lima de metal " debido a que la conexión lógica de la presentación con una herramienta de metal se considera más común que la instrumento musical " pífano ".

En 2012, reCAPTCHA comenzó a utilizar fotografías tomadas del proyecto Google Street View , además de palabras escaneadas.

Google cobra por el uso de reCAPTCHA aquellos sitios web que realizan más de un millón de consultas de reCAPTCHA al mes.

CAPTCHA de identificación de imagen

Sin CAPTCHA reCAPTCHA (v2 +)

El NoCAPTCHA reCAPTCHA

En 2013, reCAPTCHA comenzó a implementar análisis de comportamiento de las interacciones del navegador para predecir si el usuario era un humano o un bot. Al año siguiente, Google comenzó a implementar una nueva API de reCAPTCHA, con el "reCAPTCHA sin CAPTCHA", donde los usuarios considerados de bajo riesgo solo necesitan hacer clic en una casilla de verificación para verificar su identidad. Aún se puede presentar un CAPTCHA si el sistema no está seguro del riesgo del usuario; Google también introdujo un nuevo tipo de desafío CAPTCHA diseñado para ser más accesible para los usuarios de dispositivos móviles, donde el usuario debe seleccionar imágenes que coincidan con un mensaje específico de una cuadrícula.

En 2017, Google introdujo un nuevo reCAPTCHA "invisible", en el que la verificación se realiza en segundo plano y no se muestra ningún desafío si se considera que el usuario tiene un riesgo bajo. Según el ex "zar del fraude de clics" de Google, Shuman Ghosemajumder , esta capacidad "crea un nuevo tipo de desafío que los bots muy avanzados aún pueden sortear, pero introduce mucha menos fricción para el humano legítimo".

reCAPTCHA v1 se declaró al final de su vida útil y se cerró el 31 de marzo de 2018.

Implementación

Las pruebas de reCAPTCHA se muestran desde el sitio central del proyecto reCAPTCHA, que proporciona las palabras a descifrar. Esto se hace a través de una API de JavaScript con el servidor haciendo una devolución de llamada a reCAPTCHA después de que se haya enviado la solicitud. El proyecto reCAPTCHA proporciona bibliotecas para varios lenguajes de programación y aplicaciones para facilitar este proceso. reCAPTCHA es un servicio gratuito que se proporciona a los sitios web para obtener ayuda con el desciframiento, pero el software reCAPTCHA no es de código abierto .

Además, reCAPTCHA ofrece complementos para varias plataformas de aplicaciones web, incluidas ASP.NET , Ruby y PHP , para facilitar la implementación del servicio.

Seguridad

Un ejemplo de cómo se presentaron los desafíos de reCAPTCHA en 2010, que contiene las palabras "y cinceles"

El objetivo principal de un sistema CAPTCHA es bloquear los robots de spam y permitir a los usuarios humanos. El 14 de diciembre de 2009, Jonathan Wilkins publicó un documento en el que describía las debilidades de reCAPTCHA que permitían a los bots lograr una tasa de resolución del 18%.

El 1 de agosto de 2010, Chad Houck dio una presentación en la Conferencia de Hacking DEF CON 18 detallando un método para revertir la distorsión agregada a las imágenes que permitió que un programa de computadora determinara una respuesta válida el 10% del tiempo. El sistema reCAPTCHA se modificó el 21 de julio de 2010, antes de que Houck hablara sobre su método. Houck modificó su método a lo que describió como un CAPTCHA "más fácil" para determinar una respuesta válida el 31,8% de las veces. Houck también mencionó las defensas de seguridad en el sistema, incluido un bloqueo de alta seguridad si se da una respuesta no válida 32 veces seguidas.

El 26 de mayo de 2012, Adam, CP y Jeffball de DC949 dieron una presentación en la conferencia de hackers LayerOne detallando cómo pudieron lograr una solución automatizada con una tasa de precisión del 99,1%. Su táctica consistió en utilizar técnicas de aprendizaje automático, un subcampo de la inteligencia artificial, para analizar la versión de audio de reCAPTCHA que está disponible para personas con discapacidad visual. Google lanzó una nueva versión de reCAPTCHA pocas horas antes de su charla, haciendo cambios importantes en las versiones de audio y visuales de su servicio. En esta versión, la versión de audio se incrementó en duración de 8 segundos a 30 segundos, y es mucho más difícil de entender, tanto para humanos como para bots. En respuesta a esta actualización y la siguiente, los miembros de DC949 lanzaron dos versiones más de Stiltwalker que vencieron a reCAPTCHA con una precisión del 60.95% y 59.4% respectivamente. Después de cada pausa sucesiva, Google actualizó reCAPTCHA en unos pocos días. Según DC949, a menudo volvían a utilizar funciones que habían sido pirateadas anteriormente.

El 27 de junio de 2012, Claudia Cruz, Fernando Uceda y Leobardo Reyes publicaron un artículo que mostraba un sistema que se ejecutaba en imágenes reCAPTCHA con una precisión del 82%. Los autores no han dicho si su sistema puede resolver imágenes recientes de reCAPTCHA, aunque afirman que su trabajo es OCR inteligente y robusto para algunos, si no todos los cambios en la base de datos de imágenes.

En una presentación de agosto de 2012 en BsidesLV 2012, DC949 calificó la última versión de "insondablemente imposible para los humanos"; tampoco pudieron resolverlos manualmente. La organización de accesibilidad web WebAIM informó en mayo de 2012, "Más del 90% de los encuestados [usuarios de lectores de pantalla] encuentran CAPTCHA muy o algo difícil".

Crítica

La versión original de reCAPTCHA fue criticada por ser una fuente de trabajo no remunerado para ayudar a transcribir los esfuerzos.

Google se beneficia de los usuarios de reCAPTCHA como trabajadores gratuitos para mejorar su investigación de IA.

Intimidad

La iteración actual del sistema ha sido criticada por su dependencia de las cookies de seguimiento y la promoción del bloqueo del proveedor con los servicios de Google; Se anima a los administradores a incluir el código de seguimiento de reCAPTCHA en todas las páginas de su sitio web para analizar el comportamiento y el "riesgo" de los usuarios, lo que determina el nivel de fricción que se presenta cuando se utiliza un mensaje de reCAPTCHA. Google declaró en su política de privacidad que los datos del usuario recopilados de esta manera no se utilizan para publicidad personalizada. También se descubrió que el sistema favorece a aquellos que tienen un inicio de sesión activo en la cuenta de Google y muestra un mayor riesgo para aquellos que utilizan servidores proxy anónimos y servicios VPN.

Se plantearon preocupaciones con respecto a la privacidad cuando Google anunció reCAPTCHA v3.0, ya que permite a Google rastrear a los usuarios en sitios web que no son de Google.

En abril de 2020, Cloudflare cambió de reCAPTCHA a hCaptcha, citando preocupaciones de privacidad sobre el uso potencial de Google de los datos que recopilan a través de reCAPTCHA para publicidad dirigida y para reducir los costos operativos, ya que una parte considerable de los clientes de Cloudflare son clientes gratuitos que no pagan. En respuesta, Google le dijo a PC Magazine que los datos de reCAPTCHA nunca se utilizan con fines publicitarios personalizados.

Accesibilidad

El centro de ayuda de Google afirma que reCAPTCHA no es compatible con la comunidad de sordociegos , lo que impide que dichos usuarios accedan a todas las páginas que utilizan el servicio. Sin embargo, reCAPTCHA tiene actualmente la lista más larga de consideraciones de accesibilidad de todos los servicios CAPTCHA.

Interfaz

En una de las variantes de los desafíos CAPTCHA, las imágenes no se resaltan de manera incremental, sino que se desvanecen cuando se hace clic en ellas y se reemplazan con una nueva imagen que se desvanece, se asemeja a whack-a-mole .

La crítica se ha dirigido a la larga duración de las imágenes para que aparezcan y desaparezcan.

Proyectos derivados

reCAPTCHA también había creado el proyecto Mailhide, que protege las direcciones de correo electrónico en las páginas web para que no sean recolectadas por spammers . De forma predeterminada, la dirección de correo electrónico se convirtió a un formato que no permitía al rastreador ver la dirección de correo electrónico completa; por ejemplo, "mailme@example.com" se habría convertido en "mai ... @ example.com". Luego, el visitante haría clic en "..." y resolvería el CAPTCHA para obtener la dirección de correo electrónico completa. También se puede editar el código emergente para que ninguna de las direcciones sea visible. Mailhide se suspendió en 2018 porque se basó en reCAPTCHA v1.

Referencias

Otras lecturas

Dzieza, Josh (1 de febrero de 2019). "Por qué los CAPTCHA se han vuelto tan difíciles" . The Verge .
Schwab, Katharine (27 de junio de 2019). "El nuevo reCAPTCHA de Google tiene un lado oscuro" . Empresa rápida .

enlaces externos

Página web oficial
Repositorio
ReCAPTCHA: El trabajo que ni siquiera sabía que tenía Archivado el 24 de noviembre de 2011 en el artículo de dos páginas de Wayback Machine en la revista The Walrus
Luis; Maurer, Benjamín; McMillen, Colin; Abraham, David; Blum, Manuel (2008). "reCAPTCHA: reconocimiento de caracteres basado en humanos a través de medidas de seguridad web". Ciencia . 321 (5895): 1465–1468. Código Bibliográfico : 2008Sci ... 321.1465V . CiteSeerX 10.1.1.141.6563 . doi : 10.1126 / science.1160379 . PMID 18703711 . S2CID 18371056 .
Colaboración en línea a gran escala , una charla TED de Luis von Ahn

Languages

In other projects