Desafío del esquema de Winograd - Winograd schema challenge

El desafío del esquema de Winograd ( WSC ) es una prueba de inteligencia artificial propuesta por Héctor Levesque , un científico informático de la Universidad de Toronto . Diseñado para ser una mejora en la prueba de Turing , es una prueba de opción múltiple que emplea preguntas de una estructura muy específica: son instancias de lo que se llaman esquemas de Winograd, que llevan el nombre de Terry Winograd , profesor de informática en la Universidad de Stanford .

En la superficie, las preguntas del esquema de Winograd simplemente requieren la resolución de una anáfora : la máquina debe identificar el antecedente de un pronombre ambiguo en una declaración. Esto lo convierte en una tarea de procesamiento del lenguaje natural , pero Levesque sostiene que para los esquemas de Winograd, la tarea requiere el uso del conocimiento y el razonamiento del sentido común .

Nuance Communications anunció en julio de 2014 que patrocinaría una competencia anual WSC, con un premio de $ 25,000 para el mejor sistema que pudiera igualar el desempeño humano. Sin embargo, el premio ya no se ofrece.

Fondo

El desafío del esquema de Winograd se propuso en el espíritu de la prueba de Turing . Propuesta por Alan Turing en 1950, la prueba de Turing juega un papel central en la filosofía de la inteligencia artificial . Turing propuso que, en lugar de debatir si una máquina puede pensar, la ciencia de la IA debería preocuparse por demostrar un comportamiento inteligente, que puede ser probado. Pero la naturaleza exacta de la prueba que propuso Turing ha sido objeto de escrutinio, especialmente desde que un chatbot de IA llamado Eugene Goostman afirmó haberla aprobado en 2014. Una de las principales preocupaciones con la prueba de Turing es que una máquina podría pasar fácilmente la prueba con fuerza bruta. y / o engaños, en lugar de verdadera inteligencia.

El desafío del esquema de Winograd se propuso en parte para mejorar los problemas que salieron a la luz con la naturaleza de los programas que se desempeñaron bien en la prueba.

La propuesta original de Turing fue lo que llamó el juego de imitación , que implica conversaciones fluidas y sin restricciones en inglés entre jueces humanos y programas de computadora a través de un canal de solo texto (como el teletipo). En general, la máquina pasa la prueba si los interrogadores no pueden distinguir la diferencia entre ella y un humano en una conversación de cinco minutos.

Debilidades de la prueba de Turing

La actuación de Eugene Goostman mostró algunos de los problemas de la prueba de Turing. Levesque identifica varios problemas importantes, que se resumen a continuación:

  • Engaño: la máquina se ve obligada a construir una identidad falsa, que no forma parte de la inteligencia.
  • Conversación: mucha interacción puede calificarse como "conversación legítima" (bromas, apartes ingeniosos, cuestiones de orden) sin requerir un razonamiento inteligente.
  • Evaluación: Los seres humanos cometen errores y los jueces a menudo no están de acuerdo con los resultados.

Esquemas de Winograd

El factor clave en la CSM es el formato especial de sus preguntas, que se derivan de los esquemas de Winograd. Las preguntas de esta forma pueden adaptarse para requerir conocimiento y razonamiento de sentido común en una variedad de dominios. También deben estar escritas con cuidado para no traicionar sus respuestas mediante restricciones de selección o información estadística sobre las palabras de la oración.

Origen

El primer ejemplo citado de un esquema de Winograd (y la razón de su nombre) se debe a Terry Winograd :

Los concejales de la ciudad rechazaron el permiso a los manifestantes porque [temían / ​​abogaban] por la violencia.

Las opciones de "temido" y "defendido" convierten el esquema en sus dos instancias:

Los concejales de la ciudad denegaron el permiso a los manifestantes por temor a la violencia.

Los concejales de la ciudad denegaron el permiso a los manifestantes porque abogaban por la violencia.

La pregunta es si el pronombre "ellos" se refiere a los concejales oa los manifestantes, y cambiar entre las dos instancias del esquema cambia la respuesta. La respuesta es inmediata para un lector humano, pero resulta difícil de emular en máquinas. Levesque sostiene que el conocimiento juega un papel central en estos problemas: la respuesta a este esquema tiene que ver con nuestra comprensión de las relaciones típicas y el comportamiento de concejales y manifestantes.

Desde la propuesta original del desafío del esquema de Winograd, Ernest Davis, profesor de la Universidad de Nueva York , ha compilado una lista de más de 140 esquemas de Winograd de diversas fuentes como ejemplos de los tipos de preguntas que deberían aparecer en el desafío del esquema de Winograd.

Descripción formal

Una pregunta de desafío del esquema de Winograd consta de tres partes:

  1. Una oración o discurso breve que contenga lo siguiente:
    • Dos frases nominales de la misma clase semántica (masculino, femenino, inanimado o grupo de objetos o personas),
    • Un pronombre ambiguo que puede referirse a cualquiera de los sintagmas nominales anteriores, y
    • Una palabra especial y una palabra alternativa, de modo que si la palabra especial se reemplaza con la palabra alternativa, la resolución natural del pronombre cambia.
  2. Una pregunta que pregunta la identidad del pronombre ambiguo, y
  3. Dos opciones de respuesta correspondientes a las frases nominales en cuestión.

A una máquina se le dará el problema en una forma estandarizada que incluye las opciones de respuesta, convirtiéndolo así en un problema de decisión binaria .

Ventajas

El desafío del esquema de Winograd tiene las siguientes supuestas ventajas:

  • Se requieren conocimiento y razonamiento de sentido común para resolverlos.
  • Pueden diseñarse esquemas de Winograd de diversa dificultad, que incluyan cualquier cosa, desde relaciones simples de causa y efecto hasta narrativas complejas de eventos.
  • Pueden construirse para probar la capacidad de razonamiento en dominios específicos (por ejemplo, razonamiento social / psicológico o espacial).
  • No hay necesidad de jueces humanos.

Trampas

Una dificultad con el desafío del esquema de Winograd es el desarrollo de las preguntas. Deben adaptarse cuidadosamente para garantizar que requieran un razonamiento de sentido común para resolverlos. Por ejemplo, Levesque da el siguiente ejemplo de un llamado esquema de Winograd que es "demasiado fácil":

Las mujeres dejaron de tomar pastillas porque estaban [embarazadas / cancerígenas]. ¿Qué personas estaban [embarazadas / cancerígenas]?

La respuesta a esta pregunta se puede determinar sobre la base de restricciones de selección : en cualquier situación, las píldoras no quedan embarazadas, las mujeres sí; las mujeres no pueden ser cancerígenas, pero las pastillas sí. Por lo tanto, esta respuesta podría obtenerse sin el uso de razonamiento, o cualquier comprensión del significado de las oraciones; todo lo que se necesita son datos sobre las restricciones de selección de embarazadas y carcinógenas.

Actividad

En 2016 y 2018, Nuance Communications patrocinó una competencia, ofreciendo un gran premio de $ 25,000 para el máximo anotador por encima del 90% (a modo de comparación, los humanos responden correctamente del 92 al 96% de las preguntas de la CSM). Sin embargo, nadie estuvo cerca de ganar el premio en 2016 y la competencia de 2018 fue cancelada por falta de prospectos; el premio ya no se ofrece.

El Duodécimo Simposio Internacional sobre las Formalizaciones Lógicas del Razonamiento con Sentido Común se llevó a cabo del 23 al 25 de marzo de 2015 en la Serie de Simposios de Primavera de AAAI en la Universidad de Stanford, con un enfoque especial en el desafío del esquema de Winograd. El comité organizador incluyó a Leora Morgenstern ( Leidos ), Theodore Patkos (La Fundación para la Investigación y Tecnología Hellas) y Robert Sloan ( Universidad de Illinois en Chicago ).

El Desafío del Esquema de Winograd 2016 se llevó a cabo el 11 de julio de 2016 en IJCAI-16. Había cuatro concursantes. La primera ronda del concurso fue para resolver PDP: problemas de desambiguación de pronombres, adaptados de fuentes literarias, no construidos como pares de oraciones. La puntuación más alta obtenida fue 58% correcta, por Quan Liu et al, de la Universidad de Ciencia y Tecnología, China. Por lo tanto, según las reglas de ese desafío, no se otorgaron premios y el desafío no pasó a la segunda ronda. El comité organizador en 2016 fue Leora Morgenstern, Ernest Davis y Charles Ortiz.

En 2017, un modelo de asociación neuronal diseñado para la adquisición de conocimiento de sentido común logró un 70% de precisión en 70 problemas seleccionados manualmente del conjunto de datos de esquema original de 273 Winograd. En junio de 2018, se logró una puntuación de 63,7% de precisión en el conjunto de datos completo utilizando un conjunto de modelos de lenguaje de redes neuronales recurrentes, lo que marca el primer uso de redes neuronales profundas que aprenden de corpus independientes para adquirir conocimientos de sentido común. En 2019, se logró una puntuación del 90,1% en el conjunto de datos del esquema original de Winograd mediante el ajuste fino del modelo de lenguaje BERT con datos de entrenamiento apropiados similares a WSC para evitar tener que aprender el razonamiento de sentido común. El modelo de lenguaje general GPT-3 logró una puntuación del 88,3% sin ajustes específicos en 2020.

En 2019 se diseñó un conjunto de datos "Winogrande" más desafiante y contradictorio de 44.000 problemas. Este conjunto de datos consiste en oraciones de estilo de relleno en blanco en lugar del formato de pronombre de conjuntos de datos anteriores.

Una versión del desafío del esquema de Winograd es una parte de la colección de referencia GLUE ( Evaluación de comprensión del lenguaje general ) de desafíos en la comprensión automatizada del lenguaje natural .

Referencias

enlaces externos