Respuesta a preguntas - Question answering

La respuesta a preguntas ( QA ) es una disciplina de la informática dentro de los campos de la recuperación de información y el procesamiento del lenguaje natural (PNL), que se ocupa de la construcción de sistemas que responden automáticamente a las preguntas planteadas por los humanos en un lenguaje natural .

Visión general

Una implementación de respuesta a preguntas, generalmente un programa de computadora, puede construir sus respuestas consultando una base de datos estructurada de conocimiento o información, generalmente una base de conocimiento . Más comúnmente, los sistemas de respuesta a preguntas pueden obtener respuestas de una colección no estructurada de documentos en lenguaje natural.

Algunos ejemplos de colecciones de documentos en lenguaje natural que se utilizan para los sistemas de respuesta a preguntas incluyen:

  • una colección local de textos de referencia
  • documentos de organización interna y páginas web
  • informes compilados de newswire
  • un conjunto de páginas de Wikipedia
  • un subconjunto de páginas de la World Wide Web

La investigación de respuesta a preguntas intenta abordar una amplia gama de tipos de preguntas que incluyen: hechos, lista, definición , cómo , por qué , preguntas hipotéticas, semánticamente restringidas y en varios idiomas.

  • La respuesta a preguntas de dominio cerrado trata con preguntas de un dominio específico (por ejemplo, medicina o mantenimiento automotriz) y puede explotar el conocimiento específico del dominio frecuentemente formalizado en ontologías . Alternativamente, dominio cerrado puede referirse a una situación en la que solo se acepta un tipo limitado de preguntas, como preguntas que piden información descriptiva en lugar de procedimental . Los sistemas de respuesta a preguntas en el contexto de las aplicaciones de lectura automática también se han construido en el ámbito médico, por ejemplo, en relación con la enfermedad de Alzheimer.
  • La respuesta a preguntas de dominio abierto trata con preguntas sobre casi cualquier cosa, y solo puede depender de ontologías generales y conocimiento del mundo. Por otro lado, estos sistemas suelen tener muchos más datos disponibles de los que extraer la respuesta.

Historia

Los dos primeros sistemas de respuesta a preguntas fueron el BÉISBOL y el LUNAR. BÉISBOL respondió preguntas sobre la liga de béisbol de las Grandes Ligas durante un período de un año. LUNAR, a su vez, respondió preguntas sobre el análisis geológico de las rocas devueltas por las misiones lunares de Apolo. Ambos sistemas de respuesta a preguntas fueron muy efectivos en los dominios que eligieron. De hecho, LUNAR se demostró en una convención de ciencia lunar en 1971 y pudo responder el 90% de las preguntas en su dominio planteadas por personas no capacitadas en el sistema. En los años siguientes se desarrollaron más sistemas de respuesta a preguntas de dominio restringido. La característica común de todos estos sistemas es que tenían una base de datos central o un sistema de conocimiento escrito a mano por expertos del dominio elegido. Las habilidades lingüísticas de BASEBALL y LUNAR utilizaron técnicas similares a ELIZA y DOCTOR , los primeros programas de chatbot .

SHRDLU fue un programa de respuesta a preguntas de gran éxito desarrollado por Terry Winograd a fines de la década de 1960 y principios de la de 1970. Simuló el funcionamiento de un robot en un mundo de juguete (el "mundo de los bloques") y ofreció la posibilidad de hacerle preguntas al robot sobre el estado del mundo. Una vez más, la fuerza de este sistema fue la elección de un dominio muy específico y un mundo muy simple con reglas de la física que eran fáciles de codificar en un programa de computadora.

En la década de 1970, se desarrollaron bases de conocimiento dirigidas a dominios de conocimiento más estrechos. Los sistemas de respuesta a preguntas desarrollados para interactuar con estos sistemas expertos produjeron respuestas más repetibles y válidas a las preguntas dentro de un área de conocimiento. Estos sistemas expertos se parecían mucho a los sistemas modernos de respuesta a preguntas, excepto en su arquitectura interna. Los sistemas expertos se basan en gran medida en bases de conocimiento organizadas y construidas por expertos , mientras que muchos sistemas modernos de respuesta a preguntas se basan en el procesamiento estadístico de un corpus de texto grande, no estructurado y en lenguaje natural.

Las décadas de 1970 y 1980 vieron el desarrollo de teorías integrales en lingüística computacional , que llevaron al desarrollo de proyectos ambiciosos en comprensión de textos y respuesta a preguntas. Un ejemplo de tal sistema fue el Unix Consultant (UC), desarrollado por Robert Wilensky en UC Berkeley a finales de la década de 1980. El sistema respondió preguntas relacionadas con el sistema operativo Unix . Tenía una base de conocimientos integral hecha a mano de su dominio y tenía como objetivo redactar la respuesta para adaptarse a varios tipos de usuarios. Otro proyecto fue LILOG, un sistema de comprensión de textos que operaba en el dominio de la información turística en una ciudad alemana. Los sistemas desarrollados en los proyectos UC y LILOG nunca pasaron de la etapa de demostraciones simples, pero ayudaron al desarrollo de teorías sobre lingüística computacional y razonamiento.

Se han desarrollado sistemas especializados de respuesta a preguntas en lenguaje natural, como EAGLi para científicos de la salud y la vida.

Arquitectura

A partir de 2001, los sistemas de respuesta a preguntas generalmente incluían un módulo clasificador de preguntas que determina el tipo de pregunta y el tipo de respuesta.

Métodos de respuesta a preguntas

La respuesta a preguntas depende en gran medida de un buen corpus de búsqueda, ya que sin documentos que contengan la respuesta, es poco lo que puede hacer cualquier sistema de respuesta a preguntas. Por lo tanto, tiene sentido que los tamaños de colección más grandes generalmente se presten bien para un mejor rendimiento de respuesta a preguntas, a menos que el dominio de la pregunta sea ortogonal a la colección. La noción de redundancia de datos en colecciones masivas, como la web, significa que es probable que las pepitas de información se expresen de muchas formas diferentes en diferentes contextos y documentos, lo que genera dos beneficios:

  1. Al tener la información correcta en muchas formas, se reduce la carga del sistema de respuesta a preguntas para realizar técnicas complejas de PNL para comprender el texto.
  2. Las respuestas correctas se pueden filtrar de los falsos positivos confiando en que la respuesta correcta aparezca más veces en los documentos que casos de respuestas incorrectas.

Algunos sistemas de respuesta a preguntas se basan en gran medida en el razonamiento automatizado .

Respuesta a preguntas de dominio abierto

En la recuperación de información , un sistema de respuesta a preguntas de dominio abierto tiene como objetivo devolver una respuesta en respuesta a la pregunta del usuario. La respuesta devuelta está en forma de textos breves en lugar de una lista de documentos relevantes. El sistema utiliza una combinación de técnicas de lingüística computacional , recuperación de información y representación del conocimiento para encontrar respuestas.

El sistema toma una pregunta en lenguaje natural como entrada en lugar de un conjunto de palabras clave, por ejemplo, "¿Cuándo es el día nacional de China?" Luego, la oración se transforma en una consulta a través de su forma lógica . Tener la entrada en forma de una pregunta en lenguaje natural hace que el sistema sea más fácil de usar, pero más difícil de implementar, ya que hay varios tipos de preguntas y el sistema tendrá que identificar la correcta para dar una respuesta sensata. Asignar un tipo de pregunta a la pregunta es una tarea crucial, todo el proceso de extracción de respuestas se basa en encontrar el tipo de pregunta correcto y, por lo tanto, el tipo de respuesta correcto.

La extracción de palabras clave es el primer paso para identificar el tipo de pregunta de entrada. En algunos casos, existen palabras claras que indican directamente el tipo de pregunta, es decir, "Quién", "Dónde" o "Cuántos", estas palabras le dicen al sistema que las respuestas deben ser del tipo "Persona", "Ubicación", o "Número", respectivamente. En el ejemplo anterior, la palabra "Cuándo" indica que la respuesta debe ser del tipo "Fecha". Las técnicas de etiquetado POS (parte del discurso) y análisis sintáctico también se pueden utilizar para determinar el tipo de respuesta. En este caso, el tema es "Día Nacional de China", el predicado es "es" y el modificador adverbial es "cuándo", por lo tanto, el tipo de respuesta es "Fecha". Desafortunadamente, algunas palabras interrogativas como "Cuál", "Qué" o "Cómo" no ofrecen tipos de respuesta claros. Cada una de estas palabras puede representar más de un tipo. En situaciones como esta, se deben considerar otras palabras de la pregunta. Lo primero que debe hacer es encontrar las palabras que puedan indicar el significado de la pregunta. A continuación, se puede utilizar un diccionario léxico como WordNet para comprender el contexto.

Una vez que se ha identificado el tipo de pregunta, se utiliza un sistema de recuperación de información para encontrar un conjunto de documentos que contengan las palabras clave correctas. Se puede usar un etiquetador y un fragmento NP / Verb Group para verificar si las entidades y relaciones correctas se mencionan en los documentos encontrados. Para preguntas como "Quién" o "Dónde", se utiliza un reconocedor de entidad con nombre para encontrar los nombres relevantes de "Persona" y "Ubicación" de los documentos recuperados. Solo se seleccionan los párrafos relevantes para la clasificación.

Se puede utilizar un modelo de espacio vectorial como estrategia para clasificar las respuestas de los candidatos. Compruebe si la respuesta es del tipo correcto según se determinó en la etapa de análisis del tipo de pregunta. También se puede utilizar una técnica de inferencia para validar las respuestas de los candidatos. A continuación, se le da una puntuación a cada uno de estos candidatos de acuerdo con el número de palabras de pregunta que contiene y qué tan cerca están estas palabras del candidato, cuanto más y más cerca, mejor. Luego, la respuesta se traduce en una representación compacta y significativa mediante el análisis. En el ejemplo anterior, la respuesta de salida esperada es "1 de octubre".

Respuesta a preguntas matemáticas

En 2018 se publicó un sistema de respuesta a preguntas de código abierto con conciencia matemática basado en Ask Platypus y Wikidata. El sistema toma una pregunta en idioma natural en inglés o hindi como entrada y devuelve una fórmula matemática recuperada de Wikidata como respuesta sucinta. La fórmula resultante se traduce a una forma computable, lo que permite al usuario insertar valores para las variables. Los nombres y valores de las variables y las constantes comunes se recuperan de Wikidata si están disponibles. Se afirma que el sistema supera a un motor comercial de conocimiento matemático computacional en un conjunto de pruebas.

Los métodos MathQA deben combinar el lenguaje natural y de fórmulas. Un posible enfoque es realizar anotaciones supervisadas a través de Entity Linking. La "Tarea ARQMath" en CLEF 2020 se lanzó para abordar el problema de vincular las preguntas recién publicadas desde la plataforma Math Stack Exchange (MSE) con las existentes que ya fueron respondidas por la comunidad. El laboratorio fue motivado por el hecho de que Mansouri et al. descubrió que el 20% de las consultas matemáticas en los motores de búsqueda de propósito general se expresan como preguntas bien formadas. Contenía dos subtareas separadas. Tarea 1: "Recuperación de respuestas" que hace coincidir las respuestas de las publicaciones antiguas con las preguntas recién planteadas y Tarea 2: "Recuperación de fórmulas" que hace coincidir las fórmulas de las publicaciones antiguas con las preguntas nuevas. Comenzando con el dominio de las matemáticas, que involucra el lenguaje de fórmulas, el objetivo es luego extender la tarea a otros dominios (p. Ej., Disciplinas STEM, como química, biología, etc.), que emplean otros tipos de notación especial (p. Ej., Química fórmulas).

Progreso

Los sistemas de respuesta a preguntas se han extendido en los últimos años para abarcar dominios adicionales de conocimiento.Por ejemplo, se han desarrollado sistemas para responder automáticamente preguntas temporales y geoespaciales, preguntas de definición y terminología, preguntas biográficas, preguntas multilingües y preguntas sobre el contenido del audio. imágenes y video. Los temas de investigación que responden a preguntas actuales incluyen:

En 2011, Watson , un sistema informático de respuesta a preguntas desarrollado por IBM , compitió en dos partidos de exhibición de Jeopardy! contra Brad Rutter y Ken Jennings , ganando por un margen significativo. Facebook Research ha hecho que su sistema DrQA esté disponible bajo una licencia de código abierto . Este sistema se ha utilizado para responder preguntas de dominio abierto utilizando Wikipedia como fuente de conocimiento.

Referencias

Otras lecturas

enlaces externos