Recuperación de información en varios idiomas - Cross-language information retrieval

La recuperación de información entre idiomas ( CLIR ) es un subcampo de recuperación de información que se ocupa de recuperar información escrita en un idioma diferente al idioma de la consulta del usuario. El término "recuperación de información en varios idiomas" tiene muchos sinónimos, de los cuales los siguientes son quizás los más frecuentes: recuperación de información en varios idiomas , recuperación de información translingual, recuperación de información multilingüe . El término " recuperación de información multilingüe " se refiere de manera más general tanto a la tecnología para la recuperación de colecciones multilingües como a la tecnología que se ha trasladado para manipular material de un idioma a otro. El término Recuperación de Información Multilingüe (MLIR) implica el estudio de sistemas que aceptan consultas de información en varios idiomas y devuelven objetos (texto y otros medios) de varios idiomas, traducidos al idioma del usuario. La recuperación de información entre idiomas se refiere más específicamente al caso de uso en el que los usuarios formulan su necesidad de información en un idioma y el sistema recupera documentos relevantes en otro. Para hacerlo, la mayoría de los sistemas CLIR utilizan varias técnicas de traducción. Las técnicas CLIR se pueden clasificar en diferentes categorías según los diferentes recursos de traducción:

  • Técnicas CLIR basadas en diccionarios
  • Técnicas CLIR basadas en corpus paralelos
  • Técnicas CLIR basadas en corpus comparables
  • Técnicas CLIR basadas en traductor automático

Los sistemas CLIR han mejorado tanto que los sistemas de recuperación de información ad hoc multilingües y multilingües más precisos de la actualidad son casi tan efectivos como los sistemas monolingües. Otras tareas relacionadas con el acceso a la información, como la supervisión de medios , el filtrado y el enrutamiento de la información, el análisis de opiniones y la extracción de información, requieren modelos más sofisticados y, por lo general, más procesamiento y análisis de los elementos de información de interés. Gran parte de ese procesamiento debe conocer las características específicas de los idiomas de destino en los que se implementa.

En su mayoría, los diversos mecanismos de variación en el lenguaje humano plantean desafíos de cobertura para los sistemas de recuperación de información: los textos de una colección pueden tratar un tema de interés, pero utilizan términos o expresiones que no coinciden con la expresión de necesidad de información proporcionada por el usuario. Esto puede ser cierto incluso en un caso monolingüe, pero es especialmente cierto en la recuperación de información entre idiomas, donde los usuarios pueden conocer el idioma de destino solo hasta cierto punto. Se ha descubierto que los beneficios de la tecnología CLIR para los usuarios con competencia de baja a moderada en el idioma de destino son mayores que para aquellos que la dominan. Las tecnologías específicas implementadas para los servicios CLIR incluyen análisis morfológico para manejar la inflexión , descomposición o división compuesta para manejar términos compuestos , y mecanismos de traducción para traducir una consulta de un idioma a otro.

El primer taller sobre CLIR se celebró en Zúrich durante la conferencia SIGIR-96. Los talleres se han celebrado anualmente desde 2000 en las reuniones del Foro de Evaluación de Idiomas Cruzados (CLEF). Los investigadores también se reúnen en la Conferencia anual de recuperación de textos (TREC) para discutir sus hallazgos con respecto a diferentes sistemas y métodos de recuperación de información, y la conferencia ha servido como punto de referencia para el subcampo CLIR.

La Búsqueda de Google tenía una función de búsqueda en varios idiomas que se eliminó en 2013.

Ver también

  • EXCLAIM (Máquina automática de información interlingüística extensible)
  • CLEF (Conferencia y laboratorios del Foro de evaluación, anteriormente conocido como Foro de evaluación entre idiomas)
  • MLIR (recuperación de información multilingüe)

Referencias

  1. ^ Wang, Jianqiang y Douglas W. Oard. "Coincidencia de significado para la recuperación de información en varios idiomas". Tratamiento y gestión de la información 48.4 (2012): 631-53.
  2. ^ Tailandés, Perishan. "Una introducción a los enfoques de recuperación de información en varios idiomas". Web. Web.simmons.edu
  3. ^ Oard, Douglas. "Acceso a la información multilingüe". Comprensión de los sistemas de recuperación de información (2011): 373-80. Web.
  4. ^ Airio, Eija (2008). "¿Quién se beneficia de CLIR en la recuperación web?" . Revista de documentación . 64 (5): 760–778. doi : 10.1108 / 00220410810899754 .
  5. Las actas de este taller se pueden encontrar en el libro Cross-Language Information Retrieval (Grefenstette, ed; Kluwer, 1998) ISBN   0-7923-8122-X .
  6. ^ Olvera-Lobo, María-Dolores. "Recuperación de información en varios idiomas en la Web". Manual de investigación sobre las dimensiones sociales de las tecnologías semánticas y los servicios web (sin fecha): 704-19. Web.
  7. ^ "Google Drops" Páginas extranjeras traducidas "Opción de búsqueda debido a la falta de uso" . 20 de mayo de 2013.

enlaces externos