Recuperación de documentos - Document retrieval

La recuperación de documentos se define como la comparación de alguna consulta de usuario declarada con un conjunto de registros de texto libre . Estos registros pueden ser cualquier tipo de texto principalmente no estructurado , como artículos de periódicos , registros de bienes raíces o párrafos de un manual. Las consultas de los usuarios pueden variar desde descripciones completas de varias oraciones de una necesidad de información hasta unas pocas palabras.

La recuperación de documentos a veces se conoce como, o como una rama de, recuperación de texto . La recuperación de texto es una rama de la recuperación de información donde la información se almacena principalmente en forma de texto . Las bases de datos de texto se descentralizaron gracias a la computadora personal y al CD-ROM . La recuperación de texto es un área de estudio fundamental en la actualidad, ya que es la base fundamental de todos los motores de búsqueda de Internet .

Descripción

Los sistemas de recuperación de documentos encuentran información según los criterios dados al comparar los registros de texto ( documentos ) con las consultas de los usuarios, a diferencia de los sistemas expertos que responden a las preguntas mediante la inferencia sobre una base de datos de conocimiento lógico . Un sistema de recuperación de documentos consta de una base de datos de documentos, un algoritmo de clasificación para construir un índice de texto completo y una interfaz de usuario para acceder a la base de datos.

Un sistema de recuperación de documentos tiene dos tareas principales:

  1. Encuentre documentos relevantes para las consultas de los usuarios
  2. Evalúe los resultados coincidentes y ordénelos según su relevancia, utilizando algoritmos como PageRank .

Los motores de búsqueda de Internet son aplicaciones clásicas de recuperación de documentos. La gran mayoría de los sistemas de recuperación actualmente en uso van desde sistemas booleanos simples hasta sistemas que utilizan técnicas de procesamiento de lenguaje natural o estadístico .

Variaciones

Hay dos clases principales de esquemas de indexación para los sistemas de recuperación de documentos: indexación basada en formularios (o basada en palabras ) e indexación basada en contenido . El esquema de clasificación de documentos (o algoritmo de indexación ) en uso determina la naturaleza del sistema de recuperación de documentos.

Basado en formulario

La recuperación de documentos basada en formularios aborda las propiedades sintácticas exactas de un texto, comparable a la coincidencia de subcadenas en búsquedas de cadenas. El texto generalmente no está estructurado y no necesariamente en un lenguaje natural, el sistema podría usarse, por ejemplo, para procesar grandes conjuntos de representaciones químicas en biología molecular. Un algoritmo de árbol de sufijos es un ejemplo de indexación basada en formularios.

Basado en contenido

El enfoque basado en contenido aprovecha las conexiones semánticas entre documentos y partes de los mismos, y las conexiones semánticas entre consultas y documentos. La mayoría de los sistemas de recuperación de documentos basados ​​en contenido utilizan un algoritmo de índice invertido .

Un archivo de firma es una técnica que crea un filtro rápido y sucio , por ejemplo, un filtro Bloom , que mantendrá todos los documentos que coinciden con la consulta y, con suerte, algunos que no. La forma en que se hace es creando para cada archivo una firma, generalmente una versión con código hash. Un método es la codificación superpuesta. Se realiza un paso de posprocesamiento para descartar las falsas alarmas. Dado que en la mayoría de los casos esta estructura es inferior a los archivos invertidos en términos de velocidad, tamaño y funcionalidad, no se usa ampliamente. Sin embargo, con los parámetros adecuados, puede vencer a los archivos invertidos en ciertos entornos.

Ejemplo: PubMed

La interfaz del formulario PubMed presenta la búsqueda de "artículos relacionados" que funciona a través de una comparación de palabras del título de los documentos, resumen y términos MeSH utilizando un algoritmo ponderado por palabras.

Ver también

Referencias

Otras lecturas

enlaces externos