Recuperación de documentos - Document retrieval
La recuperación de documentos se define como la comparación de alguna consulta de usuario declarada con un conjunto de registros de texto libre . Estos registros pueden ser cualquier tipo de texto principalmente no estructurado , como artículos de periódicos , registros de bienes raíces o párrafos de un manual. Las consultas de los usuarios pueden variar desde descripciones completas de varias oraciones de una necesidad de información hasta unas pocas palabras.
La recuperación de documentos a veces se conoce como, o como una rama de, recuperación de texto . La recuperación de texto es una rama de la recuperación de información donde la información se almacena principalmente en forma de texto . Las bases de datos de texto se descentralizaron gracias a la computadora personal y al CD-ROM . La recuperación de texto es un área de estudio fundamental en la actualidad, ya que es la base fundamental de todos los motores de búsqueda de Internet .
Descripción
Los sistemas de recuperación de documentos encuentran información según los criterios dados al comparar los registros de texto ( documentos ) con las consultas de los usuarios, a diferencia de los sistemas expertos que responden a las preguntas mediante la inferencia sobre una base de datos de conocimiento lógico . Un sistema de recuperación de documentos consta de una base de datos de documentos, un algoritmo de clasificación para construir un índice de texto completo y una interfaz de usuario para acceder a la base de datos.
Un sistema de recuperación de documentos tiene dos tareas principales:
- Encuentre documentos relevantes para las consultas de los usuarios
- Evalúe los resultados coincidentes y ordénelos según su relevancia, utilizando algoritmos como PageRank .
Los motores de búsqueda de Internet son aplicaciones clásicas de recuperación de documentos. La gran mayoría de los sistemas de recuperación actualmente en uso van desde sistemas booleanos simples hasta sistemas que utilizan técnicas de procesamiento de lenguaje natural o estadístico .
Variaciones
Hay dos clases principales de esquemas de indexación para los sistemas de recuperación de documentos: indexación basada en formularios (o basada en palabras ) e indexación basada en contenido . El esquema de clasificación de documentos (o algoritmo de indexación ) en uso determina la naturaleza del sistema de recuperación de documentos.
Basado en formulario
La recuperación de documentos basada en formularios aborda las propiedades sintácticas exactas de un texto, comparable a la coincidencia de subcadenas en búsquedas de cadenas. El texto generalmente no está estructurado y no necesariamente en un lenguaje natural, el sistema podría usarse, por ejemplo, para procesar grandes conjuntos de representaciones químicas en biología molecular. Un algoritmo de árbol de sufijos es un ejemplo de indexación basada en formularios.
Basado en contenido
El enfoque basado en contenido aprovecha las conexiones semánticas entre documentos y partes de los mismos, y las conexiones semánticas entre consultas y documentos. La mayoría de los sistemas de recuperación de documentos basados en contenido utilizan un algoritmo de índice invertido .
Un archivo de firma es una técnica que crea un filtro rápido y sucio , por ejemplo, un filtro Bloom , que mantendrá todos los documentos que coinciden con la consulta y, con suerte, algunos que no. La forma en que se hace es creando para cada archivo una firma, generalmente una versión con código hash. Un método es la codificación superpuesta. Se realiza un paso de posprocesamiento para descartar las falsas alarmas. Dado que en la mayoría de los casos esta estructura es inferior a los archivos invertidos en términos de velocidad, tamaño y funcionalidad, no se usa ampliamente. Sin embargo, con los parámetros adecuados, puede vencer a los archivos invertidos en ciertos entornos.
Ejemplo: PubMed
La interfaz del formulario PubMed presenta la búsqueda de "artículos relacionados" que funciona a través de una comparación de palabras del título de los documentos, resumen y términos MeSH utilizando un algoritmo ponderado por palabras.
Ver también
- Procesamiento de término compuesto
- Clasificación de documentos
- Búsqueda empresarial
- Medidas de evaluación (recuperación de información)
- Búsqueda de texto completo
- Recuperación de información
- Indexación semántica latente
- Buscador
Referencias
Otras lecturas
- Faloutsos, Christos; Christodoulakis, Stavros (1984). "Archivos de firmas: un método de acceso a los documentos y su evaluación del desempeño analítico". Transacciones ACM sobre sistemas de información . 2 (4): 267–288. doi : 10.1145 / 2275.357411 .
- Justin Zobel; Alistair Moffat; Kotagiri Ramamohanarao (1998). "Archivos invertidos versus archivos de firmas para indexación de texto" (PDF) . Transacciones ACM en sistemas de bases de datos . 23 (4): 453–490. CiteSeerX 10.1.1.54.8753 . doi : 10.1145 / 296854.277632 .
- Ben Carterette; Fazli Can (2005). "Comparación de archivos invertidos y archivos de firmas para buscar un gran léxico" (PDF) . Tratamiento y Gestión de la Información . 41 (3): 613–633. doi : 10.1016 / j.ipm.2003.12.003 .
enlaces externos
- Fundación formal de recuperación de información , Buckinghamshire Chilterns University College