Experimentos de Cranfield - Cranfield experiments

Los experimentos de Cranfield fueron una serie de estudios experimentales sobre recuperación de información realizados por Cyril W. Cleverdon en la Facultad de Aeronáutica de la Universidad de Cranfield en la década de 1960, para evaluar la eficiencia de los sistemas de indexación . Los experimentos se dividieron en dos fases principales, ninguna de las cuales estaba informatizada. La colección completa de resúmenes, índices resultantes y resultados se distribuyeron posteriormente en formato electrónico y fueron ampliamente utilizados durante décadas.

En la primera serie de experimentos, se compararon varios métodos de indexación existentes para probar su eficiencia. Las consultas fueron generadas por los autores de los artículos de la colección y luego traducidas en búsquedas de índices por expertos en esos sistemas. En esta serie, un método pasó de menos eficiente a más eficiente después de realizar cambios menores en la disposición de la forma en que se registraron los datos en las fichas . La conclusión pareció ser que la metodología subyacente parecía menos importante que los detalles específicos de la implementación. Esto llevó a un debate considerable sobre la metodología de los experimentos.

Estas críticas también llevaron a la segunda serie de experimentos, ahora conocida como Cranfield 2. Cranfield 2 intentó obtener información adicional invirtiendo la metodología; Cranfield 1 probó la capacidad de los expertos para encontrar un recurso específico siguiendo el sistema de índices, Cranfield 2 en cambio estudió los resultados de hacer preguntas en lenguaje humano y ver si el sistema de indexación proporcionaba una respuesta relevante, independientemente de si era el documento de destino original. También fue tema de considerable debate.

Los experimentos de Cranfield fueron sumamente influyentes en el campo de la recuperación de información, siendo en sí mismo un tema de considerable interés en la era posterior a la Segunda Guerra Mundial , cuando la cantidad de investigación científica estaba en auge. Fue tema de continuo debate durante años y dio lugar a varios proyectos informáticos para probar sus resultados. Su influencia fue considerable durante un período de cuarenta años antes de que los índices de lenguaje natural como los de los motores de búsqueda web modernos se convirtieran en algo común.

Fondo

El ahora famoso artículo de julio de 1945 " As We May Think " de Vannevar Bush se señala a menudo como la primera descripción completa del campo que se convirtió en la recuperación de información . El artículo describe una máquina hipotética conocida como " memex " que mantendría todo el conocimiento de la humanidad en una forma indexada que permitiría que cualquiera pudiera recuperarlo.

En 1948, la Royal Society celebró la Conferencia de Información Científica que exploró por primera vez algunos de estos conceptos de manera formal. Esto dio lugar a una pequeña cantidad de experimentos de campo en el Reino Unido, Estados Unidos y los Países Bajos. Una segunda conferencia sobre el tema, la Conferencia Internacional sobre Información Científica, se celebró en Washington, DC en 1958, momento en el que el desarrollo informático había llegado al punto en que era posible la recuperación automática de índices. Fue en esta reunión que Cyril W. Cleverdon "se metió la pata" y logró conseguir fondos de la Fundación Nacional de Ciencias de los Estados Unidos para iniciar lo que más tarde se conocería como Cranfield 1.

Cranfield 1

La primera serie de experimentos comparó directamente cuatro sistemas de indexación que representaban fundamentos conceptuales significativamente diferentes. Los cuatro sistemas fueron la Clasificación Decimal Universal , un sistema jerárquico que se está introduciendo ampliamente en las bibliotecas, el Catálogo Alfabético de Materias que alfabetiza los títulos de las materias en las colecciones clásicas de fichas de bibliotecas , el Sistema de Clasificación Facetada que permite combinaciones de materias para producir nuevas materias, y Mortimer Taube 's Uniterm sistema de indexación de coordenadas en una referencia puede encontrarse en cualquier número de fichas de cartulina.

En una de las primeras series de experimentos, se pidió a los participantes que crearan índices para una colección de documentos relacionados con la industria aeroespacial . Cada índice fue elaborado por un experto en esa metodología. Luego se pidió a los autores de los documentos originales que prepararan un conjunto de términos de búsqueda que deberían devolver ese documento. A continuación, se pidió a los expertos en indexación que generaran consultas en su índice basándose en los términos de búsqueda del autor. Luego, las consultas se utilizaron para examinar el índice y ver si devolvía el documento de destino.

En estas pruebas, todos menos el sistema de facetas produjeron aproximadamente el mismo número de resultados "correctos", mientras que el concepto de facetas quedó rezagado. Al estudiar estos resultados, el sistema de facetas se volvió a indexar utilizando un formato diferente en las tarjetas y se volvieron a ejecutar las pruebas. En esta serie de pruebas, el sistema de facetas fue ahora el claro ganador. Esto sugirió que la teoría subyacente detrás del sistema era menos importante que los detalles de la implementación.

El resultado de estos experimentos, publicados en 1962, generó un enorme debate, tanto entre los partidarios de los distintos sistemas, como entre los investigadores que se quejaron del conjunto de los experimentos.

Cranfield 2

En la primera serie de experimentos, a los expertos en el uso de las diversas técnicas se les asignó la tarea tanto de la creación del índice como de su uso en las consultas de muestra. Cada sistema tenía su propio concepto sobre cómo debe estructurarse una consulta, que hoy se conocería como lenguaje de consulta . Gran parte de las críticas de los primeros experimentos se centraron en si los experimentos realmente estaban probando los sistemas o en la capacidad del usuario para traducir la consulta al lenguaje de consulta.

Esto llevó a la segunda serie de experimentos, Cranfield 2, que consideró la cuestión de convertir la consulta al lenguaje. Para ello, en lugar de considerar la generación de la consulta como una caja negra , se desglosó cada paso. El resultado de este enfoque fue revolucionario en ese momento; sugirió que los términos de búsqueda se dejaran en su formato original, lo que hoy se conoce como consulta en lenguaje natural .

Otro cambio importante fue cómo se juzgaron los resultados. En las pruebas originales, se produjo un éxito solo si el índice devolvía el documento exacto que se había utilizado para generar la búsqueda. Sin embargo, esto no era típico de una consulta real; un usuario que busque información sobre el tren de aterrizaje de un avión podría estar contento con cualquiera de los muchos artículos de la colección sobre el tema, pero Cranfield 1 consideraría tal resultado como un fracaso a pesar de devolver los materiales relevantes. En la segunda serie, los resultados fueron evaluados por terceros que dieron una respuesta cualitativa sobre si la consulta generó un conjunto relevante de artículos, en lugar de devolver un documento original específico.

Debate continuo

Los resultados de las dos series de pruebas continuaron siendo un tema de considerable debate durante años. En particular, dio lugar a un debate en curso entre Cleverdon y Jason Farradane , uno de los fundadores del Instituto de Científicos de la Información en 1958. Los dos aparecerían invariablemente en reuniones donde el otro estaba presentando y luego, durante el período de preguntas y respuestas , explicar por qué todo lo que estaban haciendo estaba mal. El debate se ha caracterizado como "... feroz e implacable, a veces mucho más allá de los límites de la civilidad". A este coro se unió Don R. Swanson en los Estados Unidos, quien publicó una crítica sobre los experimentos de Cranfield unos años más tarde.

A pesar de estas críticas, Cranfield 2 estableció el listón por el cual se juzgaron muchos experimentos posteriores. En particular, la metodología de Cranfield 2, comenzando con términos del lenguaje natural y juzgando los resultados por relevancia, no por coincidencias exactas, se volvió casi universal en los siguientes experimentos a pesar de muchas objeciones.

Influencia

Con la conclusión de Cranfield 2 en 1967, todo el corpus se publicó en una forma legible por máquina. Hoy en día, esto se conoce como el Cranfield 1400, o cualquier variedad de variaciones sobre ese tema. El nombre se refiere al número de documentos de la colección, que consta de 1398 resúmenes. La colección también incluye 225 consultas y los juicios de relevancia de todas las consultas: pares de documentos que resultaron de las ejecuciones experimentales. La base de datos principal de resúmenes es de aproximadamente 1,6 MB.

Los experimentos se llevaron a cabo en una era en la que las computadoras tenían unos pocos kilobytes de memoria principal y acceso a la red a quizás unos pocos megabytes . Por ejemplo, el IBM System / 360 Model 50 de gama media se envió con 64 a 512 kB de memoria central (tendiendo hacia el extremo inferior) y su disco duro típico almacenado poco más de 80 MB. A medida que las capacidades de los sistemas crecieron durante las décadas de 1960 y 1970, la colección de documentos de Cranfield se convirtió en un importante corpus de pruebas que se utilizó repetidamente durante muchos años.

Hoy en día, la colección es demasiado pequeña para usarla en pruebas prácticas más allá de los experimentos piloto. Su lugar lo ha ocupado principalmente la colección TREC, que contiene 1,89 millones de documentos en una gama más amplia de temas, o la colección aún más reciente de GOV2 de 25 millones de páginas web.

Ver también

Referencias

Citas

Bibliografía

enlaces externos