Diccionario legible por máquina - Machine-readable dictionary

El diccionario legible por máquina ( MRD ) es un diccionario almacenado como datos de máquina (computadora) en lugar de imprimirse en papel. Es un diccionario electrónico y base de datos léxica .

Un diccionario legible por máquina es un diccionario en formato electrónico que se puede cargar en una base de datos y se puede consultar mediante un software de aplicación. Puede ser un diccionario explicativo de un solo idioma o un diccionario de varios idiomas para admitir traducciones entre dos o más idiomas o una combinación de ambos. El software de traducción entre varios idiomas suele aplicar diccionarios bidireccionales. Un MRD puede ser un diccionario con una estructura patentada que se consulta mediante un software dedicado (por ejemplo, en línea a través de Internet) o puede ser un diccionario que tiene una estructura abierta y está disponible para cargar en bases de datos informáticas y, por lo tanto, se puede utilizar a través de varios programas. aplicaciones. Los diccionarios convencionales contienen un lema con varias descripciones. Un diccionario legible por máquina puede tener capacidades adicionales y, por lo tanto, a veces se denomina diccionario inteligente. Un ejemplo de diccionario inteligente es el diccionario de inglés Open Source Gellish .
El término diccionario también se usa para referirse a un vocabulario o léxico electrónico como se usa, por ejemplo, en los correctores ortográficos . Si los diccionarios están organizados en una jerarquía de conceptos (o términos) subtipo-supertipo, entonces se denomina taxonomía . Si también contiene otras relaciones entre los conceptos, entonces se llama ontología . Los motores de búsqueda pueden utilizar un vocabulario, una taxonomía o una ontología para optimizar los resultados de la búsqueda. Los diccionarios electrónicos especializados son diccionarios morfológicos o diccionarios sintácticos.

El término MRD a menudo se contrasta con el diccionario de PNL , en el sentido de que un MRD es la forma electrónica de un diccionario que se imprimió antes en papel. Aunque ambos son utilizados por programas, por el contrario, se prefiere el término diccionario de PNL cuando el diccionario se construyó desde cero teniendo en cuenta la PNL. Un estándar ISO para MRD y NLP puede representar ambas estructuras y se llama Lexical Markup Framework .

Historia

Los primeros MRD ampliamente distribuidos fueron Merriam-Webster Seventh Collegiate (W7) y Merriam-Webster New Pocket Dictionary (MPD). Ambos fueron producidos por un proyecto financiado por el gobierno en System Development Corporation bajo la dirección de John Olney. Se introdujeron manualmente en el teclado, ya que no se disponía de cintas de composición tipográfica de ninguno de los libros. Originalmente, cada uno se distribuía en varios carretes de cinta magnética como imágenes de tarjetas con cada palabra separada de cada definición en una tarjeta perforada separada con numerosos códigos especiales que indicaban los detalles de su uso en el diccionario impreso. Olney esbozó un gran plan para el análisis de las definiciones en el diccionario, pero su proyecto expiró antes de que pudiera llevarse a cabo el análisis. Robert Amsler de la Universidad de Texas en Austin reanudó el análisis y completó una descripción taxonómica del Diccionario de bolsillo con fondos de la Fundación Nacional de Ciencias ; sin embargo, su proyecto expiró antes de que se pudieran distribuir los datos taxonómicos. Roy Byrd y col. en IBM Yorktown Heights reanudó el análisis de la Séptima Colegiata de Webster siguiendo el trabajo de Amsler. Finalmente, en la década de 1980, comenzando con el apoyo inicial de Bellcore y luego financiado por varias agencias federales de EE. UU., Incluidas NSF, ARDA , DARPA , DTO y REFLEX , George Armitage Miller y Christiane Fellbaum de la Universidad de Princeton completaron la creación y amplia distribución de un diccionario. y su taxonomía en el proyecto WordNet , que hoy se erige como el recurso de lexicología computacional más distribuido.

Referencias