Lexicología computacional - Computational lexicology

La lexicología computacional es una rama de la lingüística computacional , que se ocupa del uso de computadoras en el estudio del léxico . Algunos estudiosos (Amsler, 1980) lo han descrito de manera más estricta como el uso de computadoras en el estudio de diccionarios legibles por máquina . Se distingue de la lexicografía computacional , que más propiamente sería el uso de computadoras en la construcción de diccionarios, aunque algunos investigadores han utilizado la lexicografía computacional como sinónimo .

Historia

La lexicología computacional surgió como una disciplina separada dentro de la lingüística computacional con la aparición de diccionarios legibles por máquina, comenzando con la creación de las cintas legibles por máquina del Merriam-Webster Seventh Collegiate Dictionary y el Merriam-Webster New Pocket Dictionary en la década de 1960 por John Olney y col. en System Development Corporation . Hoy en día, la lexicología computacional se conoce mejor a través de la creación y aplicaciones de WordNet . A medida que el procesamiento computacional de los investigadores aumentó con el tiempo, el uso de la lexicología computacional se ha aplicado de manera ubicua en el análisis de texto. En 1987, entre otros Byrd, Calzolari, Chodorow desarrollaron herramientas computacionales para el análisis de textos. En particular, el modelo fue diseñado para coordinar las asociaciones que involucran los sentidos de palabras polisémicas .

Estudio del léxico

La lexicología computacional ha contribuido a la comprensión del contenido y las limitaciones de los diccionarios impresos con fines computacionales (es decir, aclaró que el trabajo anterior de lexicografía no era suficiente para las necesidades de la lingüística computacional). A través del trabajo de lexicólogos computacionales, se ha estudiado casi todas las partes de una entrada de diccionario impreso que van desde:

  1. qué constituye un encabezado : se utiliza para generar listas de corrección ortográfica;
  2. qué variantes e inflexiones forma el lema, que se utiliza para comprender empíricamente la morfología;
  3. cómo se delimita el lema en sílabas;
  4. cómo se pronuncia la palabra clave: se utiliza en los sistemas de generación de voz;
  5. las partes de la oración que toma el encabezado, utilizadas para etiquetadoras POS ;
  6. cualquier tema especial o códigos de uso asignados al encabezado: se utiliza para identificar el tema del documento de texto;
  7. las definiciones de la palabra principal y su sintaxis, utilizadas como ayuda para la desambiguación de la palabra en contexto;
  8. la etimología de la palabra principal y su uso para caracterizar el vocabulario por idiomas de origen - usado para caracterizar el vocabulario del texto en cuanto a sus idiomas de origen;
  9. las oraciones de ejemplo;
  10. los run-ons (palabras adicionales y expresiones de varias palabras que se forman a partir de la palabra principal); y
  11. palabras relacionadas como sinónimos y antónimos .

Muchos lingüistas computacionales estaban desencantados con los diccionarios impresos como recurso para la lingüística computacional porque carecían de suficiente información sintáctica y semántica para los programas de computadora. El trabajo sobre lexicología computacional condujo rápidamente a esfuerzos en dos direcciones adicionales.

Sucesores de la lexicología computacional

Primero, las actividades de colaboración entre lingüistas computacionales y lexicógrafos llevaron a comprender el papel que desempeñaban los corpus en la creación de diccionarios. La mayoría de los lexicólogos computacionales pasaron a construir grandes corpus para recopilar los datos básicos que los lexicógrafos habían utilizado para crear diccionarios. La ACL / DCI (Iniciativa de recopilación de datos) y el LDC ( Consorcio de datos lingüísticos ) siguieron este camino. El advenimiento de los lenguajes de marcado condujo a la creación de corpus etiquetados que podrían analizarse más fácilmente para crear sistemas lingüísticos computacionales. Se crearon corpora etiquetados con parte de la voz y corpora etiquetados semánticamente para probar y desarrollar etiquetadores POS y tecnología de desambiguación semántica de palabras .

La segunda dirección fue hacia la creación de bases de conocimiento léxicas (LKB). Se consideró que una base de conocimiento léxica era lo que debería ser un diccionario para fines lingüísticos computacionales, especialmente para fines semánticos léxicos computacionales. Debía tener la misma información que en un diccionario impreso, pero totalmente explicado en cuanto a los significados de las palabras y los vínculos apropiados entre los sentidos. Muchos comenzaron a crear los recursos que deseaban que fueran los diccionarios, si hubieran sido creados para su uso en análisis computacional. WordNet puede considerarse un desarrollo de este tipo, al igual que los esfuerzos más recientes para describir información sintáctica y semántica, como el trabajo FrameNet de Fillmore. Fuera de la lingüística computacional, el trabajo de Ontología de la inteligencia artificial puede verse como un esfuerzo evolutivo para construir una base de conocimiento léxico para aplicaciones de IA.

Estandarización

Optimizar la producción, el mantenimiento y la extensión de léxicos computacionales es uno de los aspectos cruciales que impactan en la PNL . El principal problema es la interoperabilidad : varios léxicos son frecuentemente incompatibles. La situación más frecuente es: ¿cómo fusionar dos léxicos o fragmentos de léxicos? Un problema secundario es que un léxico generalmente se adapta específicamente a un programa específico de PNL y tiene dificultades para usarse en otros programas o aplicaciones de PNL.

A este respecto, los diversos modelos de datos de léxicos computacionales son estudiados por ISO / TC37 desde 2003 dentro del marco de marcado léxico del proyecto que condujo a una norma ISO en 2008.

Referencias

Amsler, Robert A. 1980. Ph.D. Disertación, "La estructura del diccionario de bolsillo Merriam-Webster". La Universidad de Texas en Austin.

enlaces externos