Modelo de lenguaje de caché - Cache language model

Un modelo de lenguaje de caché es un tipo de modelo de lenguaje estadístico . Estos ocurren en el subcampo de procesamiento del lenguaje natural de la informática y asignan probabilidades a secuencias de palabras dadas por medio de una distribución de probabilidad . Los modelos estadísticos del lenguaje son componentes clave de los sistemas de reconocimiento de voz y de muchos sistemas de traducción automática : les indican a dichos sistemas qué posibles secuencias de palabras de salida son probables y cuáles improbables. La característica particular de un modelo de lenguaje de caché es que contiene un componente de caché y asigna probabilidades relativamente altas a palabras o secuencias de palabras que ocurren en cualquier otra parte de un texto dado. El uso principal, pero de ninguna manera exclusivo, de los modelos de lenguaje de caché es en los sistemas de reconocimiento de voz.

Para comprender por qué es una buena idea que un modelo de lenguaje estadístico contenga un componente de caché, se podría considerar a alguien que está dictando una carta sobre elefantes a un sistema de reconocimiento de voz. Los modelos de lenguaje N-gram estándar (sin caché) asignarán una probabilidad muy baja a la palabra "elefante" porque es una palabra muy rara en inglés . Si el sistema de reconocimiento de voz no contiene un componente de caché, la persona que dicta la letra puede molestarse: cada vez que se pronuncia la palabra "elefante", se puede reconocer otra secuencia de palabras con una probabilidad mayor de acuerdo con el modelo de lenguaje N-gram (p. Ej. , "contar un plan"). Estas secuencias erróneas deberán eliminarse manualmente y reemplazarse en el texto por "elefante" cada vez que se diga "elefante". Si el sistema tiene un modelo de lenguaje de caché, "elefante" probablemente no se reconocerá la primera vez que se habla y tendrá que introducirse en el texto manualmente; sin embargo, a partir de este momento, el sistema es consciente de que es probable que vuelva a ocurrir "elefante"; la probabilidad estimada de ocurrencia de "elefante" se ha incrementado, por lo que es más probable que si se habla sea reconocido correctamente. Una vez que se ha producido "elefante" varias veces, es probable que el sistema lo reconozca correctamente cada vez que se hable hasta que se haya dictado la letra por completo. Este aumento en la probabilidad asignada a la ocurrencia de "elefante" es un ejemplo de una consecuencia del aprendizaje automático y más específicamente del reconocimiento de patrones .

Existen variantes del modelo de lenguaje de caché en las que no solo se asignan mayores probabilidades a las palabras individuales, sino también a las secuencias de varias palabras que han ocurrido anteriormente (por ejemplo, si "San Francisco" ocurrió cerca del comienzo del texto, se asignarían instancias posteriores una probabilidad más alta).

El modelo de lenguaje de caché se propuso por primera vez en un artículo publicado en 1990, después del cual el grupo de reconocimiento de voz de IBM experimentó con el concepto. El grupo descubrió que la implementación de una forma de modelo de lenguaje de caché produjo una caída del 24% en las tasas de error de palabras una vez que se dictaron los primeros cientos de palabras de un documento. Un estudio detallado de las técnicas de modelado de lenguaje concluyó que el modelo de lenguaje de caché fue una de las pocas nuevas técnicas de modelado de lenguaje que produjo mejoras sobre el enfoque estándar de N-gram: "Nuestros resultados de almacenamiento en caché muestran que el almacenamiento en caché es, con mucho, la técnica más útil para reducir la perplejidad en tamaños de datos de entrenamiento pequeños y medianos ".

El desarrollo del modelo de lenguaje caché ha generado un interés considerable entre los interesados ​​en la lingüística computacional en general y el procesamiento estadístico del lenguaje natural en particular: recientemente ha habido interés en aplicar el modelo de lenguaje caché en el campo de la traducción automática estadística.

El éxito del modelo de lenguaje caché en la mejora de la predicción de palabras se basa en la tendencia humana a usar las palabras en una forma "a ráfagas": cuando uno está discutiendo un tema determinado en un contexto determinado, la frecuencia con la que usa ciertas palabras será bastante diferente de sus frecuencias cuando uno está discutiendo otros temas en otros contextos. Los modelos tradicionales de lenguaje N-gram, que se basan enteramente en información de un número muy pequeño (cuatro, tres o dos) de palabras que preceden a la palabra a la que se va a asignar una probabilidad, no modelan adecuadamente este "estallido".

Recientemente, el concepto del modelo de lenguaje de caché, originalmente concebido para el paradigma del modelo de lenguaje estadístico N-gram, se ha adaptado para su uso en el paradigma neuronal. Por ejemplo, un trabajo reciente sobre modelos de lenguaje de caché continuo en la configuración de la red neuronal recurrente (RNN) ha aplicado el concepto de caché a contextos mucho más grandes que antes, produciendo reducciones significativas en la perplejidad. Otra línea de investigación reciente implica la incorporación de un componente de caché en un modelo de lenguaje neuronal de avance (FN-LM) para lograr una rápida adaptación de dominio.

Ver también

Referencias

Otras lecturas