Modelo de tema - Topic model

En el aprendizaje automático y el procesamiento del lenguaje natural , un modelo de tema es un tipo de modelo estadístico para descubrir los "temas" abstractos que ocurren en una colección de documentos. El modelado de temas es una herramienta de extracción de texto de uso frecuente para el descubrimiento de estructuras semánticas ocultas en un cuerpo de texto. De manera intuitiva, dado que un documento trata sobre un tema en particular, uno esperaría que aparecieran palabras específicas en el documento con más o menos frecuencia: "perro" y "hueso" aparecerán con más frecuencia en documentos sobre perros, "gato" y "miau". aparecerá en documentos sobre gatos, y "el" y "es" aparecerán aproximadamente por igual en ambos. Por lo general, un documento se refiere a varios temas en diferentes proporciones; por lo tanto, en un documento que trata sobre gatos en un 10% y sobre perros en un 90%, probablemente habría alrededor de 9 veces más palabras de perros que de gatos. Los "temas" producidos por las técnicas de modelado de temas son grupos de palabras similares. Un modelo de tema captura esta intuición en un marco matemático, que permite examinar un conjunto de documentos y descubrir, con base en las estadísticas de las palabras en cada uno, cuáles podrían ser los temas y cuál es el balance de temas de cada documento.

Los modelos temáticos también se conocen como modelos temáticos probabilísticos, que se refieren a algoritmos estadísticos para descubrir las estructuras semánticas latentes de un cuerpo de texto extenso. En la era de la información, la cantidad de material escrito que encontramos cada día está simplemente más allá de nuestra capacidad de procesamiento. Los modelos de tema pueden ayudarnos a organizar y ofrecer información para que comprendamos grandes colecciones de cuerpos de texto no estructurados. Desarrollado originalmente como una herramienta de minería de texto, los modelos de temas se han utilizado para detectar estructuras instructivas en datos como información genética, imágenes y redes. También tienen aplicaciones en otros campos como la bioinformática y la visión artificial .

Historia

Un modelo temático temprano fue descrito por Papadimitriou, Raghavan, Tamaki y Vempala en 1998. Otro, llamado análisis semántico latente probabilístico (PLSA), fue creado por Thomas Hofmann en 1999. Asignación de Dirichlet latente (LDA), quizás el modelo temático más común actualmente en uso, es una generalización de PLSA. Desarrollado por David Blei , Andrew Ng y Michael I. Jordan en 2002, LDA presenta distribuciones previas de Dirichlet escasas sobre distribuciones de documento-tema y tema-palabra, codificando la intuición de que los documentos cubren una pequeña cantidad de temas y que los temas a menudo usan una pequeña número de palabras. Otros modelos de temas son generalmente extensiones de LDA, como la asignación de Pachinko , que mejora la LDA al modelar las correlaciones entre temas además de las correlaciones de palabras que constituyen los temas. El análisis jerárquico de árbol latente ( HLTA ) es una alternativa al LDA, que modela la co-ocurrencia de palabras utilizando un árbol de variables latentes y los estados de las variables latentes, que corresponden a grupos suaves de documentos, se interpretan como temas.

Animación del proceso de detección de temas en una matriz documento-palabra. Cada columna corresponde a un documento, cada fila a una palabra. Una celda almacena la frecuencia de una palabra en un documento, las celdas oscuras indican frecuencias de palabras altas. Los modelos de tema agrupan ambos documentos, que utilizan palabras similares, así como palabras que aparecen en un conjunto similar de documentos. Los patrones resultantes se denominan "temas".

Modelos de tema para información de contexto

Los enfoques para la información temporal incluyen la determinación de Block y Newman de la dinámica temporal de los temas en la Gaceta de Pensilvania durante 1728-1800. Griffiths & Steyvers utilizaron modelos de temas en resúmenes de la revista PNAS para identificar temas que aumentaron o disminuyeron en popularidad entre 1991 y 2001, mientras que Lamba & Madhusushan utilizaron modelos de temas en artículos de investigación de texto completo recuperados de la revista DJLIT de 1981 a 2018. En el campo de las bibliotecas y las ciencias de la información, Lamba & Madhusudhan aplicaron modelos de temas en diferentes recursos de la India, como artículos de revistas y tesis y recursos electrónicos (ETD). Nelson ha estado analizando cambios en temas a lo largo del tiempo en el Richmond Times-Dispatch para comprender los cambios sociales y políticos y las continuidades en Richmond durante la Guerra Civil estadounidense . Yang, Torget y Mihalcea aplicaron métodos de modelado de temas a los periódicos de 1829 a 2008. Mimno utilizó modelos de temas con 24 revistas sobre filología clásica y arqueología que abarcan 150 años para observar cómo los temas de las revistas cambian con el tiempo y cómo las revistas se vuelven más diferentes o similares con el tiempo.

Yin y col. introdujo un modelo de temas para documentos distribuidos geográficamente, donde las posiciones de los documentos se explican por regiones latentes que se detectan durante la inferencia.

Chang y Blei incluyeron información de red entre documentos vinculados en el modelo de tema relacional, para modelar los vínculos entre sitios web.

El modelo autor-tema de Rosen-Zvi et al. modela los temas asociados con los autores de documentos para mejorar la detección de temas para documentos con información de autoría.

HLTA se aplicó a una colección de artículos de investigación recientes publicados en los principales lugares de inteligencia artificial y aprendizaje automático. El modelo resultante se llama The AI ​​Tree . Los temas resultantes se utilizan para indexar los artículos en aipano.cse.ust.hk para ayudar a los investigadores a rastrear las tendencias de investigación e identificar artículos para leer , y ayudar a los organizadores de conferencias y editores de revistas a identificar a los revisores para los envíos .

Algoritmos

En la práctica, los investigadores intentan ajustar los parámetros del modelo apropiados al corpus de datos utilizando una de varias heurísticas para lograr un ajuste de máxima verosimilitud. Una encuesta reciente de Blei describe este conjunto de algoritmos. Varios grupos de investigadores comenzando por Papadimitriou et al. han intentado diseñar algoritmos con probables garantías. Suponiendo que los datos fueron realmente generados por el modelo en cuestión, intentan diseñar algoritmos que probablemente encuentren el modelo que se utilizó para crear los datos. Las técnicas utilizadas aquí incluyen la descomposición de valores singulares (SVD) y el método de momentos . En 2012 se introdujo un algoritmo basado en la factorización matricial no negativa (NMF) que también se generaliza a modelos de temas con correlaciones entre temas.

En 2018 surgió un nuevo enfoque de los modelos temáticos y se basó en el modelo de bloques estocásticos

Modelos temáticos de biomedicina cuantitativa

Los modelos de temas también se utilizan en otros contextos. Por ejemplo, surgieron usos de modelos de tópicos en la investigación en biología y bioinformática. Recientemente, se han utilizado modelos de temas para extraer información de un conjunto de datos de muestras genómicas de cánceres. En este caso los tópicos son variables biológicas latentes a inferir.

Ver también

Referencias

Otras lecturas

enlaces externos