Modelo de tema - Topic model
En el aprendizaje automático y el procesamiento del lenguaje natural , un modelo de tema es un tipo de modelo estadístico para descubrir los "temas" abstractos que ocurren en una colección de documentos. El modelado de temas es una herramienta de extracción de texto de uso frecuente para el descubrimiento de estructuras semánticas ocultas en un cuerpo de texto. De manera intuitiva, dado que un documento trata sobre un tema en particular, uno esperaría que aparecieran palabras específicas en el documento con más o menos frecuencia: "perro" y "hueso" aparecerán con más frecuencia en documentos sobre perros, "gato" y "miau". aparecerá en documentos sobre gatos, y "el" y "es" aparecerán aproximadamente por igual en ambos. Por lo general, un documento se refiere a varios temas en diferentes proporciones; por lo tanto, en un documento que trata sobre gatos en un 10% y sobre perros en un 90%, probablemente habría alrededor de 9 veces más palabras de perros que de gatos. Los "temas" producidos por las técnicas de modelado de temas son grupos de palabras similares. Un modelo de tema captura esta intuición en un marco matemático, que permite examinar un conjunto de documentos y descubrir, con base en las estadísticas de las palabras en cada uno, cuáles podrían ser los temas y cuál es el balance de temas de cada documento.
Los modelos temáticos también se conocen como modelos temáticos probabilísticos, que se refieren a algoritmos estadísticos para descubrir las estructuras semánticas latentes de un cuerpo de texto extenso. En la era de la información, la cantidad de material escrito que encontramos cada día está simplemente más allá de nuestra capacidad de procesamiento. Los modelos de tema pueden ayudarnos a organizar y ofrecer información para que comprendamos grandes colecciones de cuerpos de texto no estructurados. Desarrollado originalmente como una herramienta de minería de texto, los modelos de temas se han utilizado para detectar estructuras instructivas en datos como información genética, imágenes y redes. También tienen aplicaciones en otros campos como la bioinformática y la visión artificial .
Historia
Un modelo temático temprano fue descrito por Papadimitriou, Raghavan, Tamaki y Vempala en 1998. Otro, llamado análisis semántico latente probabilístico (PLSA), fue creado por Thomas Hofmann en 1999. Asignación de Dirichlet latente (LDA), quizás el modelo temático más común actualmente en uso, es una generalización de PLSA. Desarrollado por David Blei , Andrew Ng y Michael I. Jordan en 2002, LDA presenta distribuciones previas de Dirichlet escasas sobre distribuciones de documento-tema y tema-palabra, codificando la intuición de que los documentos cubren una pequeña cantidad de temas y que los temas a menudo usan una pequeña número de palabras. Otros modelos de temas son generalmente extensiones de LDA, como la asignación de Pachinko , que mejora la LDA al modelar las correlaciones entre temas además de las correlaciones de palabras que constituyen los temas. El análisis jerárquico de árbol latente ( HLTA ) es una alternativa al LDA, que modela la co-ocurrencia de palabras utilizando un árbol de variables latentes y los estados de las variables latentes, que corresponden a grupos suaves de documentos, se interpretan como temas.
Modelos de tema para información de contexto
Los enfoques para la información temporal incluyen la determinación de Block y Newman de la dinámica temporal de los temas en la Gaceta de Pensilvania durante 1728-1800. Griffiths & Steyvers utilizaron modelos de temas en resúmenes de la revista PNAS para identificar temas que aumentaron o disminuyeron en popularidad entre 1991 y 2001, mientras que Lamba & Madhusushan utilizaron modelos de temas en artículos de investigación de texto completo recuperados de la revista DJLIT de 1981 a 2018. En el campo de las bibliotecas y las ciencias de la información, Lamba & Madhusudhan aplicaron modelos de temas en diferentes recursos de la India, como artículos de revistas y tesis y recursos electrónicos (ETD). Nelson ha estado analizando cambios en temas a lo largo del tiempo en el Richmond Times-Dispatch para comprender los cambios sociales y políticos y las continuidades en Richmond durante la Guerra Civil estadounidense . Yang, Torget y Mihalcea aplicaron métodos de modelado de temas a los periódicos de 1829 a 2008. Mimno utilizó modelos de temas con 24 revistas sobre filología clásica y arqueología que abarcan 150 años para observar cómo los temas de las revistas cambian con el tiempo y cómo las revistas se vuelven más diferentes o similares con el tiempo.
Yin y col. introdujo un modelo de temas para documentos distribuidos geográficamente, donde las posiciones de los documentos se explican por regiones latentes que se detectan durante la inferencia.
Chang y Blei incluyeron información de red entre documentos vinculados en el modelo de tema relacional, para modelar los vínculos entre sitios web.
El modelo autor-tema de Rosen-Zvi et al. modela los temas asociados con los autores de documentos para mejorar la detección de temas para documentos con información de autoría.
HLTA se aplicó a una colección de artículos de investigación recientes publicados en los principales lugares de inteligencia artificial y aprendizaje automático. El modelo resultante se llama The AI Tree . Los temas resultantes se utilizan para indexar los artículos en aipano.cse.ust.hk para ayudar a los investigadores a rastrear las tendencias de investigación e identificar artículos para leer , y ayudar a los organizadores de conferencias y editores de revistas a identificar a los revisores para los envíos .
Algoritmos
En la práctica, los investigadores intentan ajustar los parámetros del modelo apropiados al corpus de datos utilizando una de varias heurísticas para lograr un ajuste de máxima verosimilitud. Una encuesta reciente de Blei describe este conjunto de algoritmos. Varios grupos de investigadores comenzando por Papadimitriou et al. han intentado diseñar algoritmos con probables garantías. Suponiendo que los datos fueron realmente generados por el modelo en cuestión, intentan diseñar algoritmos que probablemente encuentren el modelo que se utilizó para crear los datos. Las técnicas utilizadas aquí incluyen la descomposición de valores singulares (SVD) y el método de momentos . En 2012 se introdujo un algoritmo basado en la factorización matricial no negativa (NMF) que también se generaliza a modelos de temas con correlaciones entre temas.
En 2018 surgió un nuevo enfoque de los modelos temáticos y se basó en el modelo de bloques estocásticos
Modelos temáticos de biomedicina cuantitativa
Los modelos de temas también se utilizan en otros contextos. Por ejemplo, surgieron usos de modelos de tópicos en la investigación en biología y bioinformática. Recientemente, se han utilizado modelos de temas para extraer información de un conjunto de datos de muestras genómicas de cánceres. En este caso los tópicos son variables biológicas latentes a inferir.
Ver también
- Análisis semántico explícito
- Análisis semántico latente
- Asignación de Dirichlet latente
- Proceso de Dirichlet jerárquico
- Factorización matricial no negativa
- Mallet (proyecto de software)
- Gensim
Referencias
Otras lecturas
- Steyvers, Mark; Griffiths, Tom (2007). "Modelos temáticos probabilísticos" . En Landauer, T .; McNamara, D; Dennis, S .; et al. (eds.). Manual de análisis semántico latente (PDF) . Prensa de psicología. ISBN 978-0-8058-5418-3. Archivado desde el original (PDF) el 24 de junio de 2013.
- Blei, DM; Lafferty, JD (2009). "Modelos de temas" (PDF) .
- Blei, D .; Lafferty, J. (2007). "Un modelo de temas correlacionados de la ciencia ". Annals of Applied Statistics . 1 (1): 17–35. arXiv : 0708.3601 . doi : 10.1214 / 07-AOAS114 . S2CID 8872108 .
- Mimno, D. (abril de 2012). "Historiografía computacional: minería de datos en un siglo de revistas clásicas" (PDF) . Revista de Informática y Patrimonio Cultural . 5 (1): 1–19. doi : 10.1145 / 2160165.2160168 . S2CID 12153151 .
- Marwick, Ben (2013). "Descubrimiento de cuestiones emergentes y controversias en antropología mediante minería de textos, modelado de temas y análisis de redes sociales de contenido de microblogs" . En Yanchang, Zhao; Yonghua, Cen (eds.). Las aplicaciones de minería de datos con R . Elsevier. págs. 63–93.
- Jockers, M. 2010 Who's your DH Blog Mate: Matching the Day of DH Bloggers with Topic Modeling Matthew L. Jockers, publicado el 19 de marzo de 2010
- Drouin, J. 2011 Incursión en el modelado de temas Eclesiástico Proust Archive. publicado el 17 de marzo de 2011
- Templeton, C. 2011 Modelado de temas en humanidades: una descripción general Blog del Instituto de Tecnología en Humanidades de Maryland. publicado el 1 de agosto de 2011
- Griffiths, T .; Steyvers, M. (2004). "Encontrar temas científicos" . Actas de la Academia Nacional de Ciencias . 101 (Supl. 1): 5228–35. Código Bib : 2004PNAS..101.5228G . doi : 10.1073 / pnas.0307752101 . PMC 387300 . PMID 14872004 .
- Yang, T., A Torget y R. Mihalcea (2011) Modelado de temas en periódicos históricos. Actas del 5º Taller de ACL-HLT sobre tecnología del lenguaje para el patrimonio cultural, las ciencias sociales y las humanidades . La Asociación de Lingüística Computacional, Madison, WI. páginas 96-104.
- Block, S. (enero de 2006). "Hacer más con la digitalización: una introducción al modelado de temas de las primeras fuentes estadounidenses" . Common-place the Interactive Journal of Early American Life . 6 (2).
- Newman, D .; Block, S. (marzo de 2006). "Descomposición temática probabilística de un periódico del siglo XVIII" (PDF) . Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información . 57 (5): 753–767. doi : 10.1002 / asi.20342 .
enlaces externos
- Mimno, David. "Bibliografía de modelado de temas" .
- Brett, Megan R. "Modelado de temas: una introducción básica" . Revista de Humanidades Digitales.
- Modelos de temas aplicados a noticias y reseñas en línea Video de una presentación de Google Tech Talk de Alice Oh sobre el modelado de temas con LDA
- Modelización de la ciencia: modelos de temas dinámicos de investigación académica Vídeo de una presentación de Google Tech Talk de David M. Blei
- Modelos de temas automatizados en ciencias políticas Video de una presentación de Brandon Stewart en el taller Tools for Text , 14 de junio de 2010
- Shawn Graham, Ian Milligan y Scott Weingart "Introducción al modelado de temas y MALLET" . El historiador de la programación. Archivado desde el original el 28 de agosto de 2014 . Consultado el 29 de mayo de 2014 .
- Blei, David M. "Material y software de introducción"
- código , demostración : ejemplo de uso de LDA para modelado de temas