Análisis de datos topológicos - Topological data analysis

En matemáticas aplicadas , el análisis de datos topológicos ( TDA ) es un enfoque para el análisis de conjuntos de datos utilizando técnicas de topología . La extracción de información de conjuntos de datos de gran dimensión, incompletos y ruidosos suele ser un desafío. TDA proporciona un marco general para analizar dichos datos de una manera que es insensible a la métrica particular elegida y proporciona reducción de dimensionalidad y robustez al ruido. Más allá de esto, hereda functoriality , un concepto fundamental de la matemática moderna, desde su naturaleza topológica, lo que le permite adaptarse a las nuevas herramientas matemáticas.

La motivación inicial es estudiar la forma de los datos. TDA ha combinado la topología algebraica y otras herramientas de las matemáticas puras para permitir un estudio matemáticamente riguroso de la "forma". La herramienta principal es la homología persistente , una adaptación de la homología a los datos de la nube de puntos . Se ha aplicado una homología persistente a muchos tipos de datos en muchos campos. Además, su base matemática también es de importancia teórica. Las características únicas de TDA lo convierten en un puente prometedor entre topología y geometría.

Teoría básica

Intuición

TDA se basa en la idea de que la forma de los conjuntos de datos contiene información relevante. Los datos reales de alta dimensión suelen ser escasos y tienden a tener características relevantes de baja dimensión. Una de las tareas de TDA es proporcionar una caracterización precisa de este hecho. Por ejemplo, la trayectoria de un sistema simple depredador-presa gobernado por las ecuaciones de Lotka-Volterra forma un círculo cerrado en el espacio de estados. TDA proporciona herramientas para detectar y cuantificar dicho movimiento recurrente.

Muchos algoritmos para el análisis de datos, incluidos los que se utilizan en TDA, requieren la configuración de varios parámetros. Sin un conocimiento previo del dominio, es difícil elegir la recopilación correcta de parámetros para un conjunto de datos. La principal idea de la homología persistente es utilizar la información obtenida de todos los valores de los parámetros mediante la codificación de esta enorme cantidad de información en una forma comprensible y fácil de representar. Con TDA, hay una interpretación matemática cuando la información es un grupo de homología. En general, se asume que las características que persisten para una amplia gama de parámetros son características "verdaderas". Se presume que las características que persisten solo para un rango estrecho de parámetros son ruido, aunque la justificación teórica de esto no está clara.

Historia temprana

Los precursores del concepto completo de homología persistente aparecieron gradualmente con el tiempo. En 1990, Patrizio Frosini introdujo la función de tamaño, que es equivalente a la 0ª homología persistente. Casi una década después, Vanessa Robins estudió las imágenes de homomorfismos inducidos por la inclusión. Finalmente, poco después, Edelsbrunner et al. introdujo el concepto de homología persistente junto con un algoritmo eficiente y su visualización como un diagrama de persistencia. Carlsson y col. reformuló la definición inicial y dio un método de visualización equivalente llamado códigos de barras de persistencia, interpretando la persistencia en el lenguaje del álgebra conmutativa.

En topología algebraica, la homología persistente ha surgido a través del trabajo de Sergey Barannikov sobre la teoría Morse. El conjunto de valores críticos de la función Morse suave se particionó canónicamente en pares "nacimiento-muerte", se clasificaron los complejos filtrados, sus invariantes, equivalentes al diagrama de persistencia y los códigos de barras de persistencia, junto con el algoritmo eficiente para su cálculo, se describieron bajo el nombre de formas canónicas en 1994 por Barannikov.

Conceptos

A continuación se presentan algunos conceptos ampliamente utilizados. Tenga en cuenta que algunas definiciones pueden variar de un autor a otro.

Una nube de puntos se define a menudo como un conjunto finito de puntos en algún espacio euclidiano, pero puede tomarse como cualquier espacio métrico finito.

El complejo de Čech de una nube de puntos es el nervio de la cubierta de bolas de un radio fijo alrededor de cada punto de la nube.

Un módulo de persistencia indexado por es un espacio vectorial para cada uno y un mapa lineal siempre que , de modo que para todos y cuando sea Una definición equivalente es un funtor de considerado como un conjunto parcialmente ordenado a la categoría de espacios vectoriales.

El grupo de homología persistente de una nube de puntos es el módulo de persistencia definido como , donde es el complejo Čech del radio de la nube de puntos y es el grupo de homología.

Un código de barras de persistencia es un conjunto múltiple de intervalos en , y un diagrama de persistencia es un conjunto múltiple de puntos en ( ).

La distancia de Wasserstein entre dos diagramas de persistencia y se define como

donde y se extiende sobre biyecciones entre y . Consulte la figura 3.1 en Munch para ver una ilustración.

La distancia del cuello de botella entre y es

Este es un caso especial de distancia de Wasserstein, dejando .

Propiedad básica

Teorema de estructura

El primer teorema de clasificación para la homología persistente apareció en 1994 a través de las formas canónicas de Barannikov. El teorema de clasificación que interpreta la persistencia en el lenguaje del álgebra conmutativa apareció en 2005: para un módulo de persistencia generado finitamente con coeficientes de campo ,

Intuitivamente, las partes libres corresponden a los generadores de homología que aparecen a nivel de filtración y nunca desaparecen, mientras que las partes de torsión corresponden a aquellas que aparecen a nivel de filtración y duran por pasos de la filtración (o equivalentemente, desaparecen a nivel de filtración ).

La homología persistente se visualiza mediante un código de barras o un diagrama de persistencia. El código de barras tiene su raíz en matemáticas abstractas. Es decir, la categoría de complejos filtrados finitos sobre un campo es semi-simple. Cualquier complejo filtrado es isomorfo a su forma canónica, una suma directa de complejos filtrados simples unidimensionales y bidimensionales.

Estabilidad

La estabilidad es deseable porque proporciona robustez frente al ruido. Si es cualquier espacio que es homeomorfo a un complejo simplicial, y son funciones domesticadas continuas, entonces los espacios vectoriales de persistencia y se presentan finitamente, y , donde se refiere a la distancia del cuello de botella y es el mapa tomando una función domesticada continua al diagrama de persistencia de su -ésima homología.

Flujo de trabajo

El flujo de trabajo básico en TDA es:

punto de nube complejos anidados módulo de persistencia código de barras o diagrama
  1. Si es una nube de puntos, reemplácela con una familia anidada de complejos simpliciales (como el complejo Čech o Vietoris-Rips). Este proceso convierte la nube de puntos en una filtración de complejos simpliciales. Tomando la homología de cada complejo en esta filtración se obtiene un módulo de persistencia
  2. Aplicar el teorema de la estructura para proporcionar una versión parametrizada del número de Betti , diagrama de persistencia o, equivalentemente, código de barras.

Gráficamente hablando,

Un uso habitual de la persistencia en TDA

Cálculo

El primer algoritmo sobre todos los campos para la homología persistente en la configuración de topología algebraica fue descrito por Barannikov a través de la reducción a la forma canónica por matrices triangulares superiores. El primer algoritmo para la homología persistente fue proporcionado por Edelsbrunner et al. Zomorodian y Carlsson dieron el primer algoritmo práctico para calcular la homología persistente en todos los campos. El libro de Edelsbrunner y Harer ofrece una guía general sobre topología computacional.

Un problema que surge en la computación es la elección del complejo. El complejo Čech y el complejo Vietoris – Rips son más naturales a primera vista; sin embargo, su tamaño crece rápidamente con el número de puntos de datos. Se prefiere el complejo Vietoris-Rips sobre el complejo Čech porque su definición es más simple y el complejo Čech requiere un esfuerzo adicional para definirlo en un espacio métrico finito general. Se han estudiado formas eficientes de reducir el costo computacional de la homología. Por ejemplo, el complejo α y el complejo testigo se utilizan para reducir la dimensión y el tamaño de los complejos.

Recientemente, la teoría de Morse discreta se ha mostrado prometedora para la homología computacional porque puede reducir un complejo simplicial dado a un complejo celular mucho más pequeño que es homotópico al original. De hecho, esta reducción se puede realizar a medida que se construye el complejo mediante el uso de la teoría matroide , lo que conduce a mayores aumentos de rendimiento. Otro algoritmo reciente ahorra tiempo al ignorar las clases de homología con baja persistencia.

Hay varios paquetes de software disponibles, como javaPlex , Dionysus , Perseus , PHAT , DIPHA , GUDHI , Ripser y TDAstats . Otter et al. Giotto-tda es un paquete de Python dedicado a integrar TDA en el flujo de trabajo de aprendizaje automático mediante una API scikit-learn . Un paquete R TDA es capaz de calcular conceptos recientemente inventados como paisaje y el estimador de distancia del núcleo. La topología ToolKit está especializada para los datos continuos definidos en variedades de dimensión baja (1, 2 o 3), tal como se encuentran típicamente en la visualización científica . Otro paquete de R, TDAstats , implementa la biblioteca Ripser para calcular la homología persistente.

Visualización

Los datos de alta dimensión son imposibles de visualizar directamente. Se han inventado muchos métodos para extraer una estructura de baja dimensión del conjunto de datos, como el análisis de componentes principales y el escalado multidimensional . Sin embargo, es importante señalar que el problema en sí está mal planteado, ya que se pueden encontrar muchas características topológicas diferentes en el mismo conjunto de datos. Por lo tanto, el estudio de la visualización de espacios de alta dimensión es de importancia central para TDA, aunque no implica necesariamente el uso de homología persistente. Sin embargo, se han realizado intentos recientes para utilizar la homología persistente en la visualización de datos.

Carlsson y col. han propuesto un método general llamado MAPPER . Hereda la idea de Serre de que una cubierta conserva la homotopía. Una formulación generalizada de MAPPER es la siguiente:

Sea y sea ​​espacios topológicos y sea ​​un mapa continuo. Sea una cubierta abierta finita de . La salida de MAPPER es el nervio de la cubierta de retroceso , donde cada preimagen se divide en sus componentes conectados. Este es un concepto muy general, del cual el gráfico Reeb y los árboles de combinación son casos especiales.

Ésta no es la definición original. Carlsson y col. elija ser o , y cúbralo con conjuntos abiertos de modo que como máximo dos se crucen. Esta restricción significa que la salida tiene la forma de una red compleja . Debido a que la topología de una nube de puntos finita es trivial, los métodos de agrupamiento (como el enlace único ) se utilizan para producir el análogo de conjuntos conectados en la preimagen cuando se aplica MAPPER a datos reales.

Matemáticamente hablando, MAPPER es una variación del gráfico Reeb . Si el es como mucho unidimensional, entonces para cada uno ,

La flexibilidad adicional también tiene desventajas. Un problema es la inestabilidad, ya que algún cambio en la elección de la cubierta puede dar lugar a cambios importantes en la salida del algoritmo. Se ha trabajado para superar este problema.

Se pueden encontrar tres aplicaciones exitosas de MAPPER en Carlsson et al. Un comentario de J. Curry sobre las aplicaciones en este artículo es que "una característica común de interés en las aplicaciones es la presencia de llamaradas o zarcillos".

Una implementación gratuita de MAPPER está disponible en línea escrita por Daniel Müllner y Aravindakshan Babu. MAPPER también forma la base de la plataforma de inteligencia artificial de Ayasdi.

Persistencia multidimensional

La persistencia multidimensional es importante para TDA. El concepto surge tanto en la teoría como en la práctica. La primera investigación de la persistencia multidimensional fue temprana en el desarrollo de TDA. Carlsson-Zomorodian introdujo la teoría de la persistencia multidimensional en y en colaboración con Singh introdujo el uso de herramientas del álgebra simbólica (métodos de base de Grobner) para calcular módulos MPH. Su definición presenta persistencia multidimensional con n parámetros como un módulo graduado Z ^ n sobre un anillo polinomial en n variables. Se aplican herramientas del álgebra conmutativa y homológica al estudio de la persistencia multidimensional en el trabajo de Harrington-Otter-Schenck-Tillman. La primera aplicación que aparece en la literatura es un método de comparación de formas, similar a la invención de TDA.

La definición de un módulo de persistencia n- dimensional en es

  • el espacio vectorial se asigna a cada punto en
  • El mapa se asigna si (
  • mapas satisfacen para todos

Vale la pena señalar que existen controversias sobre la definición de persistencia multidimensional.

Una de las ventajas de la persistencia unidimensional es su representabilidad mediante un diagrama o código de barras. Sin embargo, no existen invariantes completos discretos de módulos de persistencia multidimensionales. La razón principal de esto es que la estructura de la colección de indecomposibles es extremadamente complicada por el teorema de Gabriel en la teoría de las representaciones de carcaj, aunque un módulo de persistencia finitamente n-tenue se puede descomponer de forma única en una suma directa de indecomposibles debido a la Krull- Teorema de Schmidt.

No obstante, se han establecido muchos resultados. Carlsson y Zomorodian introdujeron el invariante de rango , definido como the , en el cual es un módulo de n grados generado finitamente. En una dimensión, es equivalente al código de barras. En la literatura, el invariante de rango a menudo se conoce como números de Betti persistentes (PBN). En muchos trabajos teóricos, los autores han utilizado una definición más restringida, un análogo de la persistencia de conjuntos de subniveles. Específicamente, los números Betti de persistencia de una función vienen dados por la función , llevando cada uno a , dónde y .

Algunas propiedades básicas incluyen la monotonicidad y el salto diagonal. Los números de Betti persistentes serán finitos si es un subespacio compacto y localmente contractible de .

Usando un método de foliación, las PBN k-dim se pueden descomponer en una familia de PBN 1-dim por deducción de dimensionalidad. Este método también ha dado lugar a una prueba de que las PBN con múltiples atenuaciones son estables. Las discontinuidades de PBN solo ocurren en puntos donde es un punto discontinuo o es un punto discontinuo bajo el supuesto de que y es un espacio topológico triangulable y compacto.

El espacio persistente, una generalización del diagrama persistente, se define como el conjunto múltiple de todos los puntos con multiplicidad mayor que 0 y la diagonal. Proporciona una representación estable y completa de PBN. Un trabajo en curso de Carlsson et al. está tratando de dar una interpretación geométrica de la homología persistente, lo que podría proporcionar información sobre cómo combinar la teoría del aprendizaje automático con el análisis de datos topológicos.

El primer algoritmo práctico para calcular la persistencia multidimensional se inventó muy pronto. Posteriormente, se han propuesto muchos otros algoritmos, basados ​​en conceptos como la teoría morse discreta y la estimación de muestras finitas.


Otras persistencias

El paradigma estándar en TDA a menudo se denomina persistencia de subnivel . Aparte de la persistencia multidimensional, se han realizado muchos trabajos para ampliar este caso especial.

Persistencia en zigzag

Los mapas distintos de cero en el módulo de persistencia están restringidos por la relación de preorden en la categoría. Sin embargo, los matemáticos han descubierto que la unanimidad de dirección no es esencial para muchos resultados. "El punto filosófico es que la teoría de la descomposición de las representaciones gráficas es algo independiente de la orientación de los bordes del gráfico". La persistencia en zigzag es importante para el lado teórico. Todos los ejemplos dados en el artículo de revisión de Carlsson para ilustrar la importancia de la funcionalidad comparten algunas de sus características.

Persistencia extendida y persistencia de niveles

Algunos intentos es perder la restricción más estricta de la función. Para obtener más información, consulte las secciones Categorización y cosheaves e Impacto en las matemáticas .

Es natural extender la homología de persistencia a otros conceptos básicos en topología algebraica, como cohomología y homología / cohomología relativa. Una aplicación interesante es el cálculo de coordenadas circulares para un conjunto de datos a través del primer grupo de cohomología persistente.

Persistencia circular

La homología de persistencia normal estudia funciones de valor real. El mapa con valores circulares podría ser útil, "la teoría de persistencia para mapas con valores circulares promete desempeñar el papel para algunos campos vectoriales al igual que la teoría de persistencia estándar para campos escalares", como se comentó en Dan Burghelea et al. La principal diferencia es que las celdas de Jordan (muy similares en formato a los bloques de Jordan en álgebra lineal) no son triviales en funciones con valores circulares, que serían cero en el caso de valores reales, y la combinación con códigos de barras da las invariantes de un mapa dócil, en condiciones moderadas.

Dos técnicas que utilizan son la teoría de Morse-Novikov y la teoría de la representación gráfica. Se pueden encontrar resultados más recientes en D. Burghelea et al. Por ejemplo, el requisito de mansedumbre puede reemplazarse por la condición mucho más débil, continua.

Persistencia con torsión

La prueba del teorema de la estructura se basa en que el dominio base es el campo, por lo que no se han realizado muchos intentos de homología de persistencia con torsión. Frosini definió una pseudometría en este módulo específico y demostró su estabilidad. Una de sus novedades es que no depende de alguna teoría de clasificación para definir la métrica.

Categorificación y cosheaves

Una ventaja de la teoría de categorías es su capacidad para elevar resultados concretos a un nivel superior, mostrando relaciones entre objetos aparentemente inconexos. Bubenik y col. ofrece una breve introducción de la teoría de categorías adaptada a TDA.

La teoría de categorías es el lenguaje del álgebra moderna y se ha utilizado ampliamente en el estudio de la topología y la geometría algebraica. Se ha observado que "la observación clave de es que el diagrama de persistencia producido por depende sólo de la estructura algebraica que lleva este diagrama". El uso de la teoría de categorías en TDA ha demostrado ser fructífero.

Siguiendo las notaciones hechas en Bubenik et al., La categoría de indexación es cualquier conjunto preordenado (no necesariamente o ), la categoría objetivo es cualquier categoría (en lugar de la comúnmente utilizada ), y los functores se denominan módulos de persistencia generalizada en , over .

Una ventaja de utilizar la teoría de categorías en TDA es una comprensión más clara de los conceptos y el descubrimiento de nuevas relaciones entre las pruebas. Tome dos ejemplos como ilustración. La comprensión de la correspondencia entre el entrelazado y el emparejamiento es de gran importancia, ya que el emparejamiento ha sido el método utilizado al principio (modificado de la teoría Morse). Un resumen de los trabajos se puede encontrar en Vin de Silva et al. Muchos teoremas pueden demostrarse mucho más fácilmente en un entorno más intuitivo. Otro ejemplo es la relación entre la construcción de diferentes complejos a partir de nubes de puntos. Desde hace tiempo se ha notado que los complejos Čech y Vietoris-Rips están relacionados. Específicamente, . La relación esencial entre los complejos de Cech y Rips se puede ver mucho más claramente en un lenguaje categórico.

El lenguaje de la teoría de categorías también ayuda a proyectar resultados en términos reconocibles para la comunidad matemática en general. La distancia de cuello de botella se usa ampliamente en TDA debido a los resultados sobre la estabilidad con respecto a la distancia de cuello de botella. De hecho, la distancia de entrelazado es el objeto terminal en una categoría poset de métricas estables en módulos de persistencia multidimensionales en un campo principal .

Las gavillas , un concepto central en la geometría algebraica moderna , están intrínsecamente relacionadas con la teoría de categorías. En términos generales, las gavillas son la herramienta matemática para comprender cómo la información local determina la información global. Justin Curry considera la persistencia del conjunto de niveles como el estudio de fibras de funciones continuas. Los objetos que estudia son muy similares a los de MAPPER, pero con la teoría de la gavilla como fundamento teórico. Aunque ningún avance en la teoría de TDA ha utilizado todavía la teoría de la gavilla, es prometedora ya que hay muchos teoremas hermosos en geometría algebraica relacionados con la teoría de la gavilla. Por ejemplo, una pregunta teórica natural es si diferentes métodos de filtración dan como resultado el mismo resultado.

Estabilidad

La estabilidad es de vital importancia para el análisis de datos, ya que los datos reales transportan ruidos. Mediante el uso de la teoría de categorías, Bubenik et al. han distinguido entre teoremas de estabilidad blandos y duros, y han demostrado que los casos blandos son formales. Específicamente, el flujo de trabajo general de TDA es

datos módulo de persistencia topológica módulo de persistencia algebraica invariante discreto

El teorema de estabilidad blanda afirma que es Lipschitz continuo , y el teorema de estabilidad dura afirma que es Lipschitz continuo.

La distancia de cuello de botella se usa ampliamente en TDA. El teorema de la isometría afirma que la distancia de entrelazado es igual a la distancia del cuello de botella. Bubenik y col. Han abstraído la definición a la entre functores cuando está equipado con una proyección sublineal o una familia superlineal, en la que aún permanece una pseudométrica. Teniendo en cuenta los magníficos personajes de intercalado de distancia, aquí introducimos la definición general de la distancia entrelazado (en lugar de la primera introducida): Let (una función a partir de la cual es monótona y satisface para todos ). Un entrelazado entre F y G consiste en transformaciones naturales y , de tal manera que y .

Los dos resultados principales son

  • Sea un conjunto preordenado con una proyección sublineal o una familia superlinear. Sea un functor entre categorías arbitrarias . Luego, para dos functores cualesquiera , tenemos .
  • Sea un poset de un espacio métrico , sea ​​un espacio topológico. Y sean funciones (no necesariamente continuas), y sea ​​el diagrama de persistencia correspondiente. Entonces .

Estos dos resultados resumen muchos resultados sobre la estabilidad de diferentes modelos de persistencia.

Para conocer el teorema de estabilidad de la persistencia multidimensional, consulte la subsección de persistencia.

Teorema de estructura

El teorema de la estructura es de vital importancia para TDA; como comenta G. Carlsson, "lo que hace que la homología sea útil como discriminador entre espacios topológicos es el hecho de que existe un teorema de clasificación para grupos abelianos generados finitamente". (ver el teorema fundamental de los grupos abelianos generados finitamente ).

El principal argumento utilizado en la demostración del teorema de la estructura original es el teorema de la estructura estándar para módulos generados finitamente sobre un dominio ideal principal . Sin embargo, este argumento falla si el conjunto de indexación es .

En general, no todos los módulos de persistencia se pueden descomponer en intervalos. Se han hecho muchos intentos para relajar las restricciones del teorema de la estructura original. El caso de los módulos de persistencia puntuales de dimensión finita indexados por un subconjunto finito local de se resuelve basándose en el trabajo de Webb. El resultado más notable lo realiza Crawley-Boevey, que resolvió el caso de . El teorema de Crawley-Boevey establece que cualquier módulo de persistencia de dimensión finita puntual es una suma directa de módulos de intervalo.

Para comprender la definición de su teorema, es necesario introducir algunos conceptos. Un intervalo en se define como un subconjunto que tiene la propiedad de que si existe tal que , entonces también. Un módulo de intervalo asigna a cada elemento el espacio vectorial y asigna el espacio vectorial cero a los elementos en . Todos los mapas son el mapa cero, a menos que y , en cuyo caso sea ​​el mapa de identidad. Los módulos de intervalo son indecomponibles.

Aunque el resultado de Crawley-Boevey es un teorema muy poderoso, todavía no se extiende al caso q-tame. Un módulo de persistencia es q-domesticado si el rango de es finito para todos . Hay ejemplos de módulos de persistencia q-tame que no logran ser finitos puntuales. Sin embargo, resulta que un teorema de estructura similar sigue siendo válido si se eliminan las características que existen solo en un valor de índice. Esto es así porque las partes dimensionales infinitas en cada valor de índice no persisten, debido a la condición de rango finito. Formalmente, la categoría observable se define como , en la que denota la subcategoría completa de cuyos objetos son los módulos efímeros ( siempre que ).

Tenga en cuenta que los resultados extendidos enumerados aquí no se aplican a la persistencia en zigzag, ya que el análogo de un módulo de persistencia en zigzag no es inmediatamente obvio.

Estadísticas

Los datos reales son siempre finitos, por lo que su estudio requiere que tengamos en cuenta la estocasticidad. El análisis estadístico nos brinda la capacidad de separar las características reales de los datos de los artefactos introducidos por el ruido aleatorio. La homología persistente no tiene un mecanismo inherente para distinguir entre características de baja probabilidad y características de alta probabilidad.

Una forma de aplicar estadísticas al análisis de datos topológicos es estudiar las propiedades estadísticas de las características topológicas de las nubes de puntos. El estudio de complejos simpliciales aleatorios ofrece una idea de la topología estadística. K. Turner y col. ofrece un resumen del trabajo en este sentido.

Una segunda forma es estudiar las distribuciones de probabilidad en el espacio de persistencia. El espacio de persistencia es , donde es el espacio de todos los códigos de barras que contienen exactamente intervalos y las equivalencias son si . Este espacio es bastante complicado; por ejemplo, no está completo en la métrica de cuello de botella. El primer intento de estudiarlo es por Y. Mileyko et al. El espacio de los diagramas de persistencia en su artículo se define como

donde está la línea diagonal en . Una buena propiedad es que es completa y separable en la métrica de Wasserstein . La expectativa, la varianza y la probabilidad condicional se pueden definir en el sentido de Fréchet . Esto permite portar muchas herramientas estadísticas a TDA. Los trabajos sobre la prueba de significación de hipótesis nulas , los intervalos de confianza y las estimaciones robustas son pasos notables.

Una tercera forma es considerar la cohomología del espacio probabilístico o sistemas estadísticos directamente, llamados estructuras de información y que consisten básicamente en el triple ( ), espacio muestral, variables aleatorias y leyes de probabilidad. Las variables aleatorias se consideran particiones de las n probabilidades atómicas (vistas como una probabilidad (n-1) -simplex, ) en la red de particiones ( ). Las variables aleatorias o módulos de funciones medibles proporcionan los complejos de cocadena, mientras que la co-frontera se considera como el álgebra homológica general descubierta por primera vez por Hochschild con una acción izquierda que implementa la acción de condicionamiento. La primera condición de ciclo corresponde a la regla de la cadena de la entropía, lo que permite derivar únicamente hasta la constante multiplicativa, la entropía de Shannon como primera clase de cohomología. La consideración de una acción de izquierda deformada generaliza el marco a las entropías de Tsallis. La cohomología de la información es un ejemplo de topos anillados. Multivariante k-

La información mutua aparece en expresiones de co-límites, y su desaparición, relacionada con la condición del ciclo, da condiciones equivalentes para la independencia estadística. Los mínimos de información mutua, también llamados sinergias, dan lugar a interesantes configuraciones de independencia análogas a los enlaces homotópicos. Debido a su complejidad combinatoria, solo se ha investigado sobre los datos el subcaso simple de la cohomología y de la estructura de la información. Aplicadas a los datos, esas herramientas cohomológicas cuantifican las dependencias e independientes estadísticas, incluidas las cadenas de Markov y la independencia condicional , en el caso multivariado. En particular, la información mutua generaliza el coeficiente de correlación y la covarianza a dependencias estadísticas no lineales. Estos enfoques se desarrollaron de forma independiente y solo indirectamente relacionados con los métodos de persistencia, pero pueden entenderse aproximadamente en el caso simple utilizando el teorema de Hu Kuo Tin, que establece una correspondencia uno a uno entre las funciones de información mutua y la función medible finita de un conjunto con el operador de intersección. , para construir el esqueleto complejo Čech . La cohomología de la información ofrece alguna interpretación y aplicación directa en términos de neurociencia (teoría del ensamblaje neuronal y cognición cualitativa), física estadística y red neuronal profunda para la cual la estructura y el algoritmo de aprendizaje son impuestos por el complejo de variables aleatorias y la regla de la cadena de información.

Los paisajes de persistencia, presentados por Peter Bubenik, son una forma diferente de representar códigos de barras, más susceptible al análisis estadístico. El paisaje persistencia de un módulo persistente se define como una función , donde denota la

recta real extendida y . El espacio de los paisajes de persistencia es muy agradable: hereda todas las buenas propiedades de la representación de códigos de barras (estabilidad, fácil representación, etc.), pero las cantidades estadísticas se pueden definir fácilmente, y algunos problemas en el trabajo de Y. Mileyko et al., Como como la no unicidad de las expectativas, puede superarse. Se encuentran disponibles algoritmos efectivos para el cálculo con paisajes de persistencia. Otro enfoque es utilizar la persistencia revisada, que es la persistencia de imagen, kernel y cokernel.

Aplicaciones

Clasificación de aplicaciones

Existe más de una forma de clasificar las aplicaciones de TDA. Quizás la forma más natural sea por campo. Una lista muy incompleta de aplicaciones exitosas incluye esqueletización de datos, estudio de formas, reconstrucción de gráficos, análisis de imágenes, material, análisis de progresión de enfermedades, red de sensores, análisis de señales, red cósmica, red compleja, geometría fractal, evolución viral, propagación de contagios en redes , clasificación de bacterias mediante espectroscopia molecular, imagen hiperespectral en físico-química, teledetección y selección de características.

Otra forma es distinguir las técnicas de G. Carlsson,

uno es el estudio de invariantes homológicos de datos, uno de conjuntos de datos individuales, y el otro es el uso de invariantes homológicos en el estudio de bases de datos donde los puntos de datos en sí mismos tienen estructura geométrica.

Características de TDA en aplicaciones

Hay varias características interesantes notables de las aplicaciones recientes de TDA:

  1. Combinar herramientas de varias ramas de las matemáticas . Además de la obvia necesidad de álgebra y topología, las ecuaciones diferenciales parciales, la geometría algebraica, la teoría de la representación, la estadística, la combinatoria y la geometría de Riemann han encontrado uso en TDA.
  2. Análisis cuantitativo . Se considera que la topología es muy suave ya que muchos conceptos son invariantes bajo homotopía. Sin embargo, la topología persistente es capaz de registrar el nacimiento (aparición) y la muerte (desaparición) de las características topológicas, por lo que se incorpora información geométrica adicional. Una evidencia en teoría es un resultado parcialmente positivo sobre la singularidad de la reconstrucción de curvas; dos en aplicación son el análisis cuantitativo de la estabilidad del fullereno y el análisis cuantitativo de la auto-semejanza , por separado.
  3. El papel de la corta persistencia . También se ha encontrado que la persistencia breve es útil, a pesar de la creencia común de que el ruido es la causa de los fenómenos. Esto es interesante para la teoría matemática.

Uno de los principales campos del análisis de datos en la actualidad es el aprendizaje automático . Algunos ejemplos de aprendizaje automático en TDA se pueden encontrar en Adcock et al. Una conferencia está dedicada al vínculo entre TDA y el aprendizaje automático. Para aplicar herramientas de aprendizaje automático, la información obtenida de TDA debe representarse en forma vectorial. Un intento continuo y prometedor es el panorama de la persistencia discutido anteriormente. Otro intento utiliza el concepto de imágenes de persistencia. Sin embargo, un problema de este método es la pérdida de estabilidad, ya que el teorema de estabilidad estricta depende de la representación del código de barras.

Impacto en las matemáticas

El análisis de datos topológicos y la homología persistente han tenido impactos en la teoría de Morse . La teoría de Morse ha jugado un papel muy importante en la teoría de TDA, incluso en la computación. Algunos trabajos en homología persistente han ampliado los resultados sobre las funciones de Morse para domesticar funciones o, incluso, para funciones continuas. Un resultado olvidado de R. Deheuvels mucho antes de la invención de la homología persistente extiende la teoría de Morse a todas las funciones continuas.

Un resultado reciente es que la categoría de gráficos Reeb es equivalente a una clase particular de coheaf. Esto está motivado por el trabajo teórico en TDA, ya que el gráfico Reeb está relacionado con la teoría Morse y MAPPER se deriva de ella. La prueba de este teorema se basa en la distancia de entrelazado.

La homología persistente está estrechamente relacionada con las secuencias espectrales . En particular, el algoritmo que lleva un complejo filtrado a su forma canónica permite un cálculo de secuencias espectrales mucho más rápido que el procedimiento estándar de cálculo de grupos página por página. La persistencia en zigzag puede resultar de importancia teórica para las secuencias espectrales.

Ver también

Referencias

Otras lecturas

Breve introducción

Monografía

Conferencia en video

homología persistente para el análisis de datos , por Matthew Wright
  • La forma de los datos , de Gunnar Carlsson
  • Libro de texto sobre topología

    Otros recursos de TDA