Regularización de Tikhonov - Tikhonov regularization

La regularización de Tikhonov , llamada así por Andrey Tikhonov , es un método de regularización de problemas mal planteados . También conocida como regresión de crestas , es particularmente útil para mitigar el problema de la multicolinealidad en la regresión lineal , que ocurre comúnmente en modelos con un gran número de parámetros. En general, el método proporciona una mayor eficiencia en los problemas de estimación de parámetros a cambio de una cantidad tolerable de sesgo (ver compensación sesgo-varianza ).

En el caso más simple, el problema de una matriz de momento casi singular se alivia agregando elementos positivos a las diagonales , disminuyendo así su número de condición . De manera análoga al estimador de mínimos cuadrados ordinario, el estimador de cresta simple viene dado por

donde es la regresiva , es la matriz de diseño , es la matriz de identidad , y el parámetro de cresta sirve como el desplazamiento constante de las diagonales de la matriz de momentos. Se puede demostrar que este estimador es la solución al problema de mínimos cuadrados sujeto a la restricción , que se puede expresar como un lagrangiano:

lo que muestra que no es más que el multiplicador de Lagrange de la restricción. En el caso de , en el que la restricción no es vinculante , el estimador de cresta se reduce a mínimos cuadrados ordinarios . A continuación se analiza un enfoque más general de la regularización de Tikhonov.

Historia

La regularización de Tikhonov se ha inventado de forma independiente en muchos contextos diferentes. Se hizo ampliamente conocido por su aplicación a las ecuaciones integrales del trabajo de Andrey Tikhonov y David L. Phillips. Algunos autores utilizan el término regularización de Tikhonov-Phillips . El caso de dimensión finita fue expuesto por Arthur E. Hoerl , quien adoptó un enfoque estadístico, y por Manus Foster, quien interpretó este método como un filtro de Wiener-Kolmogorov (Kriging) . Siguiendo a Hoerl, se conoce en la literatura estadística como regresión de crestas.

Regularización de Tikhonov

Suponga que para una matriz y un vector conocidos , deseamos encontrar un vector tal que

El enfoque estándar es la regresión lineal de mínimos cuadrados ordinarios. Sin embargo, si ninguno satisface la ecuación o más de uno , es decir, la solución no es única, se dice que el problema está mal planteado . En tales casos, la estimación de mínimos cuadrados ordinarios conduce a una sobredeterminada , o más a menudo un underdetermined sistema de ecuaciones. La mayoría de los fenómenos del mundo real tienen el efecto de los filtros de paso bajo en la dirección hacia adelante, donde se asigna a . Por lo tanto, al resolver el problema inverso, el mapeo inverso opera como un filtro de paso alto que tiene la tendencia indeseable de amplificar el ruido (los valores propios / valores singulares son más grandes en el mapeo inverso donde eran más pequeños en el mapeo directo). Además, los mínimos cuadrados ordinarios anulan implícitamente todos los elementos de la versión reconstruida de que se encuentra en el espacio nulo de , en lugar de permitir que un modelo se utilice como anterior . Mínimos cuadrados ordinarios busca minimizar la suma de los residuos cuadrados , que se pueden escribir de forma compacta como

donde está la norma euclidiana .

Para dar preferencia a una solución particular con propiedades deseables, se puede incluir un término de regularización en esta minimización:

para alguna matriz de Tikhonov convenientemente elegida . En muchos casos, esta matriz se elige como un múltiplo de la matriz identidad ( ), dando preferencia a soluciones con normas menores ; esto se conoce como regularización L 2 . En otros casos, se pueden usar operadores de paso alto (por ejemplo, un operador de diferencia o un operador de Fourier ponderado ) para imponer suavidad si se cree que el vector subyacente es mayormente continuo. Esta regularización mejora el acondicionamiento del problema, permitiendo así una solución numérica directa. Una solución explícita, denotada por , viene dada por

El efecto de la regularización puede variar según la escala de la matriz . Porque esto se reduce a la solución de mínimos cuadrados no regularizada, siempre que exista (A T A) −1 .

La regularización L 2 se utiliza en muchos contextos además de la regresión lineal, como la clasificación con regresión logística o máquinas de vectores de soporte y la factorización matricial.

Regularización generalizada de Tikhonov

Para distribuciones normales multivariadas generales para y el error de datos, se puede aplicar una transformación de las variables para reducir al caso anterior. De manera equivalente, se puede buscar una para minimizar

donde solíamos representar la norma ponderada al cuadrado (compárese con la distancia de Mahalanobis ). En la interpretación bayesiana es la matriz de covarianza inversa de , es el valor esperado de y es la matriz de covarianza inversa de . La matriz de Tikhonov se da luego como una factorización de la matriz (por ejemplo, la factorización de Cholesky ) y se considera un filtro blanqueador .

Este problema generalizado tiene una solución óptima que se puede escribir explícitamente usando la fórmula

o equivalente

Regularización de Lavrentyev

En algunas situaciones, se puede evitar el uso de la transposición , como propone Mikhail Lavrentyev . Por ejemplo, si es simétrico positivo definido, es decir , también lo es su inverso , que por lo tanto se puede utilizar para establecer la norma ponderada al cuadrado en la regularización generalizada de Tikhonov, lo que lleva a minimizar

o, equivalentemente hasta un término constante,

.

Este problema de minimización tiene una solución óptima que se puede escribir explícitamente usando la fórmula

,

que no es más que la solución del problema generalizado de Tikhonov donde

La regularización de Lavrentyev, si corresponde, es ventajosa para la regularización de Tikhonov original, ya que la matriz de Lavrentyev se puede acondicionar mejor, es decir, tener un número de condición más pequeño , en comparación con la matriz de Tikhonov.

Regularización en el espacio de Hilbert

Los problemas típicamente discretos lineales mal condicionados resultan de la discretización de ecuaciones integrales , y se puede formular una regularización de Tikhonov en el contexto original de dimensión infinita. En lo anterior podemos interpretarlo como un operador compacto en espacios de Hilbert , y como elementos en el dominio y rango de . El operador es entonces un operador invertible delimitado autoadjunto .

Relación con la descomposición de valor singular y el filtro de Wiener

Con , esta solución de mínimos cuadrados se puede analizar de una manera especial utilizando la descomposición de valores singulares . Dada la descomposición del valor singular

con valores singulares , la solución regularizada de Tikhonov se puede expresar como

donde tiene valores diagonales

y es cero en otros lugares. Esto demuestra el efecto del parámetro Tikhonov sobre el número de condición del problema regularizado. Para el caso generalizado, se puede derivar una representación similar utilizando una descomposición generalizada de valores singulares .

Finalmente, está relacionado con el filtro Wiener :

donde están los pesos de la salchicha y es el rango de .

Determinación del factor Tikhonov

El parámetro de regularización óptimo generalmente se desconoce y, a menudo, en problemas prácticos, se determina mediante un método ad hoc . Un posible enfoque se basa en la interpretación bayesiana que se describe a continuación. Otros enfoques incluyen el principio de discrepancia , la validación cruzada , el método de la curva en L , la probabilidad máxima restringida y el estimador de riesgo predictivo no sesgado . Grace Wahba demostró que el parámetro óptimo, en el sentido de la validación cruzada de dejar uno fuera minimiza

donde es la suma residual de cuadrados y es el número efectivo de grados de libertad .

Usando la descomposición de SVD anterior, podemos simplificar la expresión anterior:

y

Relación con la formulación probabilística

La formulación probabilística de un problema inverso introduce (cuando todas las incertidumbres son gaussianas) una matriz de covarianza que representa las incertidumbres a priori de los parámetros del modelo y una matriz de covarianza que representa las incertidumbres de los parámetros observados. En el caso especial cuando estos dos matrices son diagonales e isotrópico, y , y, en este caso, las ecuaciones de la teoría inversa se reducen a las ecuaciones anteriores, con .

Interpretación bayesiana

Aunque al principio la elección de la solución a este problema regularizado puede parecer artificial, y de hecho la matriz parece bastante arbitraria, el proceso puede justificarse desde un punto de vista bayesiano . Tenga en cuenta que para un problema mal planteado, es necesario introducir algunos supuestos adicionales para obtener una solución única. Estadísticamente, la distribución de probabilidad previa de a veces se considera una distribución normal multivariante . Para simplificar aquí, se hacen las siguientes suposiciones: las medias son cero; sus componentes son independientes; los componentes tienen la misma desviación estándar . Los datos también están sujetos a errores, y también se supone que los errores en son independientes con media cero y desviación estándar . Bajo estos supuestos, la solución regularizada por Tikhonov es la solución más probable dados los datos y la distribución a priori de , según el teorema de Bayes .

Si el supuesto de normalidad se reemplaza por supuestos de homocedasticidad y falta de correlación de errores , y si todavía se supone una media cero, entonces el teorema de Gauss-Markov implica que la solución es el estimador lineal insesgado mínimo .

Ver también

Notas

Referencias

Otras lecturas