Mínimos cuadrados regularizados - Regularized least squares

Los mínimos cuadrados regularizados ( RLS ) son una familia de métodos para resolver el problema de mínimos cuadrados mientras se usa la regularización para restringir aún más la solución resultante.

El SPI se utiliza por dos razones principales. El primero surge cuando el número de variables en el sistema lineal excede el número de observaciones. En tales situaciones, el problema de mínimos cuadrados ordinarios está mal planteado y, por lo tanto, es imposible de ajustar porque el problema de optimización asociado tiene infinitas soluciones. RLS permite la introducción de restricciones adicionales que determinan de manera única la solución.

La segunda razón por la que se utiliza RLS ocurre cuando el número de variables no excede el número de observaciones, pero el modelo aprendido adolece de una mala generalización . RLS se puede utilizar en tales casos para mejorar la generalización del modelo al restringirlo en el momento del entrenamiento. Esta restricción puede obligar a la solución a ser "escasa" de alguna manera o reflejar otros conocimientos previos sobre el problema, como información sobre correlaciones entre características. A Bayesiano comprensión de este se puede llegar por lo que demuestra que los métodos de RLS a menudo son equivalentes a distribuciones previas en la solución para el problema de mínimos cuadrados.

Formulación general

Considere un entorno de aprendizaje dada por un espacio probabilístico , . Vamos a denotar un conjunto de entrenamiento de pares IID con respecto a . Sea una función de pérdida. Definir como el espacio de las funciones tal que el riesgo esperado:

está bien definido. El objetivo principal es minimizar el riesgo esperado:

Dado que el problema no se puede resolver exactamente, es necesario especificar cómo medir la calidad de una solución. Un buen algoritmo de aprendizaje debería proporcionar un estimador con un pequeño riesgo.

Como normalmente se desconoce la distribución conjunta , se asume el riesgo empírico. Para mínimos cuadrados regularizados se introduce la función de pérdida cuadrada:

Sin embargo, si las funciones provienen de un espacio relativamente libre, como el conjunto de funciones integrables cuadradas , este enfoque puede sobreajustarse a los datos de entrenamiento y conducir a una mala generalización. Por tanto, debería limitar o penalizar de algún modo la complejidad de la función . En RLS, esto se logra eligiendo funciones de un espacio de Hilbert del núcleo de reproducción (RKHS) y agregando un término de regularización a la función objetivo, proporcional a la norma de la función en :

Formulación de grano

Definición de RKHS

Un RKHS se puede definir mediante una función de kernel definida positiva simétrica con la propiedad de reproducción:

donde . El RKHS para un kernel consiste en completar el espacio de funciones dividido por :, donde todos son números reales. Algunos núcleos de uso común incluyen el núcleo lineal, que induce el espacio de funciones lineales:

el núcleo polinomial, induciendo el espacio de funciones polinomiales de orden :

y el kernel gaussiano:

Tenga en cuenta que para una función de pérdida arbitraria , este enfoque define una clase general de algoritmos denominada regularización de Tikhonov. Por ejemplo, el uso de la pérdida de bisagra conduce al algoritmo de la máquina de vectores de soporte , y el uso de la pérdida insensible a épsilon conduce al soporte de la regresión vectorial .

Kernel arbitrario

El teorema del representador garantiza que la solución se puede escribir como:

para algunos .

El problema de minimización se puede expresar como:

donde, con algún abuso de notación, la entrada de la matriz del núcleo (en oposición a la función del núcleo ) es .

Para tal función,

Se puede obtener el siguiente problema de minimización:

.

Como la suma de las funciones convexas es convexa, la solución es única y su mínimo se puede encontrar estableciendo el gradiente wrt en :

donde

Complejidad

La complejidad del entrenamiento es básicamente el costo de calcular la matriz del núcleo más el costo de resolver el sistema lineal que es aproximadamente . El cálculo de la matriz del núcleo para el núcleo lineal o gaussiano es . La complejidad de las pruebas es .

Predicción

La predicción en un nuevo punto de prueba es:

Núcleo lineal

Por conveniencia, se introduce una notación vectorial. Sea una matriz, donde las filas son vectores de entrada y un vector donde las entradas son salidas correspondientes. En términos de vectores, la matriz del núcleo se puede escribir como . La función de aprendizaje se puede escribir como:

Aquí definimos . La función objetivo se puede reescribir como:

El primer término es la función objetivo de la regresión de mínimos cuadrados ordinarios (MCO), correspondiente a la suma de cuadrados residual . El segundo término es un término de regularización, no presente en OLS, que penaliza valores grandes . Como un problema de dimensión finita uniforme se considera y es posible aplicar herramientas de cálculo estándar. Para minimizar la función objetivo, el gradiente se calcula con respecto a y se pone a cero:

Esta solución se parece mucho a la de la regresión lineal estándar, con un término adicional . Si se cumplen los supuestos de la regresión MCO, la solución , con , es un estimador insesgado y es el estimador insesgado lineal de mínima varianza, de acuerdo con el teorema de Gauss-Markov . Por tanto, el término conduce a una solución sesgada; sin embargo, también tiende a reducir la varianza. Esto es fácil de ver, ya que la matriz de covarianza de los valores-es proporcional y , por lo tanto, los valores grandes de conducirán a una menor varianza. Por lo tanto, la manipulación corresponde al sesgo de compensación y la varianza. Para problemas con estimaciones de alta varianza , como los casos con regresores relativamente pequeños o correlacionados, la precisión de predicción óptima puede obtenerse utilizando un valor distinto de cero y, por lo tanto, introduciendo algún sesgo para reducir la varianza. Además, no es raro en el aprendizaje automático tener casos en los que , en cuyo caso, el rango es deficiente y se necesita un valor distinto de cero para calcular .

Complejidad

El parámetro controla la invertibilidad de la matriz . Se pueden utilizar varios métodos para resolver el sistema lineal anterior, siendo probablemente la descomposición de Cholesky el método de elección, ya que la matriz es simétrica y definida positiva . La complejidad de este método es para entrenamiento y prueba. El costo es esencialmente el de la computación , mientras que el cálculo inverso (o más bien la solución del sistema lineal) es aproximadamente .

Mapas de características y teorema de Mercer

En esta sección se mostrará cómo extender RLS a cualquier tipo de kernel de reproducción K. En lugar de kernel lineal, se considera un mapa de características para algún espacio de Hilbert , llamado espacio de características. En este caso, el núcleo se define como: La matriz ahora se reemplaza por la nueva matriz de datos , donde , o el componente -ésimo del .

Significa eso para un conjunto de entrenamiento dado . Por tanto, la función objetivo se puede escribir como

Este enfoque se conoce como el truco del kernel . Esta técnica puede simplificar significativamente las operaciones computacionales. Si es de alta dimensión, la computación puede ser bastante intensiva. Si se conoce la forma explícita de la función del núcleo, solo necesitamos calcular y almacenar la matriz del núcleo .

De hecho, el espacio de Hilbert no necesita ser isomórfico y puede tener una dimensión infinita. Esto se sigue del teorema de Mercer , que establece que una función de núcleo definida positiva, simétrica y continua se puede expresar como

donde forman una base ortonormal para , y . Si los mapas de características se definen con componentes , eso se sigue . Esto demuestra que cualquier núcleo puede asociarse con un mapa de características y que RLS generalmente consiste en RLS lineal realizado en algún espacio de características posiblemente de mayor dimensión. Si bien el teorema de Mercer muestra cómo un mapa de características que se puede asociar con un kernel, de hecho, se pueden asociar múltiples mapas de características con un kernel de reproducción dado. Por ejemplo, el mapa satisface la propiedad de un kernel de reproducción arbitrario.

Interpretación bayesiana

Los mínimos cuadrados pueden verse como una maximización de la probabilidad bajo el supuesto de residuos distribuidos normalmente. Esto se debe a que el exponente de la distribución gaussiana es cuadrático en los datos, y también lo es la función objetivo de mínimos cuadrados. En este marco, los términos de regularización de RLS pueden ser entendidas para ser codifica priors en . Por ejemplo, la regularización de Tikhonov corresponde a un anterior distribuido normalmente que está centrado en 0. Para ver esto, primero observe que el objetivo de MCO es proporcional a la función logarítmica de verosimilitud cuando cada muestra se distribuye normalmente alrededor . Luego observe que un prior normal centrado en 0 tiene una probabilidad logarítmica de la forma

donde y son constantes que dependen de la varianza del anterior y son independientes de . Por lo tanto, minimizar el logaritmo de la probabilidad multiplicada por el anterior equivale a minimizar la suma de la función de pérdida de MCO y el término de regularización de la regresión de la cresta.

Esto da una interpretación más intuitiva de por qué la regularización de Tikhonov conduce a una solución única para el problema de mínimos cuadrados: hay infinitos vectores que satisfacen las restricciones obtenidas de los datos, pero como llegamos al problema con una creencia previa que se distribuye normalmente alrededor del origen, terminaremos eligiendo una solución con esta restricción en mente.

Otros métodos de regularización corresponden a diferentes anteriores. Consulte la lista a continuación para obtener más detalles.

Ejemplos específicos

Regresión de crestas (o regularización de Tikhonov)

Una opción particularmente común para la función de penalización es la norma al cuadrado , es decir,

Los nombres más comunes para esto se denominan regularización de Tikhonov y regresión de crestas . Admite una solución de forma cerrada para :

El nombre de regresión de cresta alude al hecho de que el término agrega entradas positivas a lo largo de la "cresta" diagonal de la matriz de covarianza muestral .

Cuando , es decir, en el caso de mínimos cuadrados ordinarios , la condición que hace que la matriz de covarianza de la muestra no tenga rango completo y, por lo tanto, no se pueda invertir para producir una solución única. Es por eso que puede haber una infinidad de soluciones al problema de mínimos cuadrados ordinarios cuando . Sin embargo, cuando , es decir, cuando se usa la regresión de crestas, la adición de a la matriz de covarianza muestral asegura que todos sus valores propios serán estrictamente mayores que 0. En otras palabras, se vuelve invertible y la solución se vuelve única.

En comparación con los mínimos cuadrados ordinarios, la regresión de crestas no es insesgada. Acepta poco sesgo para reducir la varianza y el error cuadrático medio , y ayuda a mejorar la precisión de la predicción. Por lo tanto, el estimador de crestas produce soluciones más estables al reducir los coeficientes, pero adolece de la falta de sensibilidad a los datos.

Regresión de lazo

El método de selección y contracción mínima absoluta (LASSO) es otra opción popular. En la regresión de lazo , la función de penalización de lazo es la norma , es decir

Tenga en cuenta que la función de penalización del lazo es convexa pero no estrictamente convexa. A diferencia de la regularización de Tikhonov , este esquema no tiene una solución conveniente de forma cerrada: en cambio, la solución generalmente se encuentra utilizando programación cuadrática o métodos de optimización convexa más generales , así como mediante algoritmos específicos como el algoritmo de regresión de ángulo mínimo .

Una diferencia importante entre la regresión de lazo y la regularización de Tikhonov es que la regresión de lazo fuerza más entradas de para ser realmente iguales a 0 que de otra manera. Por el contrario, si bien la regularización de Tikhonov obliga a que las entradas de sean pequeñas, no obliga a que más de ellas sean 0 de lo que sería de otra manera. Por lo tanto, la regularización LASSO es más apropiada que la regularización de Tikhonov en los casos en los que esperamos que el número de entradas distintas de cero sea ​​pequeño, y la regularización de Tikhonov es más apropiada cuando esperamos que las entradas de serán generalmente pequeñas pero no necesariamente cero. Cuál de estos regímenes es más relevante depende del conjunto de datos específicos disponibles.

Además de la selección de funciones descrita anteriormente, LASSO tiene algunas limitaciones. La regresión de crestas proporciona una mayor precisión en el caso de variables altamente correlacionadas. En otro caso, LASSO selecciona como máximo las variables. Además, LASSO tiende a seleccionar algunas variables arbitrarias de un grupo de muestras altamente correlacionadas, por lo que no hay efecto de agrupación.

0 Penalización

La forma más extrema de imponer la escasez es decir que la magnitud real de los coeficientes de no importa; más bien, lo único que determina la complejidad de es el número de entradas distintas de cero. Esto corresponde a configuración a ser la norma de . Esta función de regularización, aunque atractiva por la escasez que garantiza, es muy difícil de resolver porque hacerlo requiere la optimización de una función que ni siquiera es débilmente convexa . La regresión de lazo es la relajación mínima posible de la penalización que produce un problema de optimización débilmente convexo.

Red elástica

Para cualquier no negativo y el objetivo tiene la siguiente forma:

Deje , entonces la solución del problema de minimización se describe como:

para algunos .

Considérelo como una función de penalización de Elastic Net.

Cuando , la red elástica se convierte en regresión de la cresta, mientras que se convierte en Lazo. Función de penalización elástica neto no tiene la primera derivada a 0 y es estrictamente convexa teniendo las propiedades tanto de regresión Lasso y regresión contraída .

Una de las principales propiedades de Elastic Net es que puede seleccionar grupos de variables correlacionadas. La diferencia entre los vectores de peso de las muestras y viene dada por:

, donde .

Si y están altamente correlacionados ( ), los vectores de peso están muy cerca. En el caso de muestras correlacionadas negativamente ( ) se pueden tomar muestras . En resumen, para las variables altamente correlacionadas, los vectores de ponderación tienden a ser iguales hasta un signo en el caso de las variables correlacionadas negativamente.

Lista parcial de métodos RLS

La siguiente es una lista de posibles opciones de la función de regularización , junto con el nombre de cada una, la previa correspondiente si es simple y las formas de calcular la solución al problema de optimización resultante.

Nombre Función de regularización Correspondiente anterior Métodos para resolver
Regularización de Tikhonov Normal Forma cerrada
Regresión de lazo Laplace Descenso de gradiente proximal , regresión de ángulo mínimo
castigo - Selección hacia adelante , eliminación hacia atrás , uso de anteriores como picos y losas
Redes elásticas Mezcla normal y de Laplace Descenso de gradiente proximal
Regularización de variación total - Método Split-Bregman , entre otros

Ver también

Referencias

enlaces externos