Regresión de componentes principales - Principal component regression

En estadística , la regresión de componentes principales ( PCR ) es una técnica de análisis de regresión que se basa en el análisis de componentes principales (PCA). Más específicamente, la PCR se utiliza para estimar los coeficientes de regresión desconocidos en un modelo de regresión lineal estándar .

En PCR, en lugar de hacer una regresión de la variable dependiente sobre las variables explicativas directamente, los componentes principales de las variables explicativas se utilizan como regresores . Por lo general, se utiliza solo un subconjunto de todos los componentes principales para la regresión, lo que hace que la PCR sea una especie de procedimiento regularizado y también un tipo de estimador de contracción .

A menudo, los componentes principales con varianzas más altas (los que se basan en los vectores propios correspondientes a los valores propios más altos de la matriz de varianza-covarianza de la muestra de las variables explicativas) se seleccionan como regresores. Sin embargo, para predecir el resultado, los componentes principales con variaciones bajas también pueden ser importantes, en algunos casos incluso más importantes.

Un uso importante de la PCR radica en superar el problema de la multicolinealidad que surge cuando dos o más de las variables explicativas están cerca de ser colineales . La PCR puede abordar adecuadamente estas situaciones al excluir algunos de los componentes principales de baja varianza en el paso de regresión. Además, al hacer una regresión generalmente en solo un subconjunto de todos los componentes principales, la PCR puede resultar en una reducción de la dimensión al reducir sustancialmente el número efectivo de parámetros que caracterizan el modelo subyacente. Esto puede ser particularmente útil en entornos con covariables de alta dimensión . Además, mediante la selección adecuada de los componentes principales que se utilizarán para la regresión, la PCR puede conducir a una predicción eficiente del resultado basada en el modelo asumido.

El principio

El método de PCR se puede dividir ampliamente en tres pasos principales:

1. Realice PCA en la matriz de datos observados para las variables explicativas para obtener los componentes principales, y luego (generalmente) seleccione un subconjunto, basado en algunos criterios apropiados, de los componentes principales así obtenidos para su uso posterior.
2. Ahora haga una regresión del vector observado de resultados en los componentes principales seleccionados como covariables, usando regresión de mínimos cuadrados ordinarios ( regresión lineal ) para obtener un vector de coeficientes de regresión estimados (con dimensión igual al número de componentes principales seleccionados).
3. Ahora transforme este vector de nuevo a la escala de las covariables reales, utilizando las cargas de PCA seleccionadas (los vectores propios correspondientes a los componentes principales seleccionados) para obtener el estimador de PCR final (con dimensión igual al número total de covariables) para estimar la coeficientes de regresión que caracterizan el modelo original.

Detalles del método

Representación de datos: Let denota el vector de los resultados observados y denotan la correspondiente matriz de datos de las covariables observadas donde, y denota el tamaño de la observada muestra y el número de covariables respectivamente, con . Cada una de las filas de denota un conjunto de observaciones para la covariable dimensional y la entrada respectiva de denota el resultado observado correspondiente.

Preprocesamiento de datos: Suponga que y cada una de las columnas de ya han sido centradas para que todas tengan cero medios empíricos . Este paso de centrado es crucial (al menos para las columnas de ) ya que PCR implica el uso de PCA y PCA es sensible al centrado de los datos.

Modelo subyacente: después del centrado, el modelo de regresión lineal estándar de Gauss-Markov para on se puede representar como: donde denota el vector de parámetro desconocido de coeficientes de regresión y denota el vector de errores aleatorios con y para algún parámetro de varianza desconocido

Objetivo: El objetivo principal es obtener un estimador eficiente para el parámetro , basado en los datos. Un método utilizado con frecuencia para esto es ordinaria de mínimos cuadrados de regresión que, suponiendo que es rango columna completa , da la estimador insesgado : de . La PCR es otra técnica que puede usarse con el mismo propósito de estimar .

Paso PCA: PCR comienza realizando un PCA en la matriz de datos centrada . Para esto, dejar que denotan la descomposición de valor singular de donde, con denotando los no negativos valores singulares de , mientras que las columnas de y son ambos conjuntos ortonormales de vectores que denotan los vectores singulares izquierdo y derecho de respectivamente.

Los componentes principales: da una descomposición espectral de donde con denota los valores propios no negativos (también conocidos como valores principales ) de , mientras que las columnas de denotan el conjunto ortonormal correspondiente de vectores propios. Luego, y respectivamente denotan el componente principal y la dirección del componente principal (o carga de PCA ) correspondiente al valor principal más grande para cada uno .

Covariables derivadas: para cualquiera , denotemos la matriz con columnas ortonormales que constan de las primeras columnas de . Deje que denotan la matriz que tiene los primeros componentes principales como sus columnas. puede verse como la matriz de datos obtenida usando las covariables transformadas en lugar de usar las covariables originales .

El estimador de PCR: Let denota el vector de coeficientes de regresión estimados obtenidos por mínimos cuadrados ordinarios de regresión del vector de respuesta en la matriz de datos . Entonces, para cualquier , el estimador de PCR final de basado en el uso de los primeros componentes principales está dada por: .

Características y aplicaciones fundamentales del estimador de PCR

Dos propiedades básicas

El proceso de ajuste para obtener el estimador de PCR implica la regresión del vector de respuesta en la matriz de datos derivados que tiene columnas ortogonales para cualquiera, ya que los componentes principales son mutuamente ortogonales entre sí. Por lo tanto, en el paso de regresión, realizar una regresión lineal múltiple en conjunto sobre los componentes principales seleccionados como covariables equivale a realizar regresiones lineales simples independientes (o regresiones univariadas) por separado en cada uno de los componentes principales seleccionados como covariable.

Cuando se seleccionan todos los componentes principales para la regresión , entonces el estimador de PCR es equivalente al estimador de mínimos cuadrados ordinarios. Por lo tanto, . Esto se ve fácilmente por el hecho de que y también observando que es una matriz ortogonal .

Reducción de varianza

Para cualquiera , la varianza de está dada por

En particular:

Por lo tanto, para todo lo que tenemos:

Así, para todo lo que tenemos:

donde indica que una matriz simétrica cuadrada es definida no negativa . En consecuencia, cualquier forma lineal dada del estimador de PCR tiene una varianza menor en comparación con la de la misma forma lineal del estimador de mínimos cuadrados ordinarios.

Abordar la multicolinealidad

Bajo multicolinealidad , dos o más de las covariables están altamente correlacionadas , de modo que una puede predecirse linealmente de las otras con un grado de precisión no trivial. En consecuencia, las columnas de la matriz de datos que corresponden a las observaciones para estas covariables tienden a volverse linealmente dependientes y, por lo tanto, tienden a tener un rango deficiente perdiendo su estructura de rango de columna completa. Más cuantitativamente, uno o más de los valores propios más pequeños de get (s) muy cerca o se vuelven exactamente iguales en tales situaciones. Las expresiones de varianza anteriores indican que estos pequeños valores propios tienen el máximo efecto de inflación sobre la varianza del estimador de mínimos cuadrados, desestabilizando así el estimador significativamente cuando están cerca de . Este problema se puede abordar de manera eficaz mediante el uso de un estimador de PCR obtenido al excluir los componentes principales correspondientes a estos pequeños valores propios.

Reducción de dimensión

La PCR también se puede utilizar para realizar la reducción de dimensiones . Para ver esto, denotemos cualquier matriz que tenga columnas ortonormales, para cualquier Suponga ahora que queremos aproximar cada una de las observaciones de covariables a través de la transformación lineal de rango para algunas .

Entonces, se puede demostrar que

se minimiza en la matriz con las direcciones del primer componente principal como columnas y las covariables derivadas dimensionales correspondientes . Por tanto, los componentes principales dimensionales proporcionan la mejor aproximación lineal de rango a la matriz de datos observados .

El error de reconstrucción correspondiente viene dado por:

Por lo tanto, cualquier reducción de dimensión potencial puede lograrse eligiendo el número de componentes principales que se utilizarán, mediante el establecimiento de un umbral apropiado sobre la suma acumulativa de los valores propios de . Dado que los valores propios más pequeños no contribuyen de manera significativa a la suma acumulada, los componentes principales correspondientes pueden continuar disminuyendo siempre que no se exceda el límite umbral deseado. También se pueden utilizar los mismos criterios para abordar la cuestión de la multicolinealidad , por lo que los componentes principales correspondientes a los valores propios más pequeños pueden ignorarse siempre que se mantenga el límite de umbral.

Efecto de regularización

Dado que el estimador de PCR generalmente usa solo un subconjunto de todos los componentes principales para la regresión, puede verse como una especie de procedimiento regularizado . Más específicamente, para cualquiera , el estimador de PCR denota la solución regularizada al siguiente problema de minimización restringida :

La restricción se puede escribir de forma equivalente como:

dónde:

Por lo tanto, cuando solo se selecciona un subconjunto adecuado de todos los componentes principales para la regresión, el estimador de PCR así obtenido se basa en una forma rígida de regularización que restringe la solución resultante al espacio de columna de las direcciones de los componentes principales seleccionados y, en consecuencia, lo restringe. ser ortogonal a las direcciones excluidas.

Optimidad de la PCR entre una clase de estimadores regularizados

Dado el problema de minimización restringido como se define anteriormente, considere la siguiente versión generalizada del mismo:

donde, denota cualquier matriz de rango de columna completa de orden con .

Deje que denote la solución correspondiente. Por lo tanto

Entonces, la elección óptima de la matriz de restricción para la cual el estimador correspondiente alcanza el error de predicción mínimo viene dada por:

dónde

Claramente, el estimador óptimo resultante es dado simplemente por el estimador de PCR basado en los primeros componentes principales.

Eficiencia

Dado que el estimador de mínimos cuadrados ordinarios es insesgado para , tenemos

donde, MSE denota el error cuadrático medio . Ahora, si para algunos , además tenemos:, entonces el correspondiente también es insesgado para y por lo tanto

Ya hemos visto que

que luego implica:

para ese en particular . Así, en ese caso, el correspondiente sería un estimador más eficiente de comparado con , basado en el uso del error cuadrático medio como criterio de desempeño. Además, cualquier forma lineal dada del correspondiente también tendría un error cuadrático medio más bajo en comparación con el de la misma forma lineal de .

Ahora suponga eso para un hecho . Entonces el correspondiente está sesgado a favor . Sin embargo, desde

todavía es posible que , especialmente si es tal que los componentes principales excluidos corresponden a los valores propios más pequeños, lo que resulta en un sesgo más bajo .

Para asegurar un desempeño eficiente de estimación y predicción de PCR como estimador de , Park (1981) propone la siguiente guía para seleccionar los componentes principales que se usarán para la regresión: Eliminar el componente principal si y solo si Implementación práctica de esta guía, por supuesto requiere estimaciones para los parámetros del modelo desconocidos y . En general, se pueden estimar utilizando las estimaciones de mínimos cuadrados sin restricciones obtenidas del modelo completo original. Park (1981), sin embargo, proporciona un conjunto de estimaciones ligeramente modificado que puede ser más adecuado para este propósito.

A diferencia de los criterios basados ​​en la suma acumulativa de los valores propios de , que probablemente sea más adecuado para abordar el problema de la multicolinealidad y para realizar la reducción de dimensiones, los criterios anteriores en realidad intentan mejorar la eficiencia de predicción y estimación del estimador de PCR al involucrar tanto el resultado así como las covariables en el proceso de selección de los componentes principales que se utilizarán en el paso de regresión. Los enfoques alternativos con objetivos similares incluyen la selección de los componentes principales basados ​​en la validación cruzada o los criterios C p de Mallow . A menudo, los componentes principales también se seleccionan en función de su grado de asociación con el resultado.

Efecto de contracción de la PCR

En general, la PCR es esencialmente un estimador de contracción que generalmente retiene los componentes principales de alta varianza (correspondientes a los valores propios más altos de ) como covariables en el modelo y descarta los componentes restantes de baja varianza (correspondientes a los valores propios más bajos de ). Por lo tanto, ejerce un efecto de contracción discreto sobre los componentes de baja varianza anulando su contribución por completo en el modelo original. Por el contrario, el estimador de regresión de crestas ejerce un efecto de contracción suave a través del parámetro de regularización (o el parámetro de ajuste) inherentemente involucrado en su construcción. Si bien no descarta por completo ninguno de los componentes, ejerce un efecto de contracción sobre todos ellos de manera continua, de modo que el grado de contracción es mayor para los componentes de baja variación y menor para los componentes de alta variación. Frank y Friedman (1993) concluyen que a los efectos de la predicción en sí, el estimador de crestas, debido a su efecto de contracción suave, es quizás una mejor opción en comparación con el estimador de PCR que tiene un efecto de contracción discreto.

Además, los componentes principales se obtienen de la descomposición propia de que involucra las observaciones para las variables explicativas únicamente. Por lo tanto, el estimador de PCR resultante obtenido al usar estos componentes principales como covariables no necesita necesariamente tener un desempeño predictivo satisfactorio para el resultado. Un estimador algo similar que intenta abordar este problema a través de su propia construcción es el estimador de mínimos cuadrados parciales (PLS). De manera similar a la PCR, PLS también usa covariables derivadas de dimensiones más bajas. Sin embargo, a diferencia de la PCR, las covariables derivadas de PLS se obtienen basándose tanto en el resultado como en las covariables. Mientras que la PCR busca las direcciones de alta varianza en el espacio de las covariables, PLS busca las direcciones en el espacio de las covariables que son más útiles para la predicción del resultado.

Recientemente, Bair, Hastie, Paul y Tibshirani (2006) propusieron una variante de la PCR clásica conocida como PCR supervisada . Con un espíritu similar al de PLS, intenta obtener covariables derivadas de dimensiones inferiores basándose en un criterio que involucra tanto el resultado como las covariables. El método comienza realizando un conjunto de regresiones lineales simples (o regresiones univariadas) en las que el vector de resultado se regresa por separado en cada una de las covariables tomadas una a la vez. Luego, para algunos , las primeras covariables que resultan ser las más correlacionadas con el resultado (según el grado de significancia de los coeficientes de regresión estimados correspondientes) se seleccionan para su uso posterior. Luego se realiza una PCR convencional, como se describió anteriormente, pero ahora se basa únicamente en la matriz de datos correspondiente a las observaciones para las covariables seleccionadas. El número de covariables utilizadas: y el número subsiguiente de componentes principales utilizados: normalmente se seleccionan mediante validación cruzada .

Generalización a la configuración del kernel

El método de PCR clásico descrito anteriormente se basa en el PCA clásico y considera un modelo de regresión lineal para predecir el resultado basado en las covariables. Sin embargo, se puede generalizar fácilmente a una configuración de máquina de kernel en la que la función de regresión no tiene por qué ser necesariamente lineal en las covariables, sino que puede pertenecer al Espacio de Hilbert de reproducción del kernel asociado con cualquier arbitrario (posiblemente no lineal ), simétrico positivo- núcleo definido . El modelo de regresión lineal resulta ser un caso especial de esta configuración cuando se elige la función del núcleo para que sea el núcleo lineal .

En general, bajo la configuración de la máquina del kernel , el vector de covariables se mapea primero en un espacio de características de alta dimensión (potencialmente de dimensión infinita ) caracterizado por la función del kernel elegida. El mapeo así obtenido se conoce como mapa de características y cada una de sus coordenadas , también conocidas como elementos de características , corresponde a una característica (puede ser lineal o no lineal ) de las covariables. La función de regresión entonces se supone que es una combinación lineal de estos elementos de características . Por lo tanto, el modelo de regresión subyacente en la configuración de la máquina del kernel es esencialmente un modelo de regresión lineal con el entendimiento de que, en lugar del conjunto original de covariables, los predictores ahora están dados por el vector (potencialmente de dimensión infinita ) de elementos característicos obtenidos al transformar el covariables reales utilizando el mapa de características .

Sin embargo, el truco del kernel realmente nos permite operar en el espacio de características sin siquiera calcular explícitamente el mapa de características . Resulta que solo es suficiente calcular los productos internos por pares entre los mapas de características para los vectores de covariables observados y estos productos internos están simplemente dados por los valores de la función del núcleo evaluados en los pares correspondientes de vectores de covariables. Por lo tanto, los productos internos por pares así obtenidos pueden representarse en forma de una matriz definida simétrica no negativa también conocida como matriz de núcleo .

La PCR en la configuración de la máquina del kernel ahora se puede implementar al centrar primero apropiadamente esta matriz del kernel (K, digamos) con respecto al espacio de características y luego realizar una PCA del kernel en la matriz del kernel centrada (K ', digamos) mediante la cual una descomposición propia de K ' es obtenido. Luego, la PCR del núcleo procede (normalmente) seleccionando un subconjunto de todos los autovectores así obtenidos y luego realizando una regresión lineal estándar del vector de resultado en estos autovectores seleccionados . Los autovectores que se utilizarán para la regresión generalmente se seleccionan mediante validación cruzada . Los coeficientes de regresión estimados (que tienen la misma dimensión que el número de autovectores seleccionados) junto con los autovectores seleccionados correspondientes se utilizan para predecir el resultado de una observación futura. En el aprendizaje automático , esta técnica también se conoce como regresión espectral .

Claramente, la PCR del núcleo tiene un efecto de contracción discreto sobre los vectores propios de K ', bastante similar al efecto de contracción discreta de la PCR clásica sobre los componentes principales, como se discutió anteriormente. Sin embargo, el mapa de características asociado con el núcleo elegido podría ser potencialmente de dimensión infinita y, por lo tanto, los componentes principales correspondientes y las direcciones de los componentes principales también podrían ser de dimensión infinita. Por lo tanto, estas cantidades a menudo son prácticamente intratables bajo la configuración de la máquina de granos. La PCR del núcleo esencialmente soluciona este problema al considerar una formulación dual equivalente basada en el uso de la descomposición espectral de la matriz del núcleo asociada. Bajo el modelo de regresión lineal (que corresponde a elegir la función del kernel como el kernel lineal), esto equivale a considerar una descomposición espectral de la matriz kernel correspondiente y luego hacer una regresión del vector de resultado en un subconjunto seleccionado de los autovectores así obtenidos. Se puede demostrar fácilmente que esto es lo mismo que hacer una regresión del vector de resultado en los componentes principales correspondientes (que son de dimensión finita en este caso), como se define en el contexto de la PCR clásica. Por tanto, para el núcleo lineal, la PCR de núcleo basada en una formulación dual es exactamente equivalente a la PCR clásica basada en una formulación primaria. Sin embargo, para núcleos arbitrarios (y posiblemente no lineales), esta formulación primaria puede volverse intratable debido a la dimensionalidad infinita del mapa de características asociado. Por tanto, la PCR clásica se vuelve prácticamente inviable en ese caso, pero la PCR del núcleo basada en la formulación dual sigue siendo válida y escalable computacionalmente.

Ver también

Referencias

Otras lecturas