Mínimos cuadrados lineales - Linear least squares

Mínimos cuadrados lineales ( LLS ) es la aproximación de mínimos cuadrados de funciones lineales a datos. Es un conjunto de formulaciones para resolver problemas estadísticos relacionados con la regresión lineal , que incluye variantes para residuos ordinarios (no ponderados), ponderados y generalizados (correlacionados) . Los métodos numéricos para mínimos cuadrados lineales incluyen invertir la matriz de las ecuaciones normales y métodos de descomposición ortogonal .

Formulaciones principales

Las tres formulaciones principales de mínimos cuadrados lineales son:

  • Los mínimos cuadrados ordinarios (MCO) es el estimador más común. Las estimaciones de MCO se utilizan comúnmente para analizar datos tanto experimentales como de observación .
    El método MCO minimiza la suma de los residuos al cuadrado y conduce a una expresión de forma cerrada para el valor estimado del vector de parámetro desconocido β :
    donde es un vector cuyo i- ésimo elemento es la i- ésima observación de la variable dependiente , y es una matriz cuyo ij elemento es la i- ésima observación de la j- ésima variable independiente . (Nota: es la inversa de Moore-Penrose ). El estimador es insesgado y consistente si los errores tienen varianza finita y no están correlacionados con los regresores:
    donde es la transpuesta de la fila
    i de la matriz. También es eficiente bajo el supuesto de que los errores tienen varianza finita y son homocedásticos , lo que significa que E [ ε i 2 | x i ] no depende de i . La condición de que los errores no estén correlacionados con los regresores generalmente se cumplirá en un experimento, pero en el caso de datos de observación, es difícil excluir la posibilidad de una covariable z omitida que esté relacionada tanto con las covariables observadas como con la variable de respuesta. . La existencia de tal covariable conducirá generalmente a una correlación entre los regresores y la variable de respuesta y, por lo tanto, a un estimador inconsistente de β . La condición de homocedasticidad puede fallar con datos experimentales u observacionales. Si el objetivo es la inferencia o el modelado predictivo, el rendimiento de las estimaciones de MCO puede ser deficiente si existe multicolinealidad , a menos que el tamaño de la muestra sea grande.
  • Los mínimos cuadrados ponderados (WLS) se utilizan cuando la heterocedasticidad está presente en los términos de error del modelo.
  • Los mínimos cuadrados generalizados (GLS) es una extensión del método MCO, que permite la estimación eficiente de β cuando hay heterocedasticidad , correlaciones, o ambas, entre los términos de error del modelo, siempre que se conozca la forma de heterocedasticidad y correlación. independientemente de los datos. Para manejar la heterocedasticidad cuando los términos de error no están correlacionados entre sí, GLS minimiza un análogo ponderado a la suma de los residuos cuadrados de la regresión OLS, donde el peso para el i- ésimo caso es inversamente proporcional a var ( ε i ). Este caso especial de GLS se llama "mínimos cuadrados ponderados". La solución GLS a un problema de estimación es
    donde Ω es la matriz de covarianza de los errores. Se puede considerar que GLS aplica una transformación lineal a los datos para que se cumplan los supuestos de OLS para los datos transformados. Para que se aplique GLS, la estructura de covarianza de los errores debe conocerse hasta una constante multiplicativa.

Formulaciones alternativas

Otras formulaciones incluyen:

  • Los mínimos cuadrados reponderados iterativamente (IRLS) se utilizan cuando hay heterocedasticidad o correlaciones, o ambos, entre los términos de error del modelo, pero cuando se sabe poco sobre la estructura de covarianza de los errores independientemente de los datos. En la primera iteración se realiza OLS o GLS con una estructura de covarianza provisional y los residuales se obtienen del ajuste. Con base en los residuos, generalmente se puede obtener una estimación mejorada de la estructura de covarianza de los errores. A continuación, se realiza una iteración GLS posterior utilizando esta estimación de la estructura de error para definir los pesos. El proceso se puede iterar hasta la convergencia, pero en muchos casos, solo una iteración es suficiente para lograr una estimación eficiente de β .
  • La regresión de variables instrumentales (IV) se puede realizar cuando los regresores están correlacionados con los errores. En este caso, necesitamos la existencia de algunas variables instrumentales auxiliares z i tales que E [ z i ε i ] = 0. Si Z es la matriz de instrumentos, entonces el estimador se puede dar en forma cerrada como
    La regresión de
    instrumentos óptimos es una extensión de la regresión IV clásica a la situación en la que E [ ε i | z i ] = 0 .
  • Los mínimos cuadrados totales (TLS) es un enfoque para la estimación de mínimos cuadrados del modelo de regresión lineal que trata las covariables y la variable de respuesta de una manera más simétrica geométricamente que MCO. Es un enfoque para manejar el problema de los "errores en las variables" y también se utiliza a veces incluso cuando se supone que las covariables no tienen errores.

Además, los mínimos cuadrados porcentuales se enfocan en reducir los errores porcentuales, lo cual es útil en el campo de la predicción o el análisis de series de tiempo. También es útil en situaciones donde la variable dependiente tiene un rango amplio sin varianza constante, ya que aquí los residuos más grandes en el extremo superior del rango dominarían si se usaran MCO. Cuando el porcentaje o error relativo se distribuye normalmente, la regresión porcentual de mínimos cuadrados proporciona estimaciones de máxima verosimilitud. La regresión porcentual está vinculada a un modelo de error multiplicativo, mientras que MCO está vinculado a modelos que contienen un término de error aditivo.

En mínimos cuadrados restringidos , uno está interesado en resolver un problema de mínimos cuadrados lineales con una restricción adicional en la solución.

Función objetiva

En MCO (es decir, asumiendo observaciones no ponderadas), el valor óptimo de la función objetivo se encuentra sustituyendo la expresión óptima por el vector de coeficientes:

donde , la última igualdad que se mantiene desde es simétrica e idempotente. De esto se puede demostrar que bajo una asignación apropiada de pesos, el valor esperado de S es m  -  n . Si en cambio se asumen pesos unitarios, el valor esperado de S es , donde es la varianza de cada observación.

Si se supone que los residuos pertenecen a una distribución normal, la función objetivo, siendo una suma de cuadrados de los residuos ponderados, pertenecerá a una chi-cuadrado ( ) de distribución con m  -  n grados de libertad . En la siguiente tabla se dan algunos valores de percentiles ilustrativos de .

10 9.34 18,3 23,2
25 24,3 37,7 44,3
100 99,3 124 136

Estos valores se pueden utilizar para un criterio estadístico en cuanto a la bondad del ajuste . Cuando se utilizan pesos unitarios, los números deben dividirse por la varianza de una observación.

Para WLS, la función objetivo ordinaria anterior se reemplaza por un promedio ponderado de residuos.

Discusión

En estadística y matemáticas , los mínimos cuadrados lineales son un enfoque para ajustar un

modelo matemático o estadístico a los datos en los casos en que el valor idealizado proporcionado por el modelo para cualquier punto de datos se expresa linealmente en términos de los parámetros desconocidos del modelo. El modelo ajustado resultante se puede utilizar para resumir los datos, predecir valores no observados del mismo sistema y comprender los mecanismos que pueden subyacer al sistema.

Matemáticamente, lineal de mínimos cuadrados es el problema de la solución de aproximadamente un sistema sobredeterminado de ecuaciones lineales A x = b , donde b no es un elemento del espacio de la columna de la matriz A . La solución aproximada se realiza como una solución exacta para A x = b 'en donde b' es la proyección de b en el espacio columna de A . La mejor aproximación es entonces la que minimiza la suma de las diferencias cuadradas entre los valores de los datos y sus correspondientes valores modelados. El enfoque se denomina mínimos cuadrados lineales ya que la función asumida es lineal en los parámetros a estimar. Los problemas lineales de mínimos cuadrados son convexos y tienen una solución de forma cerrada que es única, siempre que el número de puntos de datos utilizados para el ajuste iguale o exceda el número de parámetros desconocidos, excepto en situaciones especiales degeneradas. Por el contrario, los problemas de mínimos cuadrados no lineales generalmente deben resolverse mediante un procedimiento iterativo , y los problemas pueden ser no convexos con múltiples óptimos para la función objetivo. Si hay distribuciones anteriores disponibles, incluso un sistema indeterminado puede resolverse utilizando el estimador Bayesiano MMSE .

En estadística, los problemas de mínimos cuadrados lineales corresponden a un tipo particularmente importante de modelo estadístico llamado regresión lineal que surge como una forma particular de análisis de regresión . Una forma básica de tal modelo es un modelo ordinario de mínimos cuadrados . El presente artículo se concentra en los aspectos matemáticos de los problemas lineales de mínimos cuadrados, con la discusión de la formulación e interpretación de modelos de regresión estadística y las inferencias estadísticas relacionadas con estos que se tratan en los artículos que se acaban de mencionar. Consulte el esquema del análisis de regresión para obtener un resumen del tema.

Propiedades

Si los errores experimentales ,, no están correlacionados, tienen una media de cero y una varianza constante , el teorema de Gauss-Markov establece que el estimador de mínimos cuadrados,, tiene la varianza mínima de todos los estimadores que son combinaciones lineales de las observaciones. En este sentido, es el mejor u óptimo estimador de los parámetros. Nótese particularmente que esta propiedad es independiente de la función de distribución estadística de los errores. En otras palabras, la función de distribución de los errores no necesita ser una distribución normal . Sin embargo, para algunas distribuciones de probabilidad, no hay garantía de que la solución de mínimos cuadrados sea posible dadas las observaciones; aún así, en tales casos, el mejor estimador es lineal e insesgado.

Por ejemplo, es fácil demostrar que la media aritmética de un conjunto de medidas de una cantidad es el estimador de mínimos cuadrados del valor de esa cantidad. Si se aplican las condiciones del teorema de Gauss-Markov, la media aritmética es óptima, cualquiera que sea la distribución de errores de las medidas.

Sin embargo, en el caso de que los errores experimentales pertenezcan a una distribución normal, el estimador de mínimos cuadrados también es un estimador de máxima verosimilitud .

Estas propiedades sustentan el uso del método de mínimos cuadrados para todos los tipos de ajuste de datos, incluso cuando los supuestos no son estrictamente válidos.

Limitaciones

Un supuesto subyacente al tratamiento dado anteriormente es que la variable independiente, x , está libre de error. En la práctica, los errores en las mediciones de la variable independiente suelen ser mucho más pequeños que los errores en la variable dependiente y, por lo tanto, pueden ignorarse. Cuando este no es el caso , se deben utilizar modelos de mínimos cuadrados totales o, más generalmente, errores en las variables , o mínimos cuadrados rigurosos . Esto se puede hacer ajustando el esquema de ponderación para tener en cuenta los errores en las variables dependientes e independientes y luego siguiendo el procedimiento estándar.

En algunos casos, la matriz de ecuaciones normales (ponderadas) X T X está mal acondicionada . Al ajustar polinomios, la matriz de ecuaciones normales es una matriz de Vandermonde . Las matrices de Vandermonde se vuelven cada vez más mal condicionadas a medida que aumenta el orden de la matriz. En estos casos, la estimación de mínimos cuadrados amplifica el ruido de medición y puede ser muy inexacta. En tales casos se pueden aplicar varias técnicas de regularización , la más común de las cuales se llama regresión de crestas . Si se conoce más información sobre los parámetros, por ejemplo, un rango de posibles valores de , entonces se pueden usar varias técnicas para aumentar la estabilidad de la solución. Por ejemplo, consulte mínimos cuadrados restringidos .

Otro inconveniente del estimador de mínimos cuadrados es el hecho de que la norma de los residuales, se minimiza, mientras que en algunos casos uno está realmente interesado en obtener un pequeño error en el parámetro , por ejemplo, un pequeño valor de . Sin embargo, dado que el verdadero parámetro es necesariamente desconocido, esta cantidad no se puede minimizar directamente. Si una probabilidad previa en que se conoce, a continuación, un estimador de Bayes se puede utilizar para minimizar el error cuadrático medio , . El método de los mínimos cuadrados se aplica a menudo cuando no se conoce a priori. Sorprendentemente, cuando se estiman varios parámetros de forma conjunta, se pueden construir mejores estimadores, efecto conocido como fenómeno de Stein . Por ejemplo, si el error de medición es gaussiano , se conocen varios estimadores que dominan o superan a la técnica de mínimos cuadrados; el más conocido de ellos es el estimador de James-Stein . Este es un ejemplo de estimadores de contracción más generales que se han aplicado a problemas de regresión.

Aplicaciones

Usos en el ajuste de datos

La aplicación principal de los mínimos cuadrados lineales es el ajuste de datos . Dado un conjunto de m puntos de datos que consta de valores medidos experimentalmente tomados en m valores de una variable independiente ( pueden ser cantidades escalares o vectoriales), y dada una función de modelo con ella, se desea encontrar los parámetros de modo que la función del modelo sea "mejor" se ajusta a los datos. En mínimos cuadrados lineales, se supone que la linealidad es con respecto a los parámetros, por lo que

Aquí, las funciones pueden ser no lineales con respecto a la variable x .

Idealmente, la función del modelo se ajusta exactamente a los datos, por lo que

para todos Esto generalmente no es posible en la práctica, ya que hay más puntos de datos que parámetros por determinar. El enfoque elegido entonces es encontrar el valor mínimo posible de la suma de cuadrados de los residuos
para minimizar la función

Después de sustituir y luego por , este problema de minimización se convierte en el problema de minimización cuadrático anterior con

y el mejor ajuste se puede encontrar resolviendo las ecuaciones normales.

Ejemplo

Un gráfico de los puntos de datos (en rojo), la línea de mínimos cuadrados de mejor ajuste (en azul) y los residuos (en verde)

Como resultado de un experimento, se obtuvieron cuatro puntos de datos y (se muestra en rojo en el diagrama de la derecha). Esperamos encontrar una línea que se ajuste mejor a estos cuatro puntos. En otras palabras, nos gustaría encontrar los números y que resuelvan aproximadamente el sistema lineal sobredeterminado:

de cuatro ecuaciones en dos incógnitas en algún "mejor" sentido.

representa el residuo, en cada punto, entre el ajuste de la curva y los datos:

El enfoque de mínimos cuadrados para resolver este problema es tratar de hacer que la suma de los cuadrados de estos residuos sea lo más pequeña posible; es decir, para encontrar el mínimo de la función:

El mínimo se determina mediante el cálculo de las derivadas parciales de con respecto a y y estableciendo su valor a cero:

Esto da como resultado un sistema de dos ecuaciones en dos incógnitas, llamadas ecuaciones normales, que cuando se resuelven dan:

y la ecuación es la recta de mejor ajuste. Los residuales , es decir, las diferencias entre los valores de las observaciones y las variables predicadas utilizando la línea de mejor ajuste, se encuentran entonces como y (vea el diagrama de la derecha). El valor mínimo de la suma de cuadrados de los residuos es

De manera más general, se pueden tener regresores y un modelo lineal

Usando un modelo cuadrático

El resultado de ajustar una función cuadrática (en azul) a través de un conjunto de puntos de datos (en rojo). En mínimos cuadrados lineales, la función no necesita ser lineal en el argumento, sino solo en los parámetros que se determinan para dar el mejor ajuste.

Es importante destacar que en "mínimos cuadrados lineales", no estamos restringidos a usar una línea como modelo como en el ejemplo anterior. Por ejemplo, podríamos haber elegido el modelo cuadrático restringido . Este modelo sigue siendo lineal en el parámetro, por lo que aún podemos realizar el mismo análisis, construyendo un sistema de ecuaciones a partir de los puntos de datos:

Las derivadas parciales con respecto a los parámetros (esta vez solo hay uno) se calculan de nuevo y se ponen a 0:

y resuelto
conduciendo al modelo de mejor ajuste resultante

Ver también

Referencias

Otras lecturas

  • Bevington, Philip R .; Robinson, Keith D. (2003). Reducción de datos y análisis de errores para las ciencias físicas . McGraw-Hill. ISBN 978-0-07-247227-1.

enlaces externos