Modelos de errores en variables - Errors-in-variables models

En estadística , los modelos de errores en las variables o los modelos de errores de medición son modelos de regresión que tienen en cuenta los errores de medición en las variables independientes . Por el contrario, los modelos de regresión estándar asumen que esos regresores se han medido con exactitud o se han observado sin error; como tal, esos modelos solo tienen en cuenta los errores en las variables dependientes o respuestas.

Ilustración de la dilución de la regresión (o sesgo de atenuación) mediante un rango de estimaciones de regresión en modelos de errores en las variables. Dos líneas de regresión (rojas) delimitan el rango de posibilidades de regresión lineal. La pendiente poco profunda se obtiene cuando la variable independiente (o predictor) está en la abscisa (eje x). La pendiente más pronunciada se obtiene cuando la variable independiente está en la ordenada (eje y). Por convención, con la variable independiente en el eje x, se obtiene la pendiente menos profunda. Las líneas de referencia verdes son promedios dentro de contenedores arbitrarios a lo largo de cada eje. Tenga en cuenta que las estimaciones de regresión verde y roja más pronunciadas son más consistentes con errores más pequeños en la variable del eje y.

En el caso de que algunos regresores se hayan medido con errores, la estimación basada en el supuesto estándar conduce a estimaciones inconsistentes , lo que significa que las estimaciones de los parámetros no tienden a los valores reales incluso en muestras muy grandes. Para la regresión lineal simple, el efecto es una subestimación del coeficiente, conocido como sesgo de atenuación . En modelos no lineales, es probable que la dirección del sesgo sea más complicada.

Ejemplo motivador

Considere un modelo de regresión lineal simple de la forma

donde denota el regresor verdadero pero no observado . En cambio, observamos este valor con un error:

donde se supone que el error de medición es independiente del valor real .

Si los ′ s simplemente se retroceden sobre los ′ s (ver regresión lineal simple ), entonces el estimador del coeficiente de pendiente es

que converge a medida que aumenta el tamaño de la muestra sin límite:

Las varianzas no son negativas, por lo que en el límite la estimación es menor en magnitud que el valor real de , un efecto que los estadísticos denominan atenuación o dilución de regresión . Por lo tanto, el estimador de mínimos cuadrados "ingenuo" es inconsistente en este contexto. Sin embargo, el estimador es un estimador consistente del parámetro requerido para un mejor predictor lineal de dado : en algunas aplicaciones esto puede ser lo que se requiere, en lugar de una estimación del coeficiente de regresión 'verdadero', aunque eso supondría que la varianza de los errores en la observación permanecen fijos. Esto se sigue directamente del resultado citado inmediatamente arriba, y el hecho de que el coeficiente de regresión que relaciona los ′ s con los ′ s realmente observados , en una regresión lineal simple, viene dado por

Es este coeficiente, en lugar de , el que se requeriría para construir un predictor de basado en un observado que está sujeto a ruido.

Se puede argumentar que casi todos los conjuntos de datos existentes contienen errores de diferente naturaleza y magnitud, por lo que el sesgo de atenuación es extremadamente frecuente (aunque en la regresión multivariante la dirección del sesgo es ambigua). Jerry Hausman ve esto como una ley férrea de la econometría : "La magnitud de la estimación suele ser menor de lo esperado".

Especificación

Por lo general, los modelos de error de medición se describen utilizando el enfoque de variables latentes . Si es la variable de respuesta y son valores observados de los regresores, entonces se supone que existen algunas variables latentes y que siguen la relación funcional “verdadera” del modelo , y tales que las cantidades observadas son sus observaciones ruidosas:

donde es el parámetro del modelo y son aquellos regresores que se asumen libres de errores (por ejemplo, cuando la regresión lineal contiene una intersección, el regresor que corresponde a la constante ciertamente no tiene "errores de medición"). Dependiendo de la especificación, estos regresores libres de errores pueden o no ser tratados por separado; en el último caso, simplemente se asume que las entradas correspondientes en la matriz de varianza de s son cero.

Las variables , , son todos observaron , lo que significa que el estadístico posee un conjunto de datos de las unidades estadísticas que siguen el proceso de generación de datos descrito anteriormente; las variables latentes , , , y no se observaron sin embargo.

Esta especificación no abarca todos los modelos de errores en variables existentes. Por ejemplo, en algunos de ellos la función puede ser no paramétrica o semiparamétrica. Otros enfoques modelan la relación entre y como distributivo en lugar de funcional, es decir, asumen que condicionalmente sigue una cierta distribución (generalmente paramétrica).

Terminología y supuestos

  • La variable observada puede denominarse manifiesto , indicador o variable proxy .
  • La variable no observada puede denominarse variable latente o verdadera . Puede considerarse como una constante desconocida (en cuyo caso el modelo se denomina modelo funcional ) o como una variable aleatoria (correspondientemente un modelo estructural ).
  • La relación entre el error de medición y la variable latente se puede modelar de diferentes formas:
    • Errores clásicos : los errores son independientes de la variable latente. Esta es la suposición más común, implica que los errores son introducidos por el dispositivo de medición y su magnitud no depende del valor que se esté midiendo.
    • Independencia de la media : los errores son una media de cero para cada valor del regresor latente. Este es un supuesto menos restrictivo que el clásico, ya que permite la presencia de heterocedasticidad u otros efectos en los errores de medición.
    • Errores de Berkson :los errores son independientes delregresor x observado . Esta suposición tiene una aplicabilidad muy limitada. Un ejemplo son los errores de redondeo: por ejemplo, si la edad * de una personaes una variable aleatoria continua , mientras que la edad observadase trunca al siguiente entero más pequeño, entonces el error de truncamiento es aproximadamente independiente de la edad observada. Otra posibilidad es con el experimento de diseño fijo: por ejemplo, si un científico decide realizar una medición en un determinado momento predeterminado, digamos en, entonces la medición real puede ocurrir en algún otro valor de(por ejemplo, debido a su tiempo de reacción finito ) y dicho error de medición será generalmente independiente del valor "observado" del regresor.
    • Errores de clasificación errónea : caso especial utilizado para los regresores ficticios . Si es un indicador de un determinado evento o condición (como la persona es hombre / mujer, algún tratamiento médico dado / no, etc.), entonces el error de medición en dicho regresor corresponderá a la clasificación incorrecta similar al tipo I y al tipo II. errores en las pruebas estadísticas. En este caso, el error puede tomar solo 3 valores posibles, y su distribución condicionada a se modela con dos parámetros:, y . La condición necesaria para la identificación es que la clasificación errónea no debería ocurrir "con demasiada frecuencia". (Esta idea se puede generalizar a variables discretas con más de dos valores posibles).

Modelo lineal

Los modelos de errores lineales en variables se estudiaron primero, probablemente porque los modelos lineales se usaban mucho y son más fáciles que los no lineales. A diferencia de la regresión estándar de mínimos cuadrados (MCO), extender los errores en la regresión de variables (EiV) del caso simple al multivariable no es sencillo.

Modelo lineal simple

El modelo simple de errores lineales en variables ya se presentó en la sección "motivación":

donde todas las variables son escalares . Aquí α y β son los parámetros de interés, mientras que σ ε y σ η —desviaciones estándar de los términos de error— son los parámetros molestos . El regresor "verdadero" x * se trata como una variable aleatoria ( modelo estructural ), independiente del error de medición η ( supuesto clásico ).

Este modelo es identificable en dos casos: (1) o el regresor latente x * no está distribuido normalmente , (2) o x * tiene distribución normal, pero ni ε t ni η t son divisibles por una distribución normal. Es decir, los parámetros α , β se pueden estimar consistentemente a partir del conjunto de datos sin ninguna información adicional, siempre que el regresor latente no sea gaussiano.

Antes de que se estableciera este resultado de identificabilidad, los estadísticos intentaron aplicar la técnica de máxima verosimilitud asumiendo que todas las variables son normales y luego concluyeron que el modelo no está identificado. El remedio sugerido fue asumir que algunos de los parámetros del modelo son conocidos o pueden estimarse a partir de una fuente externa. Dichos métodos de estimación incluyen

  • Regresión de Deming : se supone que se conoce la relación δ = σ² ε / σ² η . Esto podría ser apropiado, por ejemplo, cuando los errores en y y x son ambos causados ​​por mediciones y se conoce la precisión de los dispositivos o procedimientos de medición. El caso en el que δ = 1 también se conoce como regresión ortogonal .
  • Regresión con razón de confiabilidad conocida λ = σ² / ( σ² η + σ² ), donde σ² es la varianza del regresor latente. Este enfoque puede ser aplicable, por ejemplo, cuando se dispone de mediciones repetidas de la misma unidad o cuando se conoce el índice de confiabilidad a partir del estudio independiente. En este caso, la estimación constante de la pendiente es igual a la estimación de mínimos cuadrados dividida por λ .
  • La regresión con σ² η conocido puede ocurrir cuando se conoce la fuente de los errores en x y se puede calcular su varianza. Esto podría incluir errores de redondeo o errores introducidos por el dispositivo de medición. Cuando se conoce σ² η podemos calcular la relación de confiabilidad como λ = ( σ² x - σ² η ) / σ² x y reducir el problema al caso anterior.

Los métodos de estimación más nuevos que no asumen el conocimiento de algunos de los parámetros del modelo, incluyen

  • Método de momentos: el estimador GMM basado en acumuladores conjuntos de tercer (o superior) orden de variables observables. El coeficiente de pendiente se puede estimar a partir de

    donde ( n 1 , n 2 ) son tales que K ( n 1 +1, n 2 ) - el conjunto acumulativo de ( x , y ) - no es cero. En el caso de que el tercer momento central del regresor latente x * sea ​​distinto de cero, la fórmula se reduce a

  • Variables instrumentales : una regresión que requiere que estén disponibles ciertas variables de datos adicionales z , llamadas instrumentos . Estas variables no deben estar correlacionadas con los errores en la ecuación para la variable dependiente (resultado) ( válida ), y también deben estar correlacionadas ( relevantes ) con los regresores verdaderos x * . Si se pueden encontrar tales variables, entonces el estimador toma la forma

Modelo lineal multivariable

El modelo multivariable se ve exactamente como el modelo lineal simple, solo que esta vez β , η t , x t y x * t son k × 1 vectores.

En el caso de que ( ε t , η t ) sea conjuntamente normal, el parámetro β no se identifica si y solo si hay una matriz de bloques k × k no singular  [ a A ], donde a es un vector k × 1 tal que a′x *  se distribuye normalmente e independientemente de  A′x * . En el caso de que ε t , η t1 , ..., η tk sean mutuamente independientes, el parámetro  β  no se identifica si y solo si, además de las condiciones anteriores, algunos de los errores se pueden escribir como la suma de dos variables independientes uno de los cuales es normal.

Algunos de los métodos de estimación para modelos lineales multivariables son

  • Los mínimos cuadrados totales son una extensión de la regresión de Deming al entorno multivariable. Cuando todos los componentes k +1 del vector ( ε , η ) tienen varianzas iguales y son independientes, esto equivale a ejecutar la regresión ortogonal de y en el vector x , es decir, la regresión que minimiza la suma de las distancias al cuadrado entre puntos ( y t , x t ) y el hiperplano k -dimensional de "mejor ajuste".
  • El estimador del método de momentos se puede construir con base en las condiciones de momento E [ z t · ( y t - α - β'x t )] = 0, donde se define el vector (5 k +3) -dimensional de instrumentos z t como

    donde designa el producto de matrices de Hadamard , y las variables x t , y t se han degradado preliminarmente. Los autores del método sugieren utilizar el estimador IV modificado de Fuller.

    Este método puede ampliarse para utilizar momentos superiores al tercer orden, si es necesario, y para acomodar variables medidas sin error.
  • El enfoque de variables instrumentales requiere encontrar variables de datos adicionales z t que servirían como instrumentos para los regresores x t mal medidos . Este método es el más simple desde el punto de vista de la implementación, sin embargo, su desventaja es que requiere recolectar datos adicionales, lo que puede ser costoso o incluso imposible. Cuando se pueden encontrar los instrumentos, el estimador toma forma estándar

Modelos no lineales

Se forma un modelo genérico de error de medición no lineal

Aquí la función g puede ser paramétrica o no paramétrica. Cuando la función g es paramétrica, se escribirá como g (x *, β) .

Para un regresor general con valores vectoriales x *, se desconocen las condiciones para la identificabilidad del modelo . Sin embargo, en el caso del escalar x *, el modelo se identifica a menos que la función g sea ​​de la forma "log-exponencial"

y el regresor latente x * tiene densidad

donde las constantes A, B, C, D, E, F pueden depender de a, b, c, d .

A pesar de este resultado optimista, hasta el momento no existen métodos para estimar modelos de errores en variables no lineales sin información ajena. Sin embargo, hay varias técnicas que hacen uso de algunos datos adicionales: las variables instrumentales o las observaciones repetidas.

Métodos de variables instrumentales

  • El método de momentos simulados de Newey para modelos paramétricos requiere que haya un conjunto adicional de variables predictoras observadas z t , de modo que el regresor verdadero se pueda expresar como

    donde π 0 y σ 0 son matrices constantes (desconocidas), y ζ tz t . El coeficiente π 0 se puede estimar utilizando la regresión estándar de mínimos cuadrados de x sobre z . La distribución de ζ t es desconocida, sin embargo, podemos modelarla como perteneciente a una familia paramétrica flexible: la serie de Edgeworth :

    donde ϕ es la distribución normal estándar .

    Los momentos simulados se pueden calcular utilizando el algoritmo de muestreo de importancia : primero generamos varias variables aleatorias { v ts ~ ϕ , s = 1,…, S , t = 1,…, T } a partir de la distribución normal estándar, luego calculamos los momentos en t -ésima observación como

    donde θ = ( β , σ , γ ), A es solo una función de las variables instrumentales z , y H es un vector de momentos de dos componentes

    Con las funciones de momento m t se puede aplicar la técnica GMM estándar para estimar el parámetro desconocido θ .

Observaciones repetidas

En este enfoque se encuentran disponibles dos (o quizás más) observaciones repetidas del regresor x * . Ambas observaciones contienen sus propios errores de medición, sin embargo, se requiere que esos errores sean independientes:

donde x *η 1η 2 . Las variables η 1 , η 2 no necesitan estar distribuidas de manera idéntica (aunque si son, la eficiencia del estimador puede mejorarse ligeramente). Con solo estas dos observaciones es posible estimar consistentemente la función de densidad de x * usando la técnica de deconvolución de Kotlarski .

  • El método de densidad condicional de Li para modelos paramétricos. La ecuación de regresión se puede escribir en términos de las variables observables como

    donde sería posible calcular la integral si conociéramos la función de densidad condicional ƒ x * | x . Si esta función pudiera conocerse o estimarse, entonces el problema se convierte en una regresión no lineal estándar, que puede estimarse, por ejemplo, utilizando el método NLLS .
    Suponiendo, por simplicidad, que η 1 , η 2 se distribuyen de forma idéntica, esta densidad condicional se puede calcular como

    donde con un ligero abuso de la notación x j denota la j -ésima componente de un vector.
    Todas las densidades de esta fórmula se pueden estimar mediante la inversión de las funciones características empíricas . En particular,

    Para invertir esta función característica, se debe aplicar la transformada de Fourier inversa, con un parámetro de recorte C necesario para asegurar la estabilidad numérica. Por ejemplo:

  • Estimador de Schennach para un modelo paramétrico lineal en parámetros no lineal en variables. Este es un modelo de la forma

    donde w t representa variables medidas sin errores. El regresor x * aquí es escalar (el método también se puede extender al caso del vector x * ).
    Si no fuera por los errores de medición, este habría sido un modelo lineal estándar con el estimador

    dónde

    Resulta que todos los valores esperados en esta fórmula son estimables usando el mismo truco de deconvolución. En particular, para un observable genérico w t (que podría ser 1, w 1 t ,…, w ℓ t , o y t ) y alguna función h (que podría representar cualquier g j o g i g j ) tenemos

    donde φ h es la transformada de Fourier de h ( x * ), pero usando la misma convención que para las funciones características ,

    ,

    y

    El estimador resultante es consistente y asintóticamente normal.
  • Estimador de Schennach para un modelo no paramétrico. El estimador estándar de Nadaraya-Watson para un modelo no paramétrico toma forma
    para una elección adecuada del kernel K y el ancho de banda h . Ambas expectativas aquí se pueden estimar utilizando la misma técnica que en el método anterior.

Referencias

Otras lecturas

enlaces externos