Logit ordenado - Ordered logit

En estadística , el modelo logit ordenado (también regresión logística ordenada o modelo de probabilidades proporcionales ) es un modelo de regresión ordinal , es decir, un modelo de regresión para variables dependientes ordinales , considerado por primera vez por Peter McCullagh . Por ejemplo, si una pregunta de una encuesta debe ser respondida eligiendo entre "deficiente", "regular", "bueno" y "excelente" , y el propósito del análisis es ver qué tan bien se puede predecir esa respuesta mediante las respuestas a otras preguntas, algunas de las cuales pueden ser cuantitativas, se puede utilizar la regresión logística ordenada. Se puede considerar como una extensión del modelo de regresión logística que se aplica a las variables dependientes dicotómicas , permitiendo más de dos categorías de respuesta (ordenadas).

El modelo y el supuesto de probabilidades proporcionales

El modelo solo se aplica a los datos que cumplen con el supuesto de probabilidades proporcionales , cuyo significado se puede ejemplificar de la siguiente manera. Suponga que las proporciones de miembros de la población estadística que responderían "pobre", "regular", "bueno", "muy bueno" y "excelente" son respectivamente p ₁ , p ₂ , p ₃ , p ₄ , p ₅ . Entonces los logaritmos de las probabilidades (no los logaritmos de las probabilidades) de responder de cierta manera son:

{\ Displaystyle {\ begin {array} {rll} {\ text {pobre}}, & \ log {\ frac {p_ {1}} {p_ {2} + p_ {3} + p_ {4} + p_ { 5}}}, & 0 \\ [8pt] {\ text {deficiente o regular}}, & \ log {\ frac {p_ {1} + p_ {2}} {p_ {3} + p_ {4} + p_ {5}}}, & 1 \\ [8pt] {\ text {deficiente, regular o bueno}}, & \ log {\ frac {p_ {1} + p_ {2} + p_ {3}} {p_ { 4} + p_ {5}}}, & 2 \\ [8pt] {\ text {deficiente, regular, bueno o muy bueno}}, & \ log {\ frac {p_ {1} + p_ {2} + p_ {3} + p_ {4}} {p_ {5}}} y 3 \ end {array}}}

El supuesto de probabilidades proporcionales es que el número que se suma a cada uno de estos logaritmos para obtener el siguiente es el mismo en todos los casos. En otras palabras, estos logaritmos forman una secuencia aritmética. El modelo establece que el número en la última columna de la tabla (el número de veces que se debe sumar ese logaritmo) es una combinación lineal de las otras variables observadas.

Los coeficientes en la combinación lineal no se pueden estimar de manera consistente usando mínimos cuadrados ordinarios . Por lo general, se estiman utilizando la máxima probabilidad . Las estimaciones de máxima verosimilitud se calculan utilizando mínimos cuadrados reponderados iterativamente .

Ejemplos de categorías de respuesta ordenada múltiple incluyen calificaciones de bonos, encuestas de opinión con respuestas que van desde "totalmente de acuerdo" a "totalmente en desacuerdo", niveles de gasto estatal en programas gubernamentales (alto, medio o bajo), el nivel de cobertura de seguro elegido (ninguno , parcial o total) y situación laboral (no empleado, empleado a tiempo parcial o empleado a tiempo completo).

Suponga que el proceso subyacente a caracterizar es

{\ Displaystyle y ^ {*} = \ mathbf {x} ^ {\ mathsf {T}} \ beta + \ varepsilon, \,}

dónde está la variable dependiente exacta pero no observada (quizás el nivel exacto de acuerdo con la declaración propuesta por el encuestador); es el vector de variables independientes, es el término de error y es el vector de coeficientes de regresión que deseamos estimar. Supongamos además que, si bien no podemos observar , solo podemos observar las categorías de respuesta ${\ Displaystyle y ^ {*}}$ ${\ Displaystyle \ mathbf {x}}$ ${\ Displaystyle \ varepsilon}$ ${\ Displaystyle \ beta}$ ${\ Displaystyle y ^ {*}}$

{\ displaystyle y = {\ begin {cases} 0 & {\ text {if}} y ^ {*} \ leq \ mu _ {1}, \\ 1 & {\ text {if}} \ mu _ {1} < y ^ {*} \ leq \ mu _ {2}, \\ 2 & {\ text {if}} \ mu _ {2} <y ^ {*} \ leq \ mu _ {3}, \\\ vdots \ \ N & {\ text {if}} \ mu _ {N} <y ^ {*} \ end {cases}}}

donde los parámetros son los puntos finales impuestos externamente de las categorías observables. Luego, la técnica del logit ordenado usará las observaciones en y , que son una forma de datos censurados en y * , para ajustar el vector de parámetros . ${\ Displaystyle \ mu _ {i}}$ ${\ Displaystyle \ beta}$

Estimacion

Para obtener detalles sobre cómo se estima la ecuación, consulte el artículo Regresión ordinal .

Ver también

Referencias

Otras lecturas

Gelman, Andrew; Hill, Jennifer (2007). Análisis de datos mediante regresión y modelos jerárquicos / multinivel . Nueva York: Cambridge University Press. págs. 119-124. ISBN 978-0-521-68689-1 .
Hardin, James; Hilbe, Joseph (2007). Modelos lineales generalizados y extensiones (2ª ed.). College Station: Stata Press. ISBN 978-1-59718-014-6 .
Woodward, Mark (2005). Epidemiología: diseño de estudios y análisis de datos (2ª ed.). Chapman y Hall / CRC. ISBN 978-1-58488-415-6 .
Wooldridge, Jeffrey (2010). Análisis econométrico de datos de panel y de sección transversal (segunda edición). Cambridge: MIT Press. págs. 643–666. ISBN 978-0-262-23258-6 .

enlaces externos

Simon, Steve (22 de septiembre de 2004). "Tamaño de la muestra para un resultado ordinal" . ESTADÍSTICAS: el intento de STeve de enseñar estadística . Consultado el 22 de agosto de 2014 .
Rodríguez, Germán. "Modelos Logit pedidos" . Universidad de Princeton .

Languages

In other projects