Índice de dispersión - Index of dispersion

En teoría y estadística de probabilidad , el índice de dispersión , índice de dispersión, coeficiente de dispersión, varianza relativa o razón de varianza a media (VMR) , como el coeficiente de variación , es una medida normalizada de la dispersión de una distribución de probabilidad : es una medida utilizada para cuantificar si un conjunto de ocurrencias observadas están agrupadas o dispersas en comparación con un modelo estadístico estándar.

Se define como la relación entre la varianza y la media ,

También se conoce como factor Fano , aunque este término a veces se reserva para datos en ventana (la media y la varianza se calculan sobre una subpoblación), donde el índice de dispersión se usa en el caso especial donde la ventana es infinita. Los datos de ventana se realizan con frecuencia: el VMR se calcula con frecuencia en varios intervalos en el tiempo o pequeñas regiones en el espacio, que pueden llamarse "ventanas", y la estadística resultante se llama factor Fano.

Solo se define cuando la media es distinta de cero y generalmente solo se usa para estadísticas positivas, como datos de conteo o tiempo entre eventos, o cuando se supone que la distribución subyacente es la distribución exponencial o la distribución de Poisson .

Terminología

En este contexto, el conjunto de datos observado puede consistir en los tiempos de ocurrencia de eventos predefinidos, tales como terremotos en una región dada sobre una magnitud dada, o de las ubicaciones en el espacio geográfico de plantas de una especie dada. Los detalles de tales ocurrencias se convierten primero en recuentos del número de eventos o ocurrencias en cada uno de un conjunto de regiones de tiempo o espacio de igual tamaño.

Lo anterior define un índice de dispersión para los recuentos . Se aplica una definición diferente para un índice de dispersión para intervalos , donde las cantidades tratadas son las longitudes de los intervalos de tiempo entre los eventos. El uso común es que "índice de dispersión" significa el índice de dispersión para los recuentos.

Interpretación

Algunas distribuciones, sobre todo la distribución de Poisson , tienen la misma varianza y media, lo que les da un VMR = 1. La distribución geométrica y la distribución binomial negativa tienen VMR> 1, mientras que la distribución binomial tiene VMR <1 y la variable aleatoria constante tiene VMR = 0. Esto produce la siguiente tabla:

Distribución VMR
variable aleatoria constante VMR = 0 no disperso
Distribución binomial 0 <VMR <1 poco disperso
distribución de veneno VMR = 1
distribución binomial negativa VMR> 1 demasiado disperso

Esto puede considerarse análogo a la clasificación de secciones cónicas por excentricidad ; consulte Acumulantes de distribuciones de probabilidad particulares para obtener más detalles.

La relevancia del índice de dispersión es que tiene un valor de uno cuando la distribución de probabilidad del número de ocurrencias en un intervalo es una distribución de Poisson . Por lo tanto, la medida se puede utilizar para evaluar si los datos observados se pueden modelar mediante un proceso de Poisson . Cuando el coeficiente de dispersión es menor que 1, se dice que un conjunto de datos está "subredispersado": esta condición puede relacionarse con patrones de ocurrencia que son más regulares que la aleatoriedad asociada con un proceso de Poisson. Por ejemplo, los puntos distribuidos uniformemente en el espacio o los eventos periódicos regulares estarán poco dispersos. Si el índice de dispersión es mayor que 1, se dice que un conjunto de datos está demasiado disperso : esto puede corresponder a la existencia de grupos de ocurrencias. Los datos agrupados y concentrados están muy dispersos.

Se puede utilizar una estimación del índice de dispersión basada en muestras para construir una prueba de hipótesis estadística formal para determinar la idoneidad del modelo de que una serie de recuentos sigue una distribución de Poisson. En términos de los recuentos de intervalo, la sobredispersión corresponde a que hay más intervalos con recuentos bajos y más intervalos con recuentos altos, en comparación con una distribución de Poisson: por el contrario, la subdispersión se caracteriza por haber más intervalos con recuentos cercanos a el recuento medio, en comparación con una distribución de Poisson.

El VMR también es una buena medida del grado de aleatoriedad de un fenómeno dado. Por ejemplo, esta técnica se usa comúnmente en la gestión de divisas.

Ejemplo

Para partículas de difusión aleatoria ( movimiento browniano ), la distribución del número de partículas dentro de un volumen dado es poissoniana, es decir, VMR = 1. Por lo tanto, para evaluar si un patrón espacial dado (asumiendo que tiene una forma de medirlo) se debe puramente a la difusión o si está involucrada alguna interacción partícula-partícula: divida el espacio en parches, cuadrantes o unidades de muestra (SU), cuente el número de individuos en cada parche o SU, y calcular el VMR. Los VMR significativamente superiores a 1 denotan una distribución agrupada, donde la caminata aleatoria no es suficiente para sofocar el atractivo potencial entre partículas.

Historia

El primero en discutir el uso de una prueba para detectar desviaciones de una distribución binomial o de Poisson parece haber sido Lexis en 1877. Una de las pruebas que desarrolló fue la relación Lexis .

Este índice fue utilizado por primera vez en botánica por Clapham en 1936.

Si las variables tienen una distribución de Poisson, entonces el índice de dispersión se distribuye como un estadístico χ 2 con n - 1 grados de libertad cuando n es grande y es μ > 3. Para muchos casos de interés, esta aproximación es precisa y Fisher en 1950 obtuvo una prueba exacta para ello.

Hoel estudió los primeros cuatro momentos de su distribución. Encontró que la aproximación al estadístico χ 2 es razonable si μ > 5.

Distribuciones sesgadas

Para distribuciones muy asimétricas, puede ser más apropiado utilizar una función de pérdida lineal, en lugar de una cuadrática. El coeficiente de dispersión análogo en este caso es la relación de la desviación absoluta promedio de la mediana a la mediana de los datos, o, en símbolos:

donde n es el tamaño de la muestra, m es la mediana de la muestra y la suma de toda la muestra. Iowa , Nueva York y Dakota del Sur utilizan este coeficiente lineal de dispersión para estimar las cuotas tributarias.

Para una prueba de dos muestras en la que los tamaños de muestra son grandes, ambas muestras tienen la misma mediana y difieren en la dispersión a su alrededor, un intervalo de confianza para el coeficiente lineal de dispersión está limitado inferiormente por

donde t j es la desviación absoluta media de la j- ésima muestra yz α es la longitud del intervalo de confianza para una distribución normal de confianza α (por ejemplo, para α = 0.05, z α = 1.96).

Ver también

Relaciones similares

Notas

Referencias

  • Cox, RD; Lewis, PAW (1966). El análisis estadístico de series de eventos . Londres: Methuen.
  • Upton, G .; Cook, I. (2006). Diccionario de Estadística de Oxford (2ª ed.). Prensa de la Universidad de Oxford. ISBN 978-0-19-954145-4.