Estadísticas de estimación - Estimation statistics

La estadística de estimación , o simplemente estimación , es un marco de análisis de datos que utiliza una combinación de tamaños de efecto , intervalos de confianza , planificación de precisión y metanálisis para planificar experimentos, analizar datos e interpretar resultados. Es diferente de la prueba de significación de hipótesis nula (NHST), que se considera menos informativa. Las estadísticas de estimación también se conocen como las nuevas estadísticas en los campos de la psicología , la investigación médica , las ciencias de la vida y otras ciencias experimentales, donde la NHST todavía prevalece, a pesar de las recomendaciones contrarias durante varias décadas.

El objetivo principal de los métodos de estimación es informar el tamaño del efecto (una estimación puntual ) junto con su intervalo de confianza , el último de los cuales está relacionado con la precisión de la estimación. El intervalo de confianza resume un rango de valores probables del efecto poblacional subyacente. Los defensores de la estimación ven el informe de un valor P como una distracción inútil del importante negocio de informar el tamaño del efecto con sus intervalos de confianza, y creen que la estimación debería reemplazar las pruebas de significancia para el análisis de datos. No obstante, esto es engañoso porque los valores p y los intervalos de confianza son dos caras de la misma moneda y proporcionan el mismo tipo de información.

Historia

A partir de 1929, el físico Raymond Thayer Birge publicó artículos de revisión en los que utilizó métodos de promedios ponderados para calcular estimaciones de constantes físicas, un procedimiento que puede considerarse el precursor del metanálisis moderno .

En la década de 1960, la estadística de estimación fue adoptada por las ciencias no físicas con el desarrollo del tamaño del efecto estandarizado por Jacob Cohen .

En la década de 1970, Gene V. Glass fue pionero en la síntesis de la investigación moderna con la primera revisión sistemática y metanálisis para la psicoterapia. Este trabajo pionero influyó posteriormente en la adopción de metanálisis para tratamientos médicos en general.

En las décadas de 1980 y 1990, los métodos de estimación fueron ampliados y refinados por bioestadísticos como Larry Hedges , Michael Borenstein, Doug Altman , Martin Gardner y muchos otros, con el desarrollo del metanálisis (médico) moderno .

A partir de la década de 1980, la revisión sistemática , utilizada junto con el metanálisis, se convirtió en una técnica ampliamente utilizada en la investigación médica. Hay más de 200.000 citas de "metanálisis" en PubMed .

En la década de 1990, el editor Kenneth Rothman prohibió el uso de valores p de la revista Epidemiology ; el cumplimiento fue alto entre los autores, pero esto no cambió sustancialmente su pensamiento analítico.

En la década de 2010, Geoff Cumming publicó un libro de texto dedicado a las estadísticas de estimación, junto con un software en Excel diseñado para enseñar el pensamiento del tamaño del efecto, principalmente a psicólogos. También en la década de 2010, los métodos de estimación se adoptaron cada vez más en neurociencia.

En 2013, el Manual de publicaciones de la Asociación Estadounidense de Psicología recomendó la estimación sobre la prueba de hipótesis. También en 2013, el documento Requisitos uniformes para manuscritos enviados a revistas biomédicas hizo una recomendación similar: "Evite depender únicamente de las pruebas de hipótesis estadísticas, como los valores P, que no transmiten información importante sobre el tamaño del efecto".

En 2019, la revista eNeuro de la Society for Neuroscience instituyó una política que recomendaba el uso de gráficos de estimación como el método preferido para la presentación de datos.

A pesar de la adopción generalizada del metanálisis para la investigación clínica y de las recomendaciones de varias de las principales instituciones editoriales, el marco de estimación no se utiliza habitualmente en la investigación biomédica primaria.

Metodología

Muchas pruebas de significación tienen una contraparte de estimación; en casi todos los casos, el resultado de la prueba (o su valor p ) se puede sustituir simplemente por el tamaño del efecto y una estimación de precisión. Por ejemplo, en lugar de utilizar la prueba t de Student , el analista puede comparar dos grupos independientes calculando la diferencia de medias y su intervalo de confianza del 95% . Los métodos correspondientes se pueden utilizar para una prueba t pareada y comparaciones múltiples. De manera similar, para un análisis de regresión, un analista informaría el coeficiente de determinación (R 2 ) y la ecuación del modelo en lugar del valor p del modelo.

Sin embargo, los defensores de las estadísticas de estimación advierten en contra de informar sólo unos pocos números. Por el contrario, se recomienda analizar y presentar datos mediante visualización de datos. Los ejemplos de visualizaciones apropiadas incluyen el diagrama de dispersión para regresión y los diagramas de Gardner-Altman para dos grupos independientes. Si bien los gráficos de grupos de datos históricos (gráficos de barras, gráficos de caja y gráficos de violín) no muestran la comparación, los gráficos de estimación agregan un segundo eje para visualizar explícitamente el tamaño del efecto.

La trama de Gardner-Altman. Izquierda: un gráfico de barras convencional, que utiliza asteriscos para mostrar que la diferencia es "estadísticamente significativa". Derecha: una gráfica de Gardner-Altman que muestra todos los puntos de datos, junto con la diferencia de medias y sus intervalos de confianza.

Gráfico de Gardner-Altman

La gráfica de diferencia de medias de Gardner-Altman fue descrita por primera vez por Martin Gardner y Doug Altman en 1986; es un gráfico estadístico diseñado para mostrar datos de dos grupos independientes. También hay una versión adecuada para datos emparejados . Las instrucciones clave para hacer este gráfico son las siguientes: (1) mostrar todos los valores observados para ambos grupos uno al lado del otro; (2) coloque un segundo eje a la derecha, desplazado para mostrar la escala de diferencia de medias; y (3) grafique la diferencia de medias con su intervalo de confianza como un marcador con barras de error. Los gráficos de Gardner-Altman se pueden generar con DABEST-Python o dabestr ; alternativamente, el analista puede utilizar un software de GUI como la aplicación Estimación de estadísticas .

La trama de Cumming. Un gráfico de Cumming representado por la aplicación web EstimationStats . En el panel superior, se muestran todos los valores observados. Los tamaños del efecto, la distribución del muestreo y los intervalos de confianza del 95% se representan en ejes separados debajo de los datos brutos. Para cada grupo, las mediciones de resumen (media ± desviación estándar) se trazan como líneas con espacios.

Trama de Cumming

Para grupos múltiples, Geoff Cumming introdujo el uso de un panel secundario para graficar dos o más diferencias medias y sus intervalos de confianza, colocados debajo del panel de valores observados; esta disposición permite comparar fácilmente las diferencias de medias ('deltas') en varios grupos de datos. Cumming parcelas se pueden generar con el paquete de ESCI , DABEST , o la aplicación de estimación Estadísticas .

Otras metodologias

Además de la diferencia media, existen muchos otros tipos de tamaño del efecto , todos con beneficios relativos. Los tipos principales incluyen tamaños de efecto en la clase d de Cohen de métricas estandarizadas y el coeficiente de determinación (R 2 ) para el análisis de regresión . Para distribuciones no normales, hay varios tamaños de efecto más robustos , incluido el delta de Cliff y el estadístico de Kolmogorov-Smirnov .

Defectos en la prueba de hipótesis

En la prueba de hipótesis , el objetivo principal de los cálculos estadísticos es obtener un valor p , la probabilidad de ver un resultado obtenido, o un resultado más extremo, cuando se supone que la hipótesis nula es verdadera. Si el valor p es bajo (generalmente <0.05), se alienta al practicante de estadística a rechazar la hipótesis nula. Los defensores de la estimación rechazan la validez de la prueba de hipótesis por las siguientes razones, entre otras:

  • Los valores p se malinterpretan fácil y comúnmente. Por ejemplo, el valor p a menudo se considera erróneamente como "la probabilidad de que la hipótesis nula sea cierta".
  • La hipótesis nula siempre es incorrecta para cada conjunto de observaciones: siempre hay algún efecto, incluso si es minúsculo.
  • La prueba de hipótesis produce respuestas sí-no arbitrariamente dicotómicas, al tiempo que descarta información importante sobre la magnitud.
  • Cualquier valor p en particular surge a través de la interacción del tamaño del efecto , el tamaño de la muestra (en igualdad de condiciones, un tamaño de muestra más grande produce un valor p más pequeño) y el error de muestreo.
  • A baja potencia , la simulación revela que el error de muestreo hace que los valores p sean extremadamente volátiles.

Beneficios de las estadísticas de estimación

Ventajas de los intervalos de confianza

Los intervalos de confianza se comportan de forma predecible. Por definición, los intervalos de confianza del 95% tienen una probabilidad del 95% de cubrir la media de la población subyacente (μ). Esta característica permanece constante al aumentar el tamaño de la muestra; lo que cambia es que el intervalo se hace más pequeño. Además, los intervalos de confianza del 95% son también intervalos de predicción del 83%: un intervalo de confianza (preexperimental) tiene una probabilidad del 83% de cubrir la media de cualquier experimento futuro. Como tal, conocer los intervalos de confianza del 95% de un solo experimento le da al analista un rango razonable para la media de la población. Sin embargo, las distribuciones de confianza y las distribuciones posteriores proporcionan mucha más información que una estimación puntual o intervalos, lo que puede exacerbar el pensamiento dicotómico según el intervalo que cubra o no un valor de interés "nulo" (es decir, el comportamiento inductivo de Neyman en lugar de al de Fisher).

Estadísticas basadas en evidencias

Los estudios psicológicos de la percepción de las estadísticas revelan que las estimaciones de intervalo de informes dejan una percepción más precisa de los datos que los valores p de informes.

Planificación de precisión

La precisión de una estimación se define formalmente como 1 / varianza y, al igual que la potencia, aumenta (mejora) al aumentar el tamaño de la muestra. Al igual que la energía , un alto nivel de precisión es caro; Las solicitudes de subvenciones para investigación idealmente incluirían análisis de precisión / costos. Los defensores de la estimación creen que la planificación de precisión debería reemplazar a la potencia, ya que la potencia estadística en sí está vinculada conceptualmente a las pruebas de significación. La planificación de precisión se puede realizar con la aplicación web ESCI .

Ver también

Referencias