Diferencia de medias estrictamente estandarizada - Strictly standardized mean difference

En estadística , la diferencia de medias estrictamente estandarizada (SSMD) es una medida del tamaño del efecto . Es la media dividida por la desviación estándar de una diferencia entre dos valores aleatorios, cada uno de uno de los dos grupos. Inicialmente se propuso para el control de calidad y la selección de aciertos en el cribado de alto rendimiento (HTS) y se ha convertido en un parámetro estadístico que mide el tamaño del efecto para la comparación de dos grupos cualesquiera con valores aleatorios.

Fondo

En el cribado de alto rendimiento (HTS), el control de calidad (QC) es fundamental. Una característica importante de CC en un ensayo de HTS es cuánto difieren entre sí los controles positivos, los compuestos de prueba y los controles negativos. Esta característica de CC se puede evaluar mediante la comparación de dos tipos de pozos en los ensayos de HTS . La relación señal-ruido (S / N), la relación señal-fondo (S / B) y el factor Z se han adoptado para evaluar la calidad de los ensayos HTS mediante la comparación de dos tipos de pozos investigados. Sin embargo, el S / B no toma en cuenta ninguna información sobre variabilidad; y el S / N puede capturar la variabilidad solo en un grupo y, por lo tanto, no puede evaluar la calidad del ensayo cuando los dos grupos tienen diferentes variabilidades. Zhang JH y col. propuesto la Z-factor de . La ventaja del factor Z sobre S / N y S / B es que tiene en cuenta las variabilidades en ambos grupos comparados. Como resultado, el factor Z se ha utilizado ampliamente como una métrica de control de calidad en los ensayos de HTS. El signo absoluto en el factor Z hace que sea inconveniente derivar matemáticamente su inferencia estadística.

Para derivar un parámetro mejor interpretable para medir la diferenciación entre dos grupos, Zhang XHD propuso SSMD para evaluar la diferenciación entre un control positivo y un control negativo en los ensayos de HTS. SSMD tiene una base probabilística debido a su fuerte vínculo con la probabilidad d ⁺ (es decir, la probabilidad de que la diferencia entre dos grupos sea positiva). Hasta cierto punto, la probabilidad d ⁺ es equivalente al índice probabilístico bien establecido P ( X > Y ) que se ha estudiado y aplicado en muchas áreas. Apoyado en su base probabilística, SSMD se ha utilizado tanto para el control de calidad como para la selección de aciertos en el cribado de alto rendimiento.

Concepto

Parámetro estadístico

Como parámetro estadístico, SSMD (denotado como ) se define como la relación entre la media y la desviación estándar de la diferencia de dos valores aleatorios respectivamente de dos grupos. Suponga que un grupo con valores aleatorios tiene media y varianza y otro grupo tiene media y varianza . La covarianza entre los dos grupos es Entonces, el SSMD para la comparación de estos dos grupos se define como ${\ Displaystyle \ beta}$ ${\ Displaystyle \ mu _ {1}}$ ${\ Displaystyle \ sigma _ {1} ^ {2}}$ ${\ Displaystyle \ mu _ {2}}$ ${\ Displaystyle \ sigma _ {2} ^ {2}}$ ${\ Displaystyle \ sigma _ {12}.}$

{\ Displaystyle \ beta = {\ frac {\ mu _ {1} - \ mu _ {2}} {\ sqrt {\ sigma _ {1} ^ {2} + \ sigma _ {2} ^ {2} - 2 \ sigma _ {12}}}}.}

Si los dos grupos son independientes,

{\ Displaystyle \ beta = {\ frac {\ mu _ {1} - \ mu _ {2}} {\ sqrt {\ sigma _ {1} ^ {2} + \ sigma _ {2} ^ {2}} }}.}

Si los dos grupos independientes tienen varianzas iguales , ${\ Displaystyle \ sigma ^ {2}}$

{\ Displaystyle \ beta = {\ frac {\ mu _ {1} - \ mu _ {2}} {{\ sqrt {2}} \ sigma}}.}

En la situación en la que los dos grupos están correlacionados, una estrategia comúnmente utilizada para evitar el cálculo es primero obtener observaciones pareadas de los dos grupos y luego estimar el SSMD basándose en las observaciones pareadas. Basado en una diferencia pareada con la media poblacional y , SSMD es ${\ Displaystyle \ sigma _ {12}}$ ${\ Displaystyle D}$ ${\ Displaystyle \ mu _ {D}}$ ${\ Displaystyle \ sigma _ {D} ^ {2}}$

{\ Displaystyle \ beta = {\ frac {\ mu _ {D}} {\ sigma _ {D}}}.}

Estimación estadística

En la situación en la que los dos grupos son independientes, Zhang XHD derivó la estimación de máxima verosimilitud (MLE) y la estimación del método del momento (MM) de SSMD. Suponga que los grupos 1 y 2 tienen media muestral y varianzas muestrales . La estimación de MM de SSMD es entonces ${\ displaystyle {\ bar {X}} _ {1}, {\ bar {X}} _ {2}}$ ${\ Displaystyle s_ {1} ^ {2}, s_ {2} ^ {2}}$

{\ Displaystyle {\ hat {\ beta}} = {\ frac {{\ bar {X}} _ {1} - {\ bar {X}} _ {2}} {\ sqrt {s_ {1} ^ { 2} + s_ {2} ^ {2}}}}.}

Cuando los dos grupos tienen distribuciones normales con igual varianza , la estimación insesgada de varianza mínima uniforme (UMVUE) de SSMD es,

{\ Displaystyle {\ hat {\ beta}} = {\ frac {{\ bar {X}} _ {1} - {\ bar {X}} _ {2}} {\ sqrt {{\ frac {2} {K}} ((n_ {1} -1) s_ {1} ^ {2} + (n_ {2} -1) s_ {2} ^ {2})}}},}

dónde están los tamaños de muestra en los dos grupos y . ${\ Displaystyle n_ {1}, n_ {2}}$ ${\ Displaystyle K \ approx n_ {1} + n_ {2} -3.48}$

En la situación en la que los dos grupos están correlacionados, con base en una diferencia pareada con un tamaño de muestra, media de muestra y varianza de muestra , la estimación de MM de SSMD es ${\ Displaystyle n}$ ${\ displaystyle {\ bar {D}}}$ ${\ Displaystyle s_ {D} ^ {2}}$

{\ displaystyle {\ hat {\ beta}} = {\ frac {\ bar {D}} {s_ {D}}}.}

La estimación de UMVUE de SSMD es

{\ Displaystyle {\ hat {\ beta}} = {\ frac {\ Gamma ({\ frac {n-1} {2}})} {\ Gamma ({\ frac {n-2} {2}}) }} {\ sqrt {\ frac {2} {n-1}}} {\ frac {\ bar {D}} {s_ {D}}}.}

SSMD tiene un aspecto similar al estadístico t y a la d de Cohen, pero son diferentes entre sí, como se ilustra en.

Aplicación en ensayos de cribado de alto rendimiento

SSMD es la relación entre la media y la desviación estándar de la diferencia entre dos grupos. Cuando los datos se preprocesan utilizando la transformación logarítmica como lo hacemos normalmente en los experimentos de HTS, SSMD es la media del cambio logarítmico dividido por la desviación estándar del cambio logarítmico con respecto a una referencia negativa. En otras palabras, SSMD es el cambio de pliegue promedio (en la escala logarítmica) penalizado por la variabilidad del cambio de pliegue (en la escala logarítmica). Para el control de calidad, un índice de la calidad de un ensayo HTS es la magnitud de la diferencia entre un control positivo y una referencia negativa en una placa de ensayo . Para la selección de aciertos, el tamaño de los efectos de un compuesto (es decir, una molécula pequeña o un ARNip ) está representado por la magnitud de la diferencia entre el compuesto y una referencia negativa. SSMD mide directamente la magnitud de la diferencia entre dos grupos. Por lo tanto, SSMD se puede utilizar tanto para el control de calidad como para la selección de aciertos en los experimentos de HTS.

Control de calidad

El número de pocillos para los controles positivo y negativo en una placa en la plataforma de 384 o 1536 pocillos normalmente se diseña para que sea razonablemente grande. Suponga que los controles positivo y negativo en una placa tienen media muestral , varianzas muestrales y tamaños muestrales . Por lo general, se cumple la suposición de que los controles tienen la misma varianza en una placa. En tal caso, el SSMD para evaluar la calidad en esa placa se estima como ${\ displaystyle {\ bar {X}} _ {P}, {\ bar {X}} _ {N}}$ ${\ Displaystyle s_ {P} ^ {2}, s_ {N} ^ {2}}$ ${\ Displaystyle n_ {P}, n_ {N}}$

{\ Displaystyle {\ hat {\ beta}} = {\ frac {{\ bar {X}} _ {P} - {\ bar {X}} _ {N}} {\ sqrt {{\ frac {2} {K}} ((n_ {P} -1) s_ {P} ^ {2} + (n_ {N} -1) s_ {N} ^ {2})}}},}

donde . Cuando no se cumple el supuesto de varianza igual, el SSMD para evaluar la calidad en esa placa se estima como ${\ Displaystyle K \ approx n_ {P} + n_ {N} -3.48}$

{\ Displaystyle {\ hat {\ beta}} = {\ frac {{\ bar {X}} _ {P} - {\ bar {X}} _ {N}} {\ sqrt {s_ {P} ^ { 2} + s_ {N} ^ {2}}}}.}

Si hay claramente valores atípicos en los controles, el SSMD se puede estimar como

{\ Displaystyle {\ hat {\ beta}} = {\ frac {{\ tilde {X}} _ {P} - {\ tilde {X}} _ {N}} {1.4826 {\ sqrt {{\ tilde { s}} _ {P} ^ {2} + {\ tilde {s}} _ {N} ^ {2}}}}},}

donde están las medianas y las desviaciones absolutas de la mediana en los controles positivo y negativo, respectivamente. ${\ displaystyle {\ tilde {X}} _ {P}, {\ tilde {X}} _ {N}, {\ tilde {s}} _ {P}, {\ tilde {s}} _ {N} }$

El criterio de control de calidad basado en el factor Z se usa popularmente en los ensayos de HTS. Sin embargo, se ha demostrado que este criterio de CC es el más adecuado para un ensayo con controles positivos muy o extremadamente fuertes. En un ensayo de RNAi HTS, un control positivo fuerte o moderado suele ser más instructivo que un control positivo muy fuerte o extremadamente fuerte porque la eficacia de este control es más similar a los resultados de interés. Además, los controles positivos en los dos experimentos HTS, en teoría, tienen diferentes tamaños de efectos. En consecuencia, los umbrales de CC para el control moderado deberían ser diferentes de los del control fuerte en estos dos experimentos. Además, es común que se adopten dos o más controles positivos en un solo experimento. La aplicación de los mismos criterios de CC basados en el factor Z a ambos controles conduce a resultados inconsistentes, como se ilustra en la literatura.

Los criterios de CC basados en SSMD que se enumeran en la siguiente tabla tienen en cuenta el tamaño del efecto de un control positivo en un ensayo de HTS donde el control positivo (como un control de inhibición) teóricamente tiene valores menores que la referencia negativa.

Tipo de calidad	A: control moderado	B: control fuerte	C: Control muy fuerte	D: Control extremadamente fuerte
Excelente	${\ Displaystyle \ beta \ leq -2}$	${\ Displaystyle \ beta \ leq -3}$	${\ Displaystyle \ beta \ leq -5}$	${\ Displaystyle \ beta \ leq -7}$
Bien	${\ Displaystyle -2 <\ beta \ leq -1}$	${\ Displaystyle -3 <\ beta \ leq -2}$	${\ Displaystyle -5 <\ beta \ leq -3}$	${\ Displaystyle -7 <\ beta \ leq -5}$
Inferior	${\ Displaystyle -1 <\ beta \ leq -0.5}$	${\ Displaystyle -2 <\ beta \ leq -1}$	${\ Displaystyle -3 <\ beta \ leq -2}$	${\ Displaystyle -5 <\ beta \ leq -3}$
Pobre	${\ Displaystyle \ beta> -0,5}$	${\ Displaystyle \ beta> -1}$	${\ Displaystyle \ beta> -2}$	${\ Displaystyle \ beta> -3}$

En la aplicación, si el tamaño del efecto de un control positivo se conoce biológicamente, adopte el criterio correspondiente basado en esta tabla. De lo contrario, la siguiente estrategia debería ayudar a determinar qué criterio de CC se debe aplicar: (i) en muchos ensayos de HTS de moléculas pequeñas con un control positivo, generalmente se debe adoptar el criterio D (y ocasionalmente el criterio C) porque este control generalmente tiene muy o extremadamente efectos fuertes; (ii) para los ensayos de RNAi HTS en los que la viabilidad celular es la respuesta medida, el criterio D debe adoptarse para los controles sin células (es decir, los pocillos sin células añadidas) o controles de fondo; (iii) en un ensayo viral en el que la cantidad de virus en las células hospedadoras es el interés, normalmente se usa el criterio C, y el criterio D se usa ocasionalmente para el control positivo que consiste en ARNip del virus.

Se pueden construir criterios de CC similares basados en SSMD para un ensayo de HTS en el que el control positivo (como un control de activación) tiene teóricamente valores mayores que la referencia negativa. Puede encontrar más detalles sobre cómo aplicar criterios de CC basados en SSMD en experimentos HTS en un libro.

Selección de aciertos

En un ensayo de HTS, un objetivo principal es seleccionar compuestos con un tamaño deseado de efecto de inhibición o activación. El tamaño del efecto del compuesto está representado por la magnitud de la diferencia entre un compuesto de prueba y un grupo de referencia negativo sin efectos específicos de inhibición / activación. Un compuesto con un tamaño deseado de efectos en una pantalla HTS se llama hit. El proceso de selección de aciertos se denomina selección de aciertos. Hay dos estrategias principales para seleccionar éxitos con grandes efectos. Una es usar cierta (s) métrica (s) para clasificar y / o clasificar los compuestos por sus efectos y luego seleccionar el mayor número de compuestos potentes que sea práctico para los ensayos de validación . La otra estrategia es probar si un compuesto tiene efectos lo suficientemente fuertes como para alcanzar un nivel preestablecido. En esta estrategia, se deben controlar las tasas de falsos negativos (FNR) y / o las tasas de falsos positivos (FPR).

SSMD no solo puede clasificar el tamaño de los efectos, sino también clasificar los efectos como se muestra en la siguiente tabla en función del valor poblacional ( ) de SSMD. ${\ Displaystyle \ beta}$

Subtipo de efecto	Umbrales para SSMD negativo	Umbrales para SSMD positivo
Demasiado fuerte	${\ Displaystyle \ beta \ leq -5}$	${\ Displaystyle \ beta \ geq 5}$
Muy fuerte	${\ Displaystyle -5 <\ beta \ leq -3}$	${\ Displaystyle 5> \ beta \ geq 3}$
Fuerte	${\ Displaystyle -3 <\ beta \ leq -2}$	${\ Displaystyle 3> \ beta \ geq 2}$
Bastante fuerte	${\ Displaystyle -2 <\ beta \ leq -1.645}$	${\ Displaystyle 2> \ beta \ geq 1.645}$
Moderar	${\ Displaystyle -1.645 <\ beta \ leq -1.28}$	${\ Displaystyle 1.645> \ beta \ geq 1.28}$
Bastante moderado	${\ Displaystyle -1.28 <\ beta \ leq -1}$	${\ Displaystyle 1,28> \ beta \ geq 1}$
Bastante débil	${\ Displaystyle -1 <\ beta \ leq -0,75}$	${\ Displaystyle 1> \ beta \ geq 0,75}$
Débil	${\ Displaystyle -0,75 <\ beta <-0,5}$	${\ Displaystyle 0,75> \ beta> 0,5}$
Muy débil	${\ Displaystyle -0.5 \ leq \ beta <-0.25}$	${\ Displaystyle 0.5 \ geq \ beta> 0.25}$
Extremadamente débil	${\ Displaystyle -0.25 \ leq \ beta <0}$	${\ Displaystyle 0.25 \ geq \ beta> 0}$
Sin efecto	${\ Displaystyle \ beta = 0}$

La estimación de SSMD para pantallas sin réplicas difiere de la de pantallas con réplicas.

En una pantalla primaria sin réplicas, asumiendo que el valor medido (generalmente en la escala logarítmica) en un pocillo para un compuesto probado es y la referencia negativa en esa placa tiene el tamaño de muestra , la media de la muestra , la mediana , la desviación estándar y la desviación absoluta de la mediana , el SSMD para este compuesto se estima como ${\ Displaystyle X_ {i}}$ ${\ Displaystyle n_ {N}}$ ${\ displaystyle {\ bar {X}} _ {N}}$ ${\ Displaystyle {\ tilde {X}} _ {N}}$ ${\ Displaystyle s_ {N}}$ ${\ Displaystyle {\ tilde {s}} _ {N}}$

{\ Displaystyle {\ text {SSMD}} = {\ frac {X_ {i} - {\ bar {X}} _ {N}} {s_ {N} {\ sqrt {2 (n_ {N} -1) / K}}}},}

donde . Cuando hay valores atípicos en un ensayo que suele ser común en los experimentos de HTS, se puede obtener una versión robusta de SSMD utilizando ${\ Displaystyle K \ approx n_ {N} -2,48}$

{\ Displaystyle {\ text {SSMD *}} = {\ frac {X_ {i} - {\ tilde {X}} _ {N}} {1.4826 {\ tilde {s}} _ {N} {\ sqrt { 2 (n_ {N} -1) / K}}}}}

En un cribado confirmatorio o primario con réplicas, para el i-ésimo compuesto de prueba con réplicas, calculamos la diferencia pareada entre el valor medido (generalmente en la escala logarítmica) del compuesto y el valor mediano de un control negativo en una placa, luego obtenga la media y la varianza de la diferencia pareada entre las réplicas. El SSMD para este compuesto se estima como ${\ Displaystyle n}$ ${\ Displaystyle {\ bar {d}} _ {i}}$ ${\ Displaystyle s_ {i} ^ {2}}$

{\ Displaystyle {\ text {SSMD}} = {\ frac {\ Gamma ({\ frac {n-1} {2}})} {\ Gamma ({\ frac {n-2} {2}})} } {\ sqrt {\ frac {2} {n-1}}} {\ frac {{\ bar {d}} _ {i}} {s_ {i}}}}

En muchos casos, los científicos pueden usar tanto el SSMD como el cambio de pliegue promedio para la selección de aciertos en los experimentos de HTS. El gráfico de linterna doble puede mostrar tanto el cambio de pliegue promedio como el SSMD para todos los compuestos de prueba en un ensayo y ayudar a integrar ambos para seleccionar resultados en experimentos HTS. El uso de SSMD para la selección de aciertos en experimentos HTS se ilustra paso a paso en

Ver también

Otras lecturas

Zhang XHD (2011) "Detección de alto rendimiento óptimo: diseño experimental práctico y análisis de datos para la investigación de ARNi a escala genómica, Cambridge University Press"

Languages

In other projects