Clasificación binaria - Binary classification

La clasificación binaria es la tarea de clasificar los elementos de un conjunto en dos grupos sobre la base de una regla de clasificación . Los problemas típicos de clasificación binaria incluyen:

La clasificación binaria es la dicotomización aplicada a una situación práctica. En muchos problemas prácticos de clasificación binaria, los dos grupos no son simétricos y, más que la precisión general, es de interés la proporción relativa de diferentes tipos de errores . Por ejemplo, en las pruebas médicas, detectar una enfermedad cuando no está presente (un falso positivo ) se considera diferente a no detectar una enfermedad cuando está presente (un falso negativo ).

Clasificación estadística binaria

La clasificación estadística es un problema estudiado en el aprendizaje automático . Es un tipo de aprendizaje supervisado , un método de aprendizaje automático donde las categorías están predefinidas y se utiliza para categorizar nuevas observaciones probabilísticas en dichas categorías. Cuando solo hay dos categorías, el problema se conoce como clasificación estadística binaria.

Algunos de los métodos que se utilizan habitualmente para la clasificación binaria son:

Cada clasificador es mejor solo en un dominio seleccionado según el número de observaciones, la dimensionalidad del vector de características , el ruido en los datos y muchos otros factores. Por ejemplo, los bosques aleatorios funcionan mejor que los clasificadores SVM para nubes de puntos 3D.

Evaluación de clasificadores binarios

En este conjunto de instancias probadas, las instancias que quedan del divisor tienen la condición que se está probando; la mitad derecha no. El óvalo limita las instancias que un algoritmo de prueba clasifica como que tienen la condición. Las áreas verdes resaltan las instancias que el algoritmo de prueba clasificó correctamente. Las etiquetas se refieren a:
TP = verdadero positivo; TN = verdadero negativo; FP = falso positivo (error tipo I); FN = falso negativo (error tipo II); TPR = conjunto de instancias para determinar la tasa de verdaderos positivos; FPR = conjunto de instancias para determinar la tasa de falsos positivos; PPV = valor predictivo positivo; VPN = valor predictivo negativo.

Hay muchas métricas que pueden usarse para medir el desempeño de un clasificador o predictor; diferentes campos tienen diferentes preferencias para métricas específicas debido a diferentes objetivos. En medicina, la sensibilidad y la especificidad se utilizan a menudo, mientras que en la recuperación de información se prefieren la precisión y el recuerdo . Una distinción importante es entre métricas que son independientes de la frecuencia con que ocurre cada categoría en la población (la prevalencia ) y métricas que dependen de la prevalencia; ambos tipos son útiles, pero tienen propiedades muy diferentes.

Dada una clasificación de un conjunto de datos específico, hay cuatro combinaciones básicas de categoría de datos real y categoría asignada: verdaderos positivos TP (asignaciones positivas correctas), verdaderos negativos TN (asignaciones negativas correctas), falsos positivos FP (asignaciones positivas incorrectas) y falsos negativos FN (asignaciones negativas incorrectas).

Asignado
Real
Resultado de la prueba positivo Resultado de la prueba negativo
Condición positiva Verdadero positivo Falso negativo
Condición negativa Falso positivo Verdadero negativo

Estos se pueden organizar en una tabla de contingencia de 2 × 2 , con columnas correspondientes al valor real (condición positiva o condición negativa) y filas correspondientes al valor de clasificación (resultado de prueba positivo o resultado de prueba negativo).

Las ocho proporciones básicas

Hay ocho razones básicas que se pueden calcular a partir de esta tabla, que vienen en cuatro pares complementarios (cada par suma 1). Estos se obtienen dividiendo cada uno de los cuatro números por la suma de su fila o columna, lo que da ocho números, a los que se puede hacer referencia genéricamente en la forma "proporción de filas de verdaderos positivos" o "proporción de columnas de falsos negativos".

Por lo tanto, hay dos pares de razones de columnas y dos pares de razones de filas, y se pueden resumir con cuatro números eligiendo una razón de cada par; los otros cuatro números son los complementos.

Las proporciones de las columnas son:

Las proporciones de las filas son:

En las pruebas de diagnóstico, las principales razones utilizadas son las verdaderas razones de la columna (tasa de verdaderos positivos y verdadera tasa de negativos), donde se conocen como sensibilidad y especificidad . En la recuperación de información, las razones principales son las verdaderas razones positivas (fila y columna) - valor predictivo positivo y tasa verdadera positiva - donde se conocen como precisión y recuperación .

Se pueden tomar proporciones de un par de proporciones complementarias, lo que produce cuatro proporciones de probabilidad (proporción de proporciones de dos columnas, proporción de proporciones de dos filas). Esto se hace principalmente para las relaciones de la columna (condición), lo que produce relaciones de probabilidad en las pruebas de diagnóstico . Al tomar la razón de uno de estos grupos de razones se obtiene una razón final, la razón de probabilidades de diagnóstico (DOR). Esto también se puede definir directamente como (TP × TN) / (FP × FN) = (TP / FN) / (FP / TN); esto tiene una interpretación útil, como una razón de probabilidades , y es independiente de la prevalencia.

Hay una serie de otras métricas, la mayoría simplemente la precisión o Fraction Correct (FC), que mide la fracción de todas las instancias que están categorizadas correctamente; el complemento es la Fracción Incorrecta (FiC). El puntaje F combina precisión y recuperación en un número a través de una opción de ponderación, la mayoría simplemente igual, como el puntaje F equilibrado ( puntaje F1 ). Algunas métricas provienen de coeficientes de regresión : la marcación y la información , y su media geométrica , el coeficiente de correlación de Matthews . Otras métricas incluyen el estadístico J de Youden , el coeficiente de incertidumbre , el coeficiente phi y el kappa de Cohen .

Conversión de valores continuos a binarios

Las pruebas cuyos resultados son de valores continuos, como la mayoría de los valores sanguíneos , pueden hacerse binarios artificialmente definiendo un valor de corte , y los resultados de las pruebas se designan como positivos o negativos dependiendo de si el valor resultante es mayor o menor que el límite.

Sin embargo, dicha conversión provoca una pérdida de información, ya que la clasificación binaria resultante no indica cuánto por encima o por debajo del límite está un valor. Como resultado, cuando se convierte un valor continuo cercano al límite en uno binario, el valor predictivo positivo o negativo resultante es generalmente más alto que el valor predictivo dado directamente a partir del valor continuo. En tales casos, la designación de la prueba como positiva o negativa da la apariencia de una certeza inapropiadamente alta, mientras que el valor está de hecho en un intervalo de incertidumbre. Por ejemplo, con la concentración de hCG en orina como valor continuo, una prueba de embarazo en orina que midió 52 mUI / ml de hCG puede mostrarse como "positiva" con 50 mUI / ml como límite, pero de hecho se encuentra en un intervalo de incertidumbre. que puede ser aparente sólo conociendo el valor continuo original. Por otro lado, un resultado de prueba muy lejos del límite generalmente tiene un valor predictivo positivo o negativo resultante que es menor que el valor predictivo dado a partir del valor continuo. Por ejemplo, un valor de hCG en orina de 200.000 mUI / ml confiere una probabilidad muy alta de embarazo, pero la conversión a valores binarios da como resultado que se muestre tan "positivo" como el de 52 mUI / ml.

Ver también

Referencias

Bibliografía