Escala de Platt - Platt scaling

En el aprendizaje automático , la escala de Platt o la calibración de Platt es una forma de transformar los resultados de un modelo de clasificación en una distribución de probabilidad entre clases . El método fue inventado por John Platt en el contexto de las máquinas de vectores de soporte , reemplazando un método anterior de Vapnik , pero se puede aplicar a otros modelos de clasificación. La escala de Platt funciona ajustando un modelo de regresión logística a las puntuaciones de un clasificador.

Descripción

Considere el problema de la clasificación binaria : para las entradas x , queremos determinar si pertenecen a una de dos clases, etiquetadas arbitrariamente +1 y −1 . Suponemos que el problema de clasificación se resolverá mediante una función f de valor real , al predecir una etiqueta de clase y = signo ( f ( x )) . Para muchos problemas, es conveniente obtener una probabilidad , es decir, una clasificación que no solo dé una respuesta, sino también un grado de certeza sobre la respuesta. Algunos modelos de clasificación no proporcionan tal probabilidad o dan estimaciones de probabilidad deficientes.

El escalado de Platt es un algoritmo para resolver el problema mencionado anteriormente. Produce estimaciones de probabilidad

,

es decir, una transformación logística de las puntuaciones del clasificador f ( x ) , donde A y B son dos parámetros escalares que son aprendidos por el algoritmo. Tenga en cuenta que ahora se pueden hacer predicciones de acuerdo con si las estimaciones de probabilidad contienen una corrección en comparación con la antigua función de decisión y = signo ( f ( x )) .

Los parámetros A y B se estiman utilizando un método de máxima verosimilitud que optimiza el mismo conjunto de entrenamiento que el del clasificador original f . Para evitar el sobreajuste de este conjunto, se puede utilizar un conjunto de calibración retenido o una validación cruzada , pero Platt sugiere además transformar las etiquetas y en probabilidades objetivo.

para muestras positivas ( y = 1 ), y
para muestras negativas, y = -1 .

Aquí, N + y N - son el número de muestras positivas y negativas, respectivamente. Esta transformación sigue aplicando la regla de Bayes a un modelo de datos fuera de muestra que tiene un antecedente uniforme sobre las etiquetas. Las constantes 1 y 2, en el numerador y denominador respectivamente, se derivan de la aplicación de Laplace Smoothing.

El propio Platt sugirió utilizar el algoritmo de Levenberg-Marquardt para optimizar los parámetros, pero más tarde se propuso un algoritmo de Newton que debería ser más estable numéricamente .

Análisis

Se ha demostrado que el escalado de Platt es efectivo para SVM, así como para otros tipos de modelos de clasificación, incluidos modelos potenciados e incluso clasificadores de Bayes ingenuos , que producen distribuciones de probabilidad distorsionadas. Es particularmente eficaz para métodos de margen máximo como SVM y árboles potenciados, que muestran distorsiones sigmoidales en sus probabilidades predichas, pero tiene menos efecto con modelos bien calibrados como regresión logística , perceptrones multicapa y bosques aleatorios .

Un enfoque alternativo a la calibración de probabilidad es ajustar un modelo de regresión isotónica a un modelo de probabilidad mal calibrado. Se ha demostrado que esto funciona mejor que el escalado de Platt, en particular cuando hay suficientes datos de entrenamiento disponibles.

Ver también

Notas

Referencias