Evaluación de modelos
Curvas ROC y AUC
Contenidos
Para los algoritmos de clasificación binaria se utiliza como medida de balance entre los verdaderos positivos y falsos positivos las curvas ROC (receiver operating characteristic, Característica Operativa del Receptor) y donde se establece el AUC (Area Under Curve o Ärea Bajo la Curva). En este tipo de gráfico se situan las proporciones de verdaderos positivos en el eje vertical y los falsos positivos en el eje horizontal. Los puntos en la curva que muestra la diagonal son atribuidos al azar.
Las líneas del gráfico ROC establecen la proporción entre aciertos y errores, y por tanto mientras más cerca esté de la esquina superior izquierda, será de mejor calidad al poseer mayores proporciones de vdaderps positivos. El área que se forma bajo esta línea conforma el AUC, donde los valores rangean desde 0,5 a 1,0. donde 0,5 equivale a una predicción aleatoria principalmente y 1,0 resulta en un clasificador perfecto. Dicho de otro modo, representa la tasa de falsas alarmas frente a la tasa de aciertos.
La curva ROC presenta dos parámetros:
- Tasa de verdaderos positivos
- Tasa de falsos positivos
La tasa de verdaderos positivos se calcula como el número de verdaderos positivos dividido por la suma del número de verdaderos positivos y el número de falsos negativos. Describe lo bueno que es el modelo a la hora de predecir la clase positiva cuando el resultado real es positivo.
La curva ROC es una herramienta útil por varias razones. En primer lugar, sas curvas de diferentes modelos pueden compararse directamente en general o para diferentes umbrales. Segundo, el área bajo la curva (AUC) puede utilizarse como resumen de la habilidad del modelo.
- Los valores más pequeños en el eje x del gráfico indican menos falsos positivos y más verdaderos negativos.
- Los valores mayores en el eje de abscisas indican más verdaderos positivos y menos falsos negativos.
AUC
El área bajo la curva (AUC) es una puntuación que indica el rendimiento de un clasificador para una clasificación de tipo binaria. Un valor predictivo alto, cercano a uno indica un alto valor predictivo. Además, las curvas ROC y las puntuaciones AUC comparar el rendimiento de diferentes clasificadores para el mismo problema y así elegir el de mayor rendimiento.
Notebook: https://bit.ly/43fmr8d
Estudio:
Cerda, Jaime, & Cifuentes, Lorena. (2012). Uso de curvas ROC en investigación clínica: Aspectos teórico-prácticos. Revista chilena de infectología, 29(2), 138-141. https://dx.doi.org/10.4067/S0716-10182012000200003
Por regla general las curvas ROC se utilizan cuando tenemos clases balanceadas, esto es, una cantidad similar de casos en ambas clases o categorías. En cambio en casos desbalanceados, donde hay una mayor cantidad de casos de una clase es más eficiente un curva de Precision-Recall ya que la curva ROC utiliza la tasa de falsos postivos, en cambio la de precision-sensibilidad omite esta tasa.
- Las curvas ROC se deberían utilizar cuando más o menos existen las mismas observaciones para ambas clases
- Las curvas de precisión sensibilidad se deberían utilizar cuando existe un notable desbalance entre el número de observaciones de cada clase