En Machine Learning, la medici贸n del rendimiento es una tarea esencial. Entonces, cuando se trata de un problema de clasificaci贸n, podemos contar con una curva AUC-ROC. Esta es una de las m茅tricas de evaluaci贸n m谩s importante para verificar el rendimiento de cualquier modelo de clasificaci贸n.

ROC viene de las caracter铆sticas de funcionamiento del receptor y AUC del 谩rea bajo la curva.

Para entender mejor lo que se explicar谩 a continuaci贸n te recomiendo que revises primero la informaci贸n de la matriz de confusi贸n.

La curva ROC (caracter铆stica de funcionamiento del receptor)

La curva ROC nos dice qu茅 tan bueno puede distinguir el modelo entre dos cosas, por ejemplo, si un paciente tiene c谩ncer o no. Mejores modelos pueden distinguir con precisi贸n entre los dos, mientras que un modelo pobre tendr谩 dificultades para distinguir entre los dos.

Supongamos que tenemos un modelo que predice si un paciente tiene c谩ncer o no, el resultado es el siguiente:

ROC 2

La l铆nea en verde representa a todos los pacientes que no tienen c谩ncer mientras que la l铆nea rojo representa los pacientes que si tienen c谩ncer.

Ahora debemos elegir un valor en donde establecemos el corte o un valor umbral, por encima del cual predeciremos a todos como positivos, tienen c谩ncer, y por debajo del cual predeciremos como negativos, NO c谩ncer. Este umbral lo establecemos en 0.5.

ROC 3

Tomando los conceptos aprendidos en la matriz de confusi贸n, todos los valores positivos por encima del umbral ser谩n 鈥渧erdaderos positivos鈥 y los valores negativos por encima del umbral ser谩 鈥渇alsos positivos鈥, ya que se predicen incorrectamente como positivos.

Todos los valores negativos por debajo del umbral ser谩n 鈥渧erdaderos negativos鈥 y los valores positivos por debajo del umbral ser谩n 鈥渇alsos negativos鈥, ya que se pronostican incorrectamente como negativos.

ROC 4

Aqu铆, tenemos una idea b谩sica de que el modelo predice valores correctos e incorrectos con respecto al conjunto de umbrales. Antes de continuar, refresquemos dos t茅rminos que vimos en un anterior video, como los son sensibilidad y especificidad.

La sensibilidad o recall, es la proporci贸n de pacientes que se identificaron correctamente por tener c谩ncer, es decir verdadero positivo, sobre el n煤mero total de pacientes que realmente tienen la enfermedad.

Por su parte, especificidad es la proporci贸n de pacientes que se identificaron correctamente por no tener c谩ncer, verdadero positivo, sobre el n煤mero total de pacientes que no tienen la enfermedad.

ROC 5

Si volvemos a nuestra gr谩fica anterior, si disminuimos el valor del umbral, obtenemos m谩s valores positivos, aumentando la sensibilidad, pero disminuyendo la especificidad.

ROC 6

En cambio, si aumentamos el umbral, obtenemos m谩s valores negativos, lo que aumenta la especificidad y disminuye la sensibilidad.

Si graficamos esta relaci贸n ser铆a algo como esto:

ROC 7

ROC 8

Pero, no es as铆 como graficamos la curva ROC, para trazar esta curva, en lugar de especificidad usamos 鈥1 鈥 especificidad鈥 y la gr谩fica se ver谩 algo como esto:

De esta forma si aumentamos la sensibilidad, la 鈥1 鈥 especificidad鈥 tambi茅n aumentar谩. A esta curva se le conoce como la curva ROC.

Pero me imagino que te estas preguntando porque utilizamos 鈥1 鈥 especificidad鈥, si llevamos este termino a la formula tendr铆amos algo as铆:

ROC 9

Mientras que la especificidad nos da la tasa negativa verdadera y 鈥1 鈥 especificidad鈥 nos da la tasa positiva falsa.

Por lo que la curva ROC esta definida por la sensibilidad que es la tasa de verdadero positivo y 鈥1 鈥 especificidad鈥 es la tasa de falso positivo.

脕rea bajo la curva (AUC)

El AUC es el 谩rea bajo la curva ROC. Este puntaje nos da una buena idea de qu茅 tan bien funciona el modelo.

Veamos algunos ejemplos de esto:

ROC 10

Esta es una situaci贸n ideal. Cuando dos curvas no se superponen en absoluto, el modelo tiene una medida ideal de separaci贸n. Es perfectamente capaz de distinguir entre clase positiva y clase negativa.

ROC 11

Cuando dos distribuciones se superponen, introducimos errores. Dependiendo del umbral, podemos minimizarlos o maximizarlos. Cuando AUC es 0.7, significa que hay 70% de probabilidad de que el modelo pueda distinguir entre clase positiva y clase negativa.

ROC 12

Esta es la peor situaci贸n. Cuando el AUC es aproximadamente 0.5, el modelo no tiene capacidad de discriminaci贸n para distinguir entre clase positiva y clase negativa.

ROC 13

Cuando AUC es aproximadamente 0, el modelo en realidad est谩 correspondiendo las clases. Significa que el modelo predice la clase negativa como una clase positiva y viceversa.

Este m茅todo es conveniente por las siguientes razones:

  • Es invariable con respecto a la escala, mide qu茅 tan bien se clasifican las predicciones, en lugar de sus valores absolutos.
  • Es invariable con respecto al umbral de clasificaci贸n, mide la calidad de las predicciones del modelo, sin tener en cuenta qu茅 umbral de clasificaci贸n se elige.

1 comentario en “Curvas ROC y 脕rea bajo la curva (AUC)”

  1. Pingback: 5 Preguntas para Reclutar a un Data Scientist - Selection

Deja un comentario

Tu direcci贸n de correo electr贸nico no ser谩 publicada.