Evaluando el error en los modelos de clasificación

Después de realizar la evaluación de las características de los datos, la selección del algoritmo y la implementación de un modelo y obtener algunos resultados, el siguiente paso es averiguar qué tan efectivo es el modelo basado en alguna métrica.

Se utilizan diferentes métricas de rendimiento para evaluar los modelos de clasificación, la elección de la misma influye en cómo se mide y compara el rendimiento de los algoritmos de Machine Learning.

Te recomiendo que antes de continuar con la explicación hayas entendido muy bien de que se trata la Matriz de Confusión ya que es la base para los siguientes términos.

ERRORES-BLOG-2

Exactitud

Es el número de predicciones correctas realizadas por el modelo por el número total de registros. La mejor precisión es el 100%, lo que indica que todas las predicciones son correctas.

Toma en cuenta que la exactitud no es una medida válida del rendimiento del modelo cuando se tiene un conjunto de datos desequilibrado.

ERRORES-BLOG-3

Errores clasificación 1

Errores clasificación 2

Expliquemos esto con nuestro ejemplo, en el caso de que tengamos los datos de detección de cáncer de 100 personas y solo 5 de ellas tiene cáncer. Al construir el modelo, este es muy malo y predice cada caso como NO cáncer, es decir ha clasificado correctamente a los 95 pacientes no cancerosos y a 5 pacientes cancerosos como NO cancerosos. Ahora, aunque el modelo es terrible para predecir el cáncer la precisión del mismo es del 95%. Por lo tanto, NO se puede fiar de la exactitud en casos de que los datos se encuentren desbalanceados.

Precisión

Con precisión, estamos evaluando nuestros datos por su desempeño de predicciones “positivas”.

ERRORES-BLOG-6

ERRORES-BLOG-7

Si usamos nuestro ejemplo, la precisión es una medida que nos dice qué proporción de pacientes a los que diagnosticamos que tiene cáncer, en realidad tuvo cáncer.

Errores clasificación 3

Si volvemos a utilizar el ejemplo de cáncer con 100 personas y solo 5 tienen cáncer. Nuestro modelo es muy malo y predice todos los casos como cáncer, por lo que el denominador de la formula es 100 y el numerador, las personas que tienen cáncer y que el modelo predijo correctamente es 5. Por lo tanto, en este ejemplo, podemos decir que la precisión es del 5%.

Sensibilidad

La sensibilidad también es llamada Recall y se calcula como el número de predicciones positivas correctas dividido por el número total de positivos.

ERRORES-BLOG-9

ERRORES-BLOG-10

La sensibilidad es una medida que nos dice qué proporción de pacientes que realmente tuvieron cáncer fue diagnosticado por el algoritmo como si tuviera cáncer.

Errores clasificación 4

En nuestro ejemplo de cáncer con 100 personas, 5 personas realmente tienen cáncer. Digamos que el modelo predice todos los casos de cáncer. Así que nuestro denominador, verdaderos positivos y falsos negativos, es 5 y el numerador la persona que tiene cáncer y el modelo que predice su caso como cáncer también es 5, ya que predijimos 5 casos de cáncer correctamente. Entonces, en este ejemplo, podemos decir que la sensibilidad de dicho modelo es del 100% y la precisión el del 5%, como vimos anteriormente.

Especificidad

La especificidad, tasa negativa verdadera, se calcula como el número de predicciones negativas correctas dividido por el número total de negativos.

ERRORES-BLOG-12

ERRORES-BLOG-13

La especificidad es una medida que nos dice qué proporción de pacientes que NO tuvieron cáncer, fueron predichos por el modelo como no cancerosos.

La especificidad es exactamente lo contrario a la sensibilidad.

Errores clasificación 5

En nuestro ejemplo de cáncer con 100 personas, 5 personas realmente tienen cáncer, digamos que el modelo predice todos los casos de cáncer. Así que nuestro denominador, falsos positivos y verdaderos negativos, es 95 y el numerador, la persona que no tiene cáncer y el modelo que predice el dato correctamente, será 0, ya que predijimos todos los casos como cáncer. Entonces, en este ejemplo, podemos afirmar que la especificidad de dicho modelo es del 0%.

Puntaje de F1

Realmente no queremos calcular la precisión y la sensibilidad cada vez que creamos un modelo para resolver un problema de clasificación, así que es mejor si podemos obtener una puntuación única que represente ambas variables.

El puntaje F1 es el promedio ponderado de precisión y sensibilidad. Por lo tanto, esta puntuación tiene en cuenta tanto los falsos positivos como los falsos negativos.

Errores clasificación 6

ERRORES-BLOG-16

En nuestro ejemplo de cáncer con 100 personas, 5 personas realmente tienen cáncer, digamos que modelo predice todos los casos de cáncer.

La precisión será del 5% y la sensibilidad del 100%, sustituyendo estos valores en la formula nos da un puntaje F1 de 9,5%.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *