驴Qu茅 tienen en com煤n los conjuntos de datos para la detecci贸n de fraudes en la banca, o las ofertas en el tiempo real en mercadeo o la detecci贸n de intrusos en redes?

Dataset desbalanceado 1

Curso Te贸rico-Pr谩ctico: Machine Learning para no programadores

F谩cil, que los datos utilizados en estas 谩reas a menudo tienen menos del 1% de los eventos raros pero interesantes, por ejemplo, los estafadores que usan tarjetas de cr茅ditos, el usuario que hace clic en la publicidad o el servidor corrupto que escanea su red.

aprende f谩cilmente inteligencia artificial - newsletter

No todos los datos son perfectos y hay varios tipos de conjuntos de datos, uno de estos es un conjunto de datos desequilibrado. Este tipo de conjunto de datos siempre plantea un problema para los que trabajamos en Machine Learning, ya que la mayor铆a de los algoritmos son malos para manejarlos.

Un conjunto de datos desbalanceado es uno donde el n煤mero de observaciones pertenecientes aun grupo o clase es significativamente mayor que las pertenecientes a las otras clases.

Dataset desbalanceado 2

Esto ocurre en casos como la detecci贸n de fraudes con tarjetas de cr茅dito, donde puede haber solo 1000 casos de fraude en m谩s de un mill贸n de transacciones, lo que representa un escaso 0,1% del conjunto de datos.

Tambi茅n hay un problema de m茅tricas en la medici贸n del rendimiento de algoritmos en conjuntos de datos desbalanceados. Si tenemos un conjunto de datos desequilibrado que contiene el 1% de una clase minoritaria y el 99% de la clase mayoritaria, un algoritmo puede predecir todos los casos como pertenecientes a la clase mayoritaria. La puntuaci贸n de precisi贸n de este algoritmo arrojar谩 una precisi贸n del 99%, lo que parece impresionante, pero 驴es realmente as铆? La clase minoritaria es totalmente ignorada en este caso y esto puede resultar costoso en algunos problemas de clasificaci贸n, como el caso de un fraude con tarjetas de cr茅dito, que puede costar a los individuos y empresas mucho dinero.

Curso Te贸rico-Pr谩ctico:Generaci麓贸n de Texto con Inteligencia Artificial

Dataset desbalanceado 3

Ahora que entendimos que es un dataset desequilibrado y por qu茅 proporciona una precisi贸n de clasificaci贸n enga帽osa, veamos c贸mo podemos solucionar esto.

Recopilar m谩s datos

Aunque puedas pensar que es una tonter铆a, pero la recopilaci贸n de m谩s datos casi siempre se pasa por alto. Verifica si es posible reunir m谩s datos para el problema, un conjunto de datos m谩s grande podr铆a exponer una perspectiva diferente y quiz谩s m谩s equilibrada de las clases.

Utilizar las m茅tricas de evaluaci贸n correctas

La aplicaci贸n de m茅tricas de evaluaci贸n inapropiadas para el modelo generado utilizando datos desequilibrados puede ser peligrosa. Imagina que nuestros datos de entrenamiento son como se muestra en la gr谩fica, si se usa la precisi贸n para medir la bondad de un modelo, un modelo que clasifique todas las muestras de prueba en 0 tendr谩 una precisi贸n excelente, 99,8%, pero obviamente, este modelo no nos proporcionar谩 ninguna informaci贸n valiosa.

En este caso se pueden aplicar otras m茅tricas de evaluaci贸n alternativas, y que fueron explicadas con anterioridad, tales como:

Dataset desbalanceado 4

Remuestreo del conjunto de datos

Adem谩s de utilizar diferentes criterios de evaluaci贸n, tambi茅n se puede trabajar para obtener diferentes conjuntos de datos. La idea principal de las clases de muestreo es aumentar las muestras de la clase minoritaria o disminuir las muestras de la clase mayoritaria. Esto se hace para obtener un saldo justo en el n煤mero de instancias para ambas clases.

Puede haber dos tipos principales de muestreo:

  • Puede agregar copias de instancias de la clase minoritaria, lo que se denomina sobremuestreo o muestreo excesivo, o
  • Puede eliminar instancias de la clase mayoritaria, lo que se denomina sub-muestreo.

Sub-muestreo aleatorio

Dataset desbalanceado 5

Al eliminar aleatoriamente instancias de la clase de la mayor铆a de un conjunto de datos y la asigna a la clase minoritaria, sin necesidad de rellenar el vac铆o creado en la clase de mayor铆a, se conoce como sub-muestreo aleatorio. El vac铆o que se crea en el conjunto de datos de la mayor铆a hace que el proceso sea aleatorio.

Ventajas:

Puede ayudar a mejorar el tiempo de ejecuci贸n del modelo y resolver los problemas de memoria al reducir el n煤mero de muestras de datos de entrenamiento cuando el conjunto de datos de entrenamiento es enorme.

Desventajas:

Puede descartar informaci贸n 煤til sobre los datos en s铆 mismos que podr铆a ser necesaria para crear clasificadores basados en reglas, como los bosques aleatorios.

La muestra elegida por sub-muestreo aleatorio puede ser una muestra sesgada, y no ser谩 una representaci贸n precisa de la poblaci贸n en ese caso. Por lo tanto, puede hacer que el clasificador se comporte mal en datos reales que no se ven.

Considera aplicar un sub-muestreo cuando tengas muchos datos.

Sobre-muestreo aleatorio

Dataset desbalanceado 6

Al igual que el sub-muestreo, tambi茅n se puede realizar un sobre-muestreo aleatorio. Pero en este caso, al tomar cualquier tipo de ayuda de la clase mayoritaria, aumenta las instancias correspondientes a la clase minoritaria replic谩ndolas hasta un grado constante. En este caso, no disminuye el n煤mero de instancias asignadas a la clase mayoritaria.

Supongamos que tiene un conjunto de datos con 1000 instancias donde 980 instancias corresponden a la clase mayoritaria y las 20 instancias restantes corresponden a la clase minoritaria. Ahora debe extraer muestras del conjunto de datos replicando las 20 instancias hasta 20 veces. Como resultado, despu茅s de realizar un sobre-muestreo, el n煤mero total de instancias en la clase minoritaria ser谩 de 400.

Ventajas:

A diferencia del sub-muestreo, este m茅todo no conduce a la p茅rdida de informaci贸n.

Desventajas:

Aumenta la probabilidad de un exceso de equipamiento ya que replica los eventos de la clase minoritaria.

Considera aplicar un sobre-muestreo cuando no tengas muchos datos.

Esta no es una lista exclusiva de t茅cnicas, sino un punto de partida para manejar datos desequilibrados. No existe un mejor enfoque o modelo adecuado para todos los problemas y se recomienda probar diferentes t茅cnicas y modelos para evaluar qu茅 funciona mejor. Debes ser creativo y combinar diferentes enfoques. Tambi茅n es importante tener en cuenta que, en muchos dominios, por ejemplo, la detecci贸n de fraudes, licitaciones en tiempo real, donde ocurren clases desequilibradas, las reglas del mercado cambian constantemente, por lo tanto, comprueba si los datos pasados se han vuelto obsoletos.

Deja un comentario

Tu direcci贸n de correo electr贸nico no ser谩 publicada.