Cuando trabajamos con un conjunto de datos para predecir o clasificar un problema, tendemos a encontrar la precisi贸n implementando un modelo con el conjunto de datos de entrenamiento y luego con el conjunto de datos de pruebas. Si la precisi贸n es satisfactoria, tendemos a aumentar la precisi贸n de la predicci贸n con el conjuntos de datos, ya sea aumentando o disminuyendo la selecci贸n de las caracter铆sticos o modificando las condiciones de nuestro modelo de Machine Learning, pero con esto, en ocasiones el modelo puede dar resultados pobres.

El pobre rendimiento del modelo puede deberse a que el modelo es demasiado simple para describir el objetivo, o, por el contrario, que el modelo sea demasiado complejo par expresar el objetivo. Es en este momento que se debe tener claro los conceptos de sobreajuste y subajuste o 鈥渙verfitting鈥 y 鈥渦nderfitting鈥, como se le conoce en ingl茅s.

Overfitting y Underfitting

aprende f谩cilmente inteligencia artificial - newsletter

Si observamos el gr谩fico, en el lado izquierdo podemos predecir que la l铆nea no cubre todos los puntos que se muestran en el gr谩fico, tal modelo tiende a causar un ajuste insuficiente de los datos, a esto tambi茅n se le denomina alto bias o sesgo.

Por su parte, el gr谩fico del lado derecho, muestra que la l铆nea predicha cubre todos los puntos del gr谩fico. En tal condici贸n, puedes pensar que es un buen gr谩fico ya que cubre todos los puntos, pero eso no es cierto en realidad, la l铆nea en el gr谩fico cubre tambi茅n todos los puntos que son ruido y valores at铆picos. Este modelo es responsable de predecir resultados deficientes debido a su complejidad, a esto tambi茅n se le denomina alta varianza.

Ahora, veamos el gr谩fico del medio, en este se muestra una l铆nea predicha bastante buena, cubre la mayor铆a de los puntos en el gr谩fico y tambi茅n mantiene el equilibrio entre la bias o sesgo y la varianza.

En Machine Learning, predecimos y clasificamos nuestros datos de forma m谩s general, entonces, para resolver el problema de nuestro modelo que esta sobreajustado o subajustado, debemos verlos por separado uno por uno.

Subajuste

Subajuste se refiere a un modelo que no puede modelar los datos de entrenamiento no generalizar a nuevos datos, esto ocurre cuando el modelo de Machine Learning es muy simple.

El ajuste insuficiente destruye la precisi贸n de nuestro modelo de Machine Learning. Su aparici贸n simplemente significa que nuestro modelo o el algoritmo no se ajusta a los datos lo suficientemente bien. Suele suceder cuando tenemos menos datos para construir un modelo preciso y tambi茅n cuando intentamos construir un modelo lineal con datos no lineales.

En tales casos, las reglas del modelo de Machine Learning son demasiado f谩ciles y flexibles para aplicarse a datos tan m铆nimos y, por lo tanto, es probable que el modelo haga muchas predicciones err贸neas. La falta de adaptaci贸n se puede evitar utilizando m谩s datos y tambi茅n reduciendo las caracter铆sticas por selecci贸n de caracter铆sticas.

Sobreajuste

El sobreajuste se refiere a un modelo que modela los datos de entrenamiento demasiado bien. Esto ocurre cuando un modelo aprende el detalle, incluyendo el ruido en los datos de entrenamiento en la medida en que tiene un impacto negativo en el rendimiento del modelo en datos nuevos. Esto significa que el ruido o las fluctuaciones aleatorias en los datos de entrenamiento son recogidos y aprendidos por el modelo. El problema es que estos conceptos no se aplican a los datos nuevos y afectan negativamente a la capacidad de los modelos para generalizar.

El sobreajuste es m谩s probable con modelos no param茅tricos y no lineales porque estos tipos de algoritmos de Machine Learning tienen m谩s libertad para construir el modelo basado en el conjunto de datos , por lo tanto, pueden construir modelos poco realistas.

Un buen ajuste en Machine Learning

Idealmente, se desea seleccionar un modelo en el punto 贸ptimo entre el ajuste insuficiente y el ajuste excesivo, este es el objetivo, pero es muy dif铆cil de hacer en la pr谩ctica.

Existen varias maneras de evitar el sobreajuste de los modelos de Machine Learning, algunos de los cuales se mencionan a continuaci贸n.

Usar m谩s informaci贸n para entrenamiento

El uso de un gran conjunto de datos de capacitaci贸n generalmente ayuda al modelo de Machine Learning a elegir la se帽al de manera eficiente, sin embargo, esta t茅cnica puede no funcionar todas las veces. Si agregamos muchos datos ruidosos y los datos relevantes son escasos, incluso tener una gran cantidad de datos totales o ayudar谩 al modleo a predecir con precisi贸n los valores.

T茅cnica de validaci贸n cruzada

La validaci贸n cruzada es un est谩ndar de oro en Machine Learning aplicado para estimar la precisi贸n del modelo en datos no vistos. Si tienes los datos, usar un conjunto de datos de validaci贸n tambi茅n es una pr谩ctica excelente. Una forma est谩ndar de encontrar un error de predicci贸n fuera de muestra es usar una validaci贸n cruzada de 5 veces.

Detecci贸n temprana

Cuando entrena iterativamente un modelo de Machine Learning, observar谩s que hasta cierto n煤mero de iteraciones, el rendimiento del modelo mejora. Despu茅s de cierto punto, si aumenta el n煤mero de iteraciones, el modelo tendr谩 un mejor rendimiento en el conjunto de datos de entrenamiento, pero el modelo se sobrecargar谩 y tendr谩 un rendimiento bajo en los conjuntos de datos de prueba. Por lo tanto, debes detener las iteraciones de entrenamiento de su modelo antes de que exista un ajuste excesivo en el modelo.

Regularizaci贸n

La regularizaci贸n se hace para simplificar el modelo de Machine Learning y consiste en muchos m茅todos. La t茅cnica de regularizaci贸n utilizada para un modelo de Machine Learning depende del tipo de modelo, por ejemplo, si el modelo es un 谩rbol de decisi贸n, la regularizaci贸n podr铆a ser podar el 谩rbol; si el modelo es un regresi贸n puede agregar una penalizaci贸n a la funci贸n de costo para la regularizaci贸n.

Cuando se esta desarrollando modelos de Machine Learning en ocasiones se cae, sobretodo, en el sobreajuste de los modelos, por lo tanto se debe tener claro cada una de estas definiciones para evitar el desarrollo de modelos que no son adecuados a los datos.

Deja un comentario

Tu direcci贸n de correo electr贸nico no ser谩 publicada.