Cuando trabajamos con un conjunto de datos para predecir o clasificar un problema, tendemos a encontrar la聽precisi贸n implementando el modelo聽con el conjunto de datos de entrenamiento y luego con el conjunto de datos de pruebas.

En caso de que la precisi贸n sea satisfactoria, tendemos a aumentar la precisi贸n de la predicci贸n con el conjuntos de datos, ya sea aumentando o disminuyendo la selecci贸n de las caracter铆sticos o modificando las condiciones de nuestro modelo de Machine Learning, pero con esto, en ocasiones, el modelo puede dar resultados pobres.

Curso Te贸rico-Pr谩ctico: Machine Learning para no programadores

Pero, 驴por qu茅 ocurre esto?

aprende f谩cilmente inteligencia artificial - newsletter

El pobre rendimiento del modelo puede deberse a que el modelo es demasiado simple para describir el objetivo o, por el contrario, que el modelo sea demasiado complejo par expresar el objetivo. Es en este momento que se debe tener claro los conceptos de sobreajuste y subajuste o 鈥渙verfitting鈥 y 鈥渦nderfitting鈥, como se le conoce en ingl茅s.

Overfitting y Underfitting

Si observas el gr谩fico, en el lado izquierdo puedes predecir que la l铆nea no cubre todos los puntos que se muestran en el gr谩fico, tal modelo tiende a causar un ajuste insuficiente de los datos, a esto tambi茅n se le denomina alto bias o sesgo.

Por su parte, el gr谩fico del lado derecho, muestra que la l铆nea predicha cubre todos los puntos del gr谩fico. En tal condici贸n, puedes pensar que es un buen gr谩fico ya que cubre todos los puntos, pero eso no es cierto en realidad, la l铆nea en el gr谩fico cubre tambi茅n todos los puntos que son ruido y valores at铆picos. Este modelo es responsable de predecir resultados deficientes debido a su complejidad, a esto tambi茅n se le denomina alta varianza.

Curso Te贸rico-Pr谩ctico:Generaci麓贸n de Texto con Inteligencia Artificial

Ahora, observa el gr谩fico del medio, en este se muestra una l铆nea predicha bastante buena, cubre la mayor铆a de los puntos en el gr谩fico y tambi茅n mantiene el equilibrio entre la bias o sesgo y la varianza.

En Machine Learning, predecimos y clasificamos nuestros datos de forma m谩s general, entonces, para resolver el problema de nuestro modelo que esta sobreajustado o subajustado, debemos verlos por separado uno por uno.

estad铆sticas en machine learning

Subajuste

Se refiere a un modelo que no puede modelar los datos de entrenamiento no generalizar a nuevos datos, esto ocurre cuando el modelo de Machine Learning es muy simple.

El ajuste insuficiente destruye la precisi贸n de nuestro modelo de Machine Learning. Su aparici贸n simplemente significa que nuestro modelo o el algoritmo no se ajusta a los datos lo suficientemente bien. Suele suceder cuando tenemos menos datos para construir un modelo preciso y tambi茅n cuando intentamos construir un modelo lineal con datos no lineales.

En tales casos, las reglas del modelo de Machine Learning son demasiado f谩ciles y flexibles para aplicarse a datos tan m铆nimos y, por lo tanto, es probable que el modelo haga muchas predicciones err贸neas. La falta de adaptaci贸n se puede evitar utilizando m谩s datos y tambi茅n reduciendo las caracter铆sticas por selecci贸n de caracter铆sticas.

estad铆sticas en machine learning

Sobreajuste

El sobreajuste se refiere a un modelo que modela los datos de entrenamiento demasiado bien.

聽Esto ocurre cuando un modelo aprende el detalle, incluyendo el ruido en los datos de entrenamiento en la medida en que tiene un impacto negativo en el rendimiento del modelo en datos nuevos. Esto significa que el ruido o las fluctuaciones aleatorias en los datos de entrenamiento son recogidos y aprendidos por el modelo. El problema es que estos conceptos no se aplican a los datos nuevos y afectan negativamente a la capacidad de los modelos para generalizar.

El sobreajuste es m谩s probable con modelos no param茅tricos y no lineales porque estos tipos de algoritmos de Machine Learning tienen m谩s libertad para construir el modelo basado en el conjunto de datos , por lo tanto, pueden construir modelos poco realistas.

aprender a programar para machine Learning

Un buen ajuste en Machine Learning

Idealmente, se desea seleccionar un modelo en el punto 贸ptimo entre el ajuste insuficiente y el ajuste excesivo, este es el objetivo, pero es muy dif铆cil de hacer en la pr谩ctica.

Existen varias maneras de evitar el sobreajuste de los modelos de Machine Learning, algunos de los cuales se mencionan a continuaci贸n:

Un buen ajuste en Machine Learning

Idealmente, se desea seleccionar un modelo en el punto 贸ptimo entre el ajuste insuficiente y el ajuste excesivo, este es el objetivo, pero es muy dif铆cil de hacer en la pr谩ctica.

Existen varias maneras de evitar el sobreajuste de los modelos de Machine Learning, algunos de los cuales se mencionan a continuaci贸n.

Usar m谩s informaci贸n para entrenamiento

El uso de un gran conjunto de datos de capacitaci贸n generalmente ayuda al modelo de Machine Learning a elegir la se帽al de manera eficiente, sin embargo, esta t茅cnica puede no funcionar todas las veces. Si agregamos muchos datos ruidosos y los datos relevantes son escasos, incluso tener una gran cantidad de datos totales o ayudar谩 al modelo a predecir con precisi贸n los valores.

T茅cnica de validaci贸n cruzada

La validaci贸n cruzada es un est谩ndar de oro en Machine Learning aplicado para estimar la precisi贸n del modelo en datos no vistos. Si tienes los datos, usar un conjunto de datos de validaci贸n tambi茅n es una pr谩ctica excelente. Una forma est谩ndar de encontrar un error de predicci贸n fuera de muestra es usar una validaci贸n cruzada de 5 veces.

Detecci贸n temprana

Cuando entrena iterativamente un modelo de Machine Learning, observaras que hasta cierto n煤mero de iteraciones, el rendimiento del modelo mejora. Despu茅s de cierto punto, si aumenta el n煤mero de iteraciones, el modelo tendr谩 un mejor rendimiento en el conjunto de datos de entrenamiento, pero el modelo se sobrecarga y tendr谩 un rendimiento bajo en los conjuntos de datos de prueba. Por lo tanto, debes detener las iteraciones de entrenamiento de su modelo antes de que exista un ajuste excesivo en el modelo.

Regularizaci贸n

La regularizaci贸n se hace para simplificar el modelo de Machine Learning y consiste en muchos m茅todos. La t茅cnica de regularizaci贸n utilizada para un modelo de Machine Learning depende del tipo de modelo, por ejemplo, si el modelo es un 谩rbol de decisi贸n, la regularizaci贸n podr铆a ser podar el 谩rbol; si el modelo es un regresi贸n puede agregar una penalizaci贸n a la funci贸n de costo para la regularizaci贸n.

Cuando se esta desarrollando modelos de Machine Learning en ocasiones se cae, sobretodo, en el sobreajuste de los modelos, por lo tanto se debe tener claro cada una de estas definiciones para evitar el desarrollo de modelos que no son adecuados a los datos.

Si te llamo la atenci贸n todo este contenido y te animaste a empezar a estudiar Inteligencia Artificial, he desarrollado un curso que te ayudar谩, de igual forma a iniciar tu camino dentro de est谩 tecnolog铆a. Este curso te sentar谩 las bases y te dar谩 m谩s claridad para poder seleccionar el enfoque o 谩rea que m谩s te interese sobre la Inteligencia Artificial, de igual forma te ayudar谩 tener m谩s claridad en muchos conceptos que seguramente en estos momentos te parece confusos. Este curso es ideal si apenas est谩s empezando. Si quieres m谩s informaci贸n puedes ingresar a este enlace.

Deja un comentario

Tu direcci贸n de correo electr贸nico no ser谩 publicada.