Sesgo y Varianza en Machine Learning
Ya debes saber que en el mundo de Machine Learning, la precisión lo es todo. Cuando desarrollamos un modelo nos esforzamos para hacer que sea lo más preciso, ajustando y reajustando los parámetros, pero la realidad es que no se puede construir un modelo 100% preciso ya que nunca pueden estar libres de errores.
Comprender cómo las diferentes fuentes de error generan bias y varianza te ayudará a mejorar el proceso de ajuste de datos, lo que resulta en modelos más precisos, adicionalmente también evitarás el error de sobreajuste y falta de ajuste.
Nota: en ocasiones encontrarás la palabra bias como sesgo, así es como se le llama en español a este tipo de error.
Error irreductible
El error irreducible no se puede reducir, independientemente de qué algoritmo se usa. También se le conoce como ruido y, por lo general, proviene por factores como variables desconocidas que influyen en el mapeo de las variables de entrada a la variable de salida, un conjunto de características incompleto o un problema mal enmarcado.
No importa cuán bueno hagamos nuestro modelo, nuestros datos tendrán cierta cantidad de ruido o un error irreductible que no se puede eliminar.
Sin embargo, los otros dos tipos de errores se pueden reducir porque se derivan de la elección del algoritmo, razón por la cual en esta entrada nos enfocaremos en ambos.
Error de bias o sesgo
Es la diferencia entre la predicción esperada de nuestro modelo y los valores verdaderos.
Aunque al final nuestro objetivo es siempre construir modelos que puedan predecir datos muy cercanos a los valores verdaderos, no siempre es tan fácil porque algunos algoritmos son simplemente demasiado rígidos para aprender señales complejas del conjunto de datos.
Imagina ajustar una regresión lineal a un conjunto de datos que tiene un patrón no lineal, no importa cuántas observaciones más recopiles, una regresión lineal no podrá modelar las curvas en esos datos. Esto se conoce como ajuste insuficiente.
En general, los algoritmos paramétricos como la regresión lineal, tienen un alto bias que los hace rápidos de aprender y más fácil de entender, pero generalmente menos flexibles. A su vez, tienen un menor rendimiento predictivo en problemas complejos.
- Bajo bias: sugiere menos suposiciones sobre la forma de la función objetivo. Los algoritmos de Machine Learning con baja bias incluyen: árboles de decisión, k-vecinos más cercanos y máquinas de vectores de soporte.
- Alto bias: sugiere más suposiciones sobre la forma de la función objetivo. Los algoritmos con alto bias se incluyen: regresión lineal, análisis discriminante lineal y regresión logística.
Error de varianza
Los algoritmos con alto bias se incluyen: regresión lineal, análisis discriminante lineal y regresión logística.
La función objetivo se estima a partir de los datos de entrenamiento mediante un algoritmo de Machine Learning, por lo que deberíamos esperar que el algoritmo tenga alguna variación. Idealmente no debería cambiar demasiado de un conjunto de datos de entrenamiento a otro, lo que significa que el algoritmo es bueno para elegir el mapeo subyacente oculto entre las variables de entrada y de salida.
Los algoritmos de Machine Learning que tienen una gran varianza están fuertemente influenciados por los detalles de los datos de entrenamiento, esto significa que los detalles de la capacitación influyen en el número y los tipos de parámetros utilizados para caracterizar la función de mapeo.
Generalmente, los algoritmos de Machine Learning no paramétrico que tienen mucha flexibilidad tienen una gran variación.
- Varianza baja: sugiere pequeños cambios en la estimación de la función objetivo con cambios en el conjunto de datos de capacitación. Los algoritmos de Machine Learning con baja varianza incluye: regresión lineal, análisis discriminante lineal y regresión logística.
- Alta varianza: sugiere grandes cambios en la estimación de la función objetivo con cambios en el conjunto de datos de capacitación. Los algoritmos con alta varianza son: árboles de decisión, k-vecinos más cercanos y máquinas de vectores de soporte.
La compensación Bias-Varianza o Trade-off
El objetivo de cualquier algoritmo supervisado de Machine Learning es lograr un bias bajo y una baja varianza, a su vez, el algoritmo debe lograr un buen rendimiento de predicción.
El bias frente a la varianza se refiere a la precisión frente a la consistencia de los modelos entrenados por su algoritmo. Podemos diagnosticarlos de la siguiente manera:
- Los algoritmos de baja varianza (alto bias) tienden a ser menos complejos, con una estructura subyacente simple o rígida.
Entrenan modelos que son consistentes, pero inexactos en promedio. Estos incluyen algoritmos paramétricos o lineales, como la regresión lineal y el ingenuo Bayes.
- Los algoritmos de bajo bias (alta varianza) tienden a ser más complejos, con una estructura subyacente flexible.
Entrenan modelos que son precisos en promedio pero inconsistentes. Estos incluyen algoritmos no lineales o no paramétricos, como árboles de decisión y k-vecinos más cercanos.
Pingback: Introducción a la minería de datos – jhontona.com