Los m茅todos de ensamble de modelos o m茅todos combinados intentan ayudar a mejorar el rendimiento de los modelos de Machine Learning al mejorar su precisi贸n. Este es un proceso mediante el cual se construyen estrat茅gicamente varios modelos de Machine Learning para resolver un problema particular.

Pero veamos esto con un ejemplo:

Supongamos que quieres invertir en una empresa, pero no estas seguro de su rendimiento por lo que buscas a varios expertos para te aconsejen si el precio de la acci贸n aumentar谩 en m谩s de 6% anual. Estas fueron las respuestas de cada una de las personas consultada:

Ensemble learning 1

Empleado de la empresa: esta persona conoce la funcionalidad interna de la empresa y tiene informaci贸n sobre la funcionalidad de la misma, pero carece de una perspectiva m谩s amplia sobre c贸mo est谩n innovando los competidores y c贸mo est谩 evolucionando la tecnolog铆a. En el pasado, ha tenido raz贸n 70% de veces.

Asesor financiero de la empresa: esta persona tiene una perspectiva m谩s amplia sobre c贸mo la estrategia de las empresas ser谩 justa en este entorno competitivo, sin embargo, carece de una visi贸n sobre c贸mo las pol铆ticas internas de la empresa se est谩n ajustando. En el paso ha tenido raz贸n un 75% de las veces.

Operador del mercado de valores: esta persona ha observado el precio de las acciones de la empresa en los 煤ltimos a帽os y conoce las tendencias de estacionalidad y el rendimiento del mercado en general, pero tambi茅n conoce que las acciones pueden variar con el tiempo. En el pasado ha tenido raz贸n 70% de veces.

Empleado de un competidor: esta persona conoce la funcionalidad interna de las firmas competidoras y est谩 consciente de ciertos cambios que a煤n no se han implementado, pero por otra parte carece de conocimiento sobre la empresa enfocada y de los factores externos que pueden relacionar el crecimiento del competidor. En el pasado, ha tenido raz贸n el 60% de las veces.

Dado el amplio espectro de acceso que tiene, probablemente pueda combinar toda la informaci贸n y tomar una decisi贸n informada.

En una situaci贸n en la que todos los expertos verifican que es una buena decisi贸n, obtendr谩 una tasa de precisi贸n combinada de 99.92%.

El supuesto utilizado aqu铆 de que todas las predicciones son completamente independientes es ligeramente extremo, ya que se espera que est茅n correlacionados. Sin embargo, puedes ver c贸mo podemos estar seguros combinando varios pron贸sticos juntos.

Bueno el aprendizaje de ensamblado de modelos no es diferente.

El ensamblado es el arte de combinar un conjunto de diversos de modelos para improvisar sobre la estabilidad y el poder predictivo del modelo. Los modelos pueden ser diferentes entre s铆 por una variedad de razones:

  • Puede haber diferencia en la poblaci贸n de datos
  • Puede haber una t茅cnica de modelado diferente utilizada
  • Puede haber una hip贸tesis diferente

Esta es la idea b谩sica de un conjunto: combinar predicciones de varios modelos, promedia errores idiosincr谩ticos y produce mejores predicciones generales. La siguiente imagen muestra un ejemplo de los esquemas de un conjunto:

Ensemble learning 2

Aqu铆, los datos se suministran a un conjunto de modelos, y luego se combinan las predicciones de los modelos.

Tipos de m茅todos de ensamble de modelos

Si bien existe varios tipos de m茅todos de ensamble de modelos, los tres siguientes son los m谩s utilizados en la industria.

Agregaci贸n Bootstrap (Bootstrap AGGgragation) o BAGGing

El Bagging es una de las t茅cnicas de construcci贸n de conjuntos que tambi茅n se conoce como Agregaci贸n Bootstrap. Dada una muestra de datos, se extraen varias muestras, bootstrapped. Esta selecci贸n se realiza de manera aleatoria, es decir, cada variable se puede elegir de la poblaci贸n original, de modo que cada variable es igualmente probable que se seleccione en cada iteraci贸n del proceso de arranque.

Una vez que forman las muestras boostrapped, se entrenan los modelos de manera separada. Toma en cuenta que las muestras booststrapped se extraen del conjunto de entrenamiento y los submodelos se prueba utilizando el conjunto de prueba. La predicci贸n de salida final se combina en las proyecciones de todos los submodelos.

En la siguiente figura se explica mejor este m茅todo:

Ensemble learning 3

Boosting

Boosting es una forma de t茅cnica de aprendizaje secuencial. El algoritmo funciona entrenando un modelo con todo el conjunto de entrenamiento, y los modelos posteriores se construyen ajustando los valores de error residual del modleo incial. De esta manera, Boosting intenta dar mayor peso a aquellas observaciones que el modelo anterior estim贸 pobremente. Una vez que se crea la secuencia de los modelos, las predicciones hechas por los modelos son ponderadas por sus puntuaciones de precisi贸n y los resultados se combinan para crear una estimaci贸n final. Algunos de los modelos que normalmente se utilizan en la t茅cnica de refuerzo son XGBoost y ADABoost.

Ensemble learning 4

驴Cu谩l es mejor, Bagging o Boosting?

No hay un ganador absoluto, depende de los datos, la simulaci贸n y las circunstancias. Ambos disminuyen la varianza de su estimaci贸n 煤nica, ya que combinan varias estimaciones de diferentes modelos, as铆 que el resultado puede ser un modelo con mayor estabilidad.

Si el problema es que el modelo 煤nico obtiene un rendimiento muy bajo, Bagging rara vez obtendr谩 un mejor sesgo. Sin embargo, Boosting podr铆a generar un modelo combinado con errores m谩s bajos, ya que optimiza las ventajas y reduce las dificultades del modelo 煤nico.

Por el contrario, si la dificultad del modelo 煤nico se adapta en exceso, entonces la mejor opci贸n es Bagging. Boosting por su parte no ayuda a evitar el exceso de ajuste, de hecho, esta t茅cnica se enfrenta a este problema en s铆, por esta raz贸n, Bagging es efectivo m谩s a menudo que Boosting.

En resumen, el objetivo de cualquier problema de Machine Learning es encontrar un modelo 煤nico que pueda predecir mejor nuestro resultado deseado. En lugar de hacer un modelo y esperar que este sea el mejor predictor que podamos hacer, los m茅todos de conjunto tienen en cuenta una gran cantidad de modelos y promedian esos modelos para producir un modelo final.

Deja un comentario

Tu direcci贸n de correo electr贸nico no ser谩 publicada.