Bosques Aleatorios Clasificación – Teoría

Los Bosques Aleatorios es un algoritmo de aprendizaje supervisado. Puede utilizarse tanto para la clasificación como para la regresión. También es el algoritmo más flexible y fácil de usar. Un bosque está compuesto de árboles. Se dice que cuantos más árboles tenga, más robusto será el bosque. Los Bosques Aleatorios crea árboles de decisión a partir de muestras de datos seleccionados al azar, obtiene predicciones de cada árbol y selecciona la mejor solución mediante votación. También proporciona un indicador bastante bueno de la importancia de la característica.

Los Bosques Aleatorios tienen una variedad de aplicaciones, tales como motores de recomendación, clasificación de imágenes y selección de características. Se puede utilizar para clasificar a los solicitantes de préstamos, identificar actividades fraudulentas y predecir enfermedades.

Técnicamente es un método de conjunto, basado en el enfoque de dividir y conquistar, de árboles de decisión generados en un conjunto de datos dividido al azar. Los árboles de decisión individuales se generan utilizando un indicador de selección de atributos, como la ganancia de información, la relación de ganancia y el índice Gini, para cada atributo. Cada árbol depende de una muestra aleatoria independiente. En un problema de clasificación, cada árbol vota y se elige la clase más popular como resultado final. Es más simple y más potente en comparación con otros algoritmos de clasificación no lineal.

¿Cómo funciona el algoritmo?

Funciona en cuatro pasos:

  • Construir un árbol de decisión para cada muestra y obtener un resultado de predicción de cada árbol de decisión.
  • Realizar una votación por cada resultado previsto.
  • Seleccionar el resulta de la predicción con más votos como predicción final.

Importancia de las características

Otra gran cualidad del algoritmo de Bosques Aleatorios es que es muy fácil medir la importancia relativa de cada característica en la predicción. La librería de Python Sklearn proporciona una gran herramienta para esto, que mide la importancia de las características observando en qué medida los nodos de los árboles, que utilizan esas características, reducen la impureza en todos loar árboles del bosque. Calcula esta puntuación automáticamente para cada característica después del entrenamiento y escala los resultados, de modo que la suma de toda la importancia es igual a 1.

A través de la importancia de las características, puedes decidir qué características deseas eliminar, porque no contribuyen lo suficiente o nada al proceso de predicción. Esto es importante, porque una regla general en Machine Learning es que cuantas más funciones tengas, más probable es que tu modelo sufra de sobreajuste y viceversa.

Bosques Aleatorios versus Árboles de Decisión

  • Los Bosques Aleatorios son un conjunto de múltiples árboles de decisión.
  • Los árboles de decisión profundos pueden sufrir de sobreajuste, pero los bosques aleatorios evitan el sobreajuste creando árboles en subconjuntos aleatorios.
  • Los árboles de decisión son computacionalmente más rápidos.
  • Los Bosques Aleatorios son difíciles de interpretar, mientas que un árbol de decisión es fácilmente interpretable y puede convertirse en reglas.

Ventajas

  • Los Bosques Aleatorios se consideran un método muy preciso y robusto debido al número de árboles de decisión que participan en el proceso.
  • No sufre el problema del sobreajsute. La razón principal es que toma el promedio de toas las predicciones, lo que anula los sesgos.
  • El algoritmo puede utilizarse tanto en problemas de clasificación como de regresión.
  • Los Bosques Aleatorios también pueden manejar los valores que faltan. Hay dos maneras de manejarlos: usando valores medianos para reemplazar variables continuas, y calculando el promedio ponderado por proximidad de los valores faltantes.
  • Puede obtener la importancia relativa de las características, lo que ayuda a seleccionar las características más importantes para el clasificador.

Desventajas

  • Los Bosques Aleatorios son lentos en generar predicciones porque tienen múltiples árboles de decisión. Cada vez que hace una predicción, todos los árboles en el bosque tienen que hacer una predicción para la misma entrada dad y luego realizar una votación sobre ella. Todo este proceso lleva mucho tiempo.
  • El modelo es difícil de interpretar en comparación con un árbol de decisión, donde se puede tomar una decisión fácilmente siguiente la ruta del árbol.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *