Bosque Aleatorios Regresión – Teoría
Los Bosques Aleatorios es un algoritmo de Machine Learning flexible y fácil de usar que produce, incluso sin ajuste de parámetros, un gran resultado la mayor parte del tiempo. También es uno de los algoritmos más utilizados, debido a su simplicidad y al hecho de que se puede usar tanto para tareas de clasificación como de regresión.
Definición
Diferencia entre Árboles de Decisión y Bosques Aleatorios
Como ya se mencionó anteriormente, los Bosques Aleatorios es una colección de Árboles de Decisión, pero existe varias diferencias entre uno y el otro.
Si se ingresa un conjunto de datos de entrenamiento con características y etiquetas en un árbol de decisión, formulará un conjunto de reglas, que se utilizarán para hacer las predicciones.
Por ejemplo, si deseas predecir si una persona hará clic en un anuncio en línea, puedes recopilar información sobre el anuncio, la persona que hizo clic en el pasado y algunas características que describen su decisión. Si colocamos estas características en un Árbol de Decisión, generará algunas reglas para luego predecir si se hará clic en el anuncio o no. Por su parte un Bosque Aleatorio selecciona al azar las observaciones y características para construir varios Árboles de Decisión y luego promedia los resultados.
Otra diferencia es que cuando los Árboles de Decisión son muy profundos pueden sufrir de sobreajuste. Por su parte los Bosques Aleatorios evita el exceso de adaptación la mayor parte del tiempo, creando subconjuntos aleatorios de las características y construyendo árboles más pequeños utilizando estos subconjuntos, posteriormente combina los subárboles. Ten en cuenta que esto no funciona todas las veces y que también hace que el cálculo sea más lento, dependiendo de cuántos árboles genere el bosque al azar.
Ventajas
Las ventajas que tiene este algoritmo son las siguientes:
- Puede resolver ambos tipos de problemas, es decir, clasificación y regresión, y realiza una estimación decente en ambos frentes.
- Unos de los beneficios que más llama la atención es el poder de manejar grandes cantidades de datos con mayor dimensionalidad. Puede manejar miles de variables de entrada e identificar las variables más significativas, por lo que se considera uno de los métodos de reducción de dimensionalidad. Además el modelo muestra la importancia de la variable, que puede ser una característica muy útil.
- Tiene un método efectivo para estimar datos faltantes y mantiene la precisión cuando falta una gran proporción de los datos.
Desventajas
A su vez las desventajas que tiene este algoritmo son las siguientes:
- Hace un buen trabajo en la clasificación, pero no es tanto bueno como para los problemas de regresión, ya que no proporciona predicciones precisas y continuas sobre la naturaleza. En caso de regresión, no predice más allá del rango en los datos de entrenamiento, y que pueden sobre ajustar los conjuntos de datos que son particularmente ruidosos.
- En ocasiones se puede parecer este algoritmo como una caja negra, ya que se tiene muy poco control sobre lo que hace el modelo. Puedes, en el mejor de los casos, probar diferentes parámetros y datos aleatorios.
Los Bosques Aleatorios es un gran algoritmo para entrenar temprano en el proceso de desarrollo del modelo, para ver cómo se desempeña y es difícil construir un mal modelo con este algoritmo debido a su simplicidad. Es una excelente opción, si necesita desarrollar un modelo en un corto periodo de tiempo, además de eso, proporciona un buen indicador de la importancia que asigna a sus características.
Respuesta a la pregunta del video
Opción 1: Predecir la enfermedad de un paciente tomando en cuenta los síntomas que presenta. Respuesta Incorrecta. Con este algoritmo no se puede predecir la enfermedad de un paciente para esto se requiere de un algoritmo de clasificación y este es un algoritmo de regresión.
Opción 2: Predecir el precio de una acción de la bolsa de valores, tomando en cuanta los datos históricos. Respuesta Correcta. Con este algoritmo se puede predecir si una acción de la bolsa el precio de una acción tomando como variables independientes los datos históricos.
Opción 3: Predecir si una persona puede vivir o morir en el hundimiento del Titanic tomando en cuenta la edad, sexo y ubicación de su cabina. Respuesta Incorrecta. Con este algoritmo no se puede determinar si una persona puede vivir o morir el hundimiento del Titanic, ya que para ello se requiere utilizar un algoritmo de clasificación y este es un algoritmo de regresión.