Bosque Aleatorios Regresión – Teoría

Los Bosques Aleatorios es un algoritmo de Machine Learning flexible y fácil de usar que produce, incluso sin ajuste de parámetros, un gran resultado la mayor parte del tiempo. También es uno de los algoritmos más utilizados, debido a su simplicidad y al hecho de que se puede usar tanto para tareas de clasificación como de regresión.

estadísticas en machine learning

Definición

Los Bosques Aleatorios es un algoritmo de aprendizaje supervisado que, como ya se puede ver en su nombre, crea un bosque y lo hace de alguna manera aleatorio. Para decirlo en palabras simples: el Bosque Aleatorio crea múltiples árboles de decisión y los combina para obtener una predicción más precisa y estable. En general, mientras más árboles en el bosque se vea, más robusto es el bosque. Random Forest Regression 1 En este algoritmo se agrega aleatoriedad adicional al modelo, mientras crece los árboles, en lugar de buscar la característica más importante al dividir un nodo, busca la mejor característica entre un subconjunto aleatorio de características. Esto da como resultado una amplia diversidad que generalmente resulta en un mejor modelo. Por lo tanto, en Bosques Aleatorios, el algoritmo para dividir un nodo sólo tiene en cuenta un subconjunto aleatorio de las características. Incluso puede hacer que los árboles sean más aleatorios, mediante el uso adicional de umbrales aleatorios para cada función en lugar de buscar los mejores umbrales posibles, como lo hace un árbol de decisión normal. Random Forest Regression 2
aprender a programar para machine Learning

Diferencia entre Árboles de Decisión y Bosques Aleatorios

Como ya se mencionó anteriormente, los Bosques Aleatorios es una colección de Árboles de Decisión, pero existe varias diferencias entre uno y el otro.

Si se ingresa un conjunto de datos de entrenamiento con características y etiquetas en un árbol de decisión, formulará un conjunto de reglas, que se utilizarán para hacer las predicciones.

Por ejemplo, si deseas predecir si una persona hará clic en un anuncio en línea, puedes recopilar información sobre el anuncio, la persona que hizo clic en el pasado y algunas características que describen su decisión. Si colocamos estas características en un Árbol de Decisión, generará algunas reglas para luego predecir si se hará clic en el anuncio o no. Por su parte un Bosque Aleatorio selecciona al azar las observaciones y características para construir varios Árboles de Decisión y luego promedia los resultados.

Otra diferencia es que cuando los Árboles de Decisión son muy profundos pueden sufrir de sobreajuste. Por su parte los Bosques Aleatorios evita el exceso de adaptación la mayor parte del tiempo, creando subconjuntos aleatorios de las características y construyendo árboles más pequeños utilizando estos subconjuntos, posteriormente combina los subárboles. Ten en cuenta que esto no funciona todas las veces y que también hace que el cálculo sea más lento, dependiendo de cuántos árboles genere el bosque al azar.

algebra lineal en machine learning

Ventajas

Las ventajas que tiene este algoritmo son las siguientes:

  • Puede resolver ambos tipos de problemas, es decir, clasificación y regresión, y realiza una estimación decente en ambos frentes.
  • Unos de los beneficios que más llama la atención es el poder de manejar grandes cantidades de datos con mayor dimensionalidad. Puede manejar miles de variables de entrada e identificar las variables más significativas, por lo que se considera uno de los métodos de reducción de dimensionalidad. Además el modelo muestra la importancia de la variable, que puede ser una característica muy útil.
  • Tiene un método efectivo para estimar datos faltantes y mantiene la precisión cuando falta una gran proporción de los datos.
Probabilidad en Machine learning

Desventajas

A su vez las desventajas que tiene este algoritmo son las siguientes:

  • Hace un buen trabajo en la clasificación, pero no es tanto bueno como para los problemas de regresión, ya que no proporciona predicciones precisas y continuas sobre la naturaleza. En caso de regresión, no predice más allá del rango en los datos de entrenamiento, y que pueden sobre ajustar los conjuntos de datos que son particularmente ruidosos.
  • En ocasiones se puede parecer este algoritmo como una caja negra, ya que se tiene muy poco control sobre lo que hace el modelo. Puedes, en el mejor de los casos, probar diferentes parámetros y datos aleatorios.

Los Bosques Aleatorios es un gran algoritmo para entrenar temprano en el proceso de desarrollo del modelo, para ver cómo se desempeña y es difícil construir un mal modelo con este algoritmo debido a su simplicidad. Es una excelente opción, si necesita desarrollar un modelo en un corto periodo de tiempo, además de eso, proporciona un buen indicador de la importancia que asigna a sus características.

pregunta aprendeia

Respuesta a la pregunta del video

Opción 1: Predecir la enfermedad de un paciente tomando en cuenta los síntomas que presenta. Respuesta Incorrecta. Con este algoritmo no se puede predecir la enfermedad de un paciente para esto se requiere de un algoritmo de clasificación y este es un algoritmo de regresión.

Opción 2: Predecir el precio de una acción de la bolsa de valores, tomando en cuanta los datos históricos. Respuesta Correcta. Con este algoritmo se puede predecir si una acción de la bolsa el precio de una acción tomando como variables independientes los datos históricos.

Opción 3: Predecir si una persona puede vivir o morir en el hundimiento del Titanic tomando en cuenta la edad, sexo y ubicación de su cabina. Respuesta Incorrecta. Con este algoritmo no se puede determinar si una persona puede vivir o morir el hundimiento del Titanic, ya que para ello se requiere utilizar un algoritmo de clasificación y este es un algoritmo de regresión.

Si te llamo la atención todo este contenido y te animaste a empezar a estudiar Inteligencia Artificial, he desarrollado un curso que te ayudará, de igual forma a iniciar tu camino dentro de está tecnología. Este curso te sentará las bases y te dará más claridad para poder seleccionar el enfoque o área que más te interese sobre la Inteligencia Artificial, de igual forma te ayudará tener más claridad en muchos conceptos que seguramente en estos momentos te parece confusos. Este curso es ideal si apenas estás empezando. Si quieres más información puedes ingresar a este enlace.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *