Aprendizaje Supervisado: Random Forest Classification
Tabla de contenidos
Definición
Random Forest es un método versátil de aprendizaje automático capaz de realizar tanto tareas de regresión como de clasificación. También lleva a cabo métodos de reducción dimensional, trata valores perdidos, valores atípicos y otros pasos esenciales de exploración de datos. Es un tipo de método de aprendizaje por conjuntos, donde un grupo de modelos débiles se combinan para formar un modelo poderoso.
En Random Forest se ejecutan varios algoritmos de árbol de decisiones en lugar de uno solo. Para clasificar un nuevo objeto basado en atributos, cada árbol de decisión da una clasificación y finalmente la decisión con mayor “votos” es la predicción del algoritmo.
Ventajas
Las ventajas que tiene este algoritmo son las siguientes:
- Puede resolver ambos tipos de problemas, es decir, clasificación y regresión, y realiza una estimación decente en ambos casos.
- Unos de los beneficios que más llama la atención es el poder de manejar grandes cantidades de datos con mayor dimensionalidad. Puede manejar miles de variables de entrada e identificar las variables más significativas, por lo que se considera uno de los métodos de reducción de dimensionalidad. Además el modelo muestra la importancia de la variable, que puede ser una característica muy útil.
- Tiene un método efectivo para estimar datos faltantes y mantiene la precisión cuando falta una gran proporción de los datos.
Desventajas
A su vez la desventaja que tiene este algoritmo es la siguiente:
- En ocasiones se puede parecer este algoritmo como una caja negra, ya que se tiene muy poco control sobre lo que hace el modelo. Puedes, en el mejor de los casos, probar diferentes parámetros y datos aleatorios.
Respuesta a la pregunta del video
Opción 1: Predecir la enfermedad de un paciente tomando en cuenta los síntomas que presenta.
Respuesta Correcta. Con este algoritmo se puede determinar la enfermedad de una persona enferma de acuerdo a los síntomas que presenta.
Opción 2: Predecir el precio de una acción de la bolsa de valores, tomando en cuanta los datos históricos.
Respuesta Incorrecta. Con este algoritmo no se puede predecir el valor de una acción de la bolsa ya que para esto se requiere un algoritmo de regresión y este es un algoritmo de clasificación.
Opción 3: Predecir si una persona puede vivir o morir en el hundimiento del Titanic tomando en cuenta la edad, sexo y ubicación de su cabina.
Respuesta Correcta. Con este algoritmo se puede determinar si una persona puede vivir o morir el hundimiento del Titanic.
Hola!
En una parte dice: «Tiene un método efectivo para estimar datos faltantes». ¿Hay más información sobre esto? ¿Dónde puedo encontrarla?
Gracias!
Hola María, en esta publicación tengo información sobre los datos perdidos: https://bit.ly/2Eetw3j. Saludos.