Aprendizaje Supervisado: Decision Tree Classification
Tabla de contenidos
Definición
Árbol de decisión o Decisión Tree Classification es un tipo de algoritmo de aprendizaje supervisado que se utiliza principalmente en problemas de clasificación, aunque funciona para variables de entrada y salida categóricas como continuas.
En esta técnica, dividimos la data en dos o más conjuntos homogéneos basados en el diferenciador más significativos en las variables de entrada. El árbol de decisión identifica la variable más significativa y su valor que proporciona los mejores conjuntos homogéneos de población. Todas las variables de entrada y todos los puntos de división posibles se evalúan y se elige la que tenga mejor resultado.
Los algoritmos de aprendizaje basados en árbol se consideran uno de los mejores y más utilizados métodos de aprendizaje supervisado. Los métodos basados en árboles potencian modelos predictivos con alta precisión, estabilidad y facilidad de interpretación. A diferencia de los modelos lineales, mapean bastante bien las relaciones no lineales.
Ventajas
Las ventajas que tiene este tipo de algoritmo son:
Fácil de entender. La salida del árbol de decisión es muy fácil de entender, incluso para personas con antecedentes no analíticos, no se requiere ningún conocimiento estadístico para leerlos e interpretarlos.
Útil en la exploración de datos. El árbol de decisión es una de las formas más rápidas para identificar las variables más significativas y la relación entre dos o más. Con la ayuda de los árboles de decisión podemos crear nuevas variables o características que tengan mejor poder para predecir la variable objetivo.
Se requiere menos limpieza de datos. Requiere menos limpieza de datos en comparación con algunas otras técnicas de modelado. A su vez, no esta influenciado por los valores atípicos y faltantes en la data.
El tipo de datos no es una restricción. Puede manejar variables numéricas y categóricas.
Método no paramétrico. Es considerado un método no paramétrico, esto significa que los árboles de decisión no tienen suposiciones sobre la distribución del espacio y la estructura del clasificador.
Desventajas
Ya vista las ventajas, ahora se deben mencionar las desventajas que posee este algoritmo:
Sobreajuste. Es una de las dificultades más comunes que tiene este algoritmo, este problema se resuelve colocando restricciones en los parámetros del modelo y eliminando ramas en el análisis.
Los modelos basados en árboles no están diseñados para funcionar con características muy dispersas. Cuando se trata de datos de entrada dispersos (por ejemplo, características categóricas con una gran dimensión), podemos preprocesar las características dispersas para generar estadísticas numéricas, o cambiar a un modelo lineal, que es más adecuado para dichos escenarios.
Respuesta a la pregunta del video
Opción 1: Predecir si una persona puede vivir o morir en el hundimiento del Titanic tomando en cuenta la edad, sexo y ubicación de su cabina. Respuesta Correcta. Con este algoritmo se puede determinar si una persona puede vivir o morir el hundimiento del Titanic.
Opción 2: Predecir el valor de una acción de la bolsa de valores, utilizando los valores histórico. Respuesta Incorrecta. Con este algoritmo no se puede predecir el valor de una acción de la bolsa ya que para esto se requiere un algoritmo de regresión y este es un algoritmo de clasificación.
Opción 3: Predecir la distancia en que un auto se detiene de acuerdo a la velocidad del mismo. Respuesta Incorrecta. Con este algoritmo no se puede determinar la distancia en que un auto se puede detener, para ello se requiere un algoritmo de regresión y este es de clasificación.