Un árbol tiene muchas analogías en la vida real, y resulta que ha influido en una amplia área del aprendizaje automático o Machine Learning. Los árboles de decisión son una técnica de aprendizaje supervisado que predice valores de respuestas mediante el aprendizaje de reglas de decisión derivadas de características. Se pueden utilizar tanto en una regresión como en un contexto de clasificación.

Expliquemos un poco la teoría detrás de este algoritmo de Machine Learning.

aprende fácilmente inteligencia artificial - newsletter

estadísticas en machine learning

Definición

Los árboles de decisión son una técnica de aprendizaje supervisado que predice valores de respuestas mediante el aprendizaje de reglas de decisión derivadas de características. Se pueden utilizar tanto en una regresión como en un contexto de clasificación.

Este algoritmo es muy bueno en el manejo de datos tabulares con características numéricas o características categóricas con menos de cientos de categorías.

 A diferencia de los modelos lineales, los árboles de decisiones pueden capturar la interacción no lineal entre las características y el objetivo.

aprender a programar para machine Learning

Representación matemática de la regresión lineal

Los árboles de decisión funcionan al dividir el espacio de la característica en varias regiones rectangulares simples, divididas por divisiones paralelas de ejes. Para obtener una predicción para una observación particular, se utiliza la media o el modo de las respuestas de las observaciones de entrenamiento, dentro de la partición a la que pertenece la nueva observación.

Veamos de manera matemática la función del árbol de decisión:

Arboles-de-Decisión-Regresión-Teoría-1

Donde:

wm es la respuesta media en una región particular ( Rm).

vm representa cómo se divide cada variable en un valor de umbral particular.

Estas divisiones definen cómo el espacio de características en R^2  en M regiones separadas, hiperbloques.

Considera un ejemplo con dos variables de características (X1 y X2) y una respuesta numérica “y”. En la siguiente figura puedes ver un árbol desarrollado para este ejemplo en particular.

Arboles-de-Decisión-Regresión-Teoría-2

Pero, ¿cómo se corresponde esto con una partición del espacio de características?

En la siguiente figura se muestra un subconjunto que contiene nuestros datos de ejemplo.

Arboles-de-Decisión-Regresión-Teoría-3

Observa cómo se divide el dominio mediante divisiones paralelas de eje, es decir, cada división del dominio se alinea con uno de los ejes de características.

Arboles-de-Decisión-Regresión-Teoría-4

El concepto de división paralela de ejes se generaliza directamente a dimensiones superiores a dos. Para un espacio de características de tamaño p, un subconjunto del espacio se divide en regiones M, , cada una de las cuales es un hiperbloque p-dimensional.

estadísticas en machine learning

Pasos para crear un Árbol de Decisión Regresión

Creemos ahora un árbol de regresión y hagamos predicciones con él. Las características básicas para crear un árbol de decisión es la siguiente:

  • Dadas las características p, divide el espacio de características p-dimensional, en M regiones mutuamente distintas que cubren completamente el subconjunto del espacio de características y no se superponen. Estas regiones están dadas por R1, …, Rm .
  • Cualquier observación nueva que caiga en una partición particular tiene la respuesta estimada dada por la media de todas las observaciones de entrenamiento con la partición denotada por .

Sin embargo, este proceso no describe realmente cómo formar la partición de una manera algorítmica. Para eso necesitamos usar una técnica conocida como división binaria recursiva.

Nuestro objetivo para este algoritmo es minimizar algún tipo de criterio de error. En este particular, deseamos minimizar la suma de cuadrados residual (RSS), una medida de error también utilizada en la configuración de regresión lineal.

Desafortunadamente, es demasiado costoso computacionalmente considerar todas las particiones posibles del espacio de la característica en rectángulos M, por lo tanto debemos utilizar un enfoque de búsqueda menos intensivo en computación, pero más sofisticado, aquí es donde entra la división binaria recursiva.

La división binaria recursiva aborda el problema comenzando en la parte superior del árbol y dividiendo el árbol en dos ramas, lo que crea una partición de dos espacios. Lleva a cabo esta división en particular en la parte superior del árbol varias veces y elige la división de las características que minimiza la suma de cuadrados residual (RSS).

En este punto, el árbol crea una nueva rama en una partición particular y lleva a cabo el mismo procedimiento, es decir, evalúa el RSS en cada división de la partición y elige el mejor.

Esto lo convierte en un algoritmo codicioso, lo que significa que llevar a cabo la evaluación para cada iteración de la recursión, en lugar de «mirar hacia adelante» y continuar bifurcándose antes de realizar las evaluaciones. Es esta naturaleza «codiciosa» del algoritmo la que lo hace computacionalmente factible y, por lo tanto, práctico para su uso.

historia de machine learning

Problemas con los Árboles de Decisión Regresión

El principal problema con el árbol de decisión es que es propenso a sobreajuste. Podríamos crear un árbol que pudiera clasificar los datos a la perfección o no nos queda ningún atributo para dividir. Esto funciona bien en el conjunto de datos de entrenamiento, pero tendrá un mal resultado en el conjunto de datos de prueba. Existen dos enfoques populares para evitar esto en los árboles de decisión: detener el crecimiento del árbol antes de que sea demasiado grande o podar el árbol después de que sea demasiado grande.

Por lo general, un límite para el crecimiento de un árbol de decisión se especificará en términos del número máximo de capas, o la profundidad, que puede tener. Los datos disponibles para entrenar el árbol de decisión se dividirán en un conjunto de entrenamiento y un conjunto de prueba y se crearán árboles con varias profundidades máximas en función del conjunto de capacitación y se comparará con el conjunto de prueba. La validación cruzada también se puede utilizar como parte de este enfoque.

La poda del árbol, por otro lado, implica probar el árbol original contra versiones podadas de él. Los nodos de la hoja se retiran del árbol siempre que el árbol podado funcione mejor contra los datos de prueba que el árbol más grande.

Si bien los modelos de árbol de decisión en sí mismos tienen un rendimiento de predicción no tan eficiente, son extremadamente competitivos cuando se utilizan en una configuración de conjunto.

algebra lineal en machine learning

Ventajas

Las ventajas que tiene este tipo de algoritmo son:

Fácil de entender. La salida del árbol de decisión es muy fácil de entender, incluso para personas con antecedentes no analíticos, no se requiere ningún conocimiento estadístico para leerlos e interpretarlos.

Útil en la exploración de datos. El árbol de decisiones es una de las forma más rápidas para identificar las variables más significativas y la relación entre dos o más. Con la ayuda de los árboles de decisión podemos crear nuevas variables o características que tengan mejor poder para predecir la variable objetivo.

Se requiere menos limpieza de datos. Requiere menos limpieza de datos en comparación con algunas otras técnicas de modelado. A su vez, no está influenciado por los valores atípicos y faltantes en la data.

El tipo de datos no es una restricción. Puede manejar variables numéricas y categóricas.

Método no paramétrico. Es considerado un método no paramétrico, esto significa que los árboles de decisión no tienen suposiciones sobre la distribución del espacio y la estructura del clasificador.

Probabilidad en Machine learning

Desventajas

Ya vista las ventajas, ahora se deben mencionar las desventajas que posee este algoritmo:

Sobreajuste. Es una de las dificultades más comunes que tiene este algoritmo, este problema se resuelve colocando restricciones en los parámetros del modelo y eliminando ramas en el análisis.

No apto para variables continuas. Al trabajar con variables numéricas continuas, el árbol de decisiones pierde información cuando categoriza variables en diferentes categorías.

Los modelos basados en árboles no están diseñados para funcionar con características muy dispersas. Cuando se trata de datos de entrada dispersos (por ejemplo, características categóricas con una gran dimensión), podemos preprocesar las características dispersas para generar estadísticas numéricas, o cambiar a un modelo lineal, que es más adecuado para dichos escenarios.

pregunta aprendeia

Respuesta a la pregunta del video

Opción 1: Predecir la temperatura de un lugar específico de acuerdo a los datos históricos. Respuesta Correcta. Con este algoritmo se puede predecir la temperatura de un sitio utilizando como variables independientes los datos históricos.

Opción 2: Predecir si una acción de la bolsa de valores va a subir o bajar, utilizando los valores histórico. Respuesta Incorrecta. Con este algoritmo no se puede predecir si una acción de la bolsa va a subir o bajar ya que para esto requiere un algoritmo de clasificación y no un algoritmo de regresión.

Opción 3: Predecir si una persona puede vivir o morir en el hundimiento del Titanic tomando en cuenta la edad, sexo y ubicación de su cabina. Respuesta Incorrecta. Con este algoritmo no se puede determinar si una persona puede vivir o morir el hundimiento del Titanic, ya que para ello se requiere utilizar un algoritmo de clasificación y este es un algoritmo de regresión.

Si te llamo la atención todo este contenido y te animaste a empezar a estudiar Inteligencia Artificial, he desarrollado un curso que te ayudará, de igual forma a iniciar tu camino dentro de está tecnología. Este curso te sentará las bases y te dará más claridad para poder seleccionar el enfoque o área que más te interese sobre la Inteligencia Artificial, de igual forma te ayudará tener más claridad en muchos conceptos que seguramente en estos momentos te parece confusos. Este curso es ideal si apenas estás empezando. Si quieres más información puedes ingresar a este enlace.

1 comentario en “Árboles de Decisión Regresión – Teoría”

Deja un comentario

Tu dirección de correo electrónico no será publicada.