Árboles de Decisión Clasificación – Teoría

Los árboles de decisión son uno de los algoritmos de Machine Learning más populares, esto se debe a que puede ser fácilmente visible para que un humano pueda entender lo que está sucediendo. Imagina un diagrama de flujo, donde cada nivel es una pregunta con una respuesta de si o no. Eventualmente una respuesta te dará una solución al problema inicial. Esto precisamente es un árbol de decisión.

Un árbol de decisión tiene una estructura similar a un diagrama de flujo donde un nodo interno representa una característica o atributo, la rama representa una regla de decisión y cada nodo u hoja representa el resultado. El nodo superior de un árbol de decisión se conoce como nodo raíz.

ARBOLES TEORIA 1

La idea básica detrás de cualquier problema de árbol de decisión es la siguiente:

  • Selecciona el mejor atributo utilizando una medida de selección de atributos o características.
  • Haz de ese atributo un nodo de decisión y divide el conjunto de datos en subconjuntos más pequeños.
  • Comienza la construcción del árbol repitiendo este proceso recursivamente para cada atributo hasta que una de las siguientes condiciones coincida:
    • Todas las variables pertenecen al mismo valor de atributo.
    • Ya no quedan más atributos.
    • No hay más casos.

La medida de selección de atributos es una heurística para seleccionar el criterio de división que divide los datos de la mejor manera posible. También se conoce como reglas de partición porque nos ayuda a determinar puntos de ruptura para conjunto en un nodo dado.

ARBOLES TEORIA 2

Esta medida proporciona un rango a cada característica, explicando el conjunto de datos dado. El atributo de mejor puntuación se seleccionará como atributo de división. En el caso de un atributo de valor continuo, también es necesario definir puntos de división por las ramas. Las medidas de selección más populares son la ganancia de información, la relación de ganancia y el índice de Gini.

Ganancia de información

Cuando usamos un nodo en un árbol de decisión para particionar las instancias de formación en subconjuntos más pequeños, la entropía cambia. La ganancia de información es una medida de este cambio en la entropía.

La entropía, por su parte, es la medida de la incertidumbre de una variable aleatoria, caracteriza la impureza de una colección arbitraria de ejemplos. Cuanto mayor sea la entropía, mayor será el contenido de la información.

Para construir un árbol de decisión utilizando la ganancia de información se debe considerar:

  • Comenzar con todas las instancias de formación asociadas al nodo raíz.
  • Utilizar la ganancia de información para elegir qué atributo etiquetar cada nodo con cual.
  • Construir recursivamente cada subárbol en el subconjunto de instancias de capacitación que se clasificarían en ese camino en el árbol.

Nota: ninguna ruta de raíz a hoja debe contener el mismo atributo discreto dos veces.

Índice Gini

El índice de Gini es una métrica para medir la frecuencia con la que un elemento elegido al azar sería identificado incorrectamente. Esto significa que se debe preferir un atributo con un índice de Gini más bajo.

Ventajas

Algunos de las ventajas que tiene este algoritmo son las siguientes:

  • Los árboles de decisión son fáciles de interpretar y visualizar.
  • Puede capturar fácilmente patrones no lineales.
  • Requiere menos preprocesamiento de datos por parte del usuario, por ejemplo, no es necesario normalizar las columnas.
  • Se puede utilizar para ingeniería de características, como la predicción de valores perdidos, adecuada para la selección de variables.
  • El árbol de decisión no tiene suposiciones sobre la distribución debido a la naturaleza no paramétrica del algoritmo.

Desventajas

Por su parte, las desventajas de este algoritmo son:

  • Datos sensibles al ruido, puede sobredimensionar los datos ruidosos.
  • La pequeña variación en los datos puede dar lugar a un árbol de decisión diferente.
  • Están sesgados con un conjunto de datos de desequilibrio, por lo que se recomienda equilibrar el conjunto de datos antes de crear el árbol de decisión.

Los árboles de decisión es uno de los pocos algoritmos de Machine Learning que produce una comprensión comprensible de cómo el algoritmo toma decisiones.

3 comentarios en “Árboles de Decisión Clasificación – Teoría”

  1. Márcia Correa de Carvalho

    Hola Ligdi,
    Yo estoy haciendo una materia “Modelización de procesos industriales mediante técnicas
    computacionales” donde yo uso el concepto de Machine Learning. Y tengo que clasificar muestras de espectros de miel pura (clase 1) y miel fortificada (clase 2). Te hago una consulta yo puedo usar el algoritimo de arboles de decisión para crear un modelo para esa clasificación?

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *