La agrupación en clúster es una parte importante del proceso de Machine Learning para empresas comerciales o científicas que utilizan la Ciencia de Datos. Como su nombre lo indica, ayuda a identificar congregaciones de puntos de datos estrechamente relacionados, por alguna medida de distancia, en un conjunto de datos, los cuales, de otra manera, serían difíciles de entender.
Sin embargo, en la mayoría de los casos, el proceso de agrupación cae dentro del ámbito de Aprendizaje no Supervisado. Acá no hay respuestas o etiquetas conocidas para guiar el proceso de optimización o para medir nuestro éxito. Estamos en el territorio inexplorado.
Por lo tanto, no es de extrañar que un método tan popular como la agrupación K Means no parezca proporcionar una respuesta completamente satisfactoria cuando nos hacemos la pregunta básica ¿cómo sabríamos el número real de grupos para empezar?
Esta cuestión es de importancia crítica debido al hecho de que el proceso de agrupamiento es a menudo un precursor del procesamiento posterior de los datos individuales de las agrupaciones y, por lo tanto, la cantidad de recursos computacionales puede depender de esta medición.
En el caso de un problema de análisis de negocio, la repercusión podría ser peor. La agrupación en clústeres se realiza a menuda para este tipo de análisis con el objetivo de segmentar el mercado. Por lo tanto, es fácilmente concebible que, dependiendo del número de clústeres, se asigne personal de marketing adecuado al problema. Por consiguiente, una evaluación errónea del número de agrupaciones puede dar lugar a una asignación subóptima de recursos valiosos.
Hay múltiples métodos que puedes utilizar para determinar cuál es el número óptimo de clústeres para tus datos y eso es lo que se verá en detalle a continuación.
Método del codo
Probablemente el método más conocido, el método del codo, en el que se calcula y grafica la suma de cuadrado en cada número de clústeres, y allí buscas un cambio de pendiente de empinada a poca profundidad, un codo, para determinar el número óptimo de clústeres. Este método es inexacto, pero sigue siendo potencialmente útil.
El método de la curva del codo es útil porque muestra cómo el aumento del número de los clústeres contribuye a separar los clústeres de una manera significativa, no marginal. La curva indica que los grupos adicionales más allá del tercero tiene poco valor. El método del codo es bastante claro, sino una solución ingenua basada en la varianza intraclúster. La estadística de la brecha es un método más sofisticado para tratar con datos que tienen una distribución sin una agrupación obvia.
Este método funciona de la siguiente forma, se calcula la suma de errores cuadráticos dentro del clúster para diferentes valores de K y se elige la K para la cual la suma de errores cuadráticos comienza a disminuir. Esto es visible como un codo.
La suma dentro de un grupo de errores cuadrado suena un poco compleja. Vamos a desglosarlo:
- El error cuadrado para cada punto es el cuadrado de la distancia del punto de su representación, es decir, su centro de clúster previsto.
- La puntuación de la suma de errores cuadráticos es la suma de estos errores cuadrados para todos los puntos.
- Se puede utilizar cualquier métrica de distancia, como la distancia Euclidiana o la distancia de Manhattan.
Ahora bien, para aplicar el método del codo y obtener el número óptimo de clústeres se puede realizar de la siguiente manera:
- Calcular el algoritmo de agrupación para diferentes valores de K. Por ejemplo, variando K de 1 a 10 grupos.
- Para cada K, calcular la suma total del cuadrado dentro del clúster.
- Trazar la curva de la suma de errores cuadráticos de acuerdo con el número de grupos K.
La ubicación de una curva, codo, en la gráfica generalmente se considera como un indicador del número apropiado de grupos.
Método de la Silueta
El método de la silueta puede utilizarse para estudiar la distancia de separación entre los grupos resultantes. El gráfico de silueta muestra una medida de cuán cerca está cada punto en un clúster de los puntos en los clústeres vecinos y por lo tanto proporciona una forma de evaluar parámetros como el número de clústeres visualmente.
Esta medida tiene un rango de -1 a 1. Donde 1 significa que los puntos están muy cerca de su propio clúster y lejos de otros clústeres, mientras que -1 indica que los puntos están cerca de los clústeres vecinos.
Este método es mejor ya que hace que la decisión sobre el número óptimo de clústeres sea más significativa y clara. Pero esta métrica es costosa de calcular ya que el coeficiente se calcula para cada caso. Por lo tanto, la decisión sobre la métrica óptima a elegir para el número de clústeres se debe tomar de acuerdo con las necesidades del producto.
El coeficiente de silueta se calcula utilizando la distancia media intraclúster “a” y la distancia media más cercana al clúster “b” para cada muestra. El coeficiente de silueta para una muestra es (b – a) / max (a,b).
Para aclarar, b es la distancia entre una muestra y el clúster más cercano del que la muestra no forma parte. Podemos calcular el coeficiente de silueta medio sobre todas las muestras y usar esto como una métrica para juzgar el número de grupos.
Este método es similar al método del codo y se puede calcular de la siguiente manera:
- Calcular el algoritmo de agrupación para diferentes valores de K. Por ejemplo, variando K de 2 a 11 grupos, para este caso no se puede colocar 1 ya que no puede haber un solo clúster.
- Para cada K, calcular la silueta promedio de las observaciones.
- Trazar la curva con la silueta promedio de acuerdo con el número de clústeres K.
- La ubicación del máximo se considera como el número apropiado de clústeres.
Método de estadística de la brecha
El método de estadística de brecha compara el total dentro de la variación intraclúster para diferentes valores de K con sus valores esperados bajo una distribución de referencia nula de los datos. La estimación de los clustering óptimos será un valor que maximice la estadística de la brecha, es decir, que produzca la estadística de la brecha más grande. Esto significa que la estructura de agrupación está muy lejos de la distribución uniforme y aleatoria de los puntos.
El gráfico de estadísticas de brecha muestra las estadísticas por número de clústeres con errores estándar dibujados con segmentos verticales y el valor óptimo de K marcado con una línea azul discontinua vertical.
En esta entrada describimos diferentes métodos para elegir la cantidad óptima de clústeres en un conjunto de datos. Estos métodos incluyen el codo, la silueta y los métodos estadísticos de brecha.
Después de elegir el número de clústeres K, el siguiente paso es realizar la partición de clústeres como se explicará en las siguientes publicaciones.
Con esto finalizamos la explicación de este contenido. Ya debes tener más claro cómo seleccionar el número de clústeres para los algoritmos que así lo requeran, por lo tanto te dejo la siguiente pregunta, ¿Cuáles de las siguientes afirmaciones crees tú que sea cierta?
Opción 1: El número de clústeres se determina en el método del codo cuando hay un cambio de pendiente de empinada a poca profundidad.
Respuesta Correcta.
Opción 2: En el método de la siluta al momento de evaluar los diferentes valores de K con el algoritmo de agrupación se puede comenzar con un valor de K igual a 1.
Respuesta Incorrecta. No se puede iniciar con un valor de 1 ya que no puede haber un solo clúster.
Opción 3: Para saber el valor de K en el método de la silueta se toma el valor del punto más alto de la gráfica.
Respuesta Correcta.