El Clustering no siempre es apropiada para los conjuntos de datos. Si est谩s interesado en aventurarte en el mundo del Aprendizaje no Supervisado con clustering debes seguir estas cinco pautas para ver si el clustering es realmente una soluci贸n adecuada para tus datos.

驴Tus datos ya tienen una etiqueta de clase potencial?

El uso de la etiqueta de clase existente en los datos suele ser mejor que intentar crear una nueva etiqueta para los datos a partir de la agrupaci贸n en cl煤steres. Si tienes la opci贸n, el Aprendizaje Supervisado casi siempre supera al Aprendizaje no Supervisado en las tareas de clasificaci贸n.

Si tienes datos, pero no tienes forma de organizarlos en grupos significativos, entonces la agrupaci贸n en grupos tiene sentido. Pero si ya tienen una etiqueta de clase intuitiva en el conjunto de datos, es posible que las etiquetas creadas por un an谩lisis de agrupaci贸n no funcionen tan bien como la etiqueta original.

驴Tus datos son categ贸ricos o continuos?

aprende f谩cilmente inteligencia artificial - newsletter

Muchos algoritmos de clustering utilizan una medici贸n de distancia para calcular la similitud entre las observaciones. Debido a esto, ciertos algoritmos de agrupaci贸n de cl煤ster funcionar谩n mejor con atributos continuos. Sin embargo, si tienes datos categ贸ricos, puedes codificar los atributos o utilizar un algoritmo de agrupamiento creado para datos categ贸ricos. Debes tener en cuenta que no tiene mucho sentido calcular la distancia entre variables binarias.

Saber c贸mo se comportan los diferentes algoritmos de agrupaci贸n en diferentes tipos de datos es esencial para decidir si la agrupaci贸n en cl煤ster tiene sentido para los datos.

驴C贸mo son los datos?

Una simple visualizaci贸n de los datos con un gr谩fico de dispersi贸n pueden proporcionar informaci贸n sobre si los datos son adecuados para la agrupaci贸n en cl煤steres. Por ejemplo, a continuaci贸n, se muestra una gr谩fica de dispersi贸n de la altura y el peso de los atletas ol铆mpicos. Claramente, los dos atributos tienen una fuerte correlaci贸n positiva y forman un denso grupo central, aparte de algunos valores at铆picos.

1

Despu茅s de ejecutar varios algoritmos de agrupamiento en estos datos, no se formaron grupos distintos o significativos y se determin贸 que estos atributos no eran adecuados para el agrupamiento. Sin embargo, simplemente visualizando los datos al principio del an谩lisis, esta conclusi贸n podr铆a haberse hecho antes.

Si la visualizaci贸n revela que los datos no tienen ninguna cantidad de separaci贸n o grupos distintos, entonces el agrupamiento puede no ser apropiado.

驴Se tiene una manera de validar el algoritmo de clustering?

Para confiar en los resultados del algoritmo de clustering, debes tener un m茅todo para medir el rendimiento del algoritmo.

Para tener confianza en el modelo de Machine Learning, debes tener una m茅trica consistente para medir el rendimiento del modelo. El agrupamiento no es diferente. Debes tener una manera de evaluar cuantitativamente qu茅 tan bien el modelo est谩 agrupando los datos.

Antes de realizar un an谩lisis de clustering, considera qu茅 tipo de validaci贸n y qu茅 m茅trica tiene m谩s sentido para los datos. Algunos algoritmos pueden funcionar enga帽osamente bien con ciertas m茅tricas de validaci贸n, por lo que puede ser necesario una combinaci贸n de m茅tricas de rendimiento para negar este problema. Si sistem谩ticamente se logra un rendimiento deficiente del modelo, entonces la agrupaci贸n en cl煤steres no es una buena opci贸n para los datos.

驴Proporciona la agrupaci贸n en cl煤ster una nueva perspectiva de los datos?

Digamos que cumples con todas las consideraciones anteriores: tienes datos continuos sin etiquetas de clase, visualiza los datos y hay cierta separaci贸n, y eliges una m茅trica de validaci贸n que tenga sentido para el an谩lisis. Se ejecuta un algoritmo de agrupaci贸n en los datos y se obtiene una puntuaci贸n razonablemente alta. Perfecto, pero a煤n as铆 no has terminado tu trabajo.

Despu茅s de realizar un an谩lisis de clustering, es crucial examinar las observaciones en los cl煤steres individuales. Este paso te permite evaluar si los cl煤steres proporcionan o no una nueva perspectiva de los datos.

驴Realmente el algoritmo encontr贸 grupos similares de observaciones?

Una manera f谩cil de examinar los cl煤steres es calcular estad铆sticas sencillas para las observaciones de cada cl煤ster, como la media. A continuaci贸n, se muestra la estatura y el peso promedio de los atletas ol铆mpicos para tres grupos como resultado de la agrupaci贸n de K-means.

2

驴Notas algo extra帽o?

Las alturas y pesos medios son casi id茅nticos. Esto demuestra que, mientras que el algoritmo agrup贸 los datos, los cl煤steres no son sustancialmente diferentes entre s铆.

Si la agrupaci贸n en cl煤ster no produce ninguna informaci贸n nueva o 煤til sobre los datos, entonces los datos no son adecuados para la agrupaci贸n en cl煤ster.

Como cualquier tarea de Machine Learning, no se puede simplemente lanzar un algoritmo a los datos. Debes entender los datos y entender las intenciones originales del algoritmo. Incluso si los datos no son adecuados para la agrupaci贸n en cl煤steres, puede probarlos. Nunca est谩 de m谩s explorar los datos y, de todas formas, uno aprende algo nuevo cada d铆a.

2 comentarios en “Cuando utilizar clustering para el Aprendizaje no Supervisado”

  1. Hola Lidgi…

    Tengo una base de datos de clasificaci贸n de aver铆as de m谩quina, donde los datos que clasifican estas aver铆as est谩n en texto.
    Como se puede hacer un ejercicio de clustering con datos de texto?
    Mil gracias…

    1. Hola Ivan, tienes que convertir el texto en n煤meros de esa forma podr谩s utilizar la informaci贸n en alg煤n algoritmo de aprendizaje no supervisado. Saludos.

Deja un comentario

Tu direcci贸n de correo electr贸nico no ser谩 publicada.