Aprendizaje No Supervisado: K-Means Clustering

K-Means es un tipo de aprendizaje no supervisado, que se utiliza cuando tienes datos no etiquetados, es decir, datos sin categorías o grupos definidos. El objetivo de este algoritmo es encontrar grupos en los datos, los puntos de datos se agrupan según la similitud de características.

Este tipo de análisis de datos es muy útil en muchas aplicaciones que requieren clasificación de datos, como identificar células cancerosas dentro de una muestra grande, agrupar palabras con definiciones similares para una mejor precisión del motor de búsqueda, identificar valores atípicos en el rendimiento académico del estudiantes para un mejor refinamiento de hábitos o incluso para detectar minas terrestres en un campo de batalla.

Los pasos para desarrollar este algoritmo son los siguientes:

Aprendizaje No Supervisado: K-Means Clustering

  1. Agrupa los datos en K grupos, donde K está predefinida.

Aprendizaje No Supervisado: K-Means Clustering

  1. Selecciona K puntos al azar como centros de grupo.
  1. Asigne objetos a su centro de clúster más cercano según la distancia.
  2. Calcule el centroide o la media de todos los objetos en cada grupo.

Aprendizaje No Supervisado: K-Means Clustering

  1. Repita los pasos 2, 3 y4 hasta asignar los mismos puntos a cada grupo en rondas

Este procedimiento se debe repetir tantas veces hasta que se encuentren el agrupamiento de datos más óptimos. En ocasiones se deberá cambiar el valor de K para mejorar los resultados.

K-Means es un método relativamente eficiente, sin embargo, debemos especificar el número de clústeres de antemano, y los resultados finales son sensibles a la inicialización y, a menudo, terminan en un óptimo local. Lamentablemente, no existe un método teórico global para encontrar la cantidad óptima de clústeres. Un enfoque práctico es comparar los resultados de múltiples ejecuciones con diferentes K y elegir la mejor basada en un criterio definido. En general, una gran K probablemente disminuya el error, pero aumenta el riesgo de sobreajuste.

Este es un algoritmo rápido, robusto y simple que proporciona resultados confiables cuando los conjuntos de datos son distintos o bien separados entre sí de forma lineal.

Se utiliza mejor cuando se especifica el número de centros de clúster debido a una lista bien definida de tipos que se muestran en los datos. Sin embargo, es importante tener en cuenta que la agrupación de K-Means puede no funcionar bien si contiene datos muy superpuestos, si la distancia euclidiana no mide bien los factores subyacentes, o si los datos son unidos o están llenos de valores atípicos.

Aprendizaje No Supervisado: K-Means Clustering

Respuesta a la pregunta del video: ¿Cuál de los siguientes ejemplos podemos aplicar el algoritmo de K-means clustering?

Opción 1: Segmentar grupos de personas de acuerdo a sus intereses de compras. Respuesta Correcta. Con este algoritmo se puede realizar esto, recuerda que el propósito es el de crear grupos por lo que podemos crear grupos de acuerdo a sus intereses de comprar..

Opción 2: Determinar el comportamiento de votación del senado de una comunidad. Respuesta Correcta. Con este algoritmo se puede realizar esto, recuerda que el propósito es el de crear grupos por lo que podemos determinar el comportamiento de votación, agrupando las personas que estén a favor de un candidato y de otro.

Opción 3: Separar a personas reales de los bots presentes en redes sociales. Respuesta Correcta. Con este algoritmo se puede realizar esto, recuerda que el propósito es el de crear grupos por lo que podemos separar a la personas reales y a los bots.

8 comentarios en “Aprendizaje No Supervisado: K-Means Clustering”

  1. excelente tu blog solo me preocupa que ya he visto casi todo y tengo miedo de perde la continuidad, si puedes orientame algunas lectras para ampliar el conocimiento

  2. excelente tu blog solo me preocupa que ya he visto casi todo y tengo miedo de perder la continuidad, si puedes orientame algunas lecturas para ampliar el conocimiento

    1. Hola, acá va a depender de tus gustos, realiza un filtrado en ambas páginas buscando solamente los proyectos relaciondas con «clustering» y revisa de todos esos proyectos el que más te interese. Saludos.

  3. Holaaa
    ¿Soy al único al que no le cargan las imágenes de este artículo?
    Por cierto, excelente trabajo. Muchas gracias

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *