K-Means es un tipo de aprendizaje no supervisado, que se utiliza cuando tienes datos no etiquetados, es decir, datos sin categorías o grupos definidos. El objetivo de este algoritmo es encontrar grupos en los datos, los puntos de datos se agrupan según la similitud de características.
Este tipo de análisis de datos es muy útil en muchas aplicaciones que requieren clasificación de datos, como identificar células cancerosas dentro de una muestra grande, agrupar palabras con definiciones similares para una mejor precisión del motor de búsqueda, identificar valores atípicos en el rendimiento académico del estudiantes para un mejor refinamiento de hábitos o incluso para detectar minas terrestres en un campo de batalla.
Los pasos para desarrollar este algoritmo son los siguientes:
- Agrupa los datos en K grupos, donde K está predefinida.
- Selecciona K puntos al azar como centros de grupo.
- Asigne objetos a su centro de clúster más cercano según la distancia.
- Calcule el centroide o la media de todos los objetos en cada grupo.
- Repita los pasos 2, 3 y4 hasta asignar los mismos puntos a cada grupo en rondas
Este procedimiento se debe repetir tantas veces hasta que se encuentren el agrupamiento de datos más óptimos. En ocasiones se deberá cambiar el valor de K para mejorar los resultados.
K-Means es un método relativamente eficiente, sin embargo, debemos especificar el número de clústeres de antemano, y los resultados finales son sensibles a la inicialización y, a menudo, terminan en un óptimo local. Lamentablemente, no existe un método teórico global para encontrar la cantidad óptima de clústeres. Un enfoque práctico es comparar los resultados de múltiples ejecuciones con diferentes K y elegir la mejor basada en un criterio definido. En general, una gran K probablemente disminuya el error, pero aumenta el riesgo de sobreajuste.
Este es un algoritmo rápido, robusto y simple que proporciona resultados confiables cuando los conjuntos de datos son distintos o bien separados entre sí de forma lineal.
Se utiliza mejor cuando se especifica el número de centros de clúster debido a una lista bien definida de tipos que se muestran en los datos. Sin embargo, es importante tener en cuenta que la agrupación de K-Means puede no funcionar bien si contiene datos muy superpuestos, si la distancia euclidiana no mide bien los factores subyacentes, o si los datos son unidos o están llenos de valores atípicos.
Respuesta a la pregunta del video: ¿Cuál de los siguientes ejemplos podemos aplicar el algoritmo de K-means clustering?
Opción 1: Segmentar grupos de personas de acuerdo a sus intereses de compras. Respuesta Correcta. Con este algoritmo se puede realizar esto, recuerda que el propósito es el de crear grupos por lo que podemos crear grupos de acuerdo a sus intereses de comprar..
Opción 2: Determinar el comportamiento de votación del senado de una comunidad. Respuesta Correcta. Con este algoritmo se puede realizar esto, recuerda que el propósito es el de crear grupos por lo que podemos determinar el comportamiento de votación, agrupando las personas que estén a favor de un candidato y de otro.
Opción 3: Separar a personas reales de los bots presentes en redes sociales. Respuesta Correcta. Con este algoritmo se puede realizar esto, recuerda que el propósito es el de crear grupos por lo que podemos separar a la personas reales y a los bots.
excelente tu blog solo me preocupa que ya he visto casi todo y tengo miedo de perde la continuidad, si puedes orientame algunas lectras para ampliar el conocimiento
excelente tu blog solo me preocupa que ya he visto casi todo y tengo miedo de perder la continuidad, si puedes orientame algunas lecturas para ampliar el conocimiento
Hola Paolo,
Este blog es muy bueno, aunque se enfoca más en Redes Neuronales, http://www.aprendemachinelearning.com/. Por otra parte hay muchos blogs, pero en ingles, que cuentan con bastante información y son muy didácticos, uno de ellos es este https://www.dataquest.io/blog/.
Saludos,
Ligdi
Hola si puedes orientarme sobre un ejemplo No supervisados k means clustering que sea bueno de alguna de esta páginas
https://archive.ics.uci.edu/ml/datasets.php.
https://www.kaggle.com/
Gracias
Hola, acá va a depender de tus gustos, realiza un filtrado en ambas páginas buscando solamente los proyectos relaciondas con «clustering» y revisa de todos esos proyectos el que más te interese. Saludos.
Holaaa
¿Soy al único al que no le cargan las imágenes de este artículo?
Por cierto, excelente trabajo. Muchas gracias
Hola Javier, si hay un problema en la página y el proveedor en donde almaceno las imágenes, ya estoy trabajando para hacer las correcciones debidas. Saludos.
Algo complicado presentado de una manera muyyy simple, gracias