Aprendizaje no Supervisado

¿Qué se hace cuando el conjunto de datos no tiene etiquetas?

Es en ese momento en que se debe usar el aprendizaje no supervisado, este es un grupo de algoritmos y enfoques de Machine Learning que funcionan con este tipo de datos de “verdad sin fundamento”.

En la anterior serie de entradas, explicamos los algoritmos de Machine Learning de aprendizaje supervisado. Ahora nos centraremos en Machine Learning no supervisado. En este video aprenderás qué es el Aprendizaje no Supervisado, en qué se diferencia de la mayoría de los aprendizajes supervisados, algunos de los desafíos de la implementación. De la misma forma, en la siguiente serie de videos también aprenderás sobre los algoritmos de que se utilizan acá y cómo implementarlos utilizando Python.

¿Qué es el Aprendizaje no Supervisado?

Los algoritmos de Aprendizaje no Supervisados infieren patrones de un conjunto de datos sin referencia a resultados conocidos o etiquetados. A diferencia del Aprendizaje Supervisado, los métodos de Aprendizaje no Supervisado no se pueden aplicar directamente a un problema de regresión o clasificación porque no tiene idea de cuáles pueden ser los valores de los datos de salida, lo que hace imposible que entrene el algoritmo de la forma en que lo haría normalmente. En cambio, el aprendizaje sin supervisión puede utilizarse para descubrir la estructura subyacente de los datos.

Los algoritmos de Aprendizaje no Supervisados te permiten realizar tareas de procesamiento más complejas en comparación con el Aprendizaje Supervisado. Sin embargo, el aprendizaje sin supervisión puede ser más impredecible en comparación con otros métodos de aprendizaje naturales.

Los algoritmos de Aprendizaje no Supervisados se utilizan para agrupar los datos no estructurados según sus similitudes y patrones distintos en el conjunto de datos. El término “no supervisado” se refiere al hecho de que el algoritmo no está guiado como el algoritmo de Aprendizaje Supervisado.

La manera más fácil de entender esto es con un ejemplo, tenemos un bebe y su perro. Ella conoce e identifica a su perro. Unas semanas más tarde, un amigo de la familia trae un perro y trata de jugar con la bebé. La bebé no ha visto a este perro antes, pero reconoce muchos rasgos de él, 2 orejas, 2 ojos, caminar sobre 4 patas, son como su mascota. Ella identifica al nuevo animal con un perro. Este ejemplo se trata de un aprendizaje sin supervisión, en el que no se le enseña, sino que se aprende a partir de los datos, en este caso, los datos sobre un perro.

¿Por qué es importante el Aprendizaje no Supervisado?

El Aprendizaje no Supervisado pretende descubrir patrones previamente desconocidos en los datos, pero la mayoría de las veces estos patrones son aproximaciones deficientes de lo que el Aprendizaje Supervisado puede lograr. Además, dado que no sabe cuáles deberían ser los resultados, no hay forma de determinar cuán precisos son, lo que hace que el Aprendizaje Supervisado sea más aplicable a los problemas del mundo real.

El mejor momento para utilizar el Aprendizaje no Supervisado es cuando no se dispone de datos sobre los resultados deseados, como la determinación de un mercado objetivo para un producto completamente nuevo que tu empresa nunca ha vendido antes. Sin embargo, si estás tratando de obtener una mejor comprensión de tu base de consumidores existente, el Aprendizaje Supervisado es la técnica óptima.

Estás son algunas de las razones principales para usar Aprendizaje no Supervisado:

  • El Aprendizaje no Supervisado encuentra todo tipo de patrones desconocidos en los datos.
  • Los métodos no supervisados te ayudan a encontrar características que pueden ser útiles para la categorización.
  • Es más fácil obtener datos no etiquetados que los datos etiquetados.

¿Cómo funciona el Aprendizaje no Supervisado?

Los algoritmos de Aprendizaje no Supervisado manejan datos sin entrenamiento previo, es una función que hace su trabajo con los datos a su disposición. En cierto modo, se deja a su suerte para que resuelva las cosas a su antojo.

Los algoritmos no supervisados funcionan con datos no etiquetados. Su propósito es la exploración. Si el Aprendizaje Supervisado funciona bajo reglas claramente definidas, el Aprendizaje no Supervisado funciona bajo condiciones en las que los resultados son desconocidos y, por lo tanto, es necesario definirlos en el proceso.

Los algoritmos de Aprendizaje no Supervisado están acostumbrados:

  • Explorar la estructura de la información y detectar patrones distintos,
  • extraer ideas valiosas,
  • aplicarla en su funcionamiento con el fin de aumentar la eficacia del proceso de toma de decisiones.

En otras palabras, describe la información, pasa por el grueso de la misma e identifica lo que realmente es.

Tipos de Aprendizaje no Supervisado

Los problemas de Aprendizaje no Supervisados se agrupan en problemas de agrupación y asociación.

Agrupamiento

El agrupamiento es un concepto importante cuando se trata de Aprendizaje no Supervisado. Se trata principalmente de encontrar una estructura o patrón en una colección de datos no categorizados. Los algoritmos de agrupamiento o clústeres, como se le conoce en inglés, procesarán los datos y encontrarán grupos o clústeres naturales si existen en los datos. También se puede modificar cuántos grupos deben identificar sus algoritmos. Permite ajustar la granularidad de estos grupos.

Existen diferentes tipos de agrupamiento que se puede utilizar:

Exclusivo (partición): en este método de agrupación, los datos se agrupan de tal manera que un dato solo puede pertenecer a un clúster o grupo. Ejemplo: K Means.

Aglomerativo: en esta técnica de agrupación de agrupamiento, cada dato es un clúster. Las uniones iterativas entre los dos clústeres más cercanos reducen el número de clústeres. Ejemplo: agrupación jerárquica.

Solapamiento: en esta técnica, se utilizan conjuntos difusos para agrupar datos. Cada punto puede pertenecer a dos o más grupos con distintos grados de afiliación. Aquí los datos se asociarán con un valor de membresía apropiado. Ejemplo: Fuzzy C-Means.

Probabilístico: esta técnica utiliza la distribución de probabilidad para crear los clústeres.

Asociación

Las reglas de asociación te permiten establecer asociaciones entre objetos de datos dentro de grandes bases de datos. Esta técnica no supervisada trata de descubrir relaciones interesantes entre variables en grandes bases de datos. Por ejemplo, las personas que compran una casa nueva tienen más probabilidades de comprar muebles nuevos.

Desafíos en la implementación del Aprendizaje no Supervisado

Además de los problemas habituales de encontrar los algoritmos y el hardware adecuados, el Aprendizaje no Supervisado presenta un desafío único: es difícil saber si se está haciendo el trabajo o no.

En el Aprendizaje Supervisado, definimos métricas que impulsan la toma de decisiones en torno al ajuste de modelos. Medidas como la precisión y exactitud dan una idea de lo preciso que es el modelo, y los parámetros de ese modelo se ajustan para aumentar las puntuaciones de precisión. Las bajas puntuaciones de precisión significan que necesitar mejorar, y así sucesivamente.

Dado que no hay etiquetas en el Aprendizaje no Supervisado, es casi imposible obtener una medida razonablemente objetiva de la precisión de su algoritmo. En la agrupación, por ejemplo, ¿cómo puedes saber si el algoritmo encontró los grupos correctos? ¿estás usando el número correcto de clústeres en primer lugar? En el Aprendizaje Supervisado podemos buscar una puntuación de precisión, aquí necesitas ser un poco más creativo.

Una gran parte de la pregunta, funcionará al Aprendizaje no Supervisado para el proyecto, depende totalmente del contexto del mismo. Una de las mejores, pero más arriesgadas, maneras de probar el modelo de Aprendizaje no Supervisado es implementarlo en el mundo real y ver lo que sucede. Diseñar una prueba A/B, con y sin los clústeres que el algoritmo ha emitido, puede ser una forma efectiva de ver si es información útil o totalmente incorrecta.

Aprendizaje Supervisado vs. No Supervisado

Proceso:

En un modelo de Aprendizaje Supervisado, se darán las variables de entrada y salida.

En el modelo de Aprendizaje no Supervisado, solo se proporcionarán los datos de entrada.

Datos de entrada:

Los algoritmos de entrada se entrenan usando datos etiquetados.

Los algoritmos se usan contra datos que no están etiquetados.

Algoritmos usados:

Los algoritmos supervisados se dividen en clasificación y regresión.

Los algoritmos no supervisados se pueden dividir en diferentes categorías: como los algoritmos de agrupamiento o clústeres y los de asosiación.

Complejidad computacional:

El Aprendizaje Supervisado es un método más sencillo.

El Aprendizaje no Supervisado es computacionalmente complejo.

Uso de datos:

El modelo de Aprendizaje Supervisado utiliza datos de formación para aprender un vínculo entre la entrada y la salida.

El Aprendizaje no Supervisado no utiliza datos de salida.

Precisión de los resultados:

Método muy preciso y fiable.

Método menos preciso y fiable.

Aprendizaje en tiempo real:

El método de aprendizaje en tiempo real tiene lugar fuera de línea.

El método de aprendizaje tiene lugar en tiempo real.

Número de clases:

Se conoce el número de clases.

Se desconoce el número de clases.

Inconveniente principal:

La clasificación de grandes datos puede ser un verdadero desafío en el Aprendizaje Supervisado.

No se puede obtener información precisa con respecto a la clasificación de datos y la salida como datos utilizados en el Aprendizaje no Supervisado está etiquetada y es desconocida.

Aplicaciones del Aprendizaje no Supervisado

Algunas aplicaciones de las Técnicas de Aprendizaje no Supervisado son:

  • La agrupación en clústeres divide automáticamente el conjunto de datos en grupos en función de sus similitudes.
  • La detección de anomalías puede descubrir puntos de datos inusuales en su conjunto de datos. Es útil para encontrar transacciones fraudulentas.
  • La minería de asociaciones identifica conjuntos de elementos que a menudo aparecen juntos en su conjunto de datos.
  • Los modelos de variables latentes se utilizan ampliamente para el preprocesamiento de datos. Como reducir el número de características en un conjunto de datos o descomponer el conjunto de datos en múltiples componentes.

Desventajas del Aprendizaje no Supervisado

Muchas de las desventajas del Aprendizaje no Supervisado las hemos mencionado con anterioridad, acá las listamos:

  • No se puede obtener información precisa con respecto a la clasificación de datos, y la salida como datos utilizados en el Aprendizaje no Supervisado está etiquetada y no se conoce.
  • La menor precisión de los resultados se debe a que los datos de entrada no son conocidos y no están etiquetados por la gente de antemano. Esto significa que la máquina requiere hacer esto por sí misma.
  • Las clases espectrales no siempre corresponden a las clases informativas.
  • El usuario necesita dedicar tiempo a interpretar y etiquetar las clases que siguen esa clasificación.
  • Las propiedades espectrales de las clases también pueden cambiar con el tiempo, por lo que no puede tener la misma información de clase mientras se mueve de una imagen a otra.

El secreto para obtener una ventaja competitiva en el mercado específico está en el uso eficaz de los datos. Los algoritmos de Aprendizaje no Supervisados te ayudan a segmentar los datos para estudiar las preferencias de tu público objetivo o ver cómo reacciona un virus específico a un antibiótico específico.

Con esto finalizamos la explicación de este contenido. Ya tienes las bases para entender el Aprendizaje no Supervisado, por lo tanto te dejo la siguiente pregunta, ¿Cuáles de las siguientes afirmaciones crees tú que sea cierta?

Opción 1: En el Aprendizaje no Supervisado entrenas a la máquina utilizando datos que están bien «etiquetados».

Respuesta Incorrecta. En el Aprendizaje no Supervisado no se utilizan datos etiquetados.

Opción 2: La agrupación y la asociación son dos tipos de Aprendizaje no Supervisado.

Respuesta Correcta.

Opción 3: El Aprendizaje no Supervisado te ayuda a encontrar todo tipo de patrones desconocidos en los datos.

Respuesta Correcta.

2 comentarios en “Aprendizaje no Supervisado”

  1. El objetivo es simplemente dejar que la maquina aprenda sin ayuda o indicaciones de los los cientificos de datos. En el camino, tambien debera aprender a ajustar los resultados y agrupaciones cuando haya resultados mas adecuados, permitiendo que la maquina comprenda los datos y los procese como mejor le parezca. El aprendizaje no supervisado se utiliza para explorar datos desconocidos. Puede revelar patrones que podrian haberse pasado por alto o examinar grandes conjuntos de datos que serian demasiado para que los abordara una sola persona.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *