聶Qu矇 se hace cuando el conjunto de datos no tiene etiquetas?

Es en ese momento en que se debe usar el aprendizaje no supervisado, este es un grupo de algoritmos y enfoques de Machine Learning que funcionan con este tipo de datos de verdad sin fundamento.

En la anterior serie de entradas, explicamos los algoritmos de Machine Learning de aprendizaje supervisado. Ahora nos centraremos en Machine Learning no supervisado. En este video aprender獺s qu矇 es el Aprendizaje no Supervisado, en qu矇 se diferencia de la mayor穩a de los aprendizajes supervisados, algunos de los desaf穩os de la implementaci籀n. De la misma forma, en la siguiente serie de videos tambi矇n aprender獺s sobre los algoritmos de que se utilizan ac獺 y c籀mo implementarlos utilizando Python.

聶Qu矇 es el Aprendizaje no Supervisado?

Los algoritmos de Aprendizaje no Supervisados infieren patrones de un conjunto de datos sin referencia a resultados conocidos o etiquetados. A diferencia del Aprendizaje Supervisado, los m矇todos de Aprendizaje no Supervisado no se pueden aplicar directamente a un problema de regresi籀n o clasificaci籀n porque no tiene idea de cu獺les pueden ser los valores de los datos de salida, lo que hace imposible que entrene el algoritmo de la forma en que lo har穩a normalmente. En cambio, el aprendizaje sin supervisi籀n puede utilizarse para descubrir la estructura subyacente de los datos.

Los algoritmos de Aprendizaje no Supervisados te permiten realizar tareas de procesamiento m獺s complejas en comparaci籀n con el Aprendizaje Supervisado. Sin embargo, el aprendizaje sin supervisi籀n puede ser m獺s impredecible en comparaci籀n con otros m矇todos de aprendizaje naturales.

Los algoritmos de Aprendizaje no Supervisados se utilizan para agrupar los datos no estructurados seg繳n sus similitudes y patrones distintos en el conjunto de datos. El t矇rmino no supervisado se refiere al hecho de que el algoritmo no est獺 guiado como el algoritmo de Aprendizaje Supervisado.

La manera m獺s f獺cil de entender esto es con un ejemplo, tenemos un bebe y su perro. Ella conoce e identifica a su perro. Unas semanas m獺s tarde, un amigo de la familia trae un perro y trata de jugar con la beb矇. La beb矇 no ha visto a este perro antes, pero reconoce muchos rasgos de 矇l, 2 orejas, 2 ojos, caminar sobre 4 patas, son como su mascota. Ella identifica al nuevo animal con un perro. Este ejemplo se trata de un aprendizaje sin supervisi籀n, en el que no se le ense簽a, sino que se aprende a partir de los datos, en este caso, los datos sobre un perro.

聶Por qu矇 es importante el Aprendizaje no Supervisado?

El Aprendizaje no Supervisado pretende descubrir patrones previamente desconocidos en los datos, pero la mayor穩a de las veces estos patrones son aproximaciones deficientes de lo que el Aprendizaje Supervisado puede lograr. Adem獺s, dado que no sabe cu獺les deber穩an ser los resultados, no hay forma de determinar cu獺n precisos son, lo que hace que el Aprendizaje Supervisado sea m獺s aplicable a los problemas del mundo real.

El mejor momento para utilizar el Aprendizaje no Supervisado es cuando no se dispone de datos sobre los resultados deseados, como la determinaci籀n de un mercado objetivo para un producto completamente nuevo que tu empresa nunca ha vendido antes. Sin embargo, si est獺s tratando de obtener una mejor comprensi籀n de tu base de consumidores existente, el Aprendizaje Supervisado es la t矇cnica 籀ptima.

Est獺s son algunas de las razones principales para usar Aprendizaje no Supervisado:

  • El Aprendizaje no Supervisado encuentra todo tipo de patrones desconocidos en los datos.
  • Los m矇todos no supervisados te ayudan a encontrar caracter穩sticas que pueden ser 繳tiles para la categorizaci籀n.
  • Es m獺s f獺cil obtener datos no etiquetados que los datos etiquetados.

聶C籀mo funciona el Aprendizaje no Supervisado?

Los algoritmos de Aprendizaje no Supervisado manejan datos sin entrenamiento previo, es una funci籀n que hace su trabajo con los datos a su disposici籀n. En cierto modo, se deja a su suerte para que resuelva las cosas a su antojo.

Los algoritmos no supervisados funcionan con datos no etiquetados. Su prop籀sito es la exploraci籀n. Si el Aprendizaje Supervisado funciona bajo reglas claramente definidas, el Aprendizaje no Supervisado funciona bajo condiciones en las que los resultados son desconocidos y, por lo tanto, es necesario definirlos en el proceso.

Los algoritmos de Aprendizaje no Supervisado est獺n acostumbrados:

  • Explorar la estructura de la informaci籀n y detectar patrones distintos,
  • extraer ideas valiosas,
  • aplicarla en su funcionamiento con el fin de aumentar la eficacia del proceso de toma de decisiones.

En otras palabras, describe la informaci籀n, pasa por el grueso de la misma e identifica lo que realmente es.

Tipos de Aprendizaje no Supervisado

Los problemas de Aprendizaje no Supervisados se agrupan en problemas de agrupaci籀n y asociaci籀n.

Agrupamiento

El agrupamiento es un concepto importante cuando se trata de Aprendizaje no Supervisado. Se trata principalmente de encontrar una estructura o patr籀n en una colecci籀n de datos no categorizados. Los algoritmos de agrupamiento o cl繳steres, como se le conoce en ingl矇s, procesar獺n los datos y encontrar獺n grupos o cl繳steres naturales si existen en los datos. Tambi矇n se puede modificar cu獺ntos grupos deben identificar sus algoritmos. Permite ajustar la granularidad de estos grupos.

Existen diferentes tipos de agrupamiento que se puede utilizar:

Exclusivo (partici籀n): en este m矇todo de agrupaci籀n, los datos se agrupan de tal manera que un dato solo puede pertenecer a un cl繳ster o grupo. Ejemplo: K Means.

Aglomerativo: en esta t矇cnica de agrupaci籀n de agrupamiento, cada dato es un cl繳ster. Las uniones iterativas entre los dos cl繳steres m獺s cercanos reducen el n繳mero de cl繳steres. Ejemplo: agrupaci籀n jer獺rquica.

Solapamiento: en esta t矇cnica, se utilizan conjuntos difusos para agrupar datos. Cada punto puede pertenecer a dos o m獺s grupos con distintos grados de afiliaci籀n. Aqu穩 los datos se asociar獺n con un valor de membres穩a apropiado. Ejemplo: Fuzzy C-Means.

Probabil穩stico: esta t矇cnica utiliza la distribuci籀n de probabilidad para crear los cl繳steres.

Asociaci籀n

Las reglas de asociaci籀n te permiten establecer asociaciones entre objetos de datos dentro de grandes bases de datos. Esta t矇cnica no supervisada trata de descubrir relaciones interesantes entre variables en grandes bases de datos. Por ejemplo, las personas que compran una casa nueva tienen m獺s probabilidades de comprar muebles nuevos.

Desaf穩os en la implementaci籀n del Aprendizaje no Supervisado

Adem獺s de los problemas habituales de encontrar los algoritmos y el hardware adecuados, el Aprendizaje no Supervisado presenta un desaf穩o 繳nico: es dif穩cil saber si se est獺 haciendo el trabajo o no.

En el Aprendizaje Supervisado, definimos m矇tricas que impulsan la toma de decisiones en torno al ajuste de modelos. Medidas como la precisi籀n y exactitud dan una idea de lo preciso que es el modelo, y los par獺metros de ese modelo se ajustan para aumentar las puntuaciones de precisi籀n. Las bajas puntuaciones de precisi籀n significan que necesitar mejorar, y as穩 sucesivamente.

Dado que no hay etiquetas en el Aprendizaje no Supervisado, es casi imposible obtener una medida razonablemente objetiva de la precisi籀n de su algoritmo. En la agrupaci籀n, por ejemplo, 聶c籀mo puedes saber si el algoritmo encontr籀 los grupos correctos? 聶est獺s usando el n繳mero correcto de cl繳steres en primer lugar? En el Aprendizaje Supervisado podemos buscar una puntuaci籀n de precisi籀n, aqu穩 necesitas ser un poco m獺s creativo.

Una gran parte de la pregunta, funcionar獺 al Aprendizaje no Supervisado para el proyecto, depende totalmente del contexto del mismo. Una de las mejores, pero m獺s arriesgadas, maneras de probar el modelo de Aprendizaje no Supervisado es implementarlo en el mundo real y ver lo que sucede. Dise簽ar una prueba A/B, con y sin los cl繳steres que el algoritmo ha emitido, puede ser una forma efectiva de ver si es informaci籀n 繳til o totalmente incorrecta.

Aprendizaje Supervisado vs. No Supervisado

Proceso:

En un modelo de Aprendizaje Supervisado, se dar獺n las variables de entrada y salida.

En el modelo de Aprendizaje no Supervisado, solo se proporcionar獺n los datos de entrada.

Datos de entrada:

Los algoritmos de entrada se entrenan usando datos etiquetados.

Los algoritmos se usan contra datos que no est獺n etiquetados.

Algoritmos usados:

Los algoritmos supervisados se dividen en clasificaci籀n y regresi籀n.

Los algoritmos no supervisados se pueden dividir en diferentes categor穩as: como los algoritmos de agrupamiento o cl繳steres y los de asosiaci籀n.

Complejidad computacional:

El Aprendizaje Supervisado es un m矇todo m獺s sencillo.

El Aprendizaje no Supervisado es computacionalmente complejo.

Uso de datos:

El modelo de Aprendizaje Supervisado utiliza datos de formaci籀n para aprender un v穩nculo entre la entrada y la salida.

El Aprendizaje no Supervisado no utiliza datos de salida.

Precisi籀n de los resultados:

M矇todo muy preciso y fiable.

M矇todo menos preciso y fiable.

Aprendizaje en tiempo real:

El m矇todo de aprendizaje en tiempo real tiene lugar fuera de l穩nea.

El m矇todo de aprendizaje tiene lugar en tiempo real.

N繳mero de clases:

Se conoce el n繳mero de clases.

Se desconoce el n繳mero de clases.

Inconveniente principal:

La clasificaci籀n de grandes datos puede ser un verdadero desaf穩o en el Aprendizaje Supervisado.

No se puede obtener informaci籀n precisa con respecto a la clasificaci籀n de datos y la salida como datos utilizados en el Aprendizaje no Supervisado est獺 etiquetada y es desconocida.

Aplicaciones del Aprendizaje no Supervisado

Algunas aplicaciones de las T矇cnicas de Aprendizaje no Supervisado son:

  • La agrupaci籀n en cl繳steres divide autom獺ticamente el conjunto de datos en grupos en funci籀n de sus similitudes.
  • La detecci籀n de anomal穩as puede descubrir puntos de datos inusuales en su conjunto de datos. Es 繳til para encontrar transacciones fraudulentas.
  • La miner穩a de asociaciones identifica conjuntos de elementos que a menudo aparecen juntos en su conjunto de datos.
  • Los modelos de variables latentes se utilizan ampliamente para el preprocesamiento de datos. Como reducir el n繳mero de caracter穩sticas en un conjunto de datos o descomponer el conjunto de datos en m繳ltiples componentes.

Desventajas del Aprendizaje no Supervisado

Muchas de las desventajas del Aprendizaje no Supervisado las hemos mencionado con anterioridad, ac獺 las listamos:

  • No se puede obtener informaci籀n precisa con respecto a la clasificaci籀n de datos, y la salida como datos utilizados en el Aprendizaje no Supervisado est獺 etiquetada y no se conoce.
  • La menor precisi籀n de los resultados se debe a que los datos de entrada no son conocidos y no est獺n etiquetados por la gente de antemano. Esto significa que la m獺quina requiere hacer esto por s穩 misma.
  • Las clases espectrales no siempre corresponden a las clases informativas.
  • El usuario necesita dedicar tiempo a interpretar y etiquetar las clases que siguen esa clasificaci籀n.
  • Las propiedades espectrales de las clases tambi矇n pueden cambiar con el tiempo, por lo que no puede tener la misma informaci籀n de clase mientras se mueve de una imagen a otra.

El secreto para obtener una ventaja competitiva en el mercado espec穩fico est獺 en el uso eficaz de los datos. Los algoritmos de Aprendizaje no Supervisados te ayudan a segmentar los datos para estudiar las preferencias de tu p繳blico objetivo o ver c籀mo reacciona un virus espec穩fico a un antibi籀tico espec穩fico.

Con esto finalizamos la explicaci籀n de este contenido. Ya tienes las bases para entender el Aprendizaje no Supervisado, por lo tanto te dejo la siguiente pregunta, 聶Cu獺les de las siguientes afirmaciones crees t繳 que sea cierta?

Opci籀n 1: En el Aprendizaje no Supervisado entrenas a la m獺quina utilizando datos que est獺n bien 竄etiquetados罈.

Respuesta Incorrecta. En el Aprendizaje no Supervisado no se utilizan datos etiquetados.

Opci籀n 2: La agrupaci籀n y la asociaci籀n son dos tipos de Aprendizaje no Supervisado.

Respuesta Correcta.

Opci籀n 3: El Aprendizaje no Supervisado te ayuda a encontrar todo tipo de patrones desconocidos en los datos.

Respuesta Correcta.

2 comentarios en “Aprendizaje no Supervisado”

  1. El objetivo es simplemente dejar que la maquina aprenda sin ayuda o indicaciones de los los cientificos de datos. En el camino, tambien debera aprender a ajustar los resultados y agrupaciones cuando haya resultados mas adecuados, permitiendo que la maquina comprenda los datos y los procese como mejor le parezca. El aprendizaje no supervisado se utiliza para explorar datos desconocidos. Puede revelar patrones que podrian haberse pasado por alto o examinar grandes conjuntos de datos que serian demasiado para que los abordara una sola persona.

Deja un comentario

Tu direcci籀n de correo electr籀nico no ser獺 publicada.