Las reglas de asociación son declaraciones de “if-then”, que ayudan a mostrar la probabilidad de las relaciones entre los elementos de datos, dentro de grandes conjuntos de datos en diversos tipos de bases de datos. La minería de reglas de asociación tiene varias aplicaciones y se utiliza ampliamente para ayudar a descubrir correlaciones de ventas en datos de transacciones o en conjuntos de datos médicos.
Las reglas no extraen la preferencia de un individuo, sino que encuentran relaciones entre un conjunto de elementos de cada transacción distinta. Esto es lo que las hace diferentes del filtrado colaborativo.
Para explicar esta idea, las reglas no vinculan las diferentes transacciones de un usuario a lo largo del tiempo para identificar las relaciones. Se estudian como un solo grupo los elementos con identificaciones de transacción únicas, de todos los usuarios. Esto es útil para la colocación de los productos en los pasillos. Por otra parte, el filtrado en colaboración vincula todas las transacciones correspondientes a una identificación de usuario para identificar la similitud entre las preferencias de los usuarios. Esto es útil para recomendar artículos en los sitios webs de comercio electrónico, recomendar canciones en Spotify, entre otras aplicaciones.
Como funciona las reglas de asociación
Las reglas de asociación, a un nivel básico, implica el uso de modelos de Machine Learning para analizar los datos en busca de patrones, o coocurrencias, en una base de datos. Identifica las asociaciones frecuentes, que a su vez son las reglas de asociación.
Una regla de asociación tiene dos partes:
- un antecedente (si) y
- un consecuente (entonces)
Un antecedente es un elemento que se encuentra dentro de los datos. Un consecuente es un elemento que se encuentra en combinación con el antecedente.
Las reglas de asociación se crean buscando en los datos patrones frecuentes de “if-then” y utilizando los criterios de apoyo y confianza para identificar las relaciones más importantes. El apoyo es una indicación de la frecuencia con que los elementos aparecen en los datos. La confianza indica el número de veces que las afirmaciones del tipo “if-then” se consideran verdaderas. Se puede utilizar una tercera métrica, llamada fit para comparar la confianza con la confianza esperada, o cuántas veces se espera que una afirmación del tipo “if-then” se considera cierta.
Las reglas de asociación se calculan a partir de conjuntos de elementos, que se componen de dos o más elementos. Si las reglas se construyen a partir del análisis de todos los conjuntos de elementos posibles, podría haber tantas reglas que éstas tendrían poco significado. Con eso, las reglas de asociación se crean típicamente a partir de reglas bien representadas en los datos.
Medidas de la efectividad de las reglas de asociación
La fuerza de una determinada regla de asociación se mide por dos parámetros principales, el apoyo y la confianza. El apoyo se refiere a la frecuencia con que una regla dada aparece en la base de datos que se está extrayendo. La confianza se refiere a la cantidad de veces que una regla dada resulta ser verdadera en la práctica. Una regla puede mostrar una fuerte correlación en un conjunto de datos porque aparece muy a menudo, pero puede ocurrir menos cuando se aplica. Este sería un caso de alto apoyo, pero de baja confianza.
Por el contrario, una regla puede no destacar particularmente en un conjunto de datos, pero el análisis continuo muestra que ocurre con mucha frecuencia. Este sería un caso de alta confianza y bajo apoyo. El uso de estas medidas ayuda a los analistas a separar la causalidad de la correlación, y les permite valorar adecuadamente una regla determinada.
Un tercer parámetro de valor, conocido como el valor de elevación o fit, es la relación entre la confianza y el apoyo. Si el valor de elevación es un valor negativo, entonces hay una correlación negativa entre los puntos de datos. Si el valor es positivo, hay una correlación positiva, y si la relación es igual a 1, entonces no hay correlación.
Algoritmos de reglas de asociación
Algoritmo Apriori
Los conjuntos de elementos candidatos se generan usando solo los grandes conjuntos de elementos de la pasada anterior. El conjunto de ítems grandes de la pasada anterior se une a sí mismo para generar todos los conjuntos de ítems con un tamaño que es mayor por uno. Cada conjunto de ítems generado con un subconjunto que no es grande es entonces eliminado. El resto de los conjuntos de elementos son candidatos.
El algoritmo de Apriori aprovecha el hecho de que cualquier subconjunto de un conjunto de ítems frecuente es también un conjunto de ítems frecuente. Por lo tanto, el algoritmo puede reducir el número de candidatos que se están considerando explorando solo los conjuntos de elementos cuyo número de apoyos es mayor que el número mínimo de apoyos. Todos los conjuntos de elementos infrecuentes pueden ser podados si tienen un subconjunto infrecuente.
Algunas cosas a considerar:
- Tiene gran importancia en la minería de datos.
- Las reglas resultantes son intuitivas y fáciles de comunicar a un usuario final.
- Es fácil de implementar.
- No requiere de datos etiquetados ya que está totalmente desprovisto de supervisión.
- Puede ser muy lento.
- Si el conjunto de datos es pequeño puede encontrar muchas asociaciones falsas que ocurren por casualidad.
- Requiere muchos escaneos de la base de datos.
Algoritmo Eclat
El algoritmo explora el conjunto de datos y encuentra conjuntos de elementos que se producen con mayor frecuencia en la transacción que un umbral determinado.
La mayor diferencia con el algoritmo de Apriori es que utiliza la búsqueda de profundidad, primero, en lugar de la búsqueda de amplitud. En el algoritmo de Apriori, se utiliza el elemento basado en el producto, pero en le algoritmo Eclat, la transacción es transmitida por los elementos.
Eclat mejora Apriori en el paso de extraer conjuntos de elementos frecuentes, Apriori tiene que escanear los datos varias veces, pero Eclat no lo necesita.
Algunas cosas a considerar:
- Apriori usa grandes conjuntos de datos mientras que Eclat usa un conjunto de datos pequeño y mediano.
- Apriori es más lento que Eclat.
Algoritmo AIS
Con el algoritmo AIS, se generan y cuentan conjuntos de elementos a medida que escanea los datos. En los datos de transacción, el algoritmo AIS determina qué grandes conjuntos de elementos contenías una transacción, y se crean nuevos conjuntos de elementos candidatos ampliando los grandes conjuntos de elementos con otros elementos de los datos de transacción.
La desventaja del algoritmo AIS es que genera y cuenta innecesariamente demasiados conjuntos de elementos candidatos que resultan ser pequeños.
Algoritmo SETM
El algoritmo SETM también genera conjuntos de elementos candidatos a medida que explora una base de datos, pero este algoritmo da cuenta de los conjuntos de elementos al final de su exploración. Los nuevos conjuntos de elementos candidatos se generan de la misma manera que con el algoritmo AIS, pero el ID de la transacción generada se guarda con el conjunto de elementos candidatos en una estructura de datos secuencial. Al final de la pasada, el recuento de soporte de los ítems candidatos se crea agregando la estructura secuencial.
El inconveniente del algoritmo SETM es que puede generar y contar muchos pequeños conjuntos de elementos candidatos.
Casos de uso de las reglas de asociación
En la Ciencia de los Datos, las reglas de asociación se utilizan para encontrar correlaciones y co-ocurrencias entre los conjuntos de datos. Se utilizan idealmente para explicar los patrones en los datos de depósitos de información aparentemente independientes, como las bases de datos relacionales y las bases de datos transaccionales. El acto de utilizar las reglas de asociación se denomina a veces “minería de reglas de asociación” o “asociaciones mineras”.
A continuación, se presentan algunos casos de uso real de las reglas de asociación.
Medicina
Los médicos pueden utilizar las reglas de asociación para ayudar a diagnosticar pacientes. Hay muchas variables a considerar cuando se hace un diagnóstico, ya que muchas enfermedades comparten síntomas. Mediante el uso de reglas de asociación y el análisis de datos alimentado por Machine Learning, los médicos pueden determinar la probabilidad condicional de una determinada enfermedad comparando las relaciones de los síntomas en los datos de casos anteriores. A medida que se hacen nuevos diagnósticos, el modelo de Machine Learning puede adaptar las reglas para reflejar los datos actualizados.
Venta al por menor
Los minoristas pueden recopilar datos sobre los patrones de compra, registrando los datos de las compras a medida que los códigos de barras de los artículos son escaneados por los sistemas de puntos de venta. Los modelos de Machine Learning pueden buscar la co-ocurrencia de estos datos para determinar qué productos tienen más probabilidades de ser comprados juntos. El minorista puede entonces ajustar la estrategia de comercialización y ventas para aprovechar esta información.
Diseño de la experiencia del usuario (UX)
Los desarrolladores pueden recopilar datos sobre la forma en que los consumidores utilizan un sitio web que ha creado. Luego pueden utilizar asociaciones en los datos para optimizar la interfaz de usuario del sitio web, analizando dónde tienden a hacer clic los usuarios y qué maximiza la posibilidad de que se comprometan con una llamada a la acción, por ejemplo.
Entretenimiento
Servicios como Netflix y Spotify pueden utilizar las reglas de asociación para alimentar sus motores de recomendación de contenido. Los modelos de Machine Learning analizan los datos sobre el comportamiento de los usuarios en el pasado en busca de patrones frecuentes, desarrollan reglas de asociación y utilizan esas reglas para recomendar el contenido con el que es probable que un usuario se comprometa, u organizan el contenido de forma que es probable que ponga en primer lugar el contenido más interesante para un usuario determinado.
Con esto finalizamos la explicación de este contenido, por lo tanto te dejo la siguiente pregunta, ¿Cuáles de las siguientes afirmaciones crees tú que sea cierta?
Opción 1: Las reglas de asociación son declaraciones de “if-then”.
Respuecta Correcta.
Opción 2: La fuerza de una determinada regla de asociación se mide por dos parámetros principales, el apoyo y la confianza.
Respuesta Correcta.
Opción 3: Los algoritmos Apriori y Eclat son algoritmos de reglas de asociación.
Respuesta Correcta.