Algoritmo Apriori – Teoría

Alguna vez te ha pasado que vas a comprar algo y acabas comprando mucho más de lo que tenías previsto. Este es un fenómeno conocido como compra impulsiva y los grandes comercios se aprovechan de Machine Learning y más específicamente del algoritmo Apriori para asegurarse que los clientes compremos más.

Entender el algoritmo Apriori es fundamental para comprender muchas técnicas de análisis de la cesta de compra. Se utiliza para encontrar grupos de artículos que aparecen juntos con frecuencia en un conjunto de datos de compras. Este suele ser el primer paso para encontrar nuevas formas de promocionar la mercancía.

Análisis de la cesta de compra

En el mundo actual, el objetivo de cualquier organización es aumentar los ingresos.

¿Se puede hacer esto lanzando un solo producto a la vez al cliente? La respuesta es un claro no. Por ello, las organizaciones comenzaron a extraer datos relacionados con los artículos comprados con frecuencia.

El análisis de la cesta de la compra es una de las técnicas clave utilizadas por los grandes minoristas para descubrir asociaciones entre artículos. Tratan de encontrar asociaciones entre diferentes artículos y productos que pueden venderse juntos, lo que proporciona ayuda en la colocación correcta de los productos. Por lo general, descubre qué productos se compran juntos y las organizaciones pueden colocar los productos de forma similar.

Entendamos mejor esto con un ejemplo:

La gente que compra pan suele comprar también mantequilla. Los equipos de marketing de las tiendas minoristas deben dirigirse a los clientes que compran pan y mantequilla y ofrecerles una oferta para que compren el tercer artículo, como los huevos.

Así, si los clientes compran pan y mantequilla y ven un descuento o una oferta en huevos, se animarán a gastar más y comprar los huevos. En esto precisamente lo que consiste el análisis de la cesta de la compra.

Esto es solo un pequeño ejemplo, imagina si le das 10.000 datos de artículos de un supermercado a un Científico de Datos, todo el conocimiento que se puede obtener, y justamente por esto es que la minería de las reglas de asociación es tan importante.

Reglas de asociación

Como se explico anteriormente las reglas de asociación utiliza Machine Learning para analizar los datos en busca de patrones o co-ocurrencias en una base de datos. En palabras sencillas, significa la dependencia de un artículo con respecto a otro, la probabilidad de que un artículo sea seleccionado dado que algún otro artículo ya está seleccionado. Podemos decir que si he comprado el artículo A, entonces es probable que compre el artículo B, si te fijas, lo que se nota aquí son dos palabras importantes, sí y entonces.

Una regla de asociación tiene 2 partes:

  • Un antecedente (si) y
  • Un consecuente (entonces)

Un antecedente es algo que se encuentra en los datos, y un consecuente es un elemento que se encuentra en combinación con el antecedente. En pocas palabras, puede entenderse como una regla de asociación de una tienda para dirigirse mejor a tus clientes.

Si la regla anterior es el resultado de un análisis exhaustivo de algunos conjuntos de datos, puede utilizarse no solo para mejorar el servicio al cliente, sino también para mejorar los ingresos de la empresa.

Por esto podemos entender si tenemos datos exhaustivos de cómo se compran 2 productos o cómo se compra un producto con otro, podemos aumentar el alcance de los clientes dando recomendaciones y ofertas.

Para hacer este análisis, es obvio que tendríamos que utilizar algunas herramientas matemáticas y hay tres componentes principales:

  • Soporte
  • Confianza
  • Lift

Vamos a explicar estos concepto con la ayuda de un ejemplo.

Supongamos que tenemos un registro de 1.000 transacciones de clientes y queremos averiguar el soporte, la confianza y la elevación para la leche y los pañales.

  • De las 1.000 transacciones, 120 contienen leche y 150 contienen pañales.
  • De estas 150 transacciones en las que se compra un pañal, 20 contienen también leche.

Utilizaremos estos datos para calcular el soporte, la confianza y la elevación.

Soporte. Indica la frecuencia con la que los artículos aparecen en los datos y proporciona protección para las transacciones que contiene “A” y “B”. Dice lo popular que es un conjunto de artículos, medido por la proporción de transacciones en las que aparece un conjunto de artículos.

Puede calcularse hallando el número de transacciones que contienen un determinado artículo dividido por el número total de transacciones.

Por lo tanto, el soporte de pañal será igual a las transacciones que contiene pañal (150) dividido entre las transacciones totales (1.000). Para nuestro ejemplo, el soporte será igual de 15%.

Soporte = Número de veces que ha ocurrido “A” / Número total de transacciones

Confianza. Se refiere a la probabilidad de que un artículo “B” se compre también si se compra el artículo “A”. Se puede calcular hallando el número de transacciones en las que “A” y “B” se compran juntos, dividido por el número total de transacciones en las que se compra “A”.

Por lo tanto, confianza de la probabilidad de comprar un pañal si un cliente compra leche será igual a las transacciones que contienen tanto leche como pañal (30) entre las transacciones que contienen leche (120). Para nuestro ejemplo la confianza es igual a 25%.

Confianza = Número de veces que se han producido “A” y “B” / Total de ocurrencias de “A”

Lift. Indica la probabilidad de que se compre el artículo “B” cuando se compra el artículo “A”, controlando al mismo tiempo la popularidad del artículo “B”. Se puede calcular dividiendo la confianza entre el soporte.

Por lo tanto, el lift será la confianza (25%) entre el soporte (15%). Para nuestro ejemplo este valor será igual a 1,66, que significa que hay 1,66 veces más posibilidades de comprar leche y pañales juntos que de comprar solo pañales.

Lift = Confianza de “A” y “B” / Soporte

Pasos del Algoritmo Apriori

El Algoritmo Apriori trata de extraer reglas para cada posible combinación de artículos.

Para un conjunto de datos más grande, todos estos cálculos puede hacer que el proceso sea extremadamente lento. Para acelerar el proceso, debemos realizar los siguientes pasos:

Paso 1. Establecer un valor mínimo para el soporte y la confianza. Esto significa que solo nos interesa encontrar reglas para los elementos que tienen cierta existencia por defecto, por ejemplo, el apoyo, y tienen un valor mínimo de co-ocurrencia con otros elementos, por ejemplo, la confianza.

Paso 2. Extraer todos los subconjuntos que tengan un valor de soporte superior a un umbral mínimo.

Paso 3. Seleccionar todas las reglas de los subconjuntos con un valor de confianza superior al umbral mínimo.

Paso 4. Ordenar las reglas por orden descendente de lift.

Ventajas del Algoritmo Apriori

  • Es un algoritmo fácil de implementar y de entender.
  • Se puede utilizar en conjuntos de elementos grandes.

Desventajas del Algoritmo Apriori

  • A veces, es necesario encontrar un gran número de reglas candidatas, lo que puede resultar caro desde el punto de vista informático.
  • El cálculo del soporte también es caro porque tiene que recorrer toda la base de datos.

Usos del Algoritmo Apriori

Apriori se utiliza principalmente para ordenar grandes cantidades de datos. El orden de los datos se produce a menudo debido a las reglas de asociación. Las reglas ayudan a mostrar qué aspectos de los datos tienen en común diferentes conjuntos.

A continuación, se pueden crear categorías en torno a esas reglas de asociación. Con los datos en categorías, los algoritmos y los usuarios pueden detectar nuevas tendencias y estructurar conjuntos de datos. Pueden tener una mayor capacidad para señalar las tendencias a lo largo del tiempo. El algoritmo también puede utilizarse para rastrear cómo se desarrollan las relaciones y se construyen las categorías.

Apriori puede utilizarse como base para una red neural artificial. Puede ayudar a la red a dar sentido a grandes cantidades de datos y a clasificar los datos en categorías por frecuencia de forma casi instantánea.

Una red neuronal artificial que utilice Apriori también puede ajustar la ponderación de las diferentes categorías para ampliar o disminuir la importancia de las mismas. Como resultado, un red neuronal artificial puede procesar datos, identificar tendencias y elaborar patrones que de otra forma se perderían.

Apriori es increíblemente útil para los analistas de datos en numerosos campos. Su importancia seguirá creciendo a medida que más y más campos utilicen la Inteligencia Artificial para dar sentido a conjuntos masivos de datos. Apriori seguirá siendo una herramienta esencial en el crecimiento de Machine Learning y la Inteligencia Artificial.

Con esto finalizamos la explicación de este contenido, por lo tanto te dejo la siguiente pregunta, ¿Cuáles de las siguientes afirmaciones crees tú que sea cierta?

Opción 1: El algoritmo Apriori es un algoritmo de Aprendizaje Supervisado.

Respuecta Incorrecta. Es un algoritmo de Aprendizaje no Supervisado.

Opción 2: Apriori es un algoritmo basado en agrupamiento de datos.

Respuesta Incorrecta. Es un algoritmo basado en las reglas de asociación.

Opción 3: El componente lift no tiene ninguna relación con el soporte y la confianza.

Respuesta Incorrecta. Liftse puede calcular dividiendo la confianza entre el soporte.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *