Históricamente, la relación entrada-salida en la búsqueda ha estado dominada por el texto. A pesar de que las salidas se han vuelto más variadas, resultados de video e imagen, por ejemplo, las entradas se han basado en texto. Esto ha restringido y moldeado el potencial de los motores de búsqueda, ya que tratan de extraer un significado más contextual de un conjunto de datos relativamente estático de palabras clave.
Los motores de búsqueda visual están redefiniendo los límites de nuestro lenguaje, abriendo una nueva vía de comunicación entre las personas y las computadoras. Los humanos somos criaturas visuales. Usamos nuestros ojos para decidir si algo se ve bien, o si encaja con nuestro estilo.
Pinterest permite descubrir cosas que en ocasiones no sabes cómo ponerlo en palabras. En ocasiones tienes una imagen rica y colorida en tu mente, pero no puedes traducirla a las palabras que necesitas para encontrarla. El objetivo visual de Pinterest es una forma de descubrir ideas sin tener que encontrar las palabras adecuadas para descubrirlas primero.
Solo tienes que apuntar con el lente a un par de zapatos y luego tocar para ver estilos relaciones o incluso ideas con qué más puedes usarlos. También puedes utilizar la lente con alimentos. Solo tienes que apuntar a las fresas para ver qué recetas surgen. Los patrones y colores también pueden llevarte a nuevas direcciones divertidas, interesantes o incluso simplemente extrañas.
La tecnología de búsqueda visual de Pinterest tiene como objetivo crear una posición como lugar de búsqueda de descubrimientos. Esta tecnología es el resultado de aplicaciones de Machine Learning en Pinterest que están muy extendidas en una variedad de áreas de negocio.
Machine Learning en Pinterest
Desde aproximadamente, enero de 2015, el Machine Learning se ha utilizado en la plataforma de Pinterest en múltiples áreas:
- Descubrimiento: proporciona recomendaciones, contenido relacionado y predice la probabilidad que una persona fije o le de “pin” a un contenido.
- Crecimiento: utiliza modelos de inteligencia para determinar qué correos electrónicos enviar y evitar la pérdida de clientes.
- Monetización: realiza predicciones de rendimiento y relevancia de los anuncios.
- Datos: construye un sistema distribuido en tiempo real para Machine Learning.
Esto es solo una revisión muy por encima de cómo Pinterest utiliza Machine Learning, pero veamos con más detalle esto y analicemos un poco como funciona cada uno de estos:
- Identificación de similitudes visuales: Machine Learning no solo puede determinar el objeto de una imagen, sino que también puede identificar patrones visuales y hacerlos coincidir con otras fotos. Pinterest utiliza esta tecnología para procesar 150 millones de búsqueda de imágenes al mes, lo que ayuda a los usuarios a encontrar contenido que se parece a imágenes que ya han “pineado”.
- Categorizando y curando: si un usuario pincha una lámpara antigua, la plataforma puede ahora ofrecer sugerencias de otros objetos de la misma época. La razón es que utiliza los metadatos, como los nombres de los tablones de anuncios y los sitios web en los que se han publicado imágenes, ayudan a la plataforma a comprender lo que representan las fotos.
- Predecir el compromiso: mientras que otras plataformas priorizan el contenido de los amigos y contactos de un usuario, Pinterest presta más atención a los gustos y hábitos de un individuo, es decir, a lo que han fijado y cuándo, lo que permite que el sitio ofrezca recomendaciones más personalizadas.
- Priorizar los gustos locales: Pinterest es una plataforma cada vez más global, con más de la mitad de sus usuarios fuera de los Estados Unidos. Su motor de recomendación ha aprendido a sugerir contenido popular de la región local de los usuarios en su mismo idioma.
- Más allá de las imágenes: analizar lo que hay en una foto es un factor importante en las recomendaciones del sitio, pero no ofrece toda la historia. Pinterest también examina los subtítulos del contenido previamente pineado y qué elementos se guardan en los tableros virtuales. Esto permite a Pinterest, por ejemplo, vincular unos zapatos en particular con unos pantalones a su lado, aunque no se parezcan en nada.
La opción Pinterest Lens es un producto que forma parte del esfuerzo por identificar las similitudes visuales, junto con una gran cantidad de otros trabajos de ingeniería. Todos ellos utilizan algoritmos y tecnologías de Machine Learning bajo un campo cada vez mayor llamado visión por computador.
Visión Computacional en Pinterest
La Visión Computacional es un campo de la informática y un subcampo de Machine Learning que trabaja para permitir que las computadoras vean, identifiquen y procesen imágenes de la misma manera que lo hace la visión humana, y luego proporcionen los resultados adecuados.
Pinterest utiliza la visión por computadoras para potenciar sus productos de descubrimiento visual.
La primera vez que vimos la búsqueda visual en Pinterest fue en 2015. Por primera vez, la búsqueda visual le dio a la gente una forma de obtener resultados incluso cuando no pueden encontrar las palabras correctas para describir lo que están buscando. Obviamente esto ha ido evolucionando con el pasar del tiempo, extendiendo la detección de objetos, en donde se encuentra todos los objetos de la imagen de un pin en tiempo real y ofrece resultados relacionados. Desde entonces, la búsqueda visual se ha convertido en una de sus características más utilizadas, con cientos de millones de búsquedas visuales cada mes y miles de millones de objetos detectados.
Profundicemos en los modelos de Visión Computacional que se emplean para el descubrimiento visual a través de Pinterest Lens.
Arquitectura de Pinterest Lens
Pinterest Lens combina la comprensión de las imágenes y los objetos con sus tecnologías de descubrimiento para ofrecer un conjunto diverso de resultados. Por ejemplo, si tomas una foto de una fresa, Pinterest te devuelve fotos de fresas, pero también te da más resultados, como recetas de comida, ideas de belleza, consejos para cultivarlos, y mucha más información relacionados a ellos.
Por esta razón la arquitectura general de Pinterest Lens se divide en componentes lógicos:
El primer componente es una capa de compresión de consultas de la que Pinterest obtiene información sobre la imagen de entrada dada. Aquí Pinterest calcula características visuales como la detección de objetos, el cálculo de colores salientes y la detección de condiciones de iluminación y calidad de imagen. Usando las características visuales también calcula características semánticas como anotaciones y categorías.
El segundo componente es el mezclador de Pinterest, ya que los resultados de Pinterest Lens provienen de múltiples fuentes. Pinterest utiliza la tecnología de búsqueda visual para devolver resultados visualmente similares, tecnología de búsqueda de objetos para devolver escenas o proyectos con objetos visualmente similares y búsqueda de imágenes que utiliza las anotaciones derivadas para devolver resultados de búsqueda de texto personalizados que son semánticamente, no visualmente relevantes para la imagen introducida. El trabajo del mezclado es cambiar dinámicamente las proporciones de mezcla y las fuentes de los resultados basándose en la información derivada de la capa de comprensión de la consulta.
Búsqueda de imágenes
La tecnología de búsqueda de imágenes de Pinterest se remonta a 2015. Pinterest realizó una serie de experimentos utilizando una combinación de conjuntos de datos re referencia y pruebas A/B en dos aplicaciones de Pinterest, pines relacionados y un experimento con looks similares.
En particular, el experimento con looks similares permitió a Pinterest mostrar recomendaciones de pines visualmente similares basadas en objetos específicos de la imagen seleccionada. Experimentó con diferentes formas de utilizar el reconocimiento de objetos que permitirían hacer clic en los objetos y luego utilizó el reconocimiento de objetos para detectar productos como bolsos, zapatos y otros de la imagen seleccionada. De estos objetos detectados, extrajo características visuales para generar recomendaciones de productos. En el experimento inicial se utiliza la indicación de un punto rojo sobre la imagen para el seleccionar el objeto que se deseaba descubrir las nuevas recomendaciones. Al hacer clic sobre el punto rojo se carga una pantalla con objetos visualmente similares.
Búsqueda visual
Dado que una imagen puede contender docenas de objetos, la motivación de Pinterest era hacer lo más sencillo posible para iniciar una experiencia de descubrimiento desde cualquiera de ellos. De la misma manera que lo hace la función de autocompletar en Google que mejora la experiencia de la búsqueda de texto, la detección de automática de objetos hace que la búsqueda visual sea una experiencia más fluida. La detección de objetos en la búsqueda visual también permite nuevas funciones, como la coincidencia objeto a objeto.
El primer reto de Pinterest en la construcción de la detección automática de objetos fue la recogida de cajas delimitadoras etiquetadas para las regiones de interés en las imágenes, esto vendría siendo los datos de entrenamiento. Desde su lanzamiento, Pinterest ha procesado cerca de mil millos de imágenes, por lo que agregar esta actividad a esa cantidad de imágenes, puede aprender qué objetos interesan a los usuarios. También puede agregar anotaciones de resultados visualmente similares a cada imagen y asigna una etiqueta a cientos de categorías de objetos.
La forma en cómo hacer lo podemos ver en la imagen, acá se utiliza un mapa de calor, donde se forman dos grupos, uno alrededor de la anotación scarf o bufanda y otro alrededor de la anotación bag o bolsa o cartera.
Dado que el motor de búsqueda visual de Pinterest puede utilizar cualquier imagen como consulta, incluido el contenido no visto de la web e incluso de la cámara, la detección debe realizarse en tiempo real, en una fracción de segundo. Para esto, Pinterest ha experimentado ampliamente con Faster R-CNN, que utiliza una red neuronal profunda para detectar objetos dentro de las imágenes en dos pasos principales.
Primero, identifica las regiones de una imagen que pueden contener objetos de interés ejecutando una red completamente convolucional sobre la imagen de entrada para producir un mapa de características. Para cada ubicación en el mapa de características, la red considera un conjunto fijo de regiones, variando la probabilidad de que cada una de estas regiones contenga un objeto de interés. Si se encuentra una región prometedora, la red también produce ajustes a esta región para que enmarque mejor los objetos.
Una vez que la red ha encontrada regiones de interés, examina las más prometedoras e intenta identificar cada una de ellas como una categoría particular de objeto o descartarla si no se encuentra ningún objeto.
Para cada región candidata, la red realiza una agrupación espacial sobre la parte correspondiente de un mapa de características convolucionales, produciendo así un vector de características con un tamaño fijo independiente del tamaño de la región. Esta característica combinada se utiliza como entrada a una red de detección, que utiliza un clasificador para identificar cada región como fondo o como una de nuestras categorías de objetos. Si se detecta un objeto, la red vuelve a producir ajustes en los límites de la región para refinar aún más la calidad de la detección. Finalmente, se realiza una ronde de supresión no máxima sobre las detecciones para filtrar cualquier detección duplicada, y los resultados se presentan al usuario.
Búsqueda de objetos
Tradicionalmente, los sistemas de búsqueda visual han tratado imágenes enteras como una unidad. Estos sistemas indexan las representaciones de imágenes globales para devolver las imágenes de forma holísticas a la imagen de entrada dada. Con mejores representaciones de imágenes como resultado de los avances en el Aprendizaje Profundo, los sistemas de búsqueda visual han alcanzado un nivel de precisión sin precedentes. Sin embargo, Pinterest ha ido mucho más allá de la imagen completa como unidad y ha llevado al límite la tecnología de búsqueda visual. Utilizando miles de millones de objetos en tiempo real, Pinterest puede entender imágenes a un nivel más fino. Ahora conoce tanto la ubicación como el significado semántico de miles de millones de objetos en su banco de imágenes.
La búsqueda de objetos es un sistema de búsqueda visual que trata los objetos como la unidad. Dada una imagen de entrada, Pinterest encuentra los objetos más similares visualmente en miles de millones de imágenes en una fracción de segundo, mapea esos objetos de la imagen original y devuelve escenas que contienen los objetos similares.
En un mundo en el que todo el mundo tiene una cámara en el bolsillo, muchos expertos creen que la búsqueda visual, tomar fotos en lugar de buscar a través de consultas de texto, se convertirá de hecho en la forma en que busquemos información en un futuro.
Pinterest está sentado en lo que podría ser el conjunto de datos más limpio y más grande del mundo para entrenar a las computadoras a ver imágenes. Son miles de millones de fotos de muebles, ropa, comida y mucho más que han sido etiquetadas a mano por los propios usuarios de Pinterest durante años.
En Pinterest, lo usuarios acuden para informarse sobre una vida mejor, comenzando con preguntas específicas como “ideas para la cena” o “moda” que a menudo pueden buscar una y otra vez, semana tras semana. Como resultado de este comportamiento y la disposición de tableros de los pines fotográficos del sitio, Pinterest puede incorporar la búsqueda visual en su plataforma, no para ofrecer una respuesta perfecta, sino una colección imperfecta de inspiración.
Con esto finalizamos la explicación. Ya tienes conocimientos de cómo implementa la plataforma Pinterest la Inteligencia ARtificial, por lo tanto te dejo la siguiente pregunta, ¿Cuáles de las siguientes afirmaciones crees tú que sea cierta?
Opción 1: Pinterest Lens utiliza la visión computacional para obtener información sobre las imágenes.
Respuesta Correcta.
Opción 2: Pinterest utiliza redes neuronales convolucionales para obtener información detallada de cada uno de los elementos que cuenta la imagen.
Respuesta Correcta.
Opción 3: Pinterest cuenta con uno de los conjuntos de datos de imágenes limpias más grande en el mundo.
Respuesta Correcta.