Los motores de búsqueda visual están redefiniendo los límites de nuestro lenguaje, abriendo una nueva vía de comunicación entre las personas y las computadoras. Si vemos el lenguaje como un sistema fluido de signos y símbolos, en lugar de un conjunto fijo de palabras habladas o escritas, llegamos a una imagen mucho más convincente y profunda del futuro de la búsqueda.
Nuestra cultura es visual, un hecho que los motores de búsqueda visual están muy ansiosos por capitalizar.
Ya ayudan las tecnologías específicas de búsqueda visual de comercio electrónico, como Amazon, Walmart y ASOS. Las aplicaciones de estas empresas convierten la cámara de un celular inteligente en una herramienta de descubrimiento visual, buscando elementos similares en función de lo que haya en el marco. Esto es solo un caso de uso, sin embargo, y el potencial para la búsqueda visual es mucho mayor que las transacciones directas de comercio electrónico.
La visión por computador ha revolucionado los sectores minoristas, de servicios al cliente, automotriz y de salud. Los expertos discuten si es posible o no enseñar a las máquinas a percibir el mundo como nosotros.
Visión Computacional
La visión artificial es una parte de la Inteligencia Artificial que permite a los ordenadores ver y comprender vídeos o imágenes digitales. Y los sistemas visuales nos rodean en todas partes, cámaras de teléfonos inteligentes, sistemas de vigilancia, sensores, vehículos de autocontrol, imágenes médicas y mucho más.
Esta sección de Machine Learning incluye varias tareas clásicas, como clasificación de imágenes, segmentación de imágenes, detección y seguimiento de objetos, y más.
Motor de búsqueda visual
La búsqueda visual es la capacidad de las computadoras de escanear lo que está pasando, buscar y reconocer un objeto de destino en el fondo y filtrar los objetos irrelevantes. Un ejemplo claro es la búsqueda avanzada de imágenes de Google y Kindle, un motor de búsqueda visual para niños que ayuda a filtrar el contenido, o una herramienta de búsqueda visual en la aplicación móvil de Pinterest.
En el campo de la visión computacional reinan los grandes datos. Incluso los algoritmos más potentes no lograrán que un proyecto de Inteligencia Artificial sea un éxito sin datos que tengan poder de predicción. Los ingenieros utilizan conjuntos de datos masivos y aplican métodos específicos de tareas para enseñar a las máquinas a ver, comparar y seleccionar resultados relevantes de grandes grupos de opciones.
Desde la revolución de las redes neuronales artificiales, algunos métodos utilizados para resolver los retos empresariales se han vuelto menos efectivos y menos populares. Los algoritmos más recientes se basan en los principios de la caja negra, lo que tiene un impacto significativo en los resultados.
El Aprendizaje Profundo puede permitir que las máquinas superen a los humanos en el reconocimiento de imágenes.
Los algoritmos empleados dentro de los enfoques simples perciben una imagen como un conjunto de puntos. Por ejemplo, si hay un sofá negro sobre un fondo blanco, el algoritmo intenta encontrar algunas imágenes que contienen manchas similares en blanco y negro.
Las arquitecturas más complejas, es decir, las redes neuronales artificiales basadas en el Aprendizaje Profundo, consideran un significado semántico. Reconocen objetos significativos en una imagen. La estructura de la red incluye múltiples capas, cada una entrenada para reconocer ciertos patrones. La capa más profunda es capaz de inferir el significado semántico de una imagen. A grandes rasgos, es lo que ayuda a los ordenadores a ver imágenes como la nuestra.
Cada capa de una red proporciona alguna salida o resultado que la siguiente capa toma como datos de entrada. Se deben enseñar algunas métricas para que la última capa pueda ofrecer resultados de reconocimiento de calidad.
Empresas que implementan las búsquedas visuales
La tecnología de búsqueda visual de Pinterest tiene como objetivo crear una posición como lugar de búsqueda de descubrimientos.
En lugar de abordar Google directamente, Pinterest ha decidido ofrecer algo sutilmente diferente a los usuarios y anunciantes. La gente va a Pinterest para descubrir nuevas ideas, parar crear pizarras de estado de ánimo, para inspirarse. Por ello, Pinterest insta a sus 200 millones de usuarios a buscar fuera de la caja.
Todo esto es impulsado por Pinterest Lens, una sofisticada herramienta de búsqueda visual que utiliza la cámara de un teléfono inteligente para escanear el mundo físico, identificar objetos y devolver resultados relacionados. Está disponible a través de la aplicación para celulares, pero la función visual de Pinterest también se puede utilizar en el escritorio a través de la extensión de Google Chrome.
El amplio conjunto de datos de Pinterest de más de 100.000 millones de pines proporciona el material de formación perfecto para aplicaciones de Machine Learning. Como resultado, se establecen nuevas conexiones entre el mundo físico y el digital, utilizando unidades de procesamiento gráfico (GPU) para acelerar el proceso.
En la práctica, Pinterest Lens funciona muy bien y mejora notablemente con el tiempo. La detección de imágenes es impresionantemente precisa y las sugerencias para los pines relacionados son relevantes.
Los motores de búsqueda visuales funcionan mejor cuando expresan algo que nos cuesta decir con palabras. Pinterest entiende y cumple esta promesa mejor que la mayoría.
Los factores claves de la búsqueda visual de Pinterest son:
- Mas de 200 millones de imágenes mensuales.
- Se centra en la fase de descubrimiento de la búsqueda.
- Pinterest Lens es la tecnología central de búsqueda visual.
- Gran plataforma para los minoristas, con evidentes posibilidades de monetización.
- La publicidad de búsqueda pagada es un área de crecimiento central para la empresa.
- Resultados de búsqueda visual cada vez más eficaces, especialmente en el nivel profundo de la estética.
Google hizo ondas tempranas en la búsqueda visual con el lanzamiento de Google Goggles. Esta aplicación Android fue lanzada en 2010 y permite a los usuarios realizar búsquedas con la cámara de su teléfono inteligente. Funciona bien en lugares famosos, por ejemplo, pero no ha sido actualizado significativamente en bastante tiempo.
Parecía poco probable que Google se quedara atrás en la búsqueda visual durante mucho tiempo, y fue revelado que el gigante de la búsqueda ha estado trabajando en segundo plano.
Google Lens, disponible en la aplicación de fotos y en el asistente de Google, es una revisión significativa de la anterior iniciativa de Google Goggles.
Cualquier similitud con el producto de Pinterest puede ser más que una coincidencia. Últimamente, Google ha actualizado sigilosamente sus motores de búsqueda visuales e imágenes, dando paso a resultados que se asemejan al formato de Pinterest.
El producto de artículos similares de Google fue otro paso para sacar provecho en la fase de descubrimiento de la búsqueda, mostrando resultados relacionados que podrían despertar aún más la curiosidad del consumidor.
Google Lens proporciona la tecnología de detección de objetos para vincular todo esto en un potente motor de búsqueda visual.
Google se encuentra en una posición única para hacer la búsqueda visual una herramienta poderosa tanto para los usuarios como para los anunciantes. Las oportunidades para los minoristas en línea a través de la búsqueda pagada son evidentes, pero también hay un enorme potencial para que los minoristas aprovechen las búsquedas locales.
Los factores claves de la búsqueda visual de Google son:
- Google Goggles se lanzó en 2010 como uno de los primeros en entrar en el mercado de la búsqueda visual.
- Google Lens enlaza la búsqueda visual con la búsqueda de Google y Google Maps.
- Google es el mejor situado para crear un producto publicitario en torno a su motor de búsqueda visual, una vez que la tecnología aumenta su precisión.
Bing
Microsoft había estado muy callado en este frente desde el ocaso de su producto de búsqueda visual Bing en 2012. Nunca despegó realmente y tal vez el apetito no estaba del todo abierto entre un público masivo para un motor de búsqueda visual.
Pero ya Bing, hizo una interesante reentrada a la contienda con el anuncio de un motor de búsqueda visual completamente renovado. Este cambio de rumbo ha sido dirigido por los avances de la Inteligencia Artificial que puede escanear automáticamente imágenes y aislar objetos.
La tecnología de búsqueda visual puede afinar los objetos dentro de la mayoría de las imágenes y, a continuación, sugerir otros elementos que pueden ser de interés para el usuario.
Como en todas las tecnologías de Machine Learning, este producto seguirá mejorando. La búsqueda visual se nutre de datos, en este sentido, tanto Google como Pinterest se han adelantado a Bing.
Los factores claves de la búsqueda visual de Bing son:
- Inicialmente lanzado en 2009, pero eliminado en 2012 debido a la falta de aceptación.
- Relanzado en julio de 2017, respaldado por Inteligencia Artificial para identificar y analizar objetos.
- Los anunciantes pueden utilizar la búsqueda visual de Bing para colocar imágenes de compras.
- El reconocimiento de objetos es bastante preciso, aunque le falta avanzar en la tecnología.
La creación de búsquedas visuales, llevó a cambios fundamentales en la visión computacional. El enfoque se ha desplazado de los algoritmos innovadores a los datos potentes. Ahora, el valioso conjunto de datos de un cliente proporciona la ventaja más significativa en la creación de soluciones personalizadas.
Con esto finalizamos la explicación. Ya tienes una base de lo que se tratan los Algoritmos Genéticos, por lo tanto te dejo la siguiente pregunta, ¿Cuáles de las siguientes afirmaciones crees tú que sea cierta?
Opción 1: Las búsquedas visuales utiliza la visión computacional para obtener información sobre las imágenes.
Respuesta Correcta.
Opción 2: El Aprendizaje Profundo se utiliza para obtener información detallada de cada uno de los elementos que cuenta la imagen.
Respuesta Correcta.
Opción 3: Google cuenta con uno de los conjuntos de datos de imágenes limpias más grande en el mundo.
Respuesta Correcta.