La fantas铆a de que una m谩quina es capaz de simular el sistema visual humano es antigua. Hemos recorrido un largo camino desde que aparecieron los primeros trabajos universitarios en la d茅cada de 1960, como lo demuestra la llegada de los sistemas modernos trivialmente integrados en las aplicaciones m贸viles.

Hoy en d铆a, la Visi贸n por Computador es uno de los subcampos m谩s importantes de la Inteligencia Artificial y Machine Learning, dada su amplia variedad de aplicaciones y su tremendo potencial. Su objetivo, replicar las poderosas capacidades de la visi贸n humana.

驴Qu茅 es la Visi贸n por Computador?

aprende f谩cilmente inteligencia artificial - newsletter

La Visi贸n Computacional es el subcampo de la Inteligencia Artificial que intenta imitar las capacidades de la visi贸n humana. Y por visi贸n humano no nos referimos solo a los ojos o a la capacidad de ver im谩genes, no es tan trivial como simplemente tomar una foto con el tel茅fono. El prop贸sito no es imitar solo la vista, sino imitar la percepci贸n, la capacidad de los humanos de dar sentido a lo que ven.

La Visi贸n por Computador se centra en la creaci贸n de sistemas digitales que pueden procesar, analizar y dar sentido a los datos visuales, im谩genes o videos, de la misma manera que los humanos. El concepto de Visi贸n Computacional se basa en ense帽ar a los computadores a procesar una imagen a nivel de p铆xel y a entenderla. T茅cnicamente, las m谩quinas intentan recuperar la informaci贸n visual, manejarla e interpretar los resultados a trav茅s de algoritmos de software especiales.

驴C贸mo funciona la Visi贸n Computacional?

La tecnolog铆a de Visi贸n Computacional tiene a imitar la forma en que funciona el cerebro humano.

驴Pero c贸mo resuelve nuestro cerebro el reconocimiento visual de objetos? Una de las hip贸tesis populares afirma que nuestro cerebro depende de patrones para decodificar objetos individuales. Este concepto se utiliza para crear sistemas de visi贸n por computador.

Los algoritmos de Visi贸n Computacional que usamos hoy en d铆a se basan en el reconocimiento de patrones. Entrenamos a los computadores en una gran cantidad de datos visuales, los computadores procesar im谩genes, etiquetan los objetos en ellos, y encuentran patrones en esos objetos. Por ejemplo, si enviamos un mill贸n de im谩genes de flores, la computadora las analizar谩, identificar谩 patrones que son similares a todas las flores y, al final de este proceso, crear谩 un modelo 鈥渇lor鈥. Como resultado, la computadora ser谩 capaz de detectar con precisi贸n si una imagen en particular es una flor cada vez que les enviemos im谩genes.

Los m茅todos y t茅cnicas de Deep Learning han transformado profundamente la Visi贸n Computacional, junto con otras 谩reas de la Inteligencia Artificial, hasta tal punto que para muchas tareas su uso se considera est谩ndar. En particular, las redes neuronales convolucionales (CNN) han logrado resultados m谩s all谩 del estado de la t茅cnica utilizando t茅cnicas tradicionales de Visi贸n por Computadora.

Estos cuatro pasos esbozan un enfoque general para construir un modelo de Visi贸n por Computadora utilizando redes neuronales convolucionales (CNN):

  1. Crear un conjunto de datos compuesto de im谩genes anotadas o utilizar uno ya existente. Las anotaciones pueden ser la categor铆a de la imagen, para un problema de clasificaci贸n, pares de caja delimitadores y clases, para un problema de detecci贸n de objetos, o una segmentaci贸n por p铆xeles de cada objeto de inter茅s presente en una imagen, para problemas de segmentaci贸n de instancia.
  2. Extraer, de cada imagen, las caracter铆sticas pertinentes a la tarea en cuesti贸n. Este es un punto clave en el modelado del problema. Por ejemplo, los rasgos utilizados para reconocer rostros, rasgos basados en criterios faciales, obviamente no son los mismos que los utilizados para reconocer atracciones tur铆sticas u 贸rganos humanos.
  3. Entrenar un modelo de Deep Learning basado en los rasgos aislados. Entrenas significa alimentar el modelo de Machine Learning con muchas im谩genes y aprender谩, bas谩ndose en esos rasgos, c贸mo resolver la tarea en cuesti贸n.
  4. Evaluar el modelo utilizando im谩genes que no se utilizaron en la fase de entrenamiento. Al hacerlo la precisi贸n del modelo de entrenamiento puede ser probada.

La estrategia es muy b谩sica, pero sirve bien al prop贸sito. Este enfoque, conocido como Aprendizaje supervisado, requiere un conjunto de datos que abarque el fen贸meno que el modelo tiene que aprender.

Tareas t铆picas de la Visi贸n Computacional

La Visi贸n por Computador se basa en un extenso conjunto de tareas diversas, combinadas para lograr aplicaciones altamente sofisticadas. Las tareas m谩s frecuentes son el reconocimiento de im谩genes y video, que b谩sicamente consisten en determinar los diferentes objetos que contiene una imagen.

Clasificaci贸n de im谩genes

Probablemente una de las tareas m谩s conocidas en la Visi贸n Computacional es la clasificaci贸n de im谩genes. Permite clasificar una imagen dada como perteneciente a una de un conjunto de categor铆as predefinidas. Tomemos un simple ejemplo binario, queremos categorizar las im谩genes seg煤n si contienen una atracci贸n tur铆stica o no. Supongamos que se construye un clasificador para este prop贸sito y que se proporciona una imagen.

El clasificador responder谩 que la imagen pertenece al grupo de im谩genes que contienen atracciones tur铆sticas. Esto no significa que haya reconocida necesariamente el lugar, sino m谩s bien que ha visto previamente fotos del sitio y que se le ha dicho que esas im谩genes contienen una atracci贸n tur铆stica.

Una versi贸n m谩s ambiciosa del clasificador podr铆a tener m谩s de dos categor铆as. Por ejemplo, podr铆a haber una categor铆a para cada tipo espec铆fico de atracci贸n tur铆stica que queramos conocer. En tal escenario, las respuestas por entrada de imagen podr铆an ser m煤ltiples.

Detecci贸n de objetos

La detecci贸n de objetos es similar a la clasificaci贸n de im谩genes, excepto que con la detecci贸n de objetos la imagen puede contener muchos objetos que se localizan y clasifican. En este patr贸n de c贸digo de detecci贸n de objetos, un modelo est谩 entrenado no solo para clasificar im谩genes de Coca Cola, sino tambi茅n para localizar cada botella dentro de la imagen.

En la siguiente, se ve que se reconocieron tres categor铆as diferentes de productos de Coca Cola. Adem谩s de devolver las etiquetas y la confianza, proporciona coordenadas que permiten a la aplicaci贸n dibujar cajas delimitadoras alrededor de cada objeto identificado.

La detecci贸n de objetos se utiliza en una amplia variedad de casos de uso en los que lo interesante no es una 煤nica clasificaci贸n que describa toda la imagen, sino que pueden ser muchos objetos de diferentes categor铆as en la imagen. Dando a una aplicaci贸n la capacidad de identificar, localizar y contar los objetos incrementando las posibles aplicaciones de este tipo de Visi贸n Computacional.

Identificaci贸n de objetos

La identificaci贸n de objetos es ligeramente diferente de la detecci贸n de objetos, aunque a menudo se utilizan t茅cnicas similares para lograr ambas. En este caso, dado un objeto espec铆fico, el objetivo es encontrar instancias de dicho objeto en im谩genes. No se trata de clasificar una imagen, como vimos anteriormente, sino de determinar si el objeto aparece o no en una imagen y si aparece, especificar el lugar o los lugares donde aparece. Un ejemplo puede ser la b煤squeda de im谩genes que contengan el logotipo de una empresa determinada. Otro ejemplo es la supervisi贸n de im谩genes en tiempo real de c谩maras de seguridad para identificar rostros de una persona espec铆fica.

Seguimiento de objetos de videos

Cuando se utiliza la detecci贸n de objetos en los videos, a menudo se quiere seguir el rastro de los objetos de un fotograma a otro. La detecci贸n inicial de objetos se puede hacer extrayendo un fotograma del video y detectando los objetos en el fotograma.

Adem谩s de contar los objetos y localizar cada uno de ellos, el seguimiento de los objetos a medida que se desplazan de un fotograma a otro a帽ade otra dimensi贸n a lo que puede hacer.

Casos de uso comercial

Las empresas utilizan cada vez m谩s las aplicaciones de Visi贸n Computacional para responder a las preguntas comerciales o para mejorar sus productos. Probablemente ya forman parte de su vida cotidiana, sin que te des cuenta. A continuaci贸n, se presentan algunos casos de uso popular.

Organizaci贸n de contenidos

Los sistemas de Visi贸n Computaciones ya nos ayudan a organizar nuestro contenido. Apple Photos y Google Photos son un excelente ejemplo, estas aplicaciones tienen acceso a nuestras colecciones de fotos y a帽aden autom谩ticamente etiquetas a las fotos y nos permite navegar por una colecci贸n de fotograf铆as m谩s estructurada. Estas aplicaciones crean una vista curada de tus mejores momentos para ti.

Motores de b煤squeda visual

La tecnolog铆a de b煤squeda visual se puso a disposici贸n del p煤blico con la aparici贸n de Google Images en 2001. Un motor de b煤squeda visual es capaz de recuperar im谩genes que cumplen con ciertos criterios de contenido. La b煤squeda de palabras clave es un caso de uso com煤n, pero a veces podemos presentar una imagen de origen y solicitar que se encuentren im谩genes similares.

Reconocimiento facial

La tecnolog铆a de reconocimiento facial se utiliza para hacer coincidir las fotos de los rostros de las personas con sus identidades. Esta tecnolog铆a est谩 integrada en los principales productos que usamos a diario. Por ejemplo, Facebook, est谩 usando la visi贸n computarizada para identificar a las personas en las fotos.

El reconocimiento facial es una tecnolog铆a crucial para la autentificaci贸n biom茅trica. Muchos dispositivos m贸viles disponibles en el mercado hoy en d铆a permiten a los usuarios desbloquear los dispositivos mostrando sus caras. Para el reconocimiento facial se utiliza una c谩mara frontal, los dispositivos m贸viles procesan esta imagen y, bas谩ndose en el an谩lisis, pueden decir si la persona que tiene el dispositivo est谩 autorizada en 茅l. Lo importante de esta tecnolog铆a es que funciona realmente r谩pido.

Realidad aumentada

La Visi贸n Computaciones es un elemento central de las aplicaciones de realidad aumentada. Esta tecnolog铆a ayuda a estas aplicaciones a detectar objetos f铆sicos, tanto superficies como objetos individuales dentro de un espacio f铆sico determinado, en tiempo real y a utilizar esta informaci贸n para colocar objetos virtuales dentro del entorno f铆sico.

Autom贸viles autoconductores

La Visi贸n Computacional permite a los coches dar sentido a su entorno. Un veh铆culo inteligente tiene unas cuantas c谩maras que capturan videos desde diferentes 谩ngulos y los env铆an como se帽al de entrada al software de Visi贸n Computacional. El sistema procesa el v铆deo en tiempo real y detecta objetos como marcas en la carretera, objetos cercanos al auto, como peatones u otros autos, sem谩foros, entre otros. Uno de los ejemplos m谩s notables de las aplicaciones de esta tecnolog铆a es el piloto autom谩tico en los autom贸viles Tesla.

Salud

La informaci贸n de las im谩genes es un elemento clave para el diagn贸stico en medicina porque representa el 90% de todos los datos m茅dicos. Muchos diagn贸sticos en la salud se basan en el procesamiento de im谩genes, rayos X, resonancia magn茅tica y mamograf铆a, solo por nombrar algunos. Y la segmentaci贸n de las im谩genes demostr贸 su eficacia durante el an谩lisis de las exploraciones m茅dicas. Por ejemplo, los algoritmos de Visi贸n Computacional pueden detectar la retinopat铆a diab茅tica, la causa de ceguera de m谩s r谩pido crecimiento. La Visi贸n por Computador puede procesar im谩genes de la parte posterior del ojo y clasificarlas seg煤n la presencia y la gravedad de la enfermedad.

Agricultura

Muchas organizaciones agr铆colas emplean la Visi贸n Computacional para vigilar la cosecha y resolver los problemas agr铆colas comunes como la aparici贸n de malas hierbas o la deficiencia de nutrientes. Estos sistemas procesan im谩genes de sat茅lites, aviones no tripulados o aviones, e intentan detectar los problemas en una fase temprana, lo que ayuda a evitar p茅rdidas financieras innecesarias.

La Visi贸n Computacional es un tema popular en los art铆culos sobre nuevas tecnolog铆as. Un enfoque diferente de la utilizaci贸n de los datos es lo que hace que esta tecnolog铆a sea diferente. Tremendas cantidades de datos que creamos diariamente, se utilizan en realidad para nuestro beneficio, los datos pueden ense帽ar a los computadores a ver y comprender los objetos. Esta tecnolog铆a tambi茅n demuestra un importante paso hacia la creaci贸n de una Inteligencia Artificial que ser谩 tan sofisticada como la de los humanos.

Con esto finalizamos la explicaci贸n. Por lo tanto, te dejo la siguiente pregunta para comprobar lo que has aprendido con este contenido: de las siguientes afirmaciones 驴cu谩l crees que es cierta?

Opci贸n 1: La Visi贸n Computacional es un subcampo de Machine Learning.

Respuesta Incorrecta. La Visi贸n Computacional es un subcampo de la Inteligencia Artificial.

Opci贸n 2: Los m茅todos y t茅cnicas de Deep Learning han transformado profundamente la Visi贸n Computacional.

Respuesta Correcta.

Opci贸n 3: Las tareas m谩s frecuentes de Visi贸n Computacional son el reconocimiento de im谩genes y video.

Respuesta Correcta.

2 comentarios en “Visi贸n Computacional”

Deja un comentario

Tu direcci贸n de correo electr贸nico no ser谩 publicada.