Cuando se está iniciando los estudios en Machine Learning se tiene a disposición varios proyectos bases con los que trabajar, por ejemplo la supervivencia del Titanic, las casas de Boston, la flor de iris. Por supuesto hay muchos conjuntos de datos disponibles, pero los gratuitos rara vez brindan una visión general para resolver problemas reales o, a veces, son demasiados pequeños para usarlos en aplicaciones de Machine Learning.

Por estas razones, en ocasiones se tiene la idea de crear nuestros propios conjuntos de datos para utilizar en nuestros propios proyectos, acá te explicaré varias opciones que puedes considerar.

Conjuntos de datos de imágenes

Estoy segura de que cada uno de nosotros debemos haber sido un acumulador de imágenes, animales, paisajes, amigos, todo funciona aquí.

aprende fácilmente inteligencia artificial - newsletter

Puedes desarrollar proyectos como identificar la raza de un perro o detectar el estado de ánimos de tus amigos.

Busca en tu disco duro todas esas imágenes que tengas. Asegúrate de mantener todas las imágenes en un formato de archivo jpeg o png. Una vez que se hayan leído las imágenes, puedes proceder como con cualquier otro proyecto de Procesamiento de Imágenes construir un modelo con estas imágenes.

Otra forma de obtener imágenes es descargándolas de la web, puedes utilizar google e inclusive desarrollar un programa de minería de datos para descargar las imágenes y guardarlas en tu computador.

Conjuntos de datos de audios

Puedes recopilar las canciones de tu artista favorito, o las canciones que más te guste en un solo lugar y ya tendrás archivos de audio que puedes utilizar para un proyecto, como por ejemplo identificar el idioma de un archivo de audio.

Lo único tedioso de esto sería recopilar una cantidad suficiente de canciones para construir un modelo a partir de datos de entrenamiento, validarlo y probarlo.

Se recomiendo que los archivos estén en formatos mp3 o WAV para mayor facilidad para su procesamiento con algoritmos de Procesamiento del Lenguaje Natural.

Conjunto de datos de video

Con el video, los proyectos de Machine Learning serían principalmente de Reconocimiento Facial, como por ejemplo identificar si una persona está usando una mascarilla, identificar si se siguen las medidas de distanciamiento social o el sistema de seguridad para el hogar.

Para construir un conjunto de datos de video, se puede utilizar videos familiares, bromear con los amigos, básicamente crear videos con figuras humanas y que se muevan.

Se recomienda utilizar formatos de video mp4.

Una vez recolectado los videos se puede utilizar los algoritmos de Reconocimiento Facial para resolver los problemas.

Conjunto de datos de texto

Existen varias formas para obtener datos de texto, por ejemplo las empresas que cumplen con las regulaciones generales de protección de datos deben enviar todos tus datos personales en archivos csv, por lo tanto puedes empezar a solicitarlos para de esta forma analizar tus propios datos.

También puedes descargar los datos de fitness de tu Fitbit o iWatch. Inclusive puedes utilizar los datos que tienes en tu propio computador como textos que hayas venido acumulando a lo largo de los años.

Estas son solo algunas de las ideas para crear tus propios conjuntos de datos, seguramente hay muchas más, lo que te sugerimos es que te propongas tu propio proyecto y en función de esto veas la mejor opción para obtener los datos del mismo.

Deja un comentario

Tu dirección de correo electrónico no será publicada.