Encontramos datos en todas partes, estos pueden ser recolectados de manera manual por cient铆ficos, pero ahora es cada vez m谩s com煤n que sean recolectados de manera digital utilizando aplicaciones especificas configuradas para este prop贸sito.

Pero tenemos que tener claro que los datos no necesariamente signifiquen informaci贸n, por lo que es necesario aplicar un an谩lisis a los mismos para que nos ayude a responder preguntas, descubrir informaci贸n 煤til a trav茅s de ellos e inclusive para predecir el futuro utilizando Machine Learning.

1 Introduccio虂n

aprende f谩cilmente inteligencia artificial - newsletter

Por todo esto y mucho m谩s es importante aplicar el an谩lisis de datos a los conjuntos de datos con lo que trabajamos.

Para hacer el an谩lisis de datos en Python, primero debemos hablar sobre los principales paquetes o librer铆as que se utilizan para el an谩lisis. Para que tengan claro una librer铆a de Python es una colecci贸n de funciones y m茅todos que permiten realizar muchas acciones sin necesidad de escribir ning煤n c贸digo, generalmente contienen m贸dulos integrados que proporcionan diferentes funcionalidades que puedes usarlo directamente.

Lo dividimos en tres grupos, comencemos con el primer grupo, la librer铆a de datos, en donde encontramos a:

Pandas: ofrece estructura de datos y herramientas para manipulaci贸n y an谩lisis de datos de manera efectiva. El instrumento principal de Pandas es una tabla bidimensional que consiste en etiquetas de columna y fila llama DataFrame.

Numpy: utiliza matrices para sus entradas y salidas, por lo que se puede realizar un procesamiento r谩pido de matrices.

SciPy: incluye funciones para algunos problemas matem谩ticos avanzados, como integrales, ecuaciones diferenciales, entre otros.

Preprocesamiento de Datos con Python

Continuemos con las librer铆as de visualizaci贸n, que se las utilizadas para comunicar de la mejor manera los resultados significativos del an谩lisis.

Matplotlib: es la librer铆a m谩s conocida para la visualizaci贸n de datos, es ideal para hacer gr谩ficos y tramas.

Seaborn: est谩 basado en Matplotlib, con esta librer铆a es muy f谩cil generar varios diagramas como heat maps, series de tiempo, entre otros.

Preprocesamiento de Datos con PythonFinalizamos con las librer铆as de algoritmos, que son las utilizadas para Machine Learning, con estas podemos desarrollar un modelo utilizando nuestro conjunto de datos y obtener predicciones.

Scikit-learn: contiene herramientas para modelado estad铆stico, incluida regresi贸n, la clasificaci贸n, la agrupaci贸n, entre otros. Est谩 construida en NumPy, SciPy y Matplotlib.

StatsModels: es tambi茅n un m贸dulo de Python que permite a los usuarios explorar datos, estimar estad铆sticas y modelos y realizar pruebas estad铆sticas.

Para este curso vamos a trabajar con un ejemplo para que sea m谩s f谩cil entender cada una de las instrucciones ac谩 explicada.

Los datos que vamos a utilizar es el del famoso ejercicio del Titanic. Por lo general este ejercicio es uno de los primeros problemas que nos sugieren desarrollar al momento que estamos aprendiendo Machine Learning, ya que conjuga varios elementos que son ideales para poner en practica en nuestro aprendizaje y, precisamente por esa raz贸n, es que lo vamos a utilizar ac谩.

En este curso no vamos a realizar la predicci贸n de quien muere o sobrevive, que es el objetivo principal de este ejercicio, ac谩 lo que vamos a hacer es tomar los datos y procesarlos para dejarlos listo para poderlos utilizar en cualquier algoritmo de Machine Learning.

Para obtener los datos solamente tienes que buscar en Google, Kaggle Titanic dataset. Justamente ac谩 es donde vamos a tomar los datos que utilizaremos en nuestro curso, toma en cuenta que te debes suscribir en la p谩gina, pero tenlo por seguro que esta p谩gina la vas a usar bastante porque dispone de varios ejercicios y dataset que puedes utilizar para practicar Machine Learning y todo lo relacionado a esto.

Preprocesamiento de Datos con Python

Una vez que est茅s en la p谩gina del ejercicio, te recomiendo que leas la informaci贸n que ac谩 se presenta, sobretodo la que se encuentra en la pesta帽a de Data ya que es justamente ac谩 donde se describe los datos que est谩n en el dataset.

Nosotros vamos a trabajar con los datos de train.csv, por lo que ser谩 esta opci贸n la que deber谩s descargar, de todas formas, el procedimiento de c贸mo hacer esto te lo explicar茅 en otra entrada.

3 comentarios en “Introducci贸n al Preprocesamiento de Datos con Python”

Deja un comentario

Tu direcci贸n de correo electr贸nico no ser谩 publicada.