El primer paso que debemos realizar al momento de cualquier análisis que hagamos es, obviamente, tener los datos con los que vamos a trabajar, por lo que necesitamos importarlos, para ello vamos a utilizar la librería de Pandas de Python.
Para realizar este proceso debemos tomar en cuenta el formato y la ubicación del archivo.
El formato se refiere a la forma en que codifican los datos. Por lo general, podemos distinguir diferentes esquemas de codificación mirando el final del nombre del archivo. Algunas codificaciones comunes son csv, json, xlsx, entre otros.
Por su parte la ubicación del archivo o ruta nos dice dónde están almacenados los datos. Por lo general, se almacenan en la computadora que estamos usando o en internet.
Para nuestro ejemplo los datos se encuentran internet por lo que está será la ubicación. Si abrimos el link de descarga vemos que cada fila es un punto de datos y como observamos una gran cantidad de propiedades están asociados con cada punto de datos.
Cada elemento se encuentra separado entre sí por comas, por lo que podemos determinar que el tipo de formato es csv, que significa valores separados por comas.
Esta información no significa mucho si lo vemos de esta manera, pero una vez que lo leamos, podemos intentar realizar un análisis más detallado.
Comencemos entonces a aprender cómo podemos importar estos datos para luego manipularlos. Como dijimos anteriormente vamos a utilizar la librería de Pandas, por lo que primero que debemos hacer es importarla.
import pandas as pd
Realizado esto podemos utilizar todos los métodos dentro de esta librería.
Seguidamente definimos una variable en donde colocamos la ruta en donde se encuentran los datos, para nuestro ejemplo utilizamos “url” como variable y colocamos entre comillas la dirección web en donde se entra el archivo con los datos.
url = 'https://storage.googleapis.com/kaggle-competitions-data/kaggle/3136/test.csv?GoogleAccessId=web'
Seguidamente podemos utilizar el método read_csv para importar los datos. Este es un método de Pandas que se utiliza para leer archivos en formato csv. Para ello utilizamos la variable df refiriéndose a dataframe que es la forma en que se guardan los datos, que sería una especie de matriz.
df = pd.read_csv(url)
Con esta ya todos nuestros datos se encuentran almacenados dentro de la variable df. Inclusive podemos visualizarlos, pero la impresión de todo el conjunto de datos puede tomar demasiado tiempo y recursos, por esa razón para ahorrar tiempo utilizamos los métodos head, que sería cabeza, para mostrar las primeras filas del marco de datos.
df.head()
De manera similar, utilizamos tail o cola, que muestra las filas inferiores de los datos.
Como podemos observar solamente se imprime una parte de los datos, de esta forma podemos ver de manera rápida que datos contiene nuestra base de datos.
df.tail()
Veamos con más detalle los datos, como podemos ver tiene una cabecera, la cual identifica cada una de las columnas, en ocasiones los datos son entregados sin esta, y en un documento a parte se explica el contenido de cada una de las columnas, por esa razón es oportuno conocer sobre el comando columns o columnas, con este podemos agregar y cambiar los nombres de la cabecera, para ello solamente creamos una variable, para nuestro caso llamado “cabecera”, y le colocamos la información de cómo queremos que se llamen las columnas.
Para que vean cómo funciona este comando voy a cambiar la cabecera que tiene actualmente los datos por sus respectivas palabras en español. Entonces creo la variable cabecera y escribo los nombres que quiero cambiar, como ven toda esta información la encierro en corchetes y cada palabra la coloco entre comillas.
Definido los nombres, simplemente coloco df.columns = cabecera y con esto cambio los nombres de la cabecera.
Ahora nuestros datos tienen en la cabecera los nombres en español.
cabecera = ["ID", "Clase", "Nombre", "Sexo", "edad", "Hermanos", "Hijos, "Ticket", "Cabina", "Embarque"] df.columns = cabezera df.head()
Hasta el momento tenemos los datos en una variable pero no los hemos guardado dentro de un archivo en nuestro computador, para ello simplemente usamos el método “to_csv()”.
Para hacer esto, especificamos la ruta del archivo en la que se desee guardar, acá debemos incluir el nombre del archivo y el formato, para nuestro caso le colocaremos titanic.csv.
Seguidamente utilizamos el comando para crear el archivo y a su vez guardar los datos.
ruta = "/Users/ligdigonzalez/titanic.csv" df.to_csv(ruta)
Finalizado esto podemos ir a la ruta donde indicamos que íbamos a guardar el archivo y allí estará, si lo abrimos tendremos algo como esto, datos separados con coma.
Algo que quiero aclarar de una vez es que como lo que indique anteriormente no solamente se puede leer y guardar archivos csv, Pandas también admite la importación y exportación de la mayoría de tipos de archivos de datos con diferentes formatos.
La sintaxis del código para leer y guardar otros formatos de datos es muy similar a leer o guardar archivos csv. Acá pueden ver algunos de los comandos con los formatos de archivos más usados, como pueden ver todos son muy parecidos lo que cambia es el nombre del archivo.
En resumen, estos son todos los comandos que utilizamos en este video, tenemos los métodos para importar y exportar distintos formatos de archivos, también tenemos para poder imprimir y visualizar los primeras y ultimas filas de la base de datos y por último tenemos el comando para poder cambiar la cabecera de los datos.
Si es la primera vez que vez estos comandos de repente te cueste un poco recordarlos, pero a medida que lo vayas utilizando no se te van a olvidar, sobretodo que estas instrucciones siempre las utilizaras, no importa en que proyectos estés trabajando, siempre deberás importar y exportar los datos, así como imprimirlos para ver en detalle la información con la que estás trabajando.
Muy buen post !!! te felicito!
Muchas gracias. Saludos.
Saludos estimada,
Una pregunta ¿Cómo puedo importar datos «.dta» (Stata) a python3 (spider3)?
tengo la base de datos guardada en una carpeta pero no he logrado importar, pues me aparece el error // import pandas as pd
ModuleNotFoundError: No module named ‘pandas’ //
Espero su respuesta, gracias.
Hola, puedes utilizar Pandas con este comando «pd.read_stata». En cuento al error, puede ser dos cosas, tienes instalo Panda en tu computador utilizando pip y si estas utilizando la última versión de Python. Saludos.
Acabo de descubrir tu pagina y tu canal, me gusta mucho. Muchas gracias!
Muchas gracias Javier, si la pudieras recomendar te lo agradecería. Saludos.
Puedo leer un archivo como csv y guardarlo como excel con pandas ?
PD. Muy buena informacion,
gracias
Hola Raúl, por supuesto, puedes usar «read» leyendo un archivo csv y «save» guardarlo en excel. Saludos.
Saludes
Para especificar importar datos de una hoja de Excel desde una fila específica y un número de columnas…¿qué comandos utilizar?
Hola Edgardo, lo siento no sabría decirte por lo general lo que se hace en ML es importar todos los datos y desde allí empezarlos a manipular. Saludos.
Gracias por este aporte, lo necesitaba para pasar mis datos predichos a un excel y hacer un análisis más a la mano o más cómodo.
Hola Edwin, me alegra que la información que publico te ayude en tu aprendizaje. Saludos.
Me ayudarían a ver como visualizar el Link donde se encuentra el archivo .csv? no pude encontralo y no pude avanzar con la prueba. Gracias
Hola Fernando, el link era de Kaggle y esta asociado a mi cuenta con ellos. Anteriormente se descargaba la información desde esta plataforma de esa manera. Saludos.
Primero que nada gracias por compartir tu conocimiento de esta manera, se ve que le has invertido tiempo y tus videos y pagina son de calidad.
segundo, podrías poner el archivo de referencia en un Google drive publico? si ese archivo se hace mas complicado seguir tu curso.
saludos
Hola Roberto, muchas gracias por tus palabras. En cuanto al archivo lo puedes encontrar tu mismo en la página de Kaggle, solamente que tienes que tener una cuenta en esa plataforma, de todas formas tomaré en cuenta tu sugerencia. Saludos.
Hola muy didáctica felicitaciones, pero tengo un problemilla y no me deja avanzar, lo mismo antes de aprender R que ya lo domino. Como cambo el directorio para importar, quiero abrir un excel que lo tengo por ejemplo en mi escritorio.
Hola Claudio, solamente tienes colocar la ruta en donde tienes guardado el archivo, junto con el nombre del archivo y su extención, en este caso deberas colocar «read_excel». Saludos.
Gracias por la ayuda, nos es muy util.
Hola, me alegra que la información que se publique te este sirviendo en tu aprendizaje. Saludos.
hola tengo una inquietud eso lo corro desde anaconda en jupiter o tengo que hacer otra cosa
Hola Eliana, esto lo puedes correr en Anaconda sin ningún problema, no tienes que hacer nada adicional. Saludos.
hola necesito exportar datos de python en excel en celdas especificas me podria ayudar
Hola Juan, te recomiendo exportar todos los datos y después utilizando alguna librería de manejo de datos (NumPy o Pandas) seleccionar los datos que deseas y los guardas en una variable. Saludos.