Tecnología

Instalaciones para el análisis de datos con Python

Avatar deJosé Ramón Arias González
José Ramón Arias González

¡Con este tutorial de instalación, aprende a instalar en tu terminal todas las herramientas y librerías necesarias para ser analista de datos!

Instalación de Python, Conda y Jupyter Notebooks

Instalando Python

JN requiere que Python esté instalado en nuestra computadora para poder funcionar. Si aún no has instalado Python, ve al siguiente link:

Instalaciones de Python

Baja el ejecutable de Python:

Imagen de vista de descarga de Python

Asegúrate de que sea el ejecutable adecuado para tu sistema operativo (Mac OS X, Windows o Linux). Después corre el ejecutable en tu computadora. ¡Felicidades, ya tienes Python en tu computadora!

Instalando Conda

Conda es lo que se llama un gestor de paquetes y un sistema de gestión de entornos virtuales. Básicamente es un repositorio de muchas librerías de Python que puedes instalar en tu computadora. Estas librerías son como “plugins” de Python: extienden sus capacidades para que podamos aprovechar al máximo las posibilidades. Conda también nos sirve para crear ambientes virtuales, de los cuales hablaremos más adelante. Necesitamos instalar Conda antes de poder usar JN. ¡Vamos a instalarlo entonces! Ve al siguiente link y descarga el instalador adecuado para tu sistema operativo (recuerda instalar la versión para Python 3):

Instaladores de Conda

Para saber si la instalación funcionó adecuadamente, abre tu terminal y escribe el siguiente comando: conda -V. Si el comando te muestra la versión de Conda instalada en tu computadora y no te lanza un error, quiere decir que todo está bien.

Jupyter Notebooks

Lo primero que tenemos que aprender es dónde vamos a escribir todo nuestro código. Un Jupyter Notebook es lo que se llama un REPL (Read-Eval-Print Loop), que es un entorno de programación computacional interactivo. ¡Woah! Suena muy complicado. En realidad es bastante simple. Veamos cómo se ve uno:

Vista de consola Jupyter Notebook

Como puedes ver, un Jupyter Notebook (a partir de ahora voy a llamarles JN) es algo parecido a un editor de texto. Una diferencia importante es que los JN están divididos en celdas. Una celda es un contenedor que puede tener dentro texto o código (de Python, por ejemplo).

En nuestra imagen, vemos que nuestro JN comienza con una celda de texto que contiene un título, texto simple e incluso una lista. Estas celdas de texto se llaman celdas tipo Markdown, porque Markdown es el lenguaje que se usa para darles estilo.

Debajo de nuestras celdas de texto tenemos celdas de tipo código. En estas celdas escribimos código en un lenguaje de programación (en este caso Python), que podemos después “correr” para obtener un resultado. El resultado de una celda de código se “imprime” justo debajo de la celda (en el ejemplo puedes ver los resultados de la suma y la multiplicación “impresos” justo debajo de la celda que realizó las operaciones).

¿Ves? En realidad es bastante sencillo.

¡Aprendamos ahora cómo instalar y utilizar un JN!

Instalando Jupyter Notebooks

¡Ahora ya podemos instalar Jupyter Notebooks! En la terminal, escribe el siguiente comando para instalar JN: conda install -c conda-forge notebook. Al igual que con Conda, para asegurarte que la instalación haya sido exitosa puedes escribir el comando jupyter notebook -V en la terminal. Si no hay ningún error, estás listo para seguir adelante.

Captura de pantalla de Jupyter Notebook
¡Ambas instalaciones funcionan!

Ejecutando Jupyter Notebooks

Ahora ha llegado al fin el momento más emocionante de todos: ejecutar Jupyter Notebooks. Jupyter Notebooks se abre en tu navegador web y tiene acceso al directorio desde el cual fue ejecutado. Nosotros queremos poder accesar los Ejemplos y Retos de este módulo, ¿no es así? Por lo tanto, en tu Terminal navega hacia el directorio donde tienes el repositorio clonado de este módulo. Una vez ahí, escribe el comando jupyter notebook y JN se abrirá en tu navegador:

Navegamos a nuestro repositorio y ejecutamos Jupyter desde ahí:

Captura de pantalla consola Jupyter notebook¡Éxito!

Captura de pantalla de Jupyter Notebook

Usando Jupyter Notebooks

Ya tenemos un JN abierto en nuestro navegador. ¿Ahora qué?

Ya hablamos acerca de la estructura de un JN, vamos a poner todo esto en práctica.

Esto en una celda:

Celda de código Jupyter
Si presionamos return en nuestro teclado, entraremos al modo edición, donde podemos realizar cambios a esa celda. Observa que el borde de la celda cambia a color verde:

Celda de código Jupyter
Para salir del modo edición, presionamos la tecla esc. Ahora estamos en lo que se llama modo comandos, y se indica con un borde azul alrededor de la celda:

Celda de código Jupyter

Actualmente, nuestra celda es una celda de código, si queremos cambiarla a una celda markdown (de texto) presionamos la tecla m mientras estamos en el modo comando:

Celda de código Jupyter Notebook

Ahora podemos escribir algo en nuestra celda. Las celdas markdown reconocen un lenguaje especial llamado Markdown que nos permite agregar estilos a nuestro texto usando algunos signos muy simples. (si quieres aprender más sobre lenguaje Markdown, puedes revisar este link: Markdown Cheat Sheet) Presiona return para entrar en modo edición y teclea lo siguiente:

Celda de código Jupyter Notebook

Los signos de numeral (#) sirven para escribir títulos en lenguaje Markdown.

Ahora, tenemos que “correr” la celda para que el lenguaje muestre los estilos que hemos definido. Para correr celdas en JN se usa el comando shift + return. Mira lo que pasa después de correr la celda:

Celda de código Jupyter

Ahora vamos a utilizar una celda de código. Para crear una nueva celda, entra en modo comando y presiona b para crear una celda justo debajo de la que está seleccionada. Las celdas nuevas se crean siempre siendo celdas de código, pero en el caso de que quieras convertir una celda markdown a celda de código puedes hacerlo entrando en modo comando y presionando la tecla y.

Ahora, habiendo seleccionado una celda de código, entra en modo edición y escribe lo siguiente:

Celda de código Jupyter

No importa que no entiendas el código aún. Lo importante es saber que para correr esta celda, también tenemos que presionar shift + return. Al correr la celda, podemos ver el resultado de nuestras operaciones debajo de la celda que acabamos de correr:

Celda de código Jupyter

¿Ves el número que sale a la izquierda de la celda (In [1]:)? Eso es un contador que nos va diciendo cuántas celdas hemos corrido en nuestra sesión actual. Cada vez que corres una celda de código, el contador de esa celda tomará el valor del último contador + 1:

Si queremos volver a iniciar nuestro JN desde cero, podemos ir al menú y elegir la opción Kernel/Restart & Clear Output:

Menú Kernel/Restart

Esta ha sido una rápida introducción a Jupyter Notebooks. Por supuesto queda mucho por aprender.

  • Importación de paquetes

Importación de paquetes

Pandas es lo que se llama un paquete de Python. Un paquete es un conjunto de módulos.

¿Qué es un módulo? Es un archivo .py que contiene código de Python que podemos reutilizar en otras secciones de nuestro programa. Un paquete entonces tiene muchos módulos, cada módulo conteniendo código que cualquier persona puede utilizar para extender las capacidades de su programa.

Podríamos programar todo siempre desde cero, pero en ese caso todo tomaría muchísimo tiempo y además nunca lograríamos tanta eficiencia. Usar paquetes que han hecho otras personas es muy útil porque nos ahorra tiempo y energía y nos da “superpoderes” que podemos utilizar en nuestro programa.

Para poder utilizar un paquete, lo primero que tenemos que hacer es instalarlo en nuestra computadora. Vamos a instalar Pandas para poder utilizarlo.

Vamos a abrir nuestra terminal:

Instalación de PandasAhora usaremos el comando pip install pandas para instalar el paquete de pandas en nuestra computadora. Debes obtener algo como esto:

Instalación de Pandas

Ya tenemos instalado nuestro paquete. Ahora veamos cómo usarlo en nuestro código. Abre un Jupyter Notebook, escribe la siguiente línea y corre tu celda:

Instalación de Pandas

¡Listo! Ya podemos acceder a Pandas en nuestro programa. ¿Por qué agregamos lo de as pd? Bueno básicamente le estamos diciendo a Python que queremos poder escribir pd en vez de pandas cada vez que queramos usar el paquete en nuestro programa. Nos ahorra un poco de tecleo y además es una convención. Todos los científicos de datos usan pd en vez de pandas.

Otras librerías que te servirán para el análisis y procesamiento de datos:

- pandas

- numpy

- matplotlib

- seaborn

Comparte este artículo:
Avatar deJosé Ramón Arias González
José Ramón Arias González Ingeniero de software y artista, apasionado por el uso de la tecnología y el arte para crear valor para el mundo.