Instalaciones para el análisis de datos con Python
¡Con este tutorial de instalación, aprende a instalar en tu terminal todas las herramientas y librerías necesarias para ser analista de datos!
Instalación de Python, Conda y Jupyter Notebooks
Instalando Python
JN requiere que Python esté instalado en nuestra computadora para poder funcionar. Si aún no has instalado Python, ve al siguiente link:
Baja el ejecutable de Python:
Asegúrate de que sea el ejecutable adecuado para tu sistema operativo (Mac OS X, Windows o Linux). Después corre el ejecutable en tu computadora. ¡Felicidades, ya tienes Python en tu computadora!
Instalando Conda
Conda es lo que se llama un gestor de paquetes y un sistema de gestión de entornos virtuales. Básicamente es un repositorio de muchas librerías de Python que puedes instalar en tu computadora. Estas librerías son como “plugins” de Python: extienden sus capacidades para que podamos aprovechar al máximo las posibilidades. Conda también nos sirve para crear ambientes virtuales, de los cuales hablaremos más adelante. Necesitamos instalar Conda antes de poder usar JN. ¡Vamos a instalarlo entonces! Ve al siguiente link y descarga el instalador adecuado para tu sistema operativo (recuerda instalar la versión para Python 3):
Para saber si la instalación funcionó adecuadamente, abre tu terminal y escribe el siguiente comando: conda -V. Si el comando te muestra la versión de Conda instalada en tu computadora y no te lanza un error, quiere decir que todo está bien.
Jupyter Notebooks
Lo primero que tenemos que aprender es dónde vamos a escribir todo nuestro código. Un Jupyter Notebook es lo que se llama un REPL (Read-Eval-Print Loop), que es un entorno de programación computacional interactivo. ¡Woah! Suena muy complicado. En realidad es bastante simple. Veamos cómo se ve uno:
Como puedes ver, un Jupyter Notebook (a partir de ahora voy a llamarles JN) es algo parecido a un editor de texto. Una diferencia importante es que los JN están divididos en celdas. Una celda es un contenedor que puede tener dentro texto o código (de Python, por ejemplo).
En nuestra imagen, vemos que nuestro JN comienza con una celda de texto que contiene un título, texto simple e incluso una lista. Estas celdas de texto se llaman celdas tipo Markdown, porque Markdown es el lenguaje que se usa para darles estilo.
Debajo de nuestras celdas de texto tenemos celdas de tipo código. En estas celdas escribimos código en un lenguaje de programación (en este caso Python), que podemos después “correr” para obtener un resultado. El resultado de una celda de código se “imprime” justo debajo de la celda (en el ejemplo puedes ver los resultados de la suma y la multiplicación “impresos” justo debajo de la celda que realizó las operaciones).
¿Ves? En realidad es bastante sencillo.
¡Aprendamos ahora cómo instalar y utilizar un JN!
Instalando Jupyter Notebooks
¡Ahora ya podemos instalar Jupyter Notebooks! En la terminal, escribe el siguiente comando para instalar JN: conda install -c conda-forge notebook. Al igual que con Conda, para asegurarte que la instalación haya sido exitosa puedes escribir el comando jupyter notebook -V en la terminal. Si no hay ningún error, estás listo para seguir adelante.
¡Ambas instalaciones funcionan!
Ejecutando Jupyter Notebooks
Ahora ha llegado al fin el momento más emocionante de todos: ejecutar Jupyter Notebooks. Jupyter Notebooks se abre en tu navegador web y tiene acceso al directorio desde el cual fue ejecutado. Nosotros queremos poder accesar los Ejemplos y Retos de este módulo, ¿no es así? Por lo tanto, en tu Terminal navega hacia el directorio donde tienes el repositorio clonado de este módulo. Una vez ahí, escribe el comando jupyter notebook y JN se abrirá en tu navegador:
Navegamos a nuestro repositorio y ejecutamos Jupyter desde ahí:
¡Éxito!
Usando Jupyter Notebooks
Ya tenemos un JN abierto en nuestro navegador. ¿Ahora qué?
Ya hablamos acerca de la estructura de un JN, vamos a poner todo esto en práctica.
Esto en una celda:
Si presionamos return en nuestro teclado, entraremos al modo edición, donde podemos realizar cambios a esa celda. Observa que el borde de la celda cambia a color verde:
Para salir del modo edición, presionamos la tecla esc. Ahora estamos en lo que se llama modo comandos, y se indica con un borde azul alrededor de la celda:
Actualmente, nuestra celda es una celda de código, si queremos cambiarla a una celda markdown (de texto) presionamos la tecla m mientras estamos en el modo comando:
Ahora podemos escribir algo en nuestra celda. Las celdas markdown reconocen un lenguaje especial llamado Markdown que nos permite agregar estilos a nuestro texto usando algunos signos muy simples. (si quieres aprender más sobre lenguaje Markdown, puedes revisar este link: Markdown Cheat Sheet) Presiona return para entrar en modo edición y teclea lo siguiente:
Los signos de numeral (#) sirven para escribir títulos en lenguaje Markdown.
Ahora, tenemos que “correr” la celda para que el lenguaje muestre los estilos que hemos definido. Para correr celdas en JN se usa el comando shift + return. Mira lo que pasa después de correr la celda:
Ahora vamos a utilizar una celda de código. Para crear una nueva celda, entra en modo comando y presiona b para crear una celda justo debajo de la que está seleccionada. Las celdas nuevas se crean siempre siendo celdas de código, pero en el caso de que quieras convertir una celda markdown a celda de código puedes hacerlo entrando en modo comando y presionando la tecla y.
Ahora, habiendo seleccionado una celda de código, entra en modo edición y escribe lo siguiente:
No importa que no entiendas el código aún. Lo importante es saber que para correr esta celda, también tenemos que presionar shift + return. Al correr la celda, podemos ver el resultado de nuestras operaciones debajo de la celda que acabamos de correr:
¿Ves el número que sale a la izquierda de la celda (In [1]:)? Eso es un contador que nos va diciendo cuántas celdas hemos corrido en nuestra sesión actual. Cada vez que corres una celda de código, el contador de esa celda tomará el valor del último contador + 1:
Si queremos volver a iniciar nuestro JN desde cero, podemos ir al menú y elegir la opción Kernel/Restart & Clear Output:
Esta ha sido una rápida introducción a Jupyter Notebooks. Por supuesto queda mucho por aprender.
- Importación de paquetes
Importación de paquetes
Pandas es lo que se llama un paquete de Python. Un paquete es un conjunto de módulos.
¿Qué es un módulo? Es un archivo .py que contiene código de Python que podemos reutilizar en otras secciones de nuestro programa. Un paquete entonces tiene muchos módulos, cada módulo conteniendo código que cualquier persona puede utilizar para extender las capacidades de su programa.
Podríamos programar todo siempre desde cero, pero en ese caso todo tomaría muchísimo tiempo y además nunca lograríamos tanta eficiencia. Usar paquetes que han hecho otras personas es muy útil porque nos ahorra tiempo y energía y nos da “superpoderes” que podemos utilizar en nuestro programa.
Para poder utilizar un paquete, lo primero que tenemos que hacer es instalarlo en nuestra computadora. Vamos a instalar Pandas para poder utilizarlo.
Vamos a abrir nuestra terminal:
Ahora usaremos el comando pip install pandas para instalar el paquete de pandas en nuestra computadora. Debes obtener algo como esto:
Ya tenemos instalado nuestro paquete. Ahora veamos cómo usarlo en nuestro código. Abre un Jupyter Notebook, escribe la siguiente línea y corre tu celda:
¡Listo! Ya podemos acceder a Pandas en nuestro programa. ¿Por qué agregamos lo de as pd? Bueno básicamente le estamos diciendo a Python que queremos poder escribir pd en vez de pandas cada vez que queramos usar el paquete en nuestro programa. Nos ahorra un poco de tecleo y además es una convención. Todos los científicos de datos usan pd en vez de pandas.
Otras librerías que te servirán para el análisis y procesamiento de datos:
- pandas
- numpy
- matplotlib
- seaborn