Skip to article frontmatterSkip to article content
Site not loading correctly?

This may be due to an incorrect BASE_URL configuration. See the MyST Documentation for reference.

Introducción a Python para Ciencia de Datos

Python es un lenguaje de programación interpretado, de propósito general y ampliamente utilizado en ciencia de datos, inteligencia artificial y computación científica. Su diseño prioriza la legibilidad del código y la productividad del programador, lo que lo ha convertido en uno de los lenguajes más populares en investigación y análisis de datos VanderPlas (2016)McKinney (2022).

En este notebook se introducen los fundamentos del lenguaje Python necesarios para comenzar a trabajar con análisis de datos y aprendizaje automático.

Objetivos de aprendizaje

Al finalizar este notebook podrás:

  • Comprender la sintaxis básica de Python

  • Utilizar tipos de datos fundamentales

  • Manipular estructuras de datos como listas, tuplas y diccionarios

  • Aplicar operaciones básicas con arrays usando NumPy

  • Entender conceptos clave para análisis de datos

Estos conceptos constituyen la base para el uso de Python en ciencia de datos y aprendizaje automático harris2020.

Importación de librerías

Una de las principales fortalezas de Python es su ecosistema de librerías científicas.

En ciencia de datos, las librerías más utilizadas incluyen:

  • NumPy: computación numérica eficiente

  • pandas: manipulación de datos tabulares

  • matplotlib: visualización

  • scikit-learn: machine learning

El uso de alias como np y pd es una convención ampliamente adoptada en la comunidad científica VanderPlas (2016).


import numpy as np
import pandas as pd

Tipos de datos básicos

Python posee varios tipos de datos fundamentales:

TipoDescripciónEjemplo
intnúmeros enteros10
floatnúmeros reales3.14
strtexto“hola”
boolvalores lógicosTrue / False

Estos tipos constituyen la base de la representación de información en Python downey2015.


x = 10
y = 3.5
texto = "Python"
flag = True

print(type(x))
print(type(y))
print(type(texto))
print(type(flag))

Estructuras de datos

Python incluye estructuras de datos muy flexibles para almacenar colecciones de información.

Las más importantes son:

  • Listas (list): colecciones ordenadas y mutables

  • Tuplas (tuple): colecciones ordenadas e inmutables

  • Diccionarios (dict): pares clave-valor

Estas estructuras son esenciales para el desarrollo de algoritmos y manipulación de datos downey2015.

Listas


lista = [1,2,3,4]

print(lista)
print(lista[0])
print(lista[-1])

Las listas son mutables, lo que significa que sus elementos pueden modificarse.


lista[0] = 10
lista

Tuplas


tupla = (1,2,3)
tupla

Las tuplas son inmutables, es decir, sus elementos no pueden modificarse después de su creación.

Diccionarios


persona = {
    "nombre": "Ana",
    "edad": 25,
    "ciudad": "Quito"
}

persona["nombre"]

Los diccionarios almacenan información mediante pares clave–valor.

Desde Python 3.7, los diccionarios preservan el orden de inserción de los elementos.

Introducción a NumPy

La librería NumPy proporciona estructuras eficientes para cálculo numérico.

Su objeto principal es el array multidimensional (ndarray), que permite realizar operaciones vectorizadas sobre grandes conjuntos de datos harris2020.


a = np.array([1,2,3,4])
a

a * 2

Las operaciones vectorizadas permiten realizar cálculos sobre todos los elementos del array de forma eficiente, evitando el uso de bucles explícitos.

Ejercicio

Dado el vector:

a = [2,5,7,9,12]
  1. Obtén los tres primeros elementos

  2. Obtén los dos últimos

  3. Obtén los elementos con paso 2

Resumen

En este notebook aprendimos:

  • Fundamentos del lenguaje Python

  • Tipos de datos básicos

  • Estructuras de datos fundamentales

  • Uso inicial de NumPy

Estos conceptos constituyen la base para trabajar con bibliotecas de análisis de datos y machine learning en Python McKinney (2022).

References
  1. VanderPlas, J. (2016). Python Data Science Handbook. O’Reilly.
  2. McKinney, W. (2022). Python for Data Analysis. O’Reilly.