Estadística

¿Qué relación tienen Charles Darwin, Francis Galton y Karl Pearson?

Charles Darwin (1809-1882), Fracis Galton (1822-1911), Karl Pearson (1857-1936)

Galton nace en Birmingham (Inglaterra). Viaja por el mundo realizando estudios en geografía y en 1850 se le otorga la medalla de oro de la Royal Geographical Society.
Influenciado por su primo, Charles Darwin, dedica la segunda parte de su vida a probar la teoría de la evolución
Detectó que padres de estatura pequeña tenían hijos ligeramente más altos y que padres altos tenían hijos ligeramente más bajos. De ahí la palabra regresión (Gorroochurn (2016)).

¿Qué es la estadística?¶

El siglo XIX es el punto de encuentro entre dos disciplinas que evolucionaron independientemente: el cálculo de probabilidades o teoría matemática de los juegos de azar (derivada del vocablo árabe al zhar, que signigica dado), que nace en el siglo XVII y la Estadística (o ciencia del Estado, del latín Status).

La Estadística es la ciencia cuyo objetivo es reunir una información cuantitativa concerniente a individuos, grupos, series de hechos, etc. y deducir de ello, gracias al análisis de estos datos, unos significados precisos o unas previsiones para el futuro (Galindo (2007))

Clasificación¶

La Estadística Descriptiva o Análisis Exporatorio de Datos, resume y describe datos a través de la presentación de información en forma de tablas y gráficos.
La Estadística Inferencial: va más allá de los datos. Trata, a partir de una muestra, determinar características de una población objetivo de investigación.

Definiciones básicas¶

Unidad muestral o experimental: Una unidad es una persona, animal, planta o cosa que es examinada por un investigador; es el objeto básico sobre el cual el estudio o experimento se lleva a cabo.

Población o universo: Es una colección completa de personas, animales, plantas o cosas, con el objeto de obtener conclusiones sobre la población de la cual proviene.

Muestra: Es un grupo de unidades seleccionadas de la población de acuerdo con un plan o regla, con el objeto de obtener conlusiones sobre la población de la cual proviene.

Tamaño muestral: número de unidades que constituyen la muestra.

Ejemplos (¿Cuál es la población? ¿Cuál es la unidad muestral?):¶

La dueña de un almacén desea estimar el gasto medio de compra de sus clientes en su almacén en el último año.

En un estudio se desea conocer el rating de sintonía de los canales de televisión de una ciudad.

Datos y escalas de medición¶

Números índice¶

Simple

I_{0}^{t}(X) = \frac{X_t}{X_0}100

(1)

En cadena

IC^{t}(X) = \frac{X_t}{X_{t-1}}100

(2)

Tasa de variación

Tasa_{t_1}^{t_2}(X) = \frac{X_{t_2}-X_{t_1}}{X_{t_1}}

(3)

Tasa media de variación (entre $[t,t+k]$ )

T_k = \left(\sqrt[k]{\frac{X_{t+k}}{X_t}-1}\right)100

(4)

Tipos de variables¶

Variable estadística: Es una característica de los individuos que puede ser observada o medida.

¿Qué es un dato? medición o valor de una variable estadística.

Cualitativas (descriptivas o categóricas): comprenden etiquetas o nombres que se usan para identificar un atributo de cada elemento. Ejemplos: sexo, profesión, marca de ropa.
Cuantitativas (numéricas): Describen características medibles. Ejemplos: número de hijos, número de páginas de un libro.
- Discretas: son discretas si sus valores pueden ser contados (pertenecen a los números enteros). Ejemplo: clientes que entran a un almacén, número de errores ortográficos.
- Continuas: sus valores pueden tomar cualquier valor en un intervalo considerado (pertenecen a los números reales). Ejemplos: edad, perso, talla.

Escalas de medición¶

La medición es el proceso de asignar un valor a una variable de un elemento de observación. Este proceso usa diferentes escalas:

Nominal: a los datos se les puede asignar un código, en la forma de un número, donde los números son simplemente una etiqueta. Únicamente pueden ser contados, no pueden ser ordenados ni medidos. Ejemplo: sexo, estado civil.
Ordinal: si a los datos se les puede asociar un orden o asociar una escala. Pueden ser contados y ordenados, pero no pueden ser medidos. Ejemplo: escalas de películas, del 1 al 5.
Intervalo: si los datos pueden tomar cualquier valor dentro de un intervalo finito o infinito, existe un cero relativo. Pueden ser contados y ordenados; son válidas la suma y la resta, la multiplicación y la división. Ejemplos: temperatura (cero no significa ausencia de temperatura). Puntajes en pruebas (cero no significa que no sabe nada).
Razón: si los datos pueden tomar cualquier valor dentro de un intervalo finito o infinito, existe un cero absoluto. Pueden ser contados y ordenados; son válidas la suma, resta, multiplicación y división. Ejemplos: estatura, velocidad, edad.

Valores atípicos¶

También conocidos como inusuales, extremos o outliers, es una observación que es lejana, en valor, del resto de datos.

No se los debe eliminar sin justificación previa, ¿por qué?

Características de los datos¶

Localización: es la posición relativa que presentan un conjunto de datos. En general, se mide por el punto medio del conjunto de datos.
Dispersión: Los valores obtenidos en una muestra no son todos iguales. La variación entre estos valores se denomina dispersión. Se trata de detectar el grado de discrepancia entre los datos individuales al rededor del centro de las observaciones.
Simetría y asimetría: Son simétricos cuando los datos están distribuidos de la misma manera sobre y debajo del punto medio. En los asimétricos hay más agrupamiento de un lado del punto medio.

Distribución de frecuencias¶

Es la agrupación de datos en categorías mutuamente excluyentes que indican el número de observaciones en cada categoría. Esto proporciona un valor añadido a la agrupación de datos. La distribución de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el número existente en cada clase.

Se puede elaborar una tabla de frecuencias para datos nominales y ordinales. Si los datos son continuos, ¿Qué debemos hacer?

Elaboración de una tabla de frecuencias¶

Supongamos que tenemos un conjunto de $n$ datos, que toman $k$ valores distintos: $x_1,x_2,,\ldots,x_k$ .

Se ordena los $x_i$ datos en una columna de forma ascendente y se cuenta cuántas veces aparece cada valor, ésta es su frecuencia absoluta $n_i$ que se coloca en una columna contigua. Note que $\sum_{i=1}^{k}n_i=n$ .
Una tercera columna tiene la frecuencia relativa $f$ que resulta de $f_i = \frac{n_i}{n}$ . Note que verse como un porcentaje.
Se pueden agregar dos columnas más, de las frecuencias acumuladas absoluta y relativa respectivamente.

Es decir:

Valor de la variable ( $x_i$ )	Frec. Absoluta ( $n_i$ )	Frec. Relativa ( $f_i = \frac{n_i}{n}$ )	Fre. Abs. Acumulada ( $N_i$ )	Frec. Rel. Acumulada ( $F_i$ )
$x_1$	$n_1$	$f_1$	$N_1 = n_1$	$F_1=f_1$
$x_2$	$n_2$	$f_2$	$N_2 = N_1+n_2$	$F_2 = F_1+f_2$
$\vdots$	$\vdots$	$\vdots$	$\vdots$	$\vdots$
$x_k$	$n_k$	$f_k$	$N_k = N_{k-1}+n_k$	$F_k = F_{k-1}+f_k$
TOTAL			n	1

Ejemplo para variable discreta y continua

Medidas de locación¶

Ante un conjunto de observaciones, es de interés el valor en torno al cual se agrupan la mayoría o el centro del conjunto. Las medidas que permiten hacerlo se llaman medidas de localización o medidas de tendencia central.

Media¶

Promedio o media: notado como $\bar{x}$ , de un conjunto de $n$ datos $x_1,x_2,\ldots,x_n$ es igual a la suma de valores dividido para $n$ .

\bar{x} = \frac{x_1+x_2+\ldots+x_n}{n}=\frac{\sum_{i=1}^nx_i}{n}

(5)

Si las observaciones están agrupadas en una tabla de frecuencia de datos individuales de $k$ valores, el promedio se calcula

\bar{x} =\frac{\sum_{i=1}^kn_ix_i}{n}

(6)

donde $n = {\sum_{i=1}^kn_i}$ .

Si las observaciones están agrupadas en una tabla de frecuencias agrupadas por clases, se calcula el punto promedio de cada clase $x_i = \frac{l_i+s_i}{2}$ ( $i = 1,2,\ldots,k$ ), donde $l_i$ y $s_i$ son la cota inferior y superor de cada clase respectivamente. El promedio es

\bar{x} =\frac{\sum_{i=1}^kn_ix_i}{n}

(7)

Ventajas y desventajas del promedio:

Se expresan en las mismas unidades quela variable
En su cálculo intervienen todos los valores de la distribución
Es el centro de gravedad de toda la distribución
Es único
Su principal inconveniente es que se ve afectado por valores atípicos

Es fácil calcular estadísticos de resumen en python.

Creamos 100 números aleatorios con distribución normal:

import numpy as np
N = 5
np.random.seed(0)
x = np.random.normal(loc = 57, scale = 3, size = N)

array([62.29215704, 58.20047163, 59.93621395, 63.7226796 , 62.60267397])

np.mean(x)

61.350839236675235

Mediana¶

La mediana de un conjunto de datos $x_1+x_2+\ldots+x_n$ es el valor que se encuentra en el punto medio, cuando se ordenan los valores de menor a mayor.

Se nota como $Q_2$ o Med y tiene la propiedad de que a cada lado se encuentra el 50% de los datos.

Si los datos están están resumidos en una tabla de distribución de frecuencias por clases:

Med = L_{i-1}+\frac{n/2-N_{i-1}}{n_i}A

(8)

Ejemplo:

Ingreso anual	Numero de personas ( $n_i$ )	Frecuencia acumulada ( $N_i$ )
6800-8000	3	3
8000-10400	20	23
10400-12800	35	58
12800-16500	25	83
16500-20000	15	98
20000-26000	2	100

Med = 10400+\frac{100/2-23}{35}(2400) = 12251

(9)

np.median(x)

62.292157037902996

Moda¶

Es el valor que tiene la mayor frecuencia absoluta

Se la nota como Mo. Para calcularla es últil realizar una tabla de frecuencia de los datos.

Si los datos están están resumidos en una tabla de distribución de frecuencias por clases:

Mo = L_{i-1}+\frac{d1}{d1+d2}A

(10)

Usando los datos de la tabla anterior:

Mo = 10400+\frac{35-20}{(35-20)+(35-25)}2400=11840

(11)

from scipy import stats
data = [1,3,4,4,7,4]
stats.mode(data,keepdims=False)

ModeResult(mode=4, count=3)

Media geométrica¶

Notada como $\bar{MG}$ de un conjunto de $n$ mediciones $x_1+x_2+\ldots+x_n$ , es igual a la raíz enésima de su producto. Es decir,

\bar{MG} = (x_1\times x_2\times\ldots\times x_n)^{1/n}

(12)

Si las observaciones están agrupadas en una tabla de frecuencias de datos individuales,

\bar{MG} = (x_1^{n_1}\times x_2^{n_2}\times\ldots\times x_k^{n_k})^{1/n}

(13)

Si los datos están agrupados por clases, el cáculo es el mismo anterior, pero $x_i$ es el punto medio de la clase.

Tiene las mismas ventajas de la media, pero

Es menos sensible a datos atípicos
Solo se puede calcular cuando hay datos positivos
Se recomienda su uso cuando la variable presenta variacionas acumuladas: porcentajes, tasas de variación.

from scipy.stats import gmean
gmean(x)

61.317892357435866

Cuantiles¶

Un cuantil divide la distribución de los datos en una proporción específica, el cuantil es el dato que corresponde a dicha división.

El cuantil de orden $p$ de una distribución (con $0 < p < 1$ ) es el valor de la variable $x_{p}$ que marca un corte de modo que una proporción $p$ de valores de la población es menor o igual que $x_{p}$ . Por ejemplo, el cuantil de orden 0.36 dejaría un 36% de valores por debajo y el cuantil de orden 0.50 se corresponde con la mediana de la distribución.

Los cuantiles suelen usarse por grupos que dividen la distribución en partes iguales; entendidas estas como intervalos que comprenden la misma proporción de valores. Los más usados son:

Los cuartiles, que dividen a la distribución en cuatro partes (corresponden a los cuantiles 0.25; 0.50 y 0.75);
Los quintiles, que dividen a la distribución en cinco partes (corresponden a los cuantiles 0.20; 0.40; 0.60 y 0.80);
Los deciles, que dividen a la distribución en diez partes;
Los percentiles, que dividen a la distribución en cien partes.

from scipy import stats

#https://docs.scipy.org/doc/scipy/reference/stats.html
stats.mstats.mquantiles(x)

array([59.41549125, 62.29215704, 62.93867566])

np.arange(0,1.1,0.1)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])

stats.mstats.mquantiles(x,prob=np.arange(0,1.1,0.1))

array([58.20047163, 58.20047163, 58.96419825, 59.86678426, 61.06706663,
       62.29215704, 62.45362584, 62.6474742 , 63.22987712, 63.7226796 ,
       63.7226796 ])

stats.describe(x)

DescribeResult(nobs=5, minmax=(58.20047162510167, 63.722679597604376), mean=61.350839236675235, variance=5.001194221130538, skewness=-0.44880941714654277, kurtosis=-1.2833798786374198)

Medidas de dispersión¶

Estas medidas permiten estimar el grado de dispersión de las observaciones al rededor del centro.

Son números reales no negativos, su valor es igual a cero cuando los datos son iguales. Si los datos están muy grupados, la medida será baja; será alta caso contrario.

La desviación estándar¶

Fue introducida por Karl Person en 1894 y se define:

La desviación estándar (o desviación típica), notada por $s$ , de un conjunto de $n$ mediciones $x_1+x_2+\ldots+x_n$ es la raíz cuadrada de las desviaciones de las mediciones, respecto al promedio $\bar{x}$ , dividida entre $n-1$ ; es decir

s = \sqrt{\frac{1}{n-1}\sum_{i = 1}^{n}(x_i-\bar{x})^2}

(14)

Se expresa en las mismas unidades que los datos originales
En su cálculo intervienen todos los valores de la distribución
Es única
Se ve afectada por valores atípicos

np.var(x)

4.000955376904431

np.std(x)

2.0002388299661695

hstack agrega valores al vector:

x1 = np.hstack((x,np.nan))
np.mean(x1)

nan

np.nanmean(x1)

61.350839236675235

np.nanstd(x1)

2.0002388299661695

np.nanvar(x1)

4.000955376904431

Rango¶

Se define como la diferencia entre el máximo y el mínimo de los datos

rango = np.ptp(x) # ptp: peak to peak

rango

5.522207972502706

Notación de probabilidad¶

El espacio muestral, $\Omega$ , es la colección de posibles resultados de un experimento
- Ejemplo: lanzamiento de un dado $\Omega = \{1,2,3,4,5,6\}$
Un evento, digamos $E$ , es un subconjunto de $\Omega$
- Ejemplo: el resultado de un lanzamiento es par $E = \{2,4,6\}$
Un evento elemental o simple es un resultado particular de un experimento
- Ejemplo: el resultado de un lanzamiento es cuatro $\omega = 4$
$\emptyset$ se denomina un evento nulo o conjunto vacío

Interpretación de los operadores de conjuntos¶

$\omega \in E$ implica que $E$ ocurre cuando $\omega$ ocurre
$\omega \not\in E$ implica que $E$ no occurre cuando $\omega$ ocurre
$E \subset F$ implica que la ocurrencia de $E$ implica la ocurrencia de $F$
$E \cap F$ implica el evento en que ambos $E$ y $F$ occurren
$E \cup F$ implica el evento en que al menos uno de los dos ocurra $E$ or $F$
$E \cap F=\emptyset$ significa que $E$ y $F$ son mutuamente excluyentes, o no puenden ocurrir ambos
$E^c$ o $\bar E$ es el evento que $E$ no ocurre

Funciones importantes¶

Una medida de probabilidad, $P$ , es una función de una colección posible de eventos tal que

Para un evento $E\subset \Omega$ , $0 \leq P(E) \leq 1$
$P(\Omega) = 1$
Si $E_1$ and $E_2$ son eventos mutuamente excluyentes $P(E_1 \cup E_2) = P(E_1) + P(E_2)$ .

El punto 3 de la definición implica aditividad finita

P(\cup_{i=1}^n A_i) = \sum_{i=1}^n P(A_i)

(15)

donde los eventos $\{A_i\}$ son mutuamente excluyentes.

Algunas consecuencias¶

$P(\emptyset) = 0$
$P(E) = 1 - P(E^c)$
$P(A \cup B) = P(A) + P(B) - P(A \cap B)$
if $A \subset B$ then $P(A) \leq P(B)$
$P\left(A \cup B\right) = 1 - P(A^c \cap B^c)$
$P(A \cap B^c) = P(A) - P(A \cap B)$
$P(\cup_{i=1}^n E_i) \leq \sum_{i=1}^n P(E_i)$
$P(\cup_{i=1}^n E_i) \geq \max_i P(E_i)$

Ejemplo¶

La National Sleep Foundation (www.sleepfoundation.org) informa que alrededor del 3% de la población estadounidense tiene apnea del sueño. También informan que alrededor del 10% de la población de América del Norte y Europa tiene síndrome de piernas inquietas. ¿Implica esto que el 13% de las personas tendrá al menos un problema de sueño de este tipo?

Respuesta¶

No, los eventos no son mutuamente excluyentes. Veamos:

\begin{aligned} A_1 & = & \{\mbox{Persona con apnea del sueño}\} \\ A_2 & = & \{\mbox{Persona con RLS}\} \\ \end{aligned}

(16)

Luego

\begin{aligned} P(A_1 \cup A_2 ) & = & P(A_1) + P(A_2) - P(A_1 \cap A_2) \\ & = & 0.13 - \mbox{Probabilidad de tener ambos}\\ \end{aligned}

(17)

Una porción de la población tiene ambos

Variables aleatorias¶

Una variable aleatoria es un resultado numérico de un experimento.
Las variables aleatorias que estudiamos tienen dos variantes: discretas or continuas.
Las v.a discretas son las que tienen un número contable de posibilidades.
- $P(X = k)$
Las v.a. continuas toman valores en los reales o un subconjunto de los reales.
- $P(X \in A)$

Ejemplos de v.a.¶

Los resultados $(0-1)$ del lanzamiento de una moneda
Los resultados del lanzamiento de un dado
El índice de masa corpotal de una persona en una toma futura a la línea base
El estado de hipertensión de una persona seleccionada al alzar de una población

Función de masa de probabilidad $p(x)$ ¶

Una función de masa de probabilidad evaluada en un valor corresponde a la probabilidad que una v.a. toma ese valor. Para se una función válida, se debe satisfacer:

$p(x) \geq 0$ for all $x$
$\sum_{x} p(x) = 1$

La suma se toma sobre todos los valores de $x$ .

Ejemplo¶

Sea $X$ el resultado del lanzamiento de una moneda donde $X=0$ representa sello y $X = 1$ representa cara.

p(x) = (1/2)^{x} (1/2)^{1-x} ~~\mbox{ for }~~x = 0,1

(18)

Suponga que no sabemos si la moneda es justa. Sea $\theta$ la probabilidad de que salga cara se expresa como una proporción (entre 0 y 1).

p(x) = \theta^{x} (1 - \theta)^{1-x} ~~\mbox{ for }~~x = 0,1

(19)

Función de densidad¶

Una función de densidad (pdf), es una función asociada con una v.a. continua

Las areas debajo las pdfs corresponden a las probabilidades de esa v.a.

La función $f$ debe satisfacer

$f(x) \geq 0$ para todo $x$
El área debajo de $f(x)$ es uno.

Ejemplo¶

Suppose that the proportion of help calls that get addressed in a random day by a help line is given by

f(x) = \left\{\begin{array}{ll} 2 x & \mbox{ for } 1 > x > 0 \\ 0 & \mbox{ otherwise} \end{array} \right.

(20)

¿Es esta una densidad válida?

x = [-0.5, 0, 1, 1, 1.5]
y = [0, 0, 2, 0, 0] 
import matplotlib.pyplot as plt
plt.plot(x,y)

Ejemplo¶

¿Cuál es la probabilidad de que se atienda el 75% o menos de las llamadas?

Función de distribución acumulada¶

La función de distribución acumulada (CDF) de una v.a. $X$ se define como la función
$F(x) = P(X \leq x)$
(21)
Esta definición aplica indistintamente de si $X$ es discreta o continua.
La función de supervivencia de una v.a. $X$ es definida como

S(x) = P(X > x)

(22)

Note que $S(x) = 1 - F(x)$
Para v.a. continuas, la función de densidad es la derivada de la acumulada

Ejemplo¶

¿Cuál es la función de supervivencia y CDF de la densidad considerada antes?

Para $1 \geq x \geq 0$

F(x) = P(X \leq x) = \frac{1}{2} Base \times Height = \frac{1}{2} (x) \times (2 x) = x^2

(23)

S(x) = 1 - x^2

(24)

pbeta(c(0.4, 0.5, 0.6), 2, 1)

Cuantiles¶

El cuantil $\alpha^{th}$ de una distribución con función de distribución $F$ es el punto $x_\alpha$ tal que

F(x_\alpha) = \alpha

(25)

Un percentil es simplemente un cuantil con $\alpha$ expresado como porcentaje.
La mediana es el percentil $50^{th}$ .

¿Qué es la estadística?¶

Clasificación¶

Definiciones básicas¶

Ejemplos (¿Cuál es la población? ¿Cuál es la unidad muestral?):¶

Datos y escalas de medición¶

Números índice¶

Tipos de variables¶

Escalas de medición¶

Valores atípicos¶

Características de los datos¶

Distribución de frecuencias¶

Elaboración de una tabla de frecuencias¶

Medidas de locación¶

Media¶

Mediana¶

Moda¶

Media geométrica¶

Cuantiles¶

Medidas de dispersión¶

La desviación estándar¶

Rango¶

Notación de probabilidad¶

Interpretación de los operadores de conjuntos¶

Funciones importantes¶

Algunas consecuencias¶

Ejemplo¶

Respuesta¶

Variables aleatorias¶

Ejemplos de v.a.¶

Función de masa de probabilidad p(x)p(x)p(x)¶

Ejemplo¶

Función de densidad¶

Ejemplo¶

Ejemplo¶

Función de distribución acumulada¶

Ejemplo¶

Cuantiles¶

Función de masa de probabilidad $p(x)$ ¶