Skip to article frontmatterSkip to article content
Site not loading correctly?

This may be due to an incorrect BASE_URL configuration. See the MyST Documentation for reference.

Estadística

¿Qué relación tienen Charles Darwin, Francis Galton y Karl Pearson?

Charles Darwin (1809-1882), Fracis Galton (1822-1911), Karl Pearson (1857-1936)

  • Galton nace en Birmingham (Inglaterra). Viaja por el mundo realizando estudios en geografía y en 1850 se le otorga la medalla de oro de la Royal Geographical Society.

  • Influenciado por su primo, Charles Darwin, dedica la segunda parte de su vida a probar la teoría de la evolución

  • Detectó que padres de estatura pequeña tenían hijos ligeramente más altos y que padres altos tenían hijos ligeramente más bajos. De ahí la palabra regresión (Gorroochurn (2016)).

¿Qué es la estadística?

  • El siglo XIX es el punto de encuentro entre dos disciplinas que evolucionaron independientemente: el cálculo de probabilidades o teoría matemática de los juegos de azar (derivada del vocablo árabe al zhar, que signigica dado), que nace en el siglo XVII y la Estadística (o ciencia del Estado, del latín Status).

La Estadística es la ciencia cuyo objetivo es reunir una información cuantitativa concerniente a individuos, grupos, series de hechos, etc. y deducir de ello, gracias al análisis de estos datos, unos significados precisos o unas previsiones para el futuro (Galindo (2007))

Clasificación

  • La Estadística Descriptiva o Análisis Exporatorio de Datos, resume y describe datos a través de la presentación de información en forma de tablas y gráficos.

  • La Estadística Inferencial: va más allá de los datos. Trata, a partir de una muestra, determinar características de una población objetivo de investigación.

Definiciones básicas

Unidad muestral o experimental: Una unidad es una persona, animal, planta o cosa que es examinada por un investigador; es el objeto básico sobre el cual el estudio o experimento se lleva a cabo.

Población o universo: Es una colección completa de personas, animales, plantas o cosas, con el objeto de obtener conclusiones sobre la población de la cual proviene.

Muestra: Es un grupo de unidades seleccionadas de la población de acuerdo con un plan o regla, con el objeto de obtener conlusiones sobre la población de la cual proviene.

Tamaño muestral: número de unidades que constituyen la muestra.

Ejemplos (¿Cuál es la población? ¿Cuál es la unidad muestral?):

  • La dueña de un almacén desea estimar el gasto medio de compra de sus clientes en su almacén en el último año.

  • En un estudio se desea conocer el rating de sintonía de los canales de televisión de una ciudad.

Datos y escalas de medición

Números índice

  1. Simple

I0t(X)=XtX0100I_{0}^{t}(X) = \frac{X_t}{X_0}100
  1. En cadena

ICt(X)=XtXt1100IC^{t}(X) = \frac{X_t}{X_{t-1}}100
  1. Tasa de variación

Tasat1t2(X)=Xt2Xt1Xt1Tasa_{t_1}^{t_2}(X) = \frac{X_{t_2}-X_{t_1}}{X_{t_1}}
  1. Tasa media de variación (entre [t,t+k][t,t+k])

Tk=(Xt+kXt1k)100T_k = \left(\sqrt[k]{\frac{X_{t+k}}{X_t}-1}\right)100

Tipos de variables

Variable estadística: Es una característica de los individuos que puede ser observada o medida.

¿Qué es un dato? medición o valor de una variable estadística.

  • Cualitativas (descriptivas o categóricas): comprenden etiquetas o nombres que se usan para identificar un atributo de cada elemento. Ejemplos: sexo, profesión, marca de ropa.

  • Cuantitativas (numéricas): Describen características medibles. Ejemplos: número de hijos, número de páginas de un libro.

    • Discretas: son discretas si sus valores pueden ser contados (pertenecen a los números enteros). Ejemplo: clientes que entran a un almacén, número de errores ortográficos.

    • Continuas: sus valores pueden tomar cualquier valor en un intervalo considerado (pertenecen a los números reales). Ejemplos: edad, perso, talla.

Escalas de medición

La medición es el proceso de asignar un valor a una variable de un elemento de observación. Este proceso usa diferentes escalas:

  • Nominal: a los datos se les puede asignar un código, en la forma de un número, donde los números son simplemente una etiqueta. Únicamente pueden ser contados, no pueden ser ordenados ni medidos. Ejemplo: sexo, estado civil.

  • Ordinal: si a los datos se les puede asociar un orden o asociar una escala. Pueden ser contados y ordenados, pero no pueden ser medidos. Ejemplo: escalas de películas, del 1 al 5.

  • Intervalo: si los datos pueden tomar cualquier valor dentro de un intervalo finito o infinito, existe un cero relativo. Pueden ser contados y ordenados; son válidas la suma y la resta, la multiplicación y la división. Ejemplos: temperatura (cero no significa ausencia de temperatura). Puntajes en pruebas (cero no significa que no sabe nada).

  • Razón: si los datos pueden tomar cualquier valor dentro de un intervalo finito o infinito, existe un cero absoluto. Pueden ser contados y ordenados; son válidas la suma, resta, multiplicación y división. Ejemplos: estatura, velocidad, edad.

Valores atípicos

También conocidos como inusuales, extremos o outliers, es una observación que es lejana, en valor, del resto de datos.

No se los debe eliminar sin justificación previa, ¿por qué?

Características de los datos

  • Localización: es la posición relativa que presentan un conjunto de datos. En general, se mide por el punto medio del conjunto de datos.

  • Dispersión: Los valores obtenidos en una muestra no son todos iguales. La variación entre estos valores se denomina dispersión. Se trata de detectar el grado de discrepancia entre los datos individuales al rededor del centro de las observaciones.

  • Simetría y asimetría: Son simétricos cuando los datos están distribuidos de la misma manera sobre y debajo del punto medio. En los asimétricos hay más agrupamiento de un lado del punto medio.

Distribución de frecuencias

Es la agrupación de datos en categorías mutuamente excluyentes que indican el número de observaciones en cada categoría. Esto proporciona un valor añadido a la agrupación de datos. La distribución de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el número existente en cada clase.

Se puede elaborar una tabla de frecuencias para datos nominales y ordinales. Si los datos son continuos, ¿Qué debemos hacer?

Elaboración de una tabla de frecuencias

Supongamos que tenemos un conjunto de nn datos, que toman kk valores distintos: x1,x2,,,xkx_1,x_2,,\ldots,x_k.

  1. Se ordena los xix_i datos en una columna de forma ascendente y se cuenta cuántas veces aparece cada valor, ésta es su frecuencia absoluta nin_i que se coloca en una columna contigua. Note que i=1kni=n\sum_{i=1}^{k}n_i=n.

  2. Una tercera columna tiene la frecuencia relativa ff que resulta de fi=ninf_i = \frac{n_i}{n}. Note que verse como un porcentaje.

  3. Se pueden agregar dos columnas más, de las frecuencias acumuladas absoluta y relativa respectivamente.

Es decir:

Valor de la variable (xix_i)Frec. Absoluta (nin_i)Frec. Relativa (fi=ninf_i = \frac{n_i}{n})Fre. Abs. Acumulada (NiN_i)Frec. Rel. Acumulada (FiF_i)
x1x_1n1n_1f1f_1N1=n1N_1 = n_1F1=f1F_1=f_1
x2x_2n2n_2f2f_2N2=N1+n2N_2 = N_1+n_2F2=F1+f2F_2 = F_1+f_2
\vdots\vdots\vdots\vdots\vdots
xkx_knkn_kfkf_kNk=Nk1+nkN_k = N_{k-1}+n_kFk=Fk1+fkF_k = F_{k-1}+f_k
TOTALn1

Ejemplo para variable discreta y continua

Medidas de locación

Ante un conjunto de observaciones, es de interés el valor en torno al cual se agrupan la mayoría o el centro del conjunto. Las medidas que permiten hacerlo se llaman medidas de localización o medidas de tendencia central.

Media

Promedio o media: notado como xˉ\bar{x}, de un conjunto de nn datos x1,x2,,xnx_1,x_2,\ldots,x_n es igual a la suma de valores dividido para nn.

xˉ=x1+x2++xnn=i=1nxin\bar{x} = \frac{x_1+x_2+\ldots+x_n}{n}=\frac{\sum_{i=1}^nx_i}{n}
  • Si las observaciones están agrupadas en una tabla de frecuencia de datos individuales de kk valores, el promedio se calcula

xˉ=i=1knixin\bar{x} =\frac{\sum_{i=1}^kn_ix_i}{n}

donde n=i=1knin = {\sum_{i=1}^kn_i}.

  • Si las observaciones están agrupadas en una tabla de frecuencias agrupadas por clases, se calcula el punto promedio de cada clase xi=li+si2x_i = \frac{l_i+s_i}{2} (i=1,2,,ki = 1,2,\ldots,k), donde lil_i y sis_i son la cota inferior y superor de cada clase respectivamente. El promedio es

xˉ=i=1knixin\bar{x} =\frac{\sum_{i=1}^kn_ix_i}{n}

Ventajas y desventajas del promedio:

  • Se expresan en las mismas unidades quela variable

  • En su cálculo intervienen todos los valores de la distribución

  • Es el centro de gravedad de toda la distribución

  • Es único

  • Su principal inconveniente es que se ve afectado por valores atípicos

Es fácil calcular estadísticos de resumen en python.

Creamos 100 números aleatorios con distribución normal:

import numpy as np
N = 5
np.random.seed(0)
x = np.random.normal(loc = 57, scale = 3, size = N)
x
array([62.29215704, 58.20047163, 59.93621395, 63.7226796 , 62.60267397])
np.mean(x)
61.350839236675235

Mediana

La mediana de un conjunto de datos x1+x2++xnx_1+x_2+\ldots+x_n es el valor que se encuentra en el punto medio, cuando se ordenan los valores de menor a mayor.

Se nota como Q2Q_2 o Med y tiene la propiedad de que a cada lado se encuentra el 50% de los datos.

Si los datos están están resumidos en una tabla de distribución de frecuencias por clases:

Med=Li1+n/2Ni1niAMed = L_{i-1}+\frac{n/2-N_{i-1}}{n_i}A

Ejemplo:

Ingreso anualNumero de personas (nin_i)Frecuencia acumulada (NiN_i)
6800-800033
8000-104002023
10400-128003558
12800-165002583
16500-200001598
20000-260002100
Med=10400+100/22335(2400)=12251Med = 10400+\frac{100/2-23}{35}(2400) = 12251
np.median(x)
62.292157037902996

Moda

Es el valor que tiene la mayor frecuencia absoluta

Se la nota como Mo. Para calcularla es últil realizar una tabla de frecuencia de los datos.

Si los datos están están resumidos en una tabla de distribución de frecuencias por clases:

Mo=Li1+d1d1+d2AMo = L_{i-1}+\frac{d1}{d1+d2}A

Usando los datos de la tabla anterior:

Mo=10400+3520(3520)+(3525)2400=11840Mo = 10400+\frac{35-20}{(35-20)+(35-25)}2400=11840
from scipy import stats
data = [1,3,4,4,7,4]
stats.mode(data,keepdims=False)
ModeResult(mode=4, count=3)

Media geométrica

Notada como MGˉ\bar{MG} de un conjunto de nn mediciones x1+x2++xnx_1+x_2+\ldots+x_n, es igual a la raíz enésima de su producto. Es decir,

MGˉ=(x1×x2××xn)1/n\bar{MG} = (x_1\times x_2\times\ldots\times x_n)^{1/n}

Si las observaciones están agrupadas en una tabla de frecuencias de datos individuales,

MGˉ=(x1n1×x2n2××xknk)1/n\bar{MG} = (x_1^{n_1}\times x_2^{n_2}\times\ldots\times x_k^{n_k})^{1/n}

Si los datos están agrupados por clases, el cáculo es el mismo anterior, pero xix_i es el punto medio de la clase.

Tiene las mismas ventajas de la media, pero

  • Es menos sensible a datos atípicos

  • Solo se puede calcular cuando hay datos positivos

  • Se recomienda su uso cuando la variable presenta variacionas acumuladas: porcentajes, tasas de variación.

from scipy.stats import gmean
gmean(x)
61.317892357435866

Cuantiles

Un cuantil divide la distribución de los datos en una proporción específica, el cuantil es el dato que corresponde a dicha división.

El cuantil de orden pp de una distribución (con 0<p<10 < p < 1) es el valor de la variable xpx_{p} que marca un corte de modo que una proporción pp de valores de la población es menor o igual que xpx_{p}. Por ejemplo, el cuantil de orden 0.36 dejaría un 36% de valores por debajo y el cuantil de orden 0.50 se corresponde con la mediana de la distribución.

Los cuantiles suelen usarse por grupos que dividen la distribución en partes iguales; entendidas estas como intervalos que comprenden la misma proporción de valores. Los más usados son:

  • Los cuartiles, que dividen a la distribución en cuatro partes (corresponden a los cuantiles 0.25; 0.50 y 0.75);

  • Los quintiles, que dividen a la distribución en cinco partes (corresponden a los cuantiles 0.20; 0.40; 0.60 y 0.80);

  • Los deciles, que dividen a la distribución en diez partes;

  • Los percentiles, que dividen a la distribución en cien partes.

from scipy import stats

#https://docs.scipy.org/doc/scipy/reference/stats.html
stats.mstats.mquantiles(x)
array([59.41549125, 62.29215704, 62.93867566])
np.arange(0,1.1,0.1)
array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])
stats.mstats.mquantiles(x,prob=np.arange(0,1.1,0.1))
array([58.20047163, 58.20047163, 58.96419825, 59.86678426, 61.06706663, 62.29215704, 62.45362584, 62.6474742 , 63.22987712, 63.7226796 , 63.7226796 ])
stats.describe(x)
DescribeResult(nobs=5, minmax=(58.20047162510167, 63.722679597604376), mean=61.350839236675235, variance=5.001194221130538, skewness=-0.44880941714654277, kurtosis=-1.2833798786374198)

Medidas de dispersión

Estas medidas permiten estimar el grado de dispersión de las observaciones al rededor del centro.

Son números reales no negativos, su valor es igual a cero cuando los datos son iguales. Si los datos están muy grupados, la medida será baja; será alta caso contrario.

La desviación estándar

Fue introducida por Karl Person en 1894 y se define:

La desviación estándar (o desviación típica), notada por ss, de un conjunto de nn mediciones x1+x2++xnx_1+x_2+\ldots+x_n es la raíz cuadrada de las desviaciones de las mediciones, respecto al promedio xˉ\bar{x}, dividida entre n1n-1; es decir

s=1n1i=1n(xixˉ)2s = \sqrt{\frac{1}{n-1}\sum_{i = 1}^{n}(x_i-\bar{x})^2}
  • Se expresa en las mismas unidades que los datos originales

  • En su cálculo intervienen todos los valores de la distribución

  • Es única

  • Se ve afectada por valores atípicos

np.var(x)
4.000955376904431
np.std(x)
2.0002388299661695

hstack agrega valores al vector:

x1 = np.hstack((x,np.nan))
np.mean(x1)
nan
np.nanmean(x1)
61.350839236675235
np.nanstd(x1)
2.0002388299661695
np.nanvar(x1)
4.000955376904431

Rango

Se define como la diferencia entre el máximo y el mínimo de los datos

rango = np.ptp(x) # ptp: peak to peak
rango
5.522207972502706

Notación de probabilidad

  • El espacio muestral, Ω\Omega, es la colección de posibles resultados de un experimento

    • Ejemplo: lanzamiento de un dado Ω={1,2,3,4,5,6}\Omega = \{1,2,3,4,5,6\}

  • Un evento, digamos EE, es un subconjunto de Ω\Omega

    • Ejemplo: el resultado de un lanzamiento es par E={2,4,6}E = \{2,4,6\}

  • Un evento elemental o simple es un resultado particular de un experimento

    • Ejemplo: el resultado de un lanzamiento es cuatro ω=4\omega = 4

  • \emptyset se denomina un evento nulo o conjunto vacío

Interpretación de los operadores de conjuntos

  1. ωE\omega \in E implica que EE ocurre cuando ω\omega ocurre

  2. ω∉E\omega \not\in E implica que EE no occurre cuando ω\omega ocurre

  3. EFE \subset F implica que la ocurrencia de EE implica la ocurrencia de FF

  4. EFE \cap F implica el evento en que ambos EE y FF occurren

  5. EFE \cup F implica el evento en que al menos uno de los dos ocurra EE or FF

  6. EF=E \cap F=\emptyset significa que EE y FF son mutuamente excluyentes, o no puenden ocurrir ambos

  7. EcE^c o Eˉ\bar E es el evento que EE no ocurre

Funciones importantes

Una medida de probabilidad, PP, es una función de una colección posible de eventos tal que

  1. Para un evento EΩE\subset \Omega, 0P(E)10 \leq P(E) \leq 1

  2. P(Ω)=1P(\Omega) = 1

  3. Si E1E_1 and E2E_2 son eventos mutuamente excluyentes P(E1E2)=P(E1)+P(E2)P(E_1 \cup E_2) = P(E_1) + P(E_2).

El punto 3 de la definición implica aditividad finita

P(i=1nAi)=i=1nP(Ai)P(\cup_{i=1}^n A_i) = \sum_{i=1}^n P(A_i)

donde los eventos {Ai}\{A_i\} son mutuamente excluyentes.

Algunas consecuencias

  • P()=0P(\emptyset) = 0

  • P(E)=1P(Ec)P(E) = 1 - P(E^c)

  • P(AB)=P(A)+P(B)P(AB)P(A \cup B) = P(A) + P(B) - P(A \cap B)

  • if ABA \subset B then P(A)P(B)P(A) \leq P(B)

  • P(AB)=1P(AcBc)P\left(A \cup B\right) = 1 - P(A^c \cap B^c)

  • P(ABc)=P(A)P(AB)P(A \cap B^c) = P(A) - P(A \cap B)

  • P(i=1nEi)i=1nP(Ei)P(\cup_{i=1}^n E_i) \leq \sum_{i=1}^n P(E_i)

  • P(i=1nEi)maxiP(Ei)P(\cup_{i=1}^n E_i) \geq \max_i P(E_i)

Ejemplo

La National Sleep Foundation (www.sleepfoundation.org) informa que alrededor del 3% de la población estadounidense tiene apnea del sueño. También informan que alrededor del 10% de la población de América del Norte y Europa tiene síndrome de piernas inquietas. ¿Implica esto que el 13% de las personas tendrá al menos un problema de sueño de este tipo?

Respuesta

No, los eventos no son mutuamente excluyentes. Veamos:

A1={Persona con apnea del suen˜o}A2={Persona con RLS}\begin{aligned} A_1 & = & \{\mbox{Persona con apnea del sueño}\} \\ A_2 & = & \{\mbox{Persona con RLS}\} \\ \end{aligned}

Luego

P(A1A2)=P(A1)+P(A2)P(A1A2)=0.13Probabilidad de tener ambos\begin{aligned} P(A_1 \cup A_2 ) & = & P(A_1) + P(A_2) - P(A_1 \cap A_2) \\ & = & 0.13 - \mbox{Probabilidad de tener ambos}\\ \end{aligned}

Una porción de la población tiene ambos

Variables aleatorias

  • Una variable aleatoria es un resultado numérico de un experimento.

  • Las variables aleatorias que estudiamos tienen dos variantes: discretas or continuas.

  • Las v.a discretas son las que tienen un número contable de posibilidades.

    • P(X=k)P(X = k)

  • Las v.a. continuas toman valores en los reales o un subconjunto de los reales.

    • P(XA)P(X \in A)

Ejemplos de v.a.

  • Los resultados (01)(0-1) del lanzamiento de una moneda

  • Los resultados del lanzamiento de un dado

  • El índice de masa corpotal de una persona en una toma futura a la línea base

  • El estado de hipertensión de una persona seleccionada al alzar de una población

Función de masa de probabilidad p(x)p(x)

Una función de masa de probabilidad evaluada en un valor corresponde a la probabilidad que una v.a. toma ese valor. Para se una función válida, se debe satisfacer:

  1. p(x)0p(x) \geq 0 for all xx

  2. xp(x)=1\sum_{x} p(x) = 1

La suma se toma sobre todos los valores de xx.

Ejemplo

Sea XX el resultado del lanzamiento de una moneda donde X=0X=0 representa sello y X=1X = 1 representa cara.

p(x)=(1/2)x(1/2)1x   for   x=0,1p(x) = (1/2)^{x} (1/2)^{1-x} ~~\mbox{ for }~~x = 0,1

Suponga que no sabemos si la moneda es justa. Sea θ\theta la probabilidad de que salga cara se expresa como una proporción (entre 0 y 1).

p(x)=θx(1θ)1x   for   x=0,1p(x) = \theta^{x} (1 - \theta)^{1-x} ~~\mbox{ for }~~x = 0,1

Función de densidad

Una función de densidad (pdf), es una función asociada con una v.a. continua

Las areas debajo las pdfs corresponden a las probabilidades de esa v.a.

La función ff debe satisfacer

  1. f(x)0f(x) \geq 0 para todo xx

  2. El área debajo de f(x)f(x) es uno.

Ejemplo

Suppose that the proportion of help calls that get addressed in a random day by a help line is given by

f(x)={2x for 1>x>00 otherwisef(x) = \left\{\begin{array}{ll} 2 x & \mbox{ for } 1 > x > 0 \\ 0 & \mbox{ otherwise} \end{array} \right.

¿Es esta una densidad válida?

x = [-0.5, 0, 1, 1, 1.5]
y = [0, 0, 2, 0, 0] 
import matplotlib.pyplot as plt
plt.plot(x,y)
<Figure size 640x480 with 1 Axes>

Ejemplo

¿Cuál es la probabilidad de que se atienda el 75% o menos de las llamadas?

Función de distribución acumulada

  • La función de distribución acumulada (CDF) de una v.a. XX se define como la función

    F(x)=P(Xx)F(x) = P(X \leq x)
  • Esta definición aplica indistintamente de si XX es discreta o continua.

  • La función de supervivencia de una v.a. XX es definida como

S(x)=P(X>x)S(x) = P(X > x)
  • Note que S(x)=1F(x)S(x) = 1 - F(x)

  • Para v.a. continuas, la función de densidad es la derivada de la acumulada

Ejemplo

¿Cuál es la función de supervivencia y CDF de la densidad considerada antes?

Para 1x01 \geq x \geq 0

F(x)=P(Xx)=12Base×Height=12(x)×(2x)=x2F(x) = P(X \leq x) = \frac{1}{2} Base \times Height = \frac{1}{2} (x) \times (2 x) = x^2
S(x)=1x2S(x) = 1 - x^2

pbeta(c(0.4, 0.5, 0.6), 2, 1)

Cuantiles

  • El cuantil αth\alpha^{th} de una distribución con función de distribución FF es el punto xαx_\alpha tal que

F(xα)=αF(x_\alpha) = \alpha
  • Un percentil es simplemente un cuantil con α\alpha expresado como porcentaje.

  • La mediana es el percentil 50th50^{th}.

References
  1. Gorroochurn, P. (2016). Classic topics on the history of modern mathematical statistics: From Laplace to more recent times. John Wiley & Sons.
  2. Galindo, E. (2007). Estadı́stica elemental moderna, conceptos básicos y aplicaciones. In Prociencia Editores, Quito. Prociencia Editores.