De Datos Y Python High Quality — Estadistica Practica Para Ciencia

La media es útil, pero es extremadamente sensible a valores atípicos (outliers). La mediana suele ser una medida más robusta para entender el "centro" de tus datos en distribuciones sesgadas (como salarios o precios de viviendas).

En ciencia de datos, frecuentemente necesitamos validar suposiciones. Por ejemplo: "¿El nuevo diseño web realmente genera más ventas que el anterior?". Aquí entran las pruebas de hipótesis. La media es útil, pero es extremadamente sensible

def bootstrap_ci(data, statistic=np.mean, n_boots=1000, ci=95):
    boots = [statistic(np.random.choice(data, len(data), replace=True)) 
             for _ in range(n_boots)]
    lower = np.percentile(boots, (100 - ci) / 2)
    upper = np.percentile(boots, (100 + ci) / 2)
    return lower, upper
bootstrap_ci(df['total_bill'])

print(modelo.summary())

# Probabilidad de recibir 3 llamadas por minuto si el promedio es 2
prob_llamadas = stats.poisson.pmf(k=3, mu=2)