La media es útil, pero es extremadamente sensible a valores atípicos (outliers). La mediana suele ser una medida más robusta para entender el "centro" de tus datos en distribuciones sesgadas (como salarios o precios de viviendas).
En ciencia de datos, frecuentemente necesitamos validar suposiciones. Por ejemplo: "¿El nuevo diseño web realmente genera más ventas que el anterior?". Aquí entran las pruebas de hipótesis. La media es útil, pero es extremadamente sensible
def bootstrap_ci(data, statistic=np.mean, n_boots=1000, ci=95): boots = [statistic(np.random.choice(data, len(data), replace=True)) for _ in range(n_boots)] lower = np.percentile(boots, (100 - ci) / 2) upper = np.percentile(boots, (100 + ci) / 2) return lower, upper
bootstrap_ci(df['total_bill'])
print(modelo.summary())
# Probabilidad de recibir 3 llamadas por minuto si el promedio es 2
prob_llamadas = stats.poisson.pmf(k=3, mu=2)