Hasta ahora hemos supuesto que conocemos o podemos calcular la función/densidad de probabilidad (distribución) de las variables aleatorias. En general, esto no es así. Más bien se tiene una muestra experimental (conjunto de variables aleatorias) que provienen de una distribución desconocida. Uno de los objetivos de la estadística es inferir información sobre la distribución desconocida a partir de los datos (muestra) que tenemos.
Si hay un ingrediente aleatorio en el experimento y se mide una variable x, entonces es de esperar que al repetir N veces el experimento se tengan resultados. En general estas N variables aleatorias siguen una distribución conjunta (=población):
Generalmente se considera que las variables son obtenidas independientemente de la misma población. De esta forma: con
Como hemos visto las distribuciones dependen de parámetros como el valor medio o la varianza, por mencionar un par de ejemplos. Supongamos que queremos estimar alguno de esos parámetros a partir de los datos que tenemos. Para ello utilizaremos los llamados estimadores Estimadores: a) sesgados b) no sesgados
Como hemos visto las distribuciones dependen de parámetros como el valor medio o la varianza, por mencionar un par de ejemplos. Supongamos que queremos estimar alguno de esos parámetros a partir de los datos que tenemos. Para ello utilizaremos los llamados estimadores Estimadores: a) sesgados b) no sesgados
El sesgo se define como la diferencia: donde a es el valor verdadero. Si b=0 se dice que el estimador es no sesgado. Un par de ejemplos de estimadores no sesgados:
Antes de estudiar los estimadores, necesitamos del resultado Ley de los grandes números : Sea una muestra aleatoria de una distribución con valor medio y sea Entonces, cuando
Estimador del valor medio: Valor medio de la muestra como estimador del valor medio de la población Y la varianza/error del estimador De modo que
Entonces necesitamos un estimador para la varianza Sea y vemos que
Pero el valor de no se conoce! Entonces se sustituye por : Sin embargo, si utilizamos s 2 como estimador de la varianza, éste es sesgado:
Se puede obtener inmediatamente el estimador no sesgado multiplicando por N/(N-1). De esta forma el estimador no sesgado para la varianza viene dado por:
Finalmente, el estimador para la desviación standard viene dado por:
Pruebas de hipótesis estadística Problema de tomar una decisión (aceptar, rechazar) basándonos en los datos experimentales Existen diferentes pruebas: Student t-test, Neymann-Pearson test, Fisher's F-test. Aquí el problema que nos interesa es una prueba de bondad de un ajuste (goodness of fit)
Información preliminar Gamma distribution Sea Y una variable aleatoria dada por donde con sigue una distribución Gaussiana y
Entonces Y sigue una distribución (caso particular de la distribución Gama) con n grados de libertad: con y
Generalización: se puede mostrar que la suma de variables aleatorias X i de la forma: donde X i sigue una distribución normal, está dada por una distribución con n grados de libertad:
Información preliminar: Cuantil: sea X una variable aleatoria cuya función de distribución cumulativa es F. Para cada valor p valor más pequeño, se define el tal que Así, orden p es el llamado cuantil de X de
Nos interesa saber si nuestro modelo teórico describe correctamente (estadísticamente hablando) los datos experimentales (puede ser un experimento numérico). La hipótesis H 0 a verificar (llamada hipótesis nula) es H 0 : nuestro modelo es correcto, desde un punto de vista estadístico. Más que aceptar una hipótesis se habla de ''no rechazar la hipótesis''
Consideramos la hipótesis: H 0 : F(x) = F 0 (x) donde F 0 representa nuestro modelo teórico y F el resultado observado. Existen varias pruebas, aquí sólo veremos la llamada -test Esta prueba de bondad considera la suma de las variables estandarizadas: donde N i es el valor observado y f i el valor teórico
Detalles: Sea la hipótesis nula: Estadística Consideremos una muestra de tamaño n de la variable aleatoria X, dividida en k clases (exhaustivas y mutuamente excluyentes). Sea el número de observaciones en la i-ésima clase Como sabemos podemos obtener la probabilidad de obtener una observación en la i-ésima clase.
Detalles: Sea la hipótesis nula: Estadística Consideremos una muestra de tamaño n de la variable aleatoria X, dividida en k clases (exhaustivas y mutuamente excluyentes). Sea el número de observaciones en la i-ésima clase Como sabemos podemos obtener la probabilidad de obtener una observación en la i-ésima clase.
De modo que Sea las realizaciones de la i-ésima clase (i=1,2,...,k), de modo que: De esta forma la probabilidad de la muestra agrupada está dada por la distribución multinomial:
Tomemos el caso simple: k=2 y consideremos la variable aleatoria Para n grande, sabemos que Y se aproxima a una distribución Gaussiana/Normal. También sabemos que la suma de variables aleatorias con distribución Gaussiana sigue una distribución (en este caso con n-1 grados de libertad)
Consideremos entonces el cuadrado:
En general tenemos Estadística
Regresando a nuestro problema, se puede mostrar que la variable sigue una distribución, con k-1 grados de libertad (en un histograma, k es el número de clases).
Ahora fijemos el criterio para no rechazar la hipótesis. Para ello hacemos uso de la función cumulativa de la distribución
Así, el criterio para no rechazar la hipótesis nula es comparar el valor de Y con el cuantil de la distribución. El valor del quantil consultarse en tablas. puede
Resumiendo, si se satisface que Entonces la hipótesis no se puede rechazar (no hay razones estadísticas para rechazar el modelo). Se acostumbra a imponer un valor de significancia de