Propiedades de la fucio de distribucio empirica Propiedades de la Fució de distribució Empírica: a. Fˆ es creciete de 0 hasta 1. b. Fˆ es ua fució escaloada co saltos e los distitos valores de X 1, X,..., X. c. E[ Fˆ (t)] = F(t). d. var[ Fˆ (t)] = F(t) [1 - F(t)] /. e. F (x) F(x) as (co probabilidad 1 ). (Ley de los grades úmeros). La Ley debil de los grades umeros es similar a covergecia e probabilidad. La ley fuerte de los grades umeros es similar a covergecia casi e todas partes. Segú el teorema de Givleko-Catelli la covergecia es uiforme. F ( x) F( x) f. se distribuye aproximadamete como ua ormal estádar F( x)(1 F( x)) cuado es grade (Teorema del Limite Cetral). Para las pruebas ver Rohatgi. A itroductio to probability ad Mathematical Statistics. Propiedad: Sea g cualquier fució de valor real y Fˆ la fució de distribució empírica basada e la muestra x 1,x,.x. Etoces g( x) dfˆ g( xi ) i= ( x) = 1 El método de estimació plug-i (por sustitució) El estimador plug-i del parámetro θ=t(f) es defiido por ˆ θ = T ( Fˆ ) e otras palabras el estimador de la fució θ=t(f) de la fució de distribució F es la misma fució evaluada e la distribució empírica. Ejemplo. Probar que el estimador plug-i de θ = E F (X ) es X. Puesto que θ = ( X ) = xdf( x) etoces el estimador plug-i será E F X i i θ ˆ =1 = E x = xdf x = = X Fˆ ( ) ˆ ( )
El estimador plug-i es bueo si la úica iformació que se tiee de la distribució F es la muestra tomada. Si se tiee iformació adicioal acerca de F, como por ejemplo que es Biomial, Poisso, Normal etc. etoces el estimador plug-i pierde algo su importacia. El error estádar de la media muestral Asumamos que la variable aleatoria X tiee ua distribució F co valor esperado µ F =E F (X) y co variaza σ F = VAR F ( X ) = EF [( x µ F ) ] Si se toma la muestra aleatoria X 1,..X, etoces la media de la muestra X i i= X = 1 σ F tiee media E (X ) =µ F y variaza VAR (X ) =. La prueba se basa e la liealidad del valor esperado y e la idepedecia de las variables aleatorias X i s El error estádar de la media muestral represetado por se F (X ), o simplemete se (X ), es la raíz cuadrada de la variaza de X. Esto es, sef ( X ) = σ F / E muchos textos el térmio error estádar es usado para represetar u estimado de la desviació estádar de u estadístico. El Teorema del Limite Cetral (TLC). Asumiedo ciertas codicioes bie geerales acerca de la distribució F etoces la distribució de la media muestral X será aproximadamete ormal cuado el tamaño de muestra es bastate grade. Es decir, X N( µ F, σ F / ) Usado ua tabla de la ormal estádar se obtiee Pr ob( X σ F σ F µ F < ).683 y Pr ob( X µ F < ). 954 Así que aproximadamete se espera que X se desvíe de la media poblacioal µ F a ua distacia meor de ua desviació estádar u 68.3% de las veces y se desvíe e meos de dos desviacioes estádar u 95.4% del tiempo. El error estádar de la media y de u estimado e geeral da ua buea idea de su precisió. Ejemplo: El siguiete programa e R ilustra el Teorema del limite cetral usado muestras de tamaño 9 de ua població cosistete de 0 elemetos > pob=c(,5,9,1,17,1,4,33,37,45,39,34,7,3,15,13,1,8,4,) > mea(pob)
[1] 19.1 > var(pob) [1] 173.884 > muestras=matrix(0,10000,9) > for(i i 1:10000){muestras[i,]=sample(pob,9,replace=T)} > xbars=apply(muestras,1,mea) > mea(xbars) [1] 19.0687 > var(xbars) [1] 18.434 > var(pob)/9 [1] 19.3047 > # Haciedo los histogramas de la poblacio y de las medias muestrales > par(mfrow=c(1,)) > hist(pob,mai="histograma de la poblacio") > hist(xbars,mai="histograma de las medias") > pob=c(,5,9,1,17,1,4,33,37,45,39,34,7,3,15,13,1,8,4,) > mea(pob) [1] 19.1 > var(pob) [1] 173.884 > muestras=matrix(0,1000,9) > for(i i 1:1000){muestras[i,]=sample(pob,9,replace=T)} > xbars=apply(muestras,1,mea) > hist(xbars) > meas(xbars) [1] 19.19 > var(xbars) [1] 17.75190 > var(pob)/9 [1] 19.3047 > # Haciedo los histogramas de la poblacio y de las medias muestrales > par(mfrow=c(1,)) > hist(pob,mai="histograma de la poblacio") > hist(xbars,mai="histograma de las medias") Los histogramas aparece e la siguiete figura
Ejemplo. El TLC aplicado a experimetos de Beroulli, es decir experimetos co solo dos resultados posibles: Éxito (1) y fracaso (0) puede dar malos resultados si la probabilidad de éxito está cerca de 0 o cerca de 1. E este caso Pr ob ( X = 1) = p y Pr ob( X = 0) = 1 p. Luego, µ F = p y σ F = p(1 p). Así X i i que por el TLC pˆ = = 1 se distribuye aproximadamete como ua ormal co media p y variaza p(1-p)/. > seqx=0:5 > dbiom(seqx,5,.9) [1] 1.000000e-5.50000e-3.430000e-1 1.676700e-19 8.99665e-18 [6] 3.13773e-16 9.41180e-15.99173e-13 4.65586e-1 7.914904e-11
[11] 1.139746e-09 1.398779e-08 1.468718e-07 1.31846e-06 1.019710e-05 [16] 6.730087e-05 3.785674e-04 1.80376e-03 7.15049e-03.39358e-0 [1] 6.459368e-0 1.384150e-01.64973e-01.658881e-01 1.994161e-01 [6] 7.178980e-0 > zseq=(seqx-.5)/1.5 > zseq [1] -15.0000000-14.3333333-13.6666667-13.0000000-1.3333333-11.6666667 [7] -11.0000000-10.3333333-9.6666667-9.0000000-8.3333333-7.6666667 [13] -7.0000000-6.3333333-5.6666667-5.0000000-4.3333333-3.6666667 [19] -3.0000000 -.3333333-1.6666667-1.0000000-0.3333333 0.3333333 [5] 1.0000000 1.6666667 > plot(zseq,dorm(zseq),type="l") > poits(zseq,dbiom(seqx,5,.9)) > plot(zseq,dorm(zseq),type="l") > title("teorema del limite cetral para ua biomial") > poits(zseq,dbiom(seqx,5,.9)) >