Unidad Temática 2: Unidad 5 Estadística Inferencial Temas 10 y 11

Distribución de Probabilidad Recordamos conceptos: Variable aleatoria: es aquella que se asocia un número o un dato probabilístico, como el resultado de un experimento aleatorio. Tipos de Variables: Variable aleatoria cualitativa (nominal u ordinal) Variable aleatoria cuantitativa (discreta) Variable aleatoria cuantitativa (continua) MODELOS PROBABILISTICOS CONTINUOS Variable aleatorias cuantitativas continuas (proporcional o interválica) Distribución Normal o Modelo de Gauss z X i MODELOS PROBABILISTICOS DISCRETOS Distribución binomial o z Xi s X f ( x) n p p x q nx x! n! n x! p x q nx

Inferencia Estadística Concepto: La Inferencia estadística es aquella parte de la estadística que, a través del razonamiento inductivo, extiende los resultados obtenidos de la muestra a su universo de origen. (Taucher). La Inferencia estadística es la parte de la estadística que, determina la probabilidad de que cualquier conclusión sacada a partir del análisis de los datos de una muestra, sea la correcta (o cierta). (Norman & Streiner). Por lo tanto su misión será cuantificar el grado de imprecisión de los cálculos. Objetivos : La estimación de parámetros La prueba de hipótesis o docimasia de hipótesis

Inferencia Estadística POBLACÍON Sacamos una MUESTRA Contiene Obtenemos PARÁMETROS - 2 - - Estimación ESTADÍGRAFOS X - S 2 - S - p

ESTIMACIÓN PUNTUAL: Propiedades del estimador Insesgabilidad: Un estimador es insesgado o centrado, cuando su esperanza o valor esperado es igual al parámetro que se desea estimar. Eficiencia: Un estimador es más eficiente o más preciso que otro estimador, si la varianza del primero es menor que la del segundo. Consistencia: Un estimador es consistente si a medida que el tamaño muestral crece, el valor del estimador tiende a ser el del parámetro. Suficiencia: Un estimador es suficiente cuando resume toda la información relevante contenida en la muestra.

La estimación de parámetros * Estimación puntual * Intervalo de Confianza La prueba de hipótesis o docimasia de hipótesis (próxima clase) ESTIMACIÓN PUNTUAL Punto en la escala de medición. X es la Estimación Puntual para el parámetro p es la Estimación Puntual para el parámetro Es una variable aleatoria que varía al azar con relación al parámetro

ESTIMACIÓN PUNTUAL La media muestral es una variable aleatoria que varía al azar con relación al parámetro µ Un valor cualquiera de la población puede alejarse más o menos de µ de acuerdo a la variabilidad de la característica xi Cuánto se alejarán los promedios muestrales de µ? Tratemos de entender esto con un ejemplo Teorema Central del Límite

Población con N=5 i = 3-4-5-7-8 =5,4 2 =3,44 Ahora, a partir de los mismos X i obtendremos todas las observaciones posibles con n=2, por lo que tendremos N n combinaciones a partir de un muestreo con reemplazo.

obtenemos la siguiente distribución de frecuencias y parámetros Par fi xi (marca de clase) Sxi =135/25 xi- (xi-) 2 (xi-) 2 *fi 3-3 1 3 3 5,4-2,4 5,76 5,76 3-4/4-3 2 3,5 7 5,4-1,9 3,61 7,22 4-4/3-5/5-3 3 4 12 5,4-1,4 1,96 5,88 4-5/5-4 2 4,5 9 5,4-0,9 0,81 1,62 3-7/5-5/7-3 3 5 15 5,4-0,4 0,16 0,48 3-8/4-7/7-4/8-3 4 5,5 22 5,4 0,1 0,01 0,04 4-8/5-7/7-5/8-4 4 6 24 5,4 0,6 0,36 1,44 5-8/8-5 2 6,5 13 5,4 1,1 1,21 2,42 7-7 1 7 7 5,4 1,6 2,56 2,56 7-8/8-7 2 7,5 15 5,4 2,1 4,41 8,82 8-8 1 8 8 5,4 2,6 6,76 6,76 N=25 S=135 S=43 Observamos que la media se mantuvo constante (=5,4) y la varianza se redujo de acuerdo a 2 /n (de 2 =3,44 a 3,44/2= 1,72) 2 =43/25 2 =1,72

=5,4 2 = 1,72

Si a partir de los mismos X i obtenemos todas las observaciones posibles con n=3, tendremos N n combinaciones a partir de un muestreo con de PROMEDIO 1-3 EDIO 1-3 reemplazo: 5 3 = 125 Total 3 1 3,333333333 3 3,666666667 6 4 7 4,333333333 9 4,666666667 12 5 16 5,333333333 15 5,666666667 12 6 12 6,333333333 12 6,666666667 9 7 4 7,333333333 3 7,666666667 3 8 1 La media se mantiene constante (=5,4) y la varianza se reduce de acuerdo a 2 /n (de 2 =3,44 a 3,44/3= 1,14)

Si obtenemos todas las observaciones posibles con n=4, tendremos 5 4 = 625 combinaciones 3 1 3,25 4 3,5 10 3,75 16 4 23 4,25 32 4,5 46 4,75 56 5 59 5,25 60 5,5 64 5,75 64 6 52 6,25 40 6,5 34 6,75 28 7 17 7,25 8 7,5 6 7,75 4 8 1 La media se mantiene constante (=5,4) y la varianza se reduce de acuerdo a 2 /n (de 2 =3,44 a 3,44/4= 0,86)

Si obtenemos todas las observaciones posibles con n=5, tendremos 5 5 = 3125 combinaciones 3 1 3,2 5 3,4 15 3,6 30 3,8 50 4 76 4,2 115 4,4 160 4,6 200 4,8 230 5 261 5,2 290 5,4 295 5,6 275 5,8 250 6 230 6,2 195 6,4 145 6,6 105 6,8 80 7 56 7,2 30 7,4 15 7,6 10 7,8 5 8 1 La media se mantiene constante (=5,4) y la varianza se reduce de acuerdo a 2 /n (de 2 =3,44 a 3,44/5= 0,69)

La varianza de los promedios muestrales disminuye de manera inversamente proporcional al tamaño de la muestra según 2 /n El desvío estándar de los promedios muestrales disminuye según 2 /n o / n

Distribución de Probabilidad MODELOS PROBABILISTICOS CONTINUOS La Distribución Normal o Modelo de Gauss para valores X i Xi Xi X o z z S También puede aplicarse a la distribución de promedios muestrales z X? z X X z X / n

ESTIMACIÓN DE PARÁMETROS POR INTERVALOS DE CONFIANZA Si bien X aparece en algún lugar del eje y nunca sabremos con exactitud donde está x, sabemos que en alguna parte de ese eje está el verdadero valor del parámetro.. La estimación puntual da información incompleta, ya que no considera la dispersión de los datos (distribución muestral). Sin embargo, al conocer X y saber que los promedios muestrales se distribuyen normalmente

Distribución de valores individuales X Distribución de promedios muestrales

ESTIMACIÓN DE PARÁMETROS POR INTERVALOS DE CONFIANZA Si la media muestral está centrada normalmente X i ~N (; 2 /n), puedo inferir que está entre un Límite inferior (Li) y un Límite superior (Ls) que puedo calcular utilizando Z. Esta estimación se realiza con una determinada confianza (80%, 90%, 95%, 99%), y se denomina INTERVALO DE CONFIANZA. Z Xi Confianza (Li Ls) = 90% X Z n P( Z Z Z2) 1 1

Inferencia Estadística 1 1 Z 2 n X Z P Si reemplazamos el valor de la variable Z por la variable pivotal, tendremos: 1 2 1 n Z X n Z X P Por pasaje de términos: Resumiendo: n Z X IC 95%

Inferencia Estadística Por ejemplo, si tenemos una muestra con n= 80; X= 12,5 y S= 1,4 IC 95% X Z IC % 12,5 Z 95 n 1,4 80 Debo buscar un valor de Z que incluya alrededor del 47,5% del área / n / n / n

Inferencia Estadística Si tenemos muestras pequeñas n= 5, n= 10, n= 20 la distribución muestral puede alejarse mucho de la normal, por lo que emplearemos una nueva distribución, t. IC 95% X Z n t corrige a Z para n bajos, resultando muy similares a partir de n= 100 IC 95% X t S n

Inferencia Estadística Qué ocurre si tenemos muestras con n= 5, n= 10, n= 20 y X= 12,5 y S= 1,4. IC 95% X t S n IC % 12,5 2,776 95 1,4 5 IC % 12,5 95 2,262 1,4 10 IC % 12,5 95 2,093 1,4 20 X 12,5 10,76 14,24 X 12,5 11,50 13,50 X 12,5 11,84 13,16

Inferencia Estadística Qué ocurre si modificamos la confianza a 90% o 99% sin modificar el n= 20 IC 95% X t S n 0,05 IC 95% 90% 99% 0,05 0,025 0,025 0,005 0,005

Inferencia Estadística También podemos obtener un IC para una variable variable nominal. En éste caso podemos estimar el IC para el parámetro con la siguiente ecuación: p Z p. q n o p t p. q n

Intervalo de Confianza con Infostat