Estimación por Intervalo de la Diferencia entre Medias Poblacionales con Desviación Estándar Conocida

Documentos relacionados
Al reemplazar la varianza muestral en la fórmula obtenemos otra expresión de la distribución chi-cuadrada:

Curso: Inferencia Estadística (ICO 8306) Profesores: Esteban Calvo Ayudantes: José T. Medina ESTIMACIÓN POR INTERVALO

1.- Lo primero que debemos hacer es plantear como hasta ahora la hipótesis nula y la alternativa

Estimación por intervalos de la media poblacional con desviación estándar desconocida

viene dada por la sumatoria de las N observaciones, dividida por el tamaño de la

TEMA 7. Estimación. Alicia Nieto Reyes BIOESTADÍSTICA. Alicia Nieto Reyes (BIOESTADÍSTICA) TEMA 7. Estimación 1 / 13

En esta clase primero estudiaremos muestreo aleatorio simple para casos finitos y luego para casos infinitos.

UNIVERSIDAD DE MANAGUA Al más alto nivel

Nombre: Distribuciones de probabilidad continua. Segunda parte.

Notas de clase Estadística R. Urbán R.

Estadística Inferencial. Sesión 3. Estimación de parámetros y por intervalos

ESTADÍSTICA II UNIDAD I: ESTIMACIÓN DE PARÁMETROS 3RA PARTE (CLASE 20/09)

tiene distribución t con n 1 grados de libertad. Si utilizamos dicha cantidad como pivote, entonces para el intervalo

Introducción a la inferencia estadística

Preguntas más Frecuentes: Tema 8

Ejemplos Resueltos Tema 4

Estadística. Contrastes para los parámetros de la Normal

Estimación. Diseño Estadístico y Herramientas para la Calidad. Estimación. Estimación. Inferencia Estadística

INFERENCIA ESTADISTICA. Proferora: Lic. Gladis Mazza

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Universidad Técnica de Babahoyo INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

Muestreo e intervalos de confianza

LIMITES O INTERVALOS DE CONFIANZA LUIS FRANCISCO HERNANDEZ CANDELARIA ATENCIA ROMERO

Estimación. Introducción. Sea X la variable aleatoria poblacional con distribución de probabilidad f θ donde. es el parámetro poblacional desconocido

Tema 7 Intervalos de confianza Hugo S. Salinas

Estadística I Curso 2011/2012 Guion de la Práctica 3: Simulación de muestras y bondad de ajuste; Teorema Central del Límite; Intervalos de confianza.

Caso particular: Contraste de homocedasticidad

INTERVALOS DE CONFIANZA

Estadística Clase 3. Maestría en Finanzas Universidad del CEMA. Profesor: Alberto Landro Asistente: Julián R. Siri

INFERENCIA ESTADÍSTICA MUESTRAL TEMA 2: ESTIMACIÓN POR INTERVALO

INTERVALOS DE CONFIANZA Julián de la Horra Departamento de Matemáticas U.A.M.

Testear la Hipótesis de Media Poblacional

Estadística Clase 4. Maestría en Finanzas Universidad del CEMA. Profesor: Alberto Landro Asistente: Julián R. Siri

Tema 7: Ejercicios de Inferencia en una población Normal

Estadística I Tema 5: Introducción a la inferencia estadística

BLOQUE 3 TEMA 11 ESTIMACIÓN DE PARÁMETROS. ERRORES DE ESTIMACIÓN

PRUEBAS INFORMALES DE NORMALIDAD PARA UN CONJUNTO UNIVARIADO DE MEDICIONES.

Teorema Central del Límite

ESTIMACIÓN DE PARÁMETROS. INTERVALOS DE CONFIANZA PARA LA MEDIA POBLACIONAL.

Tema 14: Inferencia estadística

Tema 14: Inferencia estadística

ESTIMACION INFERENCIA ESTADISTICA

Estadística I Tema 7: Estimación por intervalos

Estadística II Examen final junio - 17/06/16 Curso 2015/16 Soluciones Duración del examen: 2 h. y 45 min.

Inferencia Estadística

Bioestadística: Inferencia Estadística. Análisis de Una Muestra

Tema 4: Estimación por intervalo (Intervalos de Confianza)

Juan José Hernández Ocaña

INFERENCIA ESTADÍSTICA MUESTRAL TEMA 4: MEDIAS Y PROPORCIONES CON DOS POBLACIONES

Tema 4: INFERENCIA ESTADÍSTICA - I

ENUNCIADO y SOLUCIONES. Problema 1

Técnicas de Muestreo Métodos

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA

CAPÍTULO 10 ESTIMACIÓN POR PUNTO Y POR INTERVALO 1.- ESTIMACIÓN PUNTUAL DE LA MEDIA Y DE LA VARIANZA 2.- INTERVALO DE CONFIANZA PARA LA MEDIA

Estadística Inferencial

Tema 7: Introducción a la Teoría sobre Estimación

PROYECTO DEL CURSO DE ESTADÍSTICA INFERENCIAL

Cap. 7 : Pruebas de hipótesis

INFERENCIA ESTADISTICA

Tema 6: Introducción a la inferencia estadística Parte 1

La Estadística inferencial. Estadística inferencial. La Estadística inferencial. La Estadística inferencial. La Estadística inferencial

Tema 5: Introducción a la inferencia estadística

Intervalos de confianza Muestras grandes. Estadística Cátedra Prof. Tamara Burdisso

Estadística Inferencial. Sesión 7. Pruebas de hipótesis para diferencia de medias y proporciones.

ESTADÍSTICA. Tema 4 Intervalos de confianza

Anota aquí tus respuestas para esta sección Distribución Z

U ED Tudela Diseños de investigación y análisis de datos - Tema 2

Hipótesis. (x), donde es el parámetro poblacional desconocido. Problemas Inferenciales sobre

ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M.

Tema 4 - Introducción

EVALUACIÓN EN APRENDIZAJE. Eduardo Morales y Jesús González

Ms. C. Marco Vinicio Rodríguez

TEMA 3: MUESTREO Y ESTIMACIÓN. Estimación de la Media

Anota aquí tus respuestas para esta sección Distribución Z

Tema 4: Probabilidad y Teoría de Muestras

Estimaciones puntuales. Estadística II

Intervalos de Confianza

ACTIVIDAD 3: Intervalos de Confianza para 1 población

Fundamentos para la inferencia. Estadística Prof. Tamara Burdisso

Estadística I para futuros ingenieros Unidad 4. Segunda parte

Estadística Inferencial. Sesión 4. Estimación por intervalos

Matemática Aplicada y Estadística - Farmacia Soluciones del Primer Examen Parcial - Grupo 3

UNIVERSIDAD ALONSO DE OJEDA ESTADISTICA II

Intervalos de confianza con STATGRAPHICS

Análisis Multivariante de Datos

Estadistica II Tema 0. Repaso de conceptos básicos. Curso 2009/10

UNIVERSIDAD DE ATACAMA

MODELOS DE SIMULACIÓN ESTADÍSTICOS CLASE 4: DISTRIBUCIÓN t, CHI-CUADRADA y EXPONENCIAL PROFESOR: OSCAR SAAVEDRA ANDRÉS DURANGO.

Tema 3 - Introducción. Tema 2. Distribuciones en el muestreo Estadísticos y distribución muestral. Ejemplos: X y S 2.

Tema 3: Estimación estadística de modelos probabilistas. (segunda parte)

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

Estadísticas Pueden ser

Estadística I Solución Examen Final- 19 de junio de Nombre y Apellido:... Grupo:...

Trabajo Práctico: Intérvalos de Confianza

Tema 5. Muestreo y distribuciones muestrales

Cuál es el campo de estudio de la prueba de hipótesis?

2.3. Análisis bayesiano para datos normales

Intervalo para la media si se conoce la varianza

Transcripción:

DIFERENCIA ENTRE MEDIAS PARA MUESTRAS INDEPENDIENTES Cuando hacemos estudios, hay veces que solamente queremos identificar los intervalos en que se encuentra un estimador puntual. Sin embargo, también es frecuente el querer encontrar diferencias entre dos grupos. Por ejemplo, podríamos estar interesados en la diferencia de ingreso promedio entre dos muestras, la capacidad promedio de engordar que tienen dos alimentos para aves, o la tensión que resisten en promedio dos tipos de materiales distintos para construir alas de avión. Para identificar este tipo de diferencias entre medias, utilizaremos estimadores puntuales observados en dos muestras y veremos los intervalos de confianza en que se encuentran estas diferencias. Los supuestos serán que estas muestras son de tipo aleatorio simple e independientes entre sí. Nos enfrentaremos a una situación en donde tenemos dos poblaciones distintas (1 y ), cada una con su respectiva media poblacional (μ 1 y μ ). Al igual que en clases anteriores, utilizaremos las medias muestrales (x 1 y x ) para obtener el intervalo de las medias poblacionales. Pero esta vez el foco será hacer una inferencia acerca de la diferencia entre ambas medias poblacionales (μ 1 μ ). Las dos muestras aleatorias simples e independientes que utilizaremos para la inferencia pueden tener distinta cantidad de observaciones (n 1 y n ). Como pueden anticipar, el procedimiento de inferencia será distinto dependiendo de si conocemos o no la desviación estándar de las poblaciones (σ 1 y σ ). En esta clase estudiaremos ambos casos con un ejemplo concreto de una empresa de zapatos con dos sucursales en distintas ciudades. Estimación por Intervalo de la Diferencia entre Medias Poblacionales con Desviación Estándar Conocida Primero estudiaremos la estimación por intervalo de la diferencia entre medias poblacionales con desviación estándar conocida. Supongamos que la dueña de la empresa de zapatos está preocupada por la diferencia de ventas que tiene entre las dos sucursales ubicadas en distintas ciudades. Ella cree que esta diferencia en las ventas se explica por diferencias en la edad de los clientes. Por lo tanto los contrata a ustedes para hacer una investigación acerca de la diferencia de edad de los clientes de ambas sucursales. Al comenzar su trabajo ella les entrega las desviaciones estándar de las edades de ambas poblaciones: σ 1 = 9 y σ = 10. Ustedes, ya habiendo tomado varias clases de inferencia estadística, saben que pueden ocupar una distribución normal para el cálculo. Lo primero que tienen que hacer es definir las poblaciones de clientes de ambas sucursales por separado, a las que llamaremos sucursal 1 y sucursal. En la estimación de la diferencia de las edades promedio de los clientes, μ 1 μ, tendremos que μ 1 es la media poblacional de la sucursal 1 y μ la media poblacional de la sucursal. Para estimar μ 1 μ, tomaremos una muestra aleatoria simple de cada población, definidas como n 1 y n y calcularemos las medias muestrales de cada muestra: x 1 siendo la media muestral de la edad de los clientes de la sucursal 1 y x siendo el homólogo. Para el cálculo de intervalo de confianza para la diferencia de medias, el estimador puntual será el siguiente: x 1 x 1

Al igual que con otros estimadores puntuales, tendremos un error estándar que muestra la variación de la distribución muestral del estimador. Para dos muestras aleatorias simples independientes, el error de nuestro estimador puntual será el siguiente: σ = x 1 x σ 1 + σ n 1 Como vimos en clases anteriores en las estimaciones por intervalos tenemos nuestro estimador puntual ± un margen de error. Para la estimación de la diferencia entre dos medias poblacionales tenemos el siguiente margen de error: n ȥ α/ σ = ȥ x 1 x α/ σ 1 + σ n 1 Por ende nuestra estimación por intervalo de la diferencia entre dos medias poblacionales con desviación estándar conocida quedará de la siguiente manera: n El coeficiente de confianza seguirá siendo (1 α). x 1 x ± ȥ α/ σ 1 + σ n 1 Supongamos que de la muestra n 1 se obtuvo una media de x 1 = 40 años y un tamaño muestral de n 1 = 36, mientras que de la muestra n se obtuvo una media de x = 35 años y un tamaño muestral de n = 49. Reemplazando estos valores en la fórmula del intervalos de confianza para la diferencia de medias, obtenemos lo siguiente: n 40 35 ± ȥ α/ 9 1 + 10 36 1 49 Aquí el estimador puntual de la diferencia entre las medias poblacionales es 5 (40-35). Qué significa esto? Que en promedio los clientes de la sucursal 1 son 5 años mayores que los clientes de la sucursal. Para obtener el intervalo de confianza necesitamos el margen de error, que en este caso lo calcularemos con un 95% de confianza, siendo ȥ α/ = ȥ 0.05 = 1.96. 5 ± 1.96 9 1 + 10 36 1 49 5 ± 4.06

Dado que el margen de error para el estimador puntual es de 4,06 años, podemos concluir que el intervalo de confianza del 95% para la diferencia de medias de la población es de [0,94, 9.06]. En otras palabras, con un 95% de seguridad la diferencia de medias de la población se encuentra en ese intervalo. Estimación por Intervalo de la Diferencia entre Medias Poblacionales con Desviación Estándar Desconocida Imagínense que ustedes le entregan los resultados anteriores a la dueña de la empresa de zapatos y que ella se da cuenta que las desviaciones estándar poblacionales que les entregó eran sus números del Kino. Como de todas formas está contenta con el trabajo que ustedes hicieron, les ofrece pagarles el doble si repiten el estudio, pero esta vez sin información acerca de la desviación estándar poblacional. Ustedes nuevamente se sienten confiados para enfrentar el problema, ya que en sus clases de inferencia estadística aprendieron que en este caso tienen que usar una distribución t student. También saben que cuando no conocemos las desviaciones estándar poblacionales es necesario usar las desviaciones estándar muestrales (s 1 y s ) y t α/ en vez de ȥ α/. Según lo anterior, la estimación por intervalo para la diferencia entre dos medias poblacionales con desviación estándar poblacional desconocida tiene la siguiente forma: x 1 x ± t α/ s 1 + s n 1 El coeficiente de confianza seguirá siendo (1 α). Algo que cambia y se vuelve algo más engorroso en este tipo de estimación es el cálculo de grados de libertad. A diferencia de cuando calculamos grados de libertad para una muestra (n 1), para dos muestras ocuparemos la siguiente fórmula: n ( s 1 n + s gl = 1 n ) 1 n 1 1 (s 1 n ) + 1 1 n 1 (s n ) En la fórmula anterior s 1 y s son las varianzas muestrales, mientras que n 1 y n los tamaños muestrales. Supongamos que obtuvimos las siguientes desviaciones estándar para cada muestra: s 1 = 8 y s = 6. Entonces podemos reemplazar estos valores y otros que ya sabemos en la fórmula del intervalo de confianza: 40 35 ± t α/ 8 1 + 6 36 1 49 El cálculo del error estándar nos dará aproximadamente 1,59: 8 1 + 6 1,59 36 1 49 3

5 ± t α/ 1,59 Y el cálculo de los nuestros grados de libertad, utilizando la fórmula anterior, nos dará aproximadamente 6,: gl = ( 64 36 + 36 49 ) 1 36 1 (64 36 ) + 1 6, 49 1 (36 49 ) Los resultados para el cálculo de grados de libertad generalmente no son números enteros y tendremos que redondearlos, pero no de cualquier forma. En este cálculo de grados de libertad SIEMPRE debemos redondear hacia abajo. Si el resultado hubiera sido 6,8, el resultado de los grados de libertad seguiría siendo 6. Así se tiene una estimación por intervalo más prudente al tener un valor t mayor. En este caso, el valor t para un nivel de confianza de 95% es de t 0.05 = 1,999. Por lo tanto, podemos reemplazar este número en la fórmula del intervalo de confianza: 5 ± t α/ 1,59 5 ± 1,999 1,59 En este caso estimamos un margen de error es de 3,17 años, obteniendo un intervalo de confianza del 95% para la diferencia entre las medias de la población de [1,83, 8,17]. Es decir, con un 95% de seguridad la diferencia de medias de la población se encuentra en este intervalo. STATA Haremos una simulación de intervalo de confianza para la diferencia entre dos áreas dentro de una empresa: marketing y recursos humanos.. version 13. set seed 10. set obs 60 obs was 0, now 60 Recordemos que Stata siempre asume distribución t-student. Generar Muestra Primero generaremos una variable dicotómica que tenga valor 1 para indicar el área de marketing y 0 el área de recursos humanos.. gen byte area = round(runiform(),1) 4

En el comando anterior, runiform() entrega valores aleatorios con distribución uniforme entre 0 y 1, mientras que round(x,y) aproxima x al decimal y.. label def area_l 0 RRHH 1 Marketing. label val area area_l. tab area area Freq. Percent Cum. ------------+----------------------------------- RRHH 5 41.67 41.67 Marketing 35 58.33 100.00 ------------+----------------------------------- Total 60 100.00 Luego generaremos una variable continua para el ingreso de cada persona en cada área.. gen ingreso = rnormal(500,300) if area == 0 (35 missing values generated). replace ingreso = rnormal(450,300) if area == 1 (35 real changes made) En los comandos anteriores, rnormal(x,y) general valores a partir de una normal con media x y desviación estándar y. Calcular Intervalos de Confianza para Varianzas Iguales Primero observemos la estadística descriptiva de los ingresos de cada área:. tabstat ingreso, by(area) s(n mean sd) area N mean sd ----------+------------------------------ RRHH 5 536.9574 341.9486 Marketing 35 48.7045 337.881 ----------+------------------------------ Total 60 505.3099 337.783 ----------------------------------------- Fíjense que las desviaciones estándar son casi iguales. Obtenemos los datos necesarios de una muestra y los guardamos como escalares:. sum ingreso if area == 0 Variable Obs Mean Std. Dev. Min Max -------------+--------------------------------------------------------- ingreso 5 536.9574 341.9486-450.0545 1173.13. scalar X_1 = `r(mean)' 5

. scalar S_1 = `r(var)'. scalar n_1 = `r(n)' Repetimos el proceso para la otra muestra:. sum ingreso if area == 1 Variable Obs Mean Std. Dev. Min Max -------------+--------------------------------------------------------- ingreso 35 48.7045 337.881-177.814 1381.874. scalar X_ = `r(mean)'. scalar S_ = `r(var)'. scalar n_ = `r(n)' Cuando son varianzas iguales, creamos una varianza conjunta:. scalar S_c = (S_1*(n_1-1) + S_*(n_ - 1))/(n_1+ n_ - ) Definimos el valor t (alfa = 0.05):. scalar alfa = 0.05. scalar t = invttail(n_1 + n_ -, alfa/) Calculamos diferencia de los promedios:. scalar dif = X_1 - X_ Calculamos la cota inferior (sumando la misma varianza conjunta S_c):. scalar lim_inf = dif - t*(s_c/n_1 + S_c/n_)^0.5 Calculamos la cota superior (sumando la misma varianza conjunta S_c):. scalar lim_sup = dif + t*(s_c/n_1 + S_c/n_)^0.5 Resumimos lo encontrado:. dis in red _newline(1) "La diferencia entre " X_1 " y " X_ " es " dif " y se encuentra en el intervalo entre "lim_inf " y " lim_sup " con un un nivel de confianza de " 1 - alfa _newline(1) La diferencia entre 536.95735 y 48.70453 es 54.5818 y se encuentra en el intervalo entre -13.7437 y 3.3001 con un un nivel de confianza de.95 6

La gracia de la respuesta anterior es que va a ir cambiando cada vez que cambien los valores. Por ejemplo, pueden recalcularla cambiando el alfa a 0.01 o 0.1. Calcular Intervalos de Confianza para Varianzas Distintas Ahora calcularemos la diferencia en el promedio de respuestas correctas a una prueba que respondieron ambas áreas. La principal diferencia será que tendremos varianzas distintas. Lo primero es generar una variable que mida la cantidad de respuestas buenas que tuvo cada individuo en la prueba. Lo modelaremos como una distribución Poisson.. gen prueba = rpoisson(55) if area == 0 (35 missing values generated). replace prueba = rpoisson(95) if area == 1 (35 real changes made) Luego limpiamos los escalares:. scalar drop _all A continuación observemos la estadística descriptiva del rendimiento en la prueba de cada área:. tabstat prueba, by(area) s(n mean sd) area N mean sd ----------+------------------------------ RRHH 5 53.1 7.17808 Marketing 35 95. 11.378 ----------+------------------------------ Total 60 77.66667 3.0905 ----------------------------------------- Las desviaciones, para la escala que manejan son diferentes (una es 50% más grande que la otra). Por lo tanto no podemos calcular una varianza conjunta y tenemos que calcular de forma especial los grados de libertad. Obtenemos los datos (con varianzas distintas para cada muestra):. sum prueba if area == 0 Variable Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- prueba 5 53.1 7.17808 4 67. scalar X_1 = `r(mean)'. scalar S_1 = `r(var)' 7

. scalar n_1 = `r(n)'. summ prueba if area == 1 Variable Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- prueba 35 95. 11.378 73 114. scalar X_ = `r(mean)'. scalar S_ = `r(var)'. scalar n_ = `r(n)' Calculamos los grados de libertad:. scalar df = floor((s_1/n_1 + S_/n_)^/((S_1/n_1)^/(n_1-1) + (S_/n_)^/(n_-1))). dis as text "Hay " as result df as text " grados de libertad y no " as result n_1 + n_ - as text " como en el caso anterior." Hay 57 grados de libertad y no 58 como en el caso anterior. Calculamos el valor t:. scalar alfa = 0.05. scalar t = invttail(df, alfa/) Calculamos la diferencia de las medias:. scalar dif = X_1 - X_ Calculamos la cota inferior (sumando varianzas distintas para cada muestra S_1 y S_):. scalar lim_inf = dif - t*(s_1/n_1 + S_/n_)^0.5 Calculamos la cota superior (sumando varianzas distintas para cada muestra S_1 y S_):. scalar lim_sup = dif + t*(s_1/n_1 + S_/n_)^0.5 Resumimos lo encontrado:. dis in red _newline(1) "La diferencia entre " X_1 " y " X_ " es " dif " y se encuentra en el intervalo entre "lim_inf " y " lim_sup " con un un nivel de confianza de " 1 - alfa _newline(1) La diferencia entre 53.1 y 95. es -4.08 y la diferencia de las medias poblacionales se encuentra en el intervalo entre -46.885871 y -37.7419 con un nivel de confianza de.95 8