La distribución t de student. O lo que es lo mismo: La relación entre la cerveza y los estudios de estadística

Documentos relacionados
Distribución muestral de proporciones. Algunas secciones han sido tomadas de: Apuntes de Estadística Inferencial Instituto Tecnológico de Chiuhuahua

PROBABILIDAD Y ESTADÍSTICA. Sesión 5 (En esta sesión abracamos hasta tema 5.8)

DISTRIBUCIONES DE PROBABILIDAD (RESUMEN)

D.2 ANÁLISIS ESTADÍSTICO DE LAS TEMPERATURAS DE VERANO

Teoría de la decisión Estadística

Imprimir INSTITUTO TECNOLOGICO DE CHIHUAHUA << Contenido >> UNIDAD III TEORIA DE PEQUEÑAS MUESTRAS O TEORIA EXACTA DEL MUESTREO

EJERCICIOS RESUELTOS TEMA 7

Distribuciones muestrales. Distribución muestral de Medias

Unidad Temática 5 Estimación de parámetros: medias, varianzas y proporciones

7. Distribución normal

Distribución Normal. Universidad Diego Portales Facultad de Economía y Empresa. Estadística I Profesor: Carlos R. Pitta

P (X 5) = P (x = 5) + P (X = 6) + P (X = 7) + P (X = 8) = =

Tema 5: Principales Distribuciones de Probabilidad

Estadística Inferencial 3.7. Prueba de hipótesis para la varianza. σ gl = n -1. Es decir: Ho: σ 2 15 Ha: σ 2 > 15 (prueba de una cola)

Muestreo y Distribuciones muestrales. 51 SOLUCIONES

Distribución de Probabilidad Normal

LA DISTRIBUCIÓN NORMAL

Distribución Normal Curva Normal distribución gaussiana

DISTRIBUCIONES DE PROBABILIDAD

Pruebas de Acceso a Enseñanzas Universitarias Oficiales de Grado (PAEG) Matemáticas aplicadas a las Ciencias Sociales II - Junio Propuesta B

DOCUMENTO 3: DISTRIBUCIÓN DE PROBABILIDAD DE V. A. CONTINUA: LA DISTRIBUCIÓN NORMAL

Distribución de Probabilidades con Nombre Propio Problemas Propuestos

Tema 5. Muestreo y distribuciones muestrales

La distribución Normal

Estadística Inferencial. Sesión 5. Prueba de hipótesis

La Distribución Normal y su uso en la Inferencia Estadística

Estadistica II Tema 1. Inferencia sobre una población. Curso 2009/10

ESTADÍSTICA INFERENCIAL

MEDIDAS DE ASIMETRÍA Y CURTOSIS EMPLEANDO EXCEL

Tema 11: Intervalos de confianza.

INTERVALO DE CONFIANZA PARA LA PROPORCIÓN

3. Análisis univariable y bivariable

Medidas de Dispersión

DISTRIBUCIONES MUESTRALES

Derivadas. Contenido Introducción. ( α) Definición de Derivada. (α) Pendiente de la recta tangente. (α) Funciones diferenciables.

Tema 5. Variables aleatorias continuas

Pruebas de bondad de ajuste

Selectividad Junio 2007 JUNIO 2007

Teorema de Bayes. mientras que B tiene una tasa de defectos del 4%.

Probabilidad y Estadística

El supermercado XYZ desea conocer el comportamiento del mismo en una sola hora de un día típico de trabajo.

Unidad III Variables Aleatorias Unidimensionales

La más famosa de las campanas

Estadística Descriptiva. SESIÓN 12 Medidas de dispersión

Prueba de hipótesis. 1. Considerando lo anterior específica: a. La variable de estudio: b. La población: c. El parámetro. d. Estimador puntual:

Nivel socioeconómico medio. Nivel socioeconómico alto SI NO TOTAL

MUESTREO Y MEDICIÓN MÉTODOS DE MUESTREO PROBABILÍSTICO Y NO PROBABILÍSTICO. FeGoSa

Ejercicios de Variables Aleatorias

INFORMACIÓN SOBRE LA PRUEBA DE ACCESO (PAU) A LA UNIVERSIDAD DE OVIEDO. CURSO 2015/2016

La distribución normal o gaussiana es la distribución. Definición 42 Se dice que una variable X se distribuye como normal con parámetros µ y σ si

Propiedades en una muestra aleatoria

Econometria. 4. Modelo de Regresión Lineal Simple: Inferencia. Prof. Ma. Isabel Santana

Pruebas de Bondad de Ajuste

Técnicas Cuantitativas para el Management y los Negocios I

Para ello hacemos lo siguiente: Analizar. o Comparar medias. García Bellido, R.; González Such, J. y Jornet Meliá, J.M.

DISTRIBUCIONES DE PROBABILIDAD DISCRETA (PARTE 2)

Tema II. Las muestras y la teoría paramétrica

MODELO DE RESPUESTAS Objetivos del 1 al 9

ESTADÍSTICA INFERENCIAL

6. ESTIMACIÓN DE PARÁMETROS

1. Límites normales de tolerancia: estos límites asumen que los datos son una muestra aleatoria de una distribución normal.

3. VARIABLES ALEATORIAS

Cómo describir e interpretar los resultados de un estudio de investigación quirúrgica? Variables cuantitativas

4. Medidas de tendencia central

PRUEBAS PARA DOS MUESTRAS RELACIONADAS

MODELOS DE SIMULACIÓN ESTADÍSTICOS CLASE 4: DISTRIBUCIÓN t, CHI-CUADRADA y EXPONENCIAL PROFESOR: OSCAR SAAVEDRA ANDRÉS DURANGO.

Por ejemplo, lanzar al aire un dado o una moneda son experimentos aleatorios. Los experimentos aleatorios pueden ser simples o compuestos.

2.5. Asimetría y apuntamiento

Propuesta A. 2 0 b) Dada la ecuación matricial: X = , despeja y calcula la matriz X. (0.75 ptos) 2 1

Teoría de la estimación

UNIVERSIDAD DE ATACAMA FACULTAD DE INGENIERÍA / DEPARTAMENTO DE MATEMÁTICA

Medidas de Variabilidad

1) Características del diseño en un estudio de casos y controles.

PROBABILIDAD CONDICIONAL E INDEPENDENCIA

Muestreo y estimación: problemas resueltos

3 Aplicaciones de ED de primer orden

RELACIÓN TEMA 13: ESTADÍSTICA UNIDIMENSIONAL

Test de Kolmogorov-Smirnov

El promedio como punto típico de los datos es el valor al rededor del cual se agrupan los demás valores de la variable.

Soluciones Examen de Estadística

UNIVERSIDAD POPULAR DEL CESAR DEPARTAMENTO DE MATEMÁTICA Y ESTADÍSTICA TALLER DE DISTRIBUCIONES DE PROBABILIDADES.

Estadística Inferencial. Resúmen

TEMA 4: DERIVADAS. En símbolos, la pendiente de la curva en P = lim Q P (pendiente de P Q).

Estadística II Examen Final - Enero Responda a los siguientes ejercicios en los cuadernillos de la Universidad.

Grado en Química Bloque 1 Funciones de una variable

PROBLEMAS RESUELTOS SELECTIVIDAD ANDALUCÍA 2004 MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES TEMA 6: TEORÍA DE MUESTRAS

Variable Aleatoria. Relación de problemas 6

C. Distribución Binomial

11. PRUEBAS NO PARAMÉTRICAS

Estadística Avanzada y Análisis de Datos

Intervalos para la diferencia de medias de dos poblaciones

Figura Sobre la definición de flujo ΔΦ.

ÍNDICE CAPITULO UNO CAPITULO DOS. Pág.

Estadística II Tema 2. Conceptos básicos en el contraste de. Curso 2010/11

PLAN DE MUESTREO. Conceptos necesarios para el muestreo

Universidad de Managua

a).- Si el número de los valores en un conjunto de datos no agrupados es impar, La mediana es determinada de la siguiente manera:

Problemas resueltos. Temas 10 y 11 11, 9, 12, 17, 8, 11, 9, 4, 5, 9, 14, 9, 17, 24, 19, 10, 17, 17, 8, 23, 8, 6, 14, 16, 6, 7, 15, 20, 14, 15.

Distribución Chi (o Ji) cuadrada (χ( 2 )

Transcripción:

La distribución t de student O lo que es lo mismo: La relación entre la cerveza y los estudios de estadística

La distribución t de student fue descubierta por William S. Gosset en 1908. Gosset era un estadístico empleado por la compañía de cerveza Guinness con quien tenía un contrato que estipulaba que no podía usar su nombre en sus publicaciones. Él recurrió al sobrenombre de Student que es como ahora conocemos el tipo de estadística que desarrolló. Lo interesante del caso es que su trabajo estaba enfocado al control de calidad de la cerveza. En el pasado otros investigadores de la compañía Guinness habían publicado artículos en los que se divulgaban secretos o información confidencial sobre el proceso de la cerveza y por eso se obligó a Gosset a aceptar la cláusula.

De acuerdo al Teorema del Límite Central, la distribución muestral de una estadística (como la media de la muestra) seguirá una distribución normal, siempre y cuando el tamaño de la muestra sea suficientemente grande. Entonces cuando conocemos la desviación estándar de la población podemos calcular un valor o calificación n z y emplear la distribución normal para evaluar probabilidades sobre la media de la muestra. Sin embargo, muchas veces los tamaños de las muestras son muy pequeños, y frecuentemente no conocemos la desviación estándar de la población. Cuando estos problemas ocurren, en estadística se recurre a una distribución conocida como la t t de student cuyos valores están dados por: t x μ s = Diferencia a probar n Desviación estándar de la diferencia o Error Estándar

Podemos ver que la ecuación es prácticamente igual a la utilizada para la distribución muestral de medias, pero reemplazando la desviación estándar de la población por la desviación n estándar de la muestra. De manera similar al caso de la distribución muestral de medias para el caso de que n > 30, en donde usamos la distribución normal, podemos encontrar la distribución de los valores t de student para aquellos casos cuando n < 30. Sin embargo, otra diferencia en su uso es el empleo de una o más tablas de valores t en lugar de la tabla para valor Z. Densidad 0.4 0.3 0. Curva de Distribución T de Student df 5 10 15 0 5 30 50 100 0.1 0.0-3 - -1 0 X 1 3

Para derivar la ecuación de esta distribución, Gosset supuso que las muestras se seleccionan de una población normal. Aunque esto parecería una suposición muy restrictiva, se puede mostrar que las poblaciones no normales que poseen distribuciones en forma casi de campana también proporcionan valores de t que se aproximan muy de cerca a esta distribución. La distribución t difiere de la de Z en que la varianza de t no es igual a 1 como en la de Z, Z sino que depende del tamaño de la muestra y siempre es mayor a uno. Unicamente cuando el tamaño de la muestra tiende a infinito las dos distribuciones serán las mismas. Curva de Distribución T de Student Densidad 0.4 0.3 0. df 5 10 15 0 5 30 50 100 0.1 0.0-3 - -1 0 X 1 3

Otra diferencia con la distribución normal, es que la forma de la distribución n t de student depende de un parámetro llamado el número n de grados de libertad. El número de grados de libertad es igual al tamaño de la muestra (número de observaciones independientes) menos 1. gl = df= n 1 Nota: cuando usemos software es posible que el número de grados de libertad se denomine como df o DF ( degrees of freedom ). Curva de Distribución T de Student Distribución Normal Normal, Media=0, DesvEst=1 Densidad 0.4 0.3 0. df 5 10 15 0 5 30 50 100 Densidad 0.4 0.3 0. 0.1 0.1 0.0-6 -4-0 X 4 6 0.0-6 -4-0 X 4 6

Las curvas muestran la forma que puede tomar la distribución t de student la cual depende del número n de grados de libertad. Como se puede apreciar se parece mucho a la distribución normal. Incluso, para un número n grande de grados de libertad (es decir de número n de datos en la muestra) las dos distribuciones son iguales. Densidad 0.4 0.3 0. Curva de Distribución T de Student df 5 10 15 0 5 30 50 100 100 grados de libertad grados de libertad 0.1 0.0-3 - -1 0 X 1 3 Aunque parece una distribución normal, la distribución t tiene un poco más de área en los extremos y menos en el centro cuando los grados de libertad son pocos. Otro punto a notar es que la distribución t es más bien una colección n de distribuciones, una para cada número n de grados de libertad.

El concepto de grados de libertad se puede visualizar haciendo referencia a la varianza muestral que es igual a: s n ( ) = xi x n 1 Esta fórmula puede verse como un promedio de las distancias a la media sobre n-1 datos. La terminología de grados de libertad resulta del hecho de que si bien s considera n cantidades, sólo n 1 de ellas pueden determinarse libremente. Por ejemplo, si tenemos 4 datos (n = 4) entonces tenemos cuatro diferencias: x i x Pero sabemos que la suma de ellas es = 0, por lo que si conocemos, por ejemplo: x1 x = 4, x x =, x4 x = entonces, la última diferencia queda definida porque x 3 x = 5 3 4-+ 3= 5 5 5= 0 por lo tanto Lo que indica que sólo 3 de las diferencias (n 1= 4 1 = 3) son libres y la otra queda definida por las demás.

La distribución t de student tiene las siguientes propiedades: La media de la distribución es igual a 0 df La varianza es igual a donde df (se usa también ν) es el número df de grados de libertad La varianza es siempre mayor que 1, aunque es muy cercana a 1 cuando se tiene un número de grados de libertad grande. Con infinitos grados de libertad la distribución t es igual a la normal. Curva de Distribución T de Student Densidad 0.4 0.3 0. df s = df df 5 10 15 0 5 30 50 100 0.1 0.0 - -1 0 X 1

La distribución t de student se puede usar cuando cualquiera de las siguientes condiciones se cumplen: La distribución n de la población n es normal La distribución n de la muestra es simétrica, unimodal, sin puntos dispersos y alejados (outliers( outliers) ) y el tamaño o de la muestra es de 15 o menos La distribución n de la muestra es moderadamente asimétrica, unimodal, sin puntos dispersos (outliers( outliers) ) y el tamaño o de la muestra está entre 16 y 30 El tamaño o de la muestra es mayor de 30, sin puntos dispersos (aunque en este caso también n se puede usar la distribución n normal).

Cuando se extrae una muestra de una población con distribución normal (o casi normal), la media de la muestra puede compararse con la media de la población usando una valor t calculado por medio de la ecuación anterior. El valor t puede entonces asociarse con una probabilidad acumulada única que representa la posibilidad de que, dada una muestra aleatoriamente extraída de la población de tamaño n, la media de la muestra sea IGUAL, MENOR o MAYOR a la media de la población, La probabilidad acumulada para una calificación t se puede calcular en la siguiente liga: http://stattrek.com/tables/t.aspx

Ejemplo 1 La compañía USALUZ produce focos. El presidente de la Cía. dice que sus focos duran 300 días. Entonces la competencia va a varios (nótese) supermercados y compra 15 focos para probar esa afirmación. Los focos de la muestra duran en promedio 90 días con una desviación estándar de 50 días. Entonces, si quieren desmentir al presidente de USALUZ necesita saber cúál es la probabilidad de que 15 focos seleccionados al azar tengan una vida promedio no mayor de 90 días. La solución de este tipo de problemas requiere calcular el valor t basado en los datos y después usar una tabla de distribución t para encontrar la probabilidad de forma similar a lo que hicimos con la distribución normal. Existe sin embargo software con el que podemos evitar el uso de tablas. Solución Primero necesitamos calcular el valor t usando nuestra fórmula Donde x 90 300 10 t = = = 0.7746 50 1.91 15 es la media de la muestra, μ la media de la población, s es la desviación estándar de la muestra y n el tamaño de la muestra. OK qué nos dice este valor?

Ahora podemos usar una tabla o software como la T Distribution Calculator (http://stattrek.com/tables/t.aspx) o minitab. Usando ésta última seleccionamos "T score" del menú de random variable e introducimos los datos: * Grados de libertad (ν): 15-1 = 14. * El valor t que obtuvimos = - 0.7745966. El resultado nos da: 0.57. Esto significa que si la verdadera vida de un foco es de 300 días, hay una probabilidad de.6% de que la vida promedio de 15 focos seleccionados al azar sea menor o igual a 90 días y nosotros ha sabríamos a qué atenernos si queremos poner en ridículo al Presidente o Jefe. Nota: Piensas que % de probabilidades de que pase algo es mucho o poco?

Veamos el resultado gráficamente Distribución t 14 grados de libertad 0.4 0.3 Densidad 0. 0.1 0.6 0.0-0.7746 0 X

Ejemplo Supongamos que las calificaciones de una prueba están distribuídos normalmente con una media de 100. Ahora supongamos que seleccionamos 0 estudiantes y les hacemos un exámen. La desviación estándar de la muestra es de 15. Cuál es la probabilidad de que el promedio en el grupo de muestra sea cuando más 110? Cuál es la probabilidad de que el promedio en el grupo de muestra sea más 110? Solución: Primero calculamos el valor t como en el caso anterior ya sea en tablas o con ayuda de herramientas tipo Minitab, Excel, etc. Nuestros datos son: Número de grados de libertad: n-1 = 0-1 = 19 La media de la población es igual a 100 La media de la muestra es igual a 110 La desviación estándar de la muestra es igual a 15 El valor t es 110 100 t = = 15 0.9814 Usando estos valores nos da un resultado de probabilidad acumulada de 0.00496. Esto implica que hay una probabilidad de 0.45% de que el promedio en una muestra sea mayor de 110.

Veamos el resultado gráficamente 0.4 Distribución t 14 grados de libertad 0.3 Densidad 0. 0.1 0.0 0 X.9814 0.00496

Ejemplo 3: Un ingeniero químico afirma que el rendimiento medio de cierto proceso en lotes es 500 gramos por milímetro de materia prima. Para verificar esta afirmación toma una muestra de 5 lotes cada mes. Si el valor de t calculado cae entre t 0.05 y t 0.05, aceptaría su afirmación (con 90% de confianza). Qué conclusión extraería de una muestra que tiene una media de 518 gramos por milímetro y una desviación estándar de 40 gramos? Suponga que la distribución de rendimientos es aproximadamente normal. Solución: De la tabla encontramos que t± 0.05 para 4 grados de libertad es ±1.711. Por tanto, el fabricante queda satisfecho con esta afirmación si una muestra de 5 lotes rinde un valor t entre 1.711 y 1.711. 518 500 Se procede a calcular el valor de t: t =.5 Este es un valor muy por arriba de 1.711, por lo que el fabricante diría que no es cierta la afirmación. Sin embargo, si se encuentra la probabilidad de obtener un valor de t con 4 grados de libertad igual o mayor a.5 se busca en la tabla y es aproximadamente de 0.0. De aquí que es probable que el fabricante concluya que el proceso produce un mejor rendimiento de producto que el que suponía. 40 5 =

Distribución de probabilidad para t de student 90% del área -1.711 1.711 El valor de t =.5 cae en esta zona de la distribución