Teorema del límite central

Documentos relacionados

Desigualdad de Tchebyshev

CAPÍTULO 6 DISTRIBUCIONES MUESTRALES

Tema 14: Inferencia estadística

Estadística y sus aplicaciones en Ciencias Sociales Práctico 4 - Solución Curso ) Como se trata de muestreo sin reposición, se tiene C 5 3

CAPÍTULO 6 DISTRIBUCIONES MUESTRALES

Tema 4. Estimación de parámetros

) se obtiene un valor específico del estimador que recibe el nombre de estimación del parámetro poblacional θ y lo notaremos por = g ( x 1

Objetivos. 1. Inferencia Estadística. INFERENCIA ESTADÍSTICA Tema 3.1: Muestreo. M. Iniesta Universidad de Murcia

ORGANIZACIÓN DE LOS DATOS.

SUCESIONES. Si dividimos cada dos términos consecutivos de la sucesión de Fibonacci, obtenemos:

Ejercicios de intervalos de confianza en las PAAU

Preguntas más Frecuentes: Tema 2

La ley de los grandes números

Tema 7 DISTRIBUCIONES CONTINUAS DE PROBABILIDAD. X- μ. f(x) = e para - < x < Z 2. . e para - < z <

8. INTERVALOS DE CONFIANZA

INFERENCIA ESTADÍSTICA CONCEPTOS BÁSICOS

La sucesión de Fibonacci y el número Φ Si dividimos cada dos términos consecutivos de la sucesión de Fibonacci, obtenemos:

Intervalos de confianza para la media

Intervalo de confianza para µ

PROBLEMAS RESUELTOS SELECTIVIDAD ANDALUCÍA 2013 MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES TEMA 6: TEORÍA DE MUESTRAS

Profr. Efraín Soto Apolinar. Área bajo una curva

Series Numéricas. Una forma de definir e es a través de la suma: ! + 1 1! + 1 2! + 1 3! + 1 4! n. cuyo límite es e, es decir:

Probabilidad y Estadística 2003 Intervalos de Confianza y Test de Hipótesis paramétricos

Problemas de Estimación de Una y Dos Muestras. UCR ECCI CI-1352 Probabilidad y Esradística Prof. M.Sc. Kryscia Daviana Ramírez Benavides

4 - DESIGUALDAD DE CHEBYSHEV- LEY DE LOS GRANDES NUMEROS

Introducción a la Inferencia Estadística. Material Preparado por Olga Susana Filippini y Hugo Delfino

Matemáticas 1 1 EJERCICIOS RESUELTOS: Funciones de una variable. Elena Álvarez Sáiz. Dpto. Matemática Aplicada y C. Computación

Estimadores Puntuales: Propiedades de estimadores Sebastián Court

ESTADÍSTICA DESCRIPTIVA

ESTADISTICA UNIDIMENSIONAL

SOLUCIÓN EXAMEN I PARTE II

Pre-PAES 2016 Media aritmética, moda y mediana.

Técnicas Cuantitativas II Muestra y Estadísticos Muestrales. TC II Muestra y Estadísticos Muestrales 1 / 20

3. Las medidas de centralización

EJERCICIOS RESUELTOS TEMA 8

T ema 6 DISTRIBUCIONES DISCRETAS DE PROBABILIDAD. x 1. x 2 = 1 = 2. x 3 = 3. x 4. Variable aleatoria: definición y tipos:

Explicación de la tarea 10 Felipe Guerra. Para la explicación de esta tarea veamos primeramente que es lo que nos están pidiendo.

IES Fco Ayala de Granada Soluciones Germán-Jesús Rubio Luna INTERVALOS DE CONFIANZA PARA PROPORCIONES (2007)

X X. ... n. Medidas de tendencia Central Estadígrafos de tendencia central.

MEDIDAS DE TENDENCIA CENTRAL. _ xi

DISTRIBUCIONES DE PROBABILIDAD.- DISTRIBUCIÓN BINOMIAL (BERNOULLI) DISTRIBUCIÓN NORMAL (GAUSS)

Intervalos de confianza Muestras grandes

PRUEBAS DE ACCESO A LA UNIVERSIDAD L.O.G.S.E

UNIVERSIDAD DE ATACAMA

Introducción a la Inferencia Estadística. Muestreo en poblaciones normales

Tema 9. Inferencia Estadística. Intervalos de confianza.

Sucesiones de números reales

Sumatoria, Progresiones y Teorema del Binomio

TEMA 7. ESTIMACIÓN Estimación puntual. Propiedades deseables de los estimadores Introducción y definiciones Estimadores Insegados

En el tema anterior se estudió que muchas decisiones se toman a partir de resultados muestrales. Por ejemplo:

Estimación de una proporción

Práctica 7 CONTRASTES DE HIPÓTESIS

INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA DISTRIBUCIÓN EN EL MUESTREO

1.1 INTERVALOS DEL 95% DE CONFIANZA PARA LA MEDIA DE UNA POBLACIÓN NORMAL VARIANZA CONOCIDA

MINITAB y MODELOS DE REGRESIÓN

DISTRIBUCIONES DE PROBABILIDAD. DISTRIBUCIÓN DE PROBABILIDAD BINOMIAL.

UNIDAD 3.- INFERENCIA ESTADÍSTICA I

2. Estimación de errores de medidas directas

DISTRIBUCIÓN DE LA MEDIA MUESTRAL. (a) Las muestras de tamaño n obtenidas en una población de media y desviación típica,

Análisis de datos en los estudios epidemiológicos II

Importancia de las medidas de tendencia central.

Estadística Teórica II

EJERCICIOS DE SERIES DE FUNCIONES

Una sucesión es un conjunto infinito de números ordenados de tal forma que se puede decir cuál es el primero, cuál el segundo, el tercero, etc.

Transcripción:

Teorema del límite cetral Carles Rovira Escofet P03/75057/01008

FUOC P03/75057/01008 Teorema del límite cetral Ídice Sesió 1 La distribució de la media muestral... 5 1. Distribució de la media muestral para variables ormales... 5 1.1. Caso de desviació típica poblacioal coocida... 5 1.2. Caso de desviació típica poblacioal descoocida. La t de Studet... 8 2. Resume... 10 Ejercicios... 11 Sesió 2 El teorema del límite cetral... 13 1. Aproximació de la biomial a la ormal... 13 1.1. Estudio de la proporció... 16 2. El teorema del límite cetral... 17 2.1. Cotrol de calidad... 18 3. Resume... 19 Ejercicios... 20

FUOC P03/75057/01008 5 Teorema del límite cetral La distribució de la media muestral E esta sesió estudiaremos el comportamieto de la media muestral de ua variable. Por ejemplo, supogamos que queremos estudiar la media de la altura de los estudiates de la UOC: etre ellos hemos seleccioado ua muestra al azar, los hemos medido y hemos calculado la media de las alturas de los estudiates de la muestra; ahora queremos ver cómo se comporta esta media muestral. Veremos que si sabemos que la variable que se estudia es ormal, etoces la media muestral tambié es ormal, pero co desviació típica meor. Y tambié veremos que si la variable o es ormal pero la muestra es lo bastate grade, la media tambié será aproximadamete ormal. 1. Distribució de la media muestral para variables ormales Supogamos que teemos ua muestra x 1,..., x de ua variable aleatoria ormal. Recordemos que la media se defie como: x = 1 -- x i. i = 1 Esta media depede de la muestra. Normalmete tedremos sólo ua muestra, pero podríamos tomar muchas diferetes, de maera que a cada ua le correspodería ua media diferete. Esto os da pie a hablar de la distribució muestral de la media. Para idicar que se trata de ua variable aleatoria, la deotaremos por X. Observad que...... para ua colecció de muestras, tedremos la correspodiete colecció de medias muestrales,...,. x 1 x k Para estudiarla, deberemos distiguir dos casos: cuado la desviació típica de la variable que medimos es coocida y cuado es descoocida. 1.1. Caso de desviació típica poblacioal coocida Pesemos e el ejemplo de las alturas de los estudiates de la UOC. Supogamos que e u estudio aterior se había demostrado que las alturas de los estudiates de la UOC seguía ua distribució ormal de media 172 cm y desviació típica de 11 cm. Ituitivamete vemos que la media de las observacioes de la muestra que teemos debe de ser u valor cercao a 172. Tambié parece razoable pesar que observacioes mayores que la media poblacioal, 172, se compesará co valores meores, y que cuato mayor sea la muestra, más cercao será el valor de la media muestral a 172. Desviació poblacioal y desviació muestral La desviació poblacioal es la desviació real de la variable, que e este caso supoemos coocida. Cuado calculamos la desviació a partir de muestras, hablamos de desviació muestral.

FUOC P03/75057/01008 6 Teorema del límite cetral Pesemos ahora que teemos ua muestra de cie estudiates de la UOC. Hacemos diez grupos de diez estudiates y hacemos la media aritmética para cada grupo. Obteemos diez valores, correspodietes a las diez medias x 1,..., x 10. Parece razoable pesar que la media de estos uevos datos sería tambié 172. Por otra parte, tambié parece razoable pesar que estos uevos valores sea más cercaos a 172 que los datos origiales, ya que e cada ua de las medias se os habrá compesado valores grades co valores pequeños. Si la variable que estudiamos sigue ua distribució ormal co media µ y desviació típica σ coocidas, etoces la media muestral es tambié ormal co la misma media µ y desviació típica σ, dode es el tamaño de la muestra. Por tato, tipificamos la variable X y obteemos que: X µ ------------- σ ------ Demostració La demostració de este resultado es cosecuecia de ua importate propiedad de las variables aleatorias ormales. La propiedad es la siguiete: si X e Y so variables aleatorias idepedietes co leyes N ( µ 1, σ 2 1 ) y N ( µ 2, σ 2 2 ) respectivamete, etoces X + Y tiee ua ley: N ( µ 1 + µ 2, σ 2 1 + σ 2 2 ) sigue ua distribució ormal estádar. E uestro ejemplo la variable que recoge todas las posibles medias de cada grupo de diez estudiates sigue ua distribució ormal de media 172 cm y desviació típica 11 / 10 = 3,48 cm. Observamos que, efectivamete, cuato mayor es la muestra, meor resulta la desviació típica y, por tato, hay meos dispersió. Este cociete que os da la desviació típica de la media aritmética se cooce como error estádar. Si σ es la desviació típica de la població y el tamaño de la muestra, se defie el error estádar de la media muestral como: Observad que...... el error estádar es cada vez meor cuato mayor es el tamaño de la muestra. σ ------ Ejemplo de error estádar de ua media muestral Cosideremos las alturas de los estudiates de la UOC. Supogamos que sabemos que se trata de ua variable aleatoria ormal de media 172 cm y desviació típica 11 cm y que hemos tomado ua muestra de trescietos estudiates al azar. Etoces podemos cotestar pregutas del tipo siguiete: a) Cuál es la probabilidad de que la media sea meor que 170 cm? La distribució de la media muestral es ormal de media 172 cm y desviació típica: ------------- 11 = 0,635 300

FUOC P03/75057/01008 7 Teorema del límite cetral Tipificamos la variable para obteer ua ormal (0,1). Debemos calcular: PX ( < 170) = P -------------------- X 172 2 < --------------- = PZ ( < 3,149) = 0,0008 0.635 0,635 ya que Z es ua variable aleatoria ormal (0,1). b) Cuál es la probabilidad de que la distacia etre la media muestral (de esta muestra de trescietos estudiates) y la media poblacioal, 172 cm, sea meor que 1 cm? Por u razoamieto parecido (si la distacia etre dos úmeros a y b ha de ser meor que k, se debe cumplir: a b < k): 1 X µ 1 P( X µ < 1) = P( 1 < X µ < 1) = P --------------- < --------------- < --------------- 0,635 0,635 0,635 = P ( 1,57 < Z < 1,57 ) dode Z es ua variable aleatoria ormal (0,1). Si buscamos e las tablas de la ley ormal (0,1), vemos que esta probabilidad es igual a 0,8836. Teemos así ua probabilidad del 0,8836 de obteer u valor para la media muestral que difiera e meos de 1 cm del valor real de la media cuado tomamos ua muestra de trescietos idividuos. Observad que e igua parte hemos utilizado el hecho de que la media fuese exactamete 172 cm. Es decir, si sabemos que la variable altura sigue ua ormal co ua desviació típica de 11 cm y tomamos ua muestra de trescietos estudiates, sabemos que la diferecia etre su media y la media poblacioal µ (que quizá o coozcamos) será meor de 1 cm co ua probabilidad del 0,8836. c) Cosideremos ahora el problema iverso. Supogamos que descoocemos la media µ de la altura de los estudiates de la UOC y queremos estudiar ua muestra de maera que la diferecia etre la media de la muestra y la de la població µ sea meor que 1 cm co ua probabilidad del 0,95. De qué medida tiee que ser uestra muestra? Sabemos que la variable estadística tipificada: X µ ------------- ------ 11 se distribuye como ua ormal (0,1). Por otra parte, si observamos las tablas, os damos cueta de que si Z es ua ormal (0,1): P( 1,96 < Z < 1,96) = 0,95. Por tato: 0,95 P 1,96 < X ------------- µ < ------ 11 1,96 = = P 1,96 ------- 11 < X µ < 1,96 ------- 11 Y si impoemos que la diferecia X µ debe ser meor que 1 cm, obteemos: 1,96 ------- 11 < 1 Por tato, > 11 1,96, y así: > ( 11 1,96) 2 = 464,8. Etoces, si tomamos 465 idividuos para llevar a cabo el estudio, sabemos que la diferecia etre la media muestral que obtedremos y la media real será meor de 1 cm, co ua probabilidad del 0,95. Fijaos e que cuato mayor sea el tamaño de la muestra, meor será la diferecia etre la media muestral y la poblacioal. Si se multiplica el umerador y el deomiador por, podemos escribir el resultado que hemos visto e este apartado de otra maera.

FUOC P03/75057/01008 8 Teorema del límite cetral Si la variable que estudiamos sigue ua distribució ormal co media µ y desviació típica σ coocida, etoces: i = 1 X i µ sigue ua distribució ormal estádar. --------------------------- σ 1.2. Caso de desviació típica poblacioal descoocida. La t de Studet Fijémoos e que e los ejemplos estudiados ateriormete ecesitábamos dos cosas: que la variable que se estudiaba fuese ormal; que el valor de la desviació típica de la variable fuese coocido. Estos dos hechos se cooce gracias a estudios previos. A meudo este estudio o se lleva a cabo, pero podemos supoer que la variable es ormal. E este caso deberemos hacer ua estimació de la desviació típica co la llamada desviació típica muestral: s = 1 ------------ ( x i x) 2 1 i = 1 de maera que e los cálculos del apartado aterior reemplazaremos la σ por la s. Etoces la distribució muestral de la media ya o es ua distribució ormal, como sucedía cuado e lugar de s coocíamos el autético valor σ de la desviació. Las variables aleatorias ormales so habituales E muchos casos es habitual supoer que ua variable aleatoria es ormal. Alguos ejemplos so: el peso o la altura de las persoas, el error que comete los aparatos de medida, el peso de la fruta, las vetas semaales de ua tieda, etc. Observad que...... e el caso de la desviació típica muestral se divide por 1, o por. Varios estudios realizados por W.S. Gosset al fial del siglo XIX demostraro que e este caso se obtiee ua distribució diferete de la ormal, auque para tamaños lo bastate grades se parece bastate. Esta ueva distribució se cooce co el ombre de t de Studet co 1 grados de libertad. Esto sigifica que por cada medida de la muestra,, e realidad teemos ua distribució diferete. W.S. Gosset W.S. Gosset trabajaba e la empresa cervecera Guiess y utilizaba el seudóimo de Studet para firmar sus trabajos. La distribució t de Studet co grados de libertad, que deotaremos por t, es muy parecida a la distribució ormal (0,1): es simétrica alrededor del cero, pero su desviació típica es u poco mayor que la de la ormal (0,1), es decir, los valores que toma esta variable está u poco más dispersos. No obstate, cuato mayor es el úmero de grados de libertad,, más se aproxima la distribució t de Studet a la distribució ormal (0,1). Cosideraremos que podemos aproximar la t por ua ormal estádar para > 100. El valor real y la distribució t de Studet Observad que cuado coocemos el valor autético de σ, la variable X sigue siempre ua distribució ormal, pero su variaza depede de.

FUOC P03/75057/01008 9 Teorema del límite cetral El gráfico siguiete represeta las fucioes de desidad de la t de Studet para diferetes valores de y co ua líea más gruesa, la desidad de ua distribució ormal (0,1). Si σ es descoocida y es el tamaño de la muestra, calcularemos el error estádar mediate el cociete: El error estádar es meor cuato mayor es el tamaño de la muestra. s Error estádar = ------ Este error estádar os permite obteer u resultado uevo importate. Si la variable que estudiamos sigue ua distribució ormal co media µ y desviació típica descoocida, etoces: X µ ------------- s ------ sigue ua distribució t 1, es decir, ua t de Studet co 1 grados de libertad. Obviamete, la maera más fácil de calcular probabilidades relacioadas co ua t de Studet es co cualquier software estadístico o, icluso, ua hoja de cálculo. De todos modos, como e el caso de la ormal, cometaremos cómo podemos utilizar uas tablas estadísticas. Las tablas que os da la distribució de la t de Studet so parecidas a las de la distribució ormal estádar. No obstate, y dado que para cada valor de los grados de libertad teemos ua distribució diferete, las tablas habituales sólo os sirve para ocho probabilidades determiadas (para otros valores hay

FUOC P03/75057/01008 10 Teorema del límite cetral que utilizar algú software apropiado). La forma de utilizar las tablas es la siguiete: buscamos e la primera columa el úmero de grados de libertad, os situamos e aquella fila y determiamos qué putos os deja la probabilidad acumulada que os iteresa. Ejemplo de utilizació de las tablas de la t de Studet Ua empresa idica e u paquete de arroz que el peso medio del paquete es de 900 gramos. E ua ispecció hemos aalizado el peso e gramos de 10 paquetes de arroz y hemos obteido los datos siguietes: 890 901 893 893 896 895 894 895 904 899 a) Cuál es la probabilidad de que la distacia etre la media poblacioal y la media muestral sea mayor de 3 gramos? Es razoable pesar que el peso e gramos de u paquetede arroz es ua variable aleatoria ormal co media del peso que idica el paquete, y co ua desviació típica determiada. Es decir, de media los paquetes debería teer 900 gramos, pero a causa de los errores de medida de los aparatos que los llea, alguos cotedrá u poco más de 900 gramos y otros, u poco meos. Supogamos, pues, que la variable de iterés (el peso del paquete) es ormal, pero o sabemos ada de su desviació típica. Co uestros datos podemos estimar la desviació típica y obteemos: s = 4,19 Etoces podemos utilizar el hecho de que ( x µ ) ( s ) es ua observació de ua t de Studet co 1 grados de libertad (e uestro ejemplo, puesto que teemos diez datos, será ua t de Studet co ueve grados de libertad). Ahora podemos calcular: 3 X µ 3 P( X µ > 3) = 1 P( 3 < X µ < 3) = 1 P ------------ < ------------- < ------------ 4,19 ----------- 4,19 ----------- 4,19 ----------- 10 10 10 = dode ya sabemos que t 9 es ua t de Studet co ueve grados de libertad. Podemos calcular esta probabilidad e las tablas: Etoces: = 1 P( 2,26 < t 9 < 2,26) P( 2,26 < t 9 < 2,26) = 1 2P(t 9 2,26) = 1 2 0,025 = 0,95 1 P( 2,26 < t 9 < 2,26) = 1 0,95 = 0,05 Por tato, a partir de estos datos, todo parece idicar que la empresa egaña a sus clietes. E efecto, si se toma ua muestra de tamaño 10, la probabilidad de que la diferecia etre la media muestral y la real sea mayor de sólo 3 gramos es de u 5%. E cambio, la media de uestra muestra es de 896 gramos, 4 gramos meos que la catidad que idica el paquete. E este caso los valores que os ha aparecido os ha permitido utilizar las tablas. E otras ocasioes ecesitaremos utilizar el ordeador. 2. Resume E esta sesió hemos estudiado la distribució de la media de datos que proviee de ua distribució ormal, y hemos difereciado dos casos: cuado la variaza poblacioal es coocida y cuado la variaza es descoocida. Para estudiar este último caso, hemos teido que itroducir la distribució t de Studet.

FUOC P03/75057/01008 11 Teorema del límite cetral Ejercicios 1. El gasto mesual de la familia mexicaa Robles sigue ua distribució ormal de media de 3.000 pesos y variaza 500. Supogamos que el gasto de cada mes es idepediete del de los otros meses. Si el igreso aual es de 37.000 pesos, cuál es la probabilidad de que o gaste más de lo que gaa? Cuáto debería gaar para teer ua seguridad del 99% de que o gastará más de lo que ha gaado? 2. Hemos hecho ua ecuesta etre los hombres de ua població determiada y, a partir de los resultados, deducimos que el peso de los hombres de esta població sigue ua distribució ormal de media 72 kg. Para saber si los datos que hemos obteido so fiables, pesamos a cuatro de los ecuestados y obteemos ua media de 77,57 kg, co ua desviació típica de 3,5 kg. Teemos suficietes motivos para pesar que los ecuestados ha metido cuado os ha dicho su peso? Solucioario 1. Llamamos X A al gasto aual. Puesto que el gasto mesual X M sigue ua ley ormal de media 3.000 y desviació típica 500 y 12 3.000 = 36.000 y 12 500 = 77,4597 X sabemos que A 36.000 ------------------------------- 77,4597 sigue ua distribució ormal estádar. Por tato, la probabilidad de que la familia Robles gaste meos de 37.000 pesos es: PX ( A < 37.000) P X A 36.000 37.000 36.000 = ------------------------------- < ------------------------------------------- = PZ ( < 12,9099) 77,4597 77,4597 dode Z es ua distribució ormal estádar. Si observamos las tablas de la distribució ormal estádar, observamos que la probabilidad de que sea meor que 3 ya es 1. Por tato, la probabilidad es 1, es decir, podemos asegurar co casi u 100% de certeza que o gastará más de lo que gaa. Para respoder a la seguda preguta, debemos ecotrar ua catidad G tal que: PX ( A < G) P X A 36.000 G 36.000 = ------------------------------- < ---------------------------- = 0,99 77,4597 77,4597 Si observamos las tablas de la ormal, vemos que la catidad: G 36.000 ---------------------------- 77,4597

FUOC P03/75057/01008 12 Teorema del límite cetral debería ser igual a 2,33 y, por tato, si resolvemos la ecuació siguiete: G 36.000 ---------------------------- 77,4597 = 2,33 obteemos que es preciso que G = 36.180,4811 para teer ua seguridad del 99% de que esta familia o gastará más de lo que gaa. 2. Observamos que la diferecia etre la media de uestros datos y el valor poblacioal es de 5,57. Calcularemos la probabilidad de que, si escogemos a cuatro de los ecuestados al azar, la media del peso de estos idividuos difiera e 5,57 kg o más de la media que coocemos de la població. Por tato, debemos calcular: P( X µ 5,57) Si esta probabilidad fuese pequeña, os idicaría que los ecuestados seguramete ha metido sobre su peso. Co la ayuda de las tablas, calculamos la probabilidad del complemetario: P( X µ < 5,57) P( 5,57 < X µ < 5,57) P 5,57 X µ ----------- 3,5 < 5,57 ------------- 3,5 < ------------ = = 3,5 -------- -------- -------- 4 4 4 = = P( 3,18 < t 3 < 3,18) = 1 2Pt ( 3 3,18) = 1 0,05 = 0,95 dode t 3 es ua t de Studet co tres grados de libertad. Debemos utilizar la t de Studet porque sabemos que la variable de iterés sigue ua distribució ormal, pero descoocemos su desviació típica (sólo teemos la desviació típica de la muestra). Por tato: P( X µ 5,57) = 1 P( X µ < 5,57) = 0,05 Así pues, parece que os ha metido, ya que la probabilidad de que la diferecia etre las medias de los pesos que os ha dicho y 72 es muy pequeña, del orde de 0,05. Observad que podemos hacer todos estos cálculos co las tablas de la t de Studet.

FUOC P03/75057/01008 13 Teorema del límite cetral El teorema del límite cetral La distribució de la media muestral de ua població ormal es ua distribució ormal co la misma media poblacioal y co desviació típica el error estádar. Este hecho os permite calcular probabilidades cuado teemos ua muestra de ua variable co distribució ormal y desviació típica coocida. Cuado o coocemos la desviació típica de la variable, tambié podemos hacer cálculos co la distribució t de Studet. E esta sesió veremos cómo debemos proceder cuado o sabemos si la variable de iterés sigue ua distribució ormal o o, o cuado sabemos seguro que su distribució o es ormal. Cuado la muestra es lo bastate grade, la solució os viee dada por uo de los resultados fudametales de la estadística: el teorema del límite cetral. Lo itroduciremos co u caso particular: el estudio de la biomial. 1. Aproximació de la biomial a la ormal Supogamos que jugamos diariamete a u úmero de ua lotería que, etre otros premios, devuelve el importe jugado a todos los úmeros que acaba e la misma cifra que el úmero gaador. Cosideremos la variable X(), que o da el úmero de veces que os ha devuelto el importe jugado cuado se ha realizado sorteos. E este caso sabemos que la variable aleatoria X() sigue ua distribució biomial de parámetros y p = 0,1. E efecto, se ha hecho sorteos (es decir, se ha repetido u mismo experimeto veces de maera idepediete) y e cada sorteo la probabilidad de que os devuelva el diero es p = 1/10 = 0,1 (probabilidad de éxito). Si embargo, observemos qué sucede al aumetar el valor de co la fució de desidad de probabilidad de la variable X(). Si dibujamos esta fució de desidad de probabilidad para = 3, obteemos el gráfico siguiete: Biomial Si X sigue ua distribució biomial de parámetros y p, etoces: PX ( = k) = p k ( 1 p) k k para los k {0,..., }

FUOC P03/75057/01008 14 Teorema del límite cetral Si ahora cosideramos = 10, los posibles valores va del 0 al 10, y el gráfico de la fució de desidad de probabilidad es: Si tomamos = 100, el gráfico es: Y si por ejemplo tomamos = 500, el gráfico de la fució de probabilidad es:

FUOC P03/75057/01008 15 Teorema del límite cetral Vemos, pues, que el perfil de este gráfico cada vez se parece más al de la fució de desidad de probabilidad de ua variable aleatoria ormal. La coclusió que extraemos de este experimeto es que si es lo bastate grade, la variable aleatoria X() es aproximadamete ormal. Determiaremos ahora la media y la desviació de esta variable aleatoria, que será las correspodietes a la misma X(): La esperaza de esta variable es: p = 0,1 y la variaza: p(1 p) = (0,1) (0,9) = 0,09 Éstos será los parámetros de la variable aleatoria ormal que aproxima la distribució de X(). Así pues, si es lo bastate grade, X() se comporta como ua N(0,1; 0,09). Sea X ua variable aleatoria co distribució biomial de parámetros y p. Si es grade, etoces la distribució de X es aproximadamete ormal co esperaza µ = p y variaza σ 2 = p(1 p). E la práctica se suele utilizar esta aproximació cuado p y (1 p) so mayores que 5, o bie cuado > 30. Este resultado os permite simplificar bastate los cálculos e alguas situacioes. Ejemplo de la lotería Cuál es la probabilidad aproximada de que e u año os haya devuelto el diero al meos cicueta veces? De hecho, debemos calcular la probabilidad P(X(365) 50). Si quisiéramos obteer el valor exacto de esta probabilidad, por el hecho de que X(365) es ua biomial de parámetros 365 y p = 0,1, deberíamos hacer el cálculo siguiete: P(X(365) 50) = 1 P(X(365) < 50) = = 1 P(X(365) = 0) P(X(365) = 1) P(X(365) = 2)... P(X(365) = 49) dode cada ua de estas probabilidades se ecotraría mediate la fórmula de la biomial que ya coocemos, e uestro caso: PX365 ( ( ) = k) = 365 ( 0,1) k ( 0,9) 365 k k E cambio, si reuciamos a pedir que la probabilidad sea exacta y os coformamos co ua muy buea aproximació, podemos utilizar el hecho de que la distribució de X(365) se puede aproximar por ua ormal de parámetros µ = 365 0,1 = 36,5 y σ 2 = 365 0,09 = 32,85. Así: PX365 ( ( ) 50) P X ------------------------------------- ( 365) 36,5 50 36,5 = ------------------------ 32,85 32,85

FUOC P03/75057/01008 16 Teorema del límite cetral y si llamamos Z a ua variable aleatoria ormal (0,1), esta probabilidad será aproximadamete: 50 36,5 PZ ------------------------ = PZ ( 2,36) = 0,0091 32,85 Por tato, la probabilidad aproximada de que os devuelva el diero cicueta veces o más a lo largo del año es úicamete del 0,0091. Observad que hemos calculado P(X(365) 50), pero que esta catidad es la misma que P(X(365) 49,5), ya que la variable sólo toma valores aturales. Fijaos e que si la aproximamos por la ormal, obtedremos: PX365 ( ( ) 49,5) P X( 365) 36,5 49,5 36,5 = ------------------------------------- ------------------------------ 32,85 32,85 = 49,5 36,5 PZ ------------------------------ = PZ ( 2,26) = 0,0119 32,85 que es ua catidad ligeramete diferete de la obteida ates. Se dice que este valor se ha obteido haciedo ua correcció de cotiuidad, ya que aproximamos ua variable discreta por ua cotiua. Podemos cosiderar bueos los dos resultados. 1.1. Estudio de la proporció Hemos visto que cuado es grade, podemos aproximar ua biomial (,p) por ua ormal de parámetros µ = p y σ 2 = p(1 p). Por otro lado, sabemos que podemos cosiderar la variable aleatoria biomial como la suma de variables aleatorias co distribució de Beroulli de parámetro p. Si dividimos esta suma por, obteemos claramete la proporció de éxitos. Ua proporció correspode a hacer la media de variables aleatorias de Beroulli de parámetro p, dode es el tamaño de la muestra y p, la probabilidad de éxito de cada acotecimieto idividual. Ejemplo de cálculo de ua proporció Si queremos calcular la proporció de catalaes que se ha coectado hoy a Iteret, podemos cosiderar que a cada catalá le correspode ua variable Beroulli que vale 1 si se coecta o 0 si o lo hace. Para calcular la proporció, debemos dividir el úmero de catalaes que se ha coectado por el úmero total de catalaes. Puesto que hemos visto que la suma de distribucioes de Beroulli de parámetro p, que es ua biomial (,p), es aproximadamete ua distribució ormal co media p y variaza p(1 p), está claro que la proporció (que es la suma de las distribucioes de Beroulli dividida por ), tedrá esperaza p y desviació típica p( 1 p). Por tato, cuado el tamaño de la muestra,, es grade, la distribució de la proporció es aproximadamete ua distribució ormal de esperaza p y desviació típica p( 1 p). E este caso p( 1 p) correspode al error estádar. Ejemplo de la lotería E el ejemplo de la lotería podemos pesar que X(), el úmero de veces que os ha devuelto el diero e sorteos, es ua suma de variables, cada ua de las cuales vale 1 si aquel día cocreto os ha devuelto el diero, y 0 e caso cotrario. La suma de las variables os da el úmero de veces que os ha devuelto el diero e los sorteos, y si dividimos por obteemos la proporció de sorteos e los que esto sucede. Utilidad de las proporcioes La estadística cada vez se utiliza más y las ecuestas aparece todos los día e los diarios. Nos iteresa saber qué proporció de electores votará a u determiado partido, qué proporció de ciudadaos rechaza u determiado pla o ua determiada ley que está preparado el gobiero, qué proporció de cosumidores estará iteresados e u uevo producto que queremos lazar al mercado, etc.

FUOC P03/75057/01008 17 Teorema del límite cetral Ejemplo de distribució de la proporció Pregutamos a ua muestra de habitates de ua població su opiió sobre la posible costrucció de u patao. La probabilidad de que u idividuo cocreto de la població esté de acuerdo co la costrucció del patao es p, y es el úmero de habitates etrevistados. El 30% de los ecuestados está a favor de la costrucció del patao, es decir, podemos establecer que p = 0,3. Si hemos pregutado a cuatrocietos habitates, etoces ecotramos que la distribució de la proporció de habitates que está a favor de la costrucció del patao, que deotaremos por p, es: 0,3 1 0,3 N 0,3; -------------------------------- ( ) 400 = N ( 0,3; 0,0005 ) Para calcular la probabilidad de que la proporció de habitates a favor sea mayor del 40%, deberíamos hacer: Ppˆ ( > 0,4) P pˆ 0,3 0,4 0,3 = ---------------------- > ----------------------- = PZ ( > 4,47) = 0 0,0005 0,0005 dode Z idica ua distribució ormal estádar. 2. El teorema del límite cetral Sabemos que la distribució de la media muestral de ua variable ormal o bie tiee distribució ormal o bie se correspode co ua t de Studet. Tambié hemos visto que si las variables origiales sigue ua distribució de Beroulli, etoces su media es ua proporció y, e este caso, cuado es lo bastate grade, su distribució muestral tambié es ua ormal. El último resultado es cierto sea cual sea la distribució de los datos origiales. Es decir, o es preciso que partamos i de distribucioes ormales i de distribucioes de Beroulli, ya que para muestras de tamaños lo bastate grades, la distribució de la media muestral es ormal sea cual sea la distribució origial. Este resultado fudametal de la estadística tiee u ombre propio: el teorema del límite cetral. El teorema del límite cetral dice que si ua muestra es lo bastate grade ( > 30), sea cual sea la distribució de la variable de iterés, la distribució de la media muestral será aproximadamete ua ormal. Además, la media será la misma que la de la variable de iterés, y la desviació típica de la media muestral será aproximadamete el error estádar. Qué sigifica bastate grade? Cosideraremos que es lo bastate grade cuado, como míimo, > 30. Ua cosecuecia de este teorema es la siguiete: Dada cualquier variable aleatoria co esperaza µ y para lo bastate grade, la distribució de la variable ormal estádar. Ejemplo de aplicació del teorema del límite cetral ( X µ ) ( error estádar) es ua Cálculo del error estádar Recordemos que si la variable tiee ua desviació típica coocida σ, el error estádar se puede calcular como σ. Cuado σ es descoocida, calculamos el error estádar como s. Ua empresa de mesajería que opera e la ciudad tarda ua media de 35 miutos e llevar u paquete, co ua desviació típica de 8 miutos. Supogamos que durate el día de hoy ha repartido doscietos paquetes.

FUOC P03/75057/01008 18 Teorema del límite cetral a) Cuál es la probabilidad de que la media de los tiempos de etrega de hoy esté etre 30 y 35 miutos? b) Cuál es la probabilidad de que, e total, para los doscietos paquetes haya estado más de 115 horas? Cosideremos la variable X = Tiempo de etrega del paquete. Sabemos que su media es 35 miutos y su desviació típica, 8. Pero fijaos e que o sabemos si esta variable sigue ua distribució ormal. Durate el día de hoy se ha etregado = 200 paquetes. Es decir, teemos ua muestra x 1, x 2,..., x de uestra variable. Por el teorema del límite cetral sabemos que la media muestral se comporta como ua ormal de esperaza 35 y desviació típica: 8 ------------- = 0,566 200 Si utilizamos esta aproximació, ya podemos cotestar a la preguta a. Debemos calcular: 30 P( 30 X 35) P 35 X 35 35 35 = ------------------- ---------------- ------------------- 0,566 0,566 0,566 que es aproximadamete igual a la probabilidad siguiete: P 30 ------------------- 35 Z 35 ------------------- 35 0,566 0,566 = P ( 8,83 Z 0 ) = PZ ( 0) PZ ( 8,83) = = 0,5 0= 0,5 dode Z es ua ormal (0,1). Es decir, teemos ua probabilidad aproximada del 0,4616 de que la media del tiempo de etrega de hoy haya estado etre 30 y 35 miutos. Por lo que respecta a la seguda preguta, de etrada debemos pasar las horas a miutos, ya que ésta es la uidad co la que os viee dada la variable. Observad que 115 horas por 60 miutos os da 6.900 miutos. Se os pide que calculemos la probabilidad siguiete: PX 6.900 > --------------- 200 = PX ( > 34,5) y como que sabemos que la media se distribuye aproximadamete como ua ormal de media 35 y desviació típica 0,566 (supodremos siempre que la distribució de la media es ormal, ya sea porque la variable de iterés es ormal o porque la muestra es lo bastate grade), esta probabilidad se puede aproximar por la probabilidad de ua distribució ormal estádar Z: PZ > 34,5 ---------------------- 35 = PZ ( > 0,88) = 1 PZ ( < 0,88) = 1 0,1894 = 0,8106 0,566 2.1. Cotrol de calidad Uo de los casos más habituales e los que podemos aplicar el teorema del límite cetral es a la hora de hacer u proceso de cotrol de calidad. Etederemos por cotrol de calidad el seguimieto de cierta variable aleatoria e u proceso de producció a partir de la media de muestras sucesivas. Estableceremos u itervalo, de maera que las medias que caiga fuera de este itervalo os idicará que existe algua aomalía e el proceso de pro-

FUOC P03/75057/01008 19 Teorema del límite cetral ducció e aquel istate. Los límites de este itervalo se deomia límites de cotrol. Si µ es la esperaza de la variable de iterés, σ la desviació típica y cosideramos ua muestra de esta variable de tamaño, los límites de cotrol vedrá dados por µ + 3σ y µ 3σ. Es decir, calculamos tres veces el error estádar a lado y lado de la media. Por tato, la logitud del itervalo es dos veces el triple del error estádar. Por qué tomamos este itervalo? Si aplicamos el teorema del límite cetral sobre la variable de iterés, sabemos que la media de datos se distribuye como ua ormal co media µ y variaza σ. Se demuestra fácilmete que la probabilidad de que ua media esté fuera del itervalo µ + 3σ y µ 3σ es de 0,001 (esto sigifica que u valor fuera de este itervalo, si el proceso fucioase correctamete, se puede dar sólo co ua probabilidad de 0,001). Por tato, cuado se dé u valor fuera del itervalo, pesaremos que o es casualidad y que el problema es que la variable o se comporta como supoíamos. Ejemplo de realizació de u cotrol de calidad Cosideremos ua máquia que llea tarros de yogur. Supogamos que, de media, cada tarro cotiee 125 gramos de yogur co ua desviació típica de 1,5 gramos. Todas las semaas hacemos u cotrol de la máquia: aalizamos ua muestra de treita tarros y calculamos la media de cada uo. E este ejemplo el error estádar es: Por tato, los límites de cotrol será: 1,5 ---------- = 0,274 30 125 + 3 0,274 = 125,82 125 3 0,274 = 124,18 Así pues, si la media de las muestras semaales de tamaño 30 está etre estos dos valores, cosideraremos que todo está correcto, metras que si es iferior a 124,18 o superior a 125,82 supodremos que hay algua aomalía e el proceso de producció, y habrá que revisarlo. Por cierto, fijaos e que para hacer este cotrol de calidad sólo se desperdicia treita yogures a la semaa. 3. Resume E esta sesió hemos presetado u resultado fudametal de la estadística, el teorema del límite cetral. Lo hemos desarrollado a partir del estudio de ua proporció. Hemos acabado viedo ua de sus aplicacioes más habituales, la realizació de u cotrol de calidad.

FUOC P03/75057/01008 20 Teorema del límite cetral Ejercicios 1. E u experimeto de laboratorio se mide el tiempo de ua reacció química. Se ha repetido el experimeto 98 veces y se obtiee que la media de los 98 experimetos es de 5 segudos co ua desviació de 0,05 segudos. Cuál es la probabilidad de que la media poblacioal µ difiera de la media muestral e meos de 0,01 segudos? 2. Se establece u cotrol de calidad para u proceso de producció de balas. Se ha dispuesto que cuado el proceso está bajo cotrol, el diámetro de las balas es de 1 cm, co ua desviació típica de 0,003 cm. Cada hora se toma muestras de ueve balas y se mide sus diámetros. Los diámetros de media de diez muestras sucesivas, e cetímetros, so: 1,0006 0,9997 0,9992 1,0012 1,0008 1,0012 1,0018 1,0016 1,0020 1,0022 Estableced cuáles so los límites de cotrol y explicad qué podéis cocluir sobre el proceso de producció e estos istates. Solucioario 1. Dado que la muestra es grade, por el teorema del límite cetral podemos supoer que la distribució de la media es ua ormal de media µ y desviació típica el error estádar. Por tato, la probabilidad que os preguta, que es: P( X µ < 0,01) P( 0,01 < X µ < 0,01) P ----------- 0,01 X µ 0,05 < 0,01 ------------- 0,05 < ----------- = = 0,05 ----------- ----------- ----------- 98 98 98 = = P 1,98 < X ------------- µ < 0,05 1,98 ----------- 98 se puede aproximar por la probabilidad de ua distribució ormal estádar Z: P( 1,98 < Z < 1,98) = 1 2 0,0239 = 0,9522. Por tato, la probabilidad que os pide es de 0,9522. 2. Observamos que la media µ = 1 y que el error estádar es: σ 0,003 ------ = --------------- = 0,001 10

FUOC P03/75057/01008 21 Teorema del límite cetral Por tato, los límites de cotrol será 1,003 y 0,997. Observemos que absolutamete todas las medias que hemos obteido de las sucesivas muestras está detro del itervalo formado por los dos límites de cotrol. Es decir, o hay igú dato superior a 1,003 i igú dato iferior a 0,997. Por tato, podemos cocluir que el proceso de cotrol ha sido correcto durate el tiempo que lo hemos aalizado, y que o hemos detectado igua aomalía.