Análisis de datos y gestión veterinaria Muestreo Departamento de Producción Animal Facultad de Veterinaria Universidad de Córdoba Córdoba, 16 de Noviembre de 011 Población y muestra Predecir los resultados electorales en España Población. Conjunto completo de individuos sobre el que estamos interesados en obtener conclusiones. 1
Población y muestra N =???? = millones de votantes Predecir los resultados electorales en España Población. Conjunto completo de votantes. Población y muestra N =???? = millones de votantes n = 10.000 votantes n = 10.000 votantes Muestra. Subconjunto de los valores poblacionales observados.
Población y muestra N =???? = millones de votantes Inferencias. Generalizaciones a partir de la muestra a la población. los estadísticos se utilizan como estimadores de los parámetros de la población, como la edad media de los votantes de la población n = 10.000 votantes calculamos estadísticos, como la edad media de los votantes de la muestra Población y muestra Se puede confiar en que los estadísticos sean similares a los parámetros? N =????? 35,5 años?????? = millones de votantes n = 10.000 35,5 años votantes Los parámetros son los que realmente se quieren conocer Los estadísticos son calculados y conocidos 3
Población y muestra Se puede confiar en que los estadísticos sean similares a los parámetros? Los parámetros no son verificables (si lo fueran, no trabajaríamos con muestras). Si, siempre que la muestra represente a la población Población y muestra N = 1 vacas Si, siempre que la muestra represente a la población 4
Población y muestra N = 1 vacas n = 6 vacas Si, siempre que la muestra represente a la población La muestra representa a la población si las características de la población se repiten en la muestra. Si no sabemos cómo es la población, ni Población y muestra siquiera su tamaño? La representatividad se basa en la forma en que la muestra es seleccionada (los n = 10.000 mejores métodos son los que se basan en el usovotantes planeado del azar) N =???? = millones de votantes La representatividad se basa en el tamaño de la muestra (en principio, mayores tamaños mejoran la representatividad) La muestra representa a la población si las características de la población se repiten en la muestra. 5
Muestreo aleatorio simple Población (N): 5.000 papeletas marcadas con 1 5.000 papeletas marcadas con 0 Muestreo aleatorio simple Se le da la urna y se le informa que contiene un número determinado de papeletas con ceros y unos. Se le pide que estime sus proporciones Agita la urna (garantizamos la aleatoriedad) Saca 1.000 papeletas sin reposición (n) 6
Muestreo aleatorio simple Dado que todos los elementos de la urna tenían la misma probabilidad de ser seleccionados, el muestreo es aleatorio, por tanto: % unos en la muestra = % unos en la urna + error aleatorio Si el muestreo es aleatorio: Estimador = Parámetro + Error aleatorio Muestreo aleatorio simple 51 unos en la muestra = 500 + 1 491 unos en la muestra = 500-9 507 unos en la muestra = 500 + 7 Si el muestreo es aleatorio: Estimador = Parámetro + Error aleatorio 7
Población (N): 6 papeletas marcadas con:, 4, 6, 6, 7 y 8 µ = 5,5 Media = µ + error aleatorio 4,5 = 5,5-1 Repetimos Agitamos la urna Sacamos 4 papeletas (n), 4, 6, 6 media = 4,5 8
Media = µ + error aleatorio 4,5 = 5,5-1 5,0 = 5,5-0,5 Repetimos Agitamos la urna Sacamos 4 papeletas (n), 4, 6, 8 media = 5,0 Media = µ + error aleatorio 4,5 = 5,5-1 5,0 = 5,5-0,5 Agitamos 5,75 = 5,5 la + urna 0,5 Sacamos 4 papeletas (n), 6, 7, 8 media = 5,75 9
Si hay 6 papeletas. y se etraen sin reposición 4 cuántas muestras se pueden etraer? La variable sacamos 4 papeletas de la urna es una variable aleatoria como las estudiadas en temas anteriores (cada etracción es una variable aleatoria). La distribución de probabilidades de los posibles valores que puede tomar el estadístico (en este caso, la media) a lo largo de todas las posibles muestras con el mismo número de observaciones (se denomina distribución ) sirve para estimar el error aleatorio a través del error estándar (y proporciona la base para la inferencia). Media Muestra, 4, 6, 6 4,50, 4, 6, 7 4,75, 4, 6, 8 5,00, 4, 6, 7 4,75, 4, 6, 8 5,00, 4, 7, 8 5,5, 6, 6, 7 5,5, 6, 6, 8 5,50, 6, 7, 8 5,75, 6, 7, 8 5,75 4, 6, 6, 7 5,75 4, 6, 6, 8 6,00 4, 6, 7, 8 6,5 4, 6, 7, 8 6,5 6, 6, 7, 8 6,75 Todas las muestras tienen la misma probabilidad de ser seleccionadas (1/15) 10
Muestra Media, 4, 6, 6 4,50, 4, 6, 7 4,75, 4, 6, 8 5,00, 4, 6, 7 4,75, 4, 6, 8 5,00, 4, 7, 8 5,5, 6, 6, 7 5,5, 6, 6, 8 5,50, 6, 7, 8 5,75, 6, 7, 8 5,75 4, 6, 6, 7 5,75 4, 6, 6, 8 6,00 4, 6, 7, 8 6,5 4, 6, 7, 8 6,5 6, 6, 7, 8 6,75 Todas las muestras tienen la misma probabilidad de ser seleccionadas (1/15) La distribución de la media (función de probabilidad): P(4,50) = 1/15 P(6,5) = /15 P(4,75) = /15 P(6,75) = 1/15 P(5,00) = /15 P(5,5) = /15 P(5,50) = 1/15 P(5,75) = 3/15 P(6,00) = 1/15 P(4,50) = 1/15 P(6,5) = /15 P(5,00) = /15 P(5,5) = /15 P(4,75) = /15 P(6,75) = 1/15 P(5,50) = 1/15 P(5,75) = 3/15 P(6,00) = 1/15 P() 3/15 El valor esperado de la media es: /15 1 1 E( X) = P( ) = (4,5) + (4,75) +... + (6,75) = 5,5 15 15 15 Por tanto, el valor esperado de la media es la media 1/15 poblacional 0 4,5 5,5 6,5 7,5 11
Por tanto, la suma de las 4 variables aleatorias será: n E Xi = Sacamos nµ siendo 4 papeletas n=4 i= 1 (n) Se X1 trata X de 4 variables X3 X4 aleatorias, cuya esperanza es: ( ) ( ) ( ) ( ) E X = E X = E X = E X = µ 1 3 4 La media esperada será: ( ) E X nµ n 1 = E Xi n = = i= 1 n µ P() 3/15 La Distribución distribución de en la el media muestreo de está la media centrada en la media poblacional. /15 Por el teorema central del límite, sabemos además que sigue una distribución normal 1/15 0 4,5 5,5 6,5 7,5 1
Media = µ + error aleatorio 4,5 = 5,5-1 5,0 = 5,5-0,5 5,75 = 5,5 + 0,5 Cuando el número Sacamos de 4 muestras papeletas se hace muy grande, el promedio de las medias (n) es tiende a la media poblacional (µ) Dado que todos los elementos de la urna tenían la misma probabilidad de ser seleccionados, el muestreo es aleatorio, por tanto: % unos en la muestra = % unos en la urna + error aleatorio Si el muestreo es aleatorio: Estimador = Parámetro + Error aleatorio 13
51 unos en la muestra = 500 + 1 491 unos en la muestra = 500-9 507 unos en la muestra = 500 + 7 Si el muestreo es aleatorio: Estimador = Parámetro + Error aleatorio 51 unos en la muestra = 500 + 1 491 unos en la muestra = 500-9 507 unos en la muestra = 500 + 7 El error aleatorio cambia con cada etracción No es posible conocer cuánto medirá en una etracción particular Es posible calcular su tamaño probable (error estándar) 14
P() 3/15 /15 1/15 0 4,5 5,5 6,5 7,5 Es posible calcular su tamaño probable (error estándar) Población (N): 6 papeletas marcadas con:, 4, 6, 6, 7 y 8 µ = 5,5 Sacamos 4 papeletas (n) 15 combinaciones Sacamos 5 papeletas (n) 6 combinaciones 15
Sacamos 5 papeletas (n) 6 combinaciones Todas las muestras tienen la misma probabilidad de ser seleccionadas (1/6) Muestra Media, 4, 6, 6, 8 5,0, 4, 6, 6, 7 5,, 4, 6, 7, 8 5,4, 4, 6, 7, 8 5,4, 6, 6, 7, 8 5,8 4, 6, 6, 7, 8 6, La distribución de la media (función de probabilidad): P(5,0) = 1/6 P(5,) = 1/6 P(5,4) = 1/3 P(5,8) = 1/6 P(6,) = 1/6 P() P(5,0) = 1/6 P(5,) = 1/6 P(5,4) = 1/3 P(5,8) = 1/6 P(6,) = 1/6 /6 1/6 0 4,5 5,5 6,5 7,5 Es posible calcular su tamaño probable (error estándar) 16
P() Ambas La Error varianza estándar. distribuciones de determina la media el error se aleatorio, centranσ y en sirve Si la Indica media n se para el incrementa, tamaño poblacional. calcular probable su la tamaño varianza del probable. error aleatorio. disminuye. EE= n /6 1/6 0 4,5 5,5 6,5 7,5 P() Ambas distribuciones de la media se centran en la media poblacional. /6 Si n se incrementa, la varianza disminuye. La varianza determina el error aleatorio, y sirve 1/6 para calcular su tamaño probable. Error estándar. σ EE= Indica el tamaño probable del error aleatorio. n 0 4,5 5,5 6,5 7,5 17
Siempre que el muestreo sea aleatorio: Mientras mayor sea n, menor será el error aleatorio. Si n respecto a N es muy pequeño, se puede asumir que los valores individuales de la muestra se distribuyen independientemente unos de otros. El P.e. error Muestra cometido de al 1.000 asumir votantes independencia sobre el escenso muy pequeño, total de por votantes lo que en las elecciones presidenciales σ españolas (N entorno a 30 millones). EE= n Probabilidad primera etracción = 1/30 millones Probabilidad segunda etracción = 1/(30 millones 1) Probabilidad 999 etracción = 1/(30 millones 999) Siempre que el muestreo sea aleatorio: Mientras mayor sea n, menor será el error aleatorio. Si n respecto a N no es muy pequeño, no se puede asumir que los valores individuales de la muestra se distribuyen independientemente unos de otros. P.e. Muestra de 4 sobres sobre 6 sobres. El error cometido al asumir independencia es muy grande, porprobabilidad lo que seprimera aplica etracción el factor= 1/6 de corrección por población Probabilidad finita segunda (N n)/(n etracción 1): = 1/(6-1) σ N EE= n Probabilidad cuarta etracción = 1/(6-3) n N 1 18
Si la distribución de la población es normal: X µ Z = σ Sigue una distribución normal estándar Si la distribución de la población no es normal pero n es grande, Z se considera que sigue una distribución normal estándar por el teorema central del límite. σ Distribución en el muestreo de la media X µ EE= Z = n σ La tasa de abortos en una cooperativa lechera sigue una distribución normal con media 1,% y desviación típica 3,6%. Se toma una muestra aleatoria de 9 eplotaciones. Cuál es la probabilidad de que la media sea menor del 10%? µ = 1, σ = 3,6 n = 9 X µ 10 µ 10 µ P( X < 10) = P < = P Z < σ σ σ σ 3,6 EE= σ = = = 1, n 9 10 1, P X P Z P Z 1, ( < 10) = < = ( < 1, 83) ( ) z( ) z( ) ( < 10) = 0,0336 P X < 10 = F 1,83 = 1 F 1,83 = 1 0,9664 P X 19
Distribución en el muestreo de una proporción Se le da la urna y se le informa que contiene un número determinado de papeletas con ceros y unos. Se le pide que estime sus proporciones Agita la urna (garantizamos la aleatoriedad) Saca 1.000 papeletas sin reposición (n) Distribución en el muestreo de una proporción Si en la urna hay 5.000 papeletas con ceros y 5.000 papeletas Sea X número con unos: de éitos en n observaciones, donde la probabilidad de éito es p. P(1)=0,5 X En pˆ = la muestra (1.000), E( X) = np Var( X) = np(1 p) el número n esperado de unos será: np = 1.000 0,5 = 5000 E( pˆ ) = p p(1 p) N n EE( pˆ ) = La proporción n N 1 esperada será: p(1 p) EE( pˆ ) = pˆ (np)/n = n(1.000 0,5)/1.000 p Z = = 0,5 EE( pˆ ) 0
pˆ p Z = EE( p ) Distribución en el muestreo de una ˆ EE( pˆ ) = proporción p(1 p) n Tras una epidemia de lengua azul en Córdoba, se estima que el 30% de las eplotaciones resulta insegura. Se toma una muestra de 50 eplotaciones para determinar la proporción de las que resultan inseguras. Hallar la probabilidad de que la proporción en la muestra esté entre el 5% y el 30%. p = 0,30 n = 50 0, 5 p pˆ p 0,35 p P( 0,5< pˆ < 0,35) = P < < = σp ˆ σp ˆ σ pˆ 0, 5 p 0,35 p = P < Z < σpˆ σ pˆ ( 0,5 ˆ 0,35) ( 1,7 1,7) P < p < = P < Z < = = F(1,7) F( 1,7) = 0,9573 (1 0,9573) = 0,9146 z z p(1 p) σp ˆ = = n 0,30 0,60 = = 0,09 50 Distribución en el muestreo de la varianza s n 1 = 1 n i= 1 ( X ) i X Si la distribución poblacional es normal, entonces: ( n ) s 1 σ sigue una distribución χ( n 1) 1
Distribución en el muestreo de la varianza χ( n 1) E ( χ( n 1) ) = n 1 Var( χ n ) (n - 1) = grados de libertad ( 1) = ( n 1) f(chi-cuadrado) 0,16 0,1 0,08 0,04 0 0 4 8 1 16 0 4 chi-cuadrado χ 5 Distribución en el muestreo de la varianza χ( n 1) E ( χ( n 1) ) = n 1 Var( χ n ) (n - 1) = grados de libertad ( 1) = ( n 1) f(chi-cuadrado) 0,1 0,08 0,06 0,04 0,0 0 0 10 0 30 40 chi-cuadrado χ 10
Distribución en el muestreo de la varianza χ υ Es la distribución de la suma de los cuadrados de variables aleatorias normales estándar independientes Si la distribución poblacional es normal, entonces: ( n ) s 1 σ sigue una distribución χ( n 1) Distribución ( n 1 ) s en el muestreo de la varianza χ σ ( n 1) Cuando una fábrica de piensos funciona adecuadamente, el peso de los sacos de 50 kg sigue una distribución normal con desviación típica 3,6. Se toma una muestra aleatoria de 4 sacos. Qué probabilidad hay de que la varianza sea superior a 30?. n = 4 σ = 3,6 σ = 1,96 ( 30) P s ( n 1) s 30( n 1) > = P > = σ σ 30 3 = P χ3 > = P 3 > 1,96 ( χ 6,94) P P ( χ3 ) ( χ3 ) > 6,5 = 0,10 > 7,81 = 0,05 ( ) 0,05< P s > 30 < 0,10 3
Muestreo aleatorio simple La inferencia basada en la media es robusta debido a que si la distribución de la población de la que etrae la muestra se desvía de la normal, el error cometido en el cálculo de probabilidades es pequeño. La inferencia basada en la varianza es muy sensible a las desviaciones de la distribución de la población respecto a la normal, por lo que el error cometido en el cálculo de probabilidades es grande. Sesgo Estimador = Parámetro + Error aleatorio + Sesgo 4
Sesgo Sesgo. Distorsión causada por la selección de la muestra, que potencia o ecluye cierto tipo de resultados. Estimador = Parámetro + Error aleatorio + Sesgo Sesgo Sesgo. Distorsión causada por la selección de la muestra, que potencia o ecluye cierto tipo de resultados. - El sesgo se controla aleatorizando el muestreo. - Cualquier tipo de selección provoca sesgo. - Es difícil de detectar. - Si se detecta, tampoco se puede corregir. 5
Sesgo Por ejemplo. Para estudiar la opinión de los españoles sobre la ley del aborto, hacemos una encuesta a 100.000 españoles. Los encuestadores preguntan a la salida de misa en la puerta de las iglesias. La muestra es seleccionada aleatoriamente a partir del listín telefónico. Los encuestadores preguntan a padres y madres en la puerta de los colegios. Sesgo Ejemplos de sesgo. Los indecisos. Sesgo de respuesta. Sesgo de no respuesta. Sesgo del hogar. Sesgo del entrevistador. 6