Iforme sobre el Cálculo de Errores de Muestreo Ecuesta de Medio Ambiete - Familias EMAF 2015 EUSKAL ESTATISTIKA ERAKUNDA
INDICE 1. Itroducció... 3 2. Método de expasió de Taylor... 3 3. Cálculo de errores... 4 3.1 Diseño Muestral... 4 3.2 Procedimieto de cálculo... 5 3.3 Estadísticos y domiios para el cálculo de errores... 5 3.4 Resultados e Iterpretació... 7 Bibliografía... 9 2
1. Itroducció. Podemos defiir error de muestreo como la imprecisió que se comete al estimar ua característica de la població de estudio (parámetro) mediate el valor obteido a partir de ua parte o muestra de esa població (estadístico). Este error depede de mucos factores, etre ellos, del procedimieto de extracció de esa parte de la població (diseño muestral), del úmero de uidades que se extrae (tamaño de la muestra), de la aturaleza de la característica a estimar, etc. Ua expresió geeralizada del error de muestreo sería la siguiete: Error de muestreo = Var(ˆ ) Siedo ˆ el estadístico de iterés (media, total, proporció,..). Este estadístico tomará valores distitos depediedo de la muestra extraída. La variabilidad del estadístico e el muestreo determiará el error muestral. La expresió de este error cambiará depediedo de la técica de muestreo utilizada, aciédose más complejo su cálculo coforme más complicado sea el diseño muestral. Además, las icidecias que se produce durate la recogida de iformació, el ajuste a determiadas características de la població (post-estratificació) y otros factores a lo largo del desarrollo de ua ecuesta, implica variacioes e el cálculo de los elevadores o pesos fiales. La literatura a sugerido alguas alterativas a los métodos covecioales de cálculo de errores muestrales. Estas técicas eurísticas proporcioa ua buea estimació del error muestral a partir de los pesos fiales y las características del diseño muestral [2], [4]. E lo que sigue itroduciremos estos métodos y su aplicació cocreta e el caso de la Ecuesta de Medio Ambiete - Familias (e adelate EMAF). 2. Método de expasió de Taylor. Este método [4] permite calcular estimacioes del error muestral para totales, medias y proporcioes e muestras co estratificació, clústers y probabilidades desiguales, como es el caso de mucas operacioes estadísticas e EUSTAT. El método obtiee aproximacioes lieales del estimador y calcula su variaza utilizado ésta como estimació del error muestral. La expresió para el cálculo de la variaza estimada para la media poblacioal es la siguiete: Dode: Vˆ ( Yˆ ) (1 f 1 H ) 1 i1 ( e i. e.. ) 2 3
e i. m i j1 w ij ( y ij w... Yˆ ) e.. y w... j1 H Notació: e i. m i 1 i1 j1 w ij = 1, 2,..., H idica el estrato co u total de H estratos. i = 1, 2,..., idica el úmero de clusters e el estrato, co u total de clusters. j = 1, 2,..., m i idica el úmero de uidad detro del cluster i del estrato, co u total de m i uidades H 1 i1 m i es el úmero total de observacioes e la muestra. w ij idica el elevador de la observació j e el cluster i del estrato y ij = ( y ij (1), y ij (2),..., y ij (P)) so los valores observados de la variable Y e la observació j del cluster i del estrato. (variables uméricas y categóricas). El procedimieto PROC SURVEYMEANS del paquete estadístico SAS [3], implemeta este método de estimació de errores muestrales y será la erramieta que se utilice para el cálculo de los errores muestrales e la operació que os ocupa. 3. Cálculo de errores 3.1 Diseño Muestral [1]. Marco muestral: Se trata de ua muestra e dos etapas estratificada por zoas. Además la muestra está equilibrada por características de sus ocupates e los Territorios Históricos y por el úmero de persoas e las zoas. Las pricipales características de su diseño muestral so las siguietes: Tamaño muestral: 7.000 Marco muestral: Registro de Població y Directorio de Viviedas de Eustat Diseño muestral: Muestreo aleatorio estratificado 4
Variables de estratificació: - Territorio Histórico - Zoas Etapas del muestreo: Bietápico. E ua primera etapa se seleccioa viviedas y e ua seguda las persoas de las viviedas que va a respoder al cuestioario idividual. Extracció: Aleatoria equilibrada 3.2 Procedimieto de cálculo. La sitaxis básica del procedimieto de SAS implemetado para el cálculo de errores de esta ecuesta es la siguiete [3]: PROC SURVEYMEANS < ombre_ficero > < opcioes de salida >; BY variables ; /*cálculo de errores por subpoblacioes idepedietes*/ CLASS variables ; /*cálculo de errores para variables cualitativas*/ CLUSTER variables ; */variable que idica el clúster e el muestreo por coglomerados*/ DOMAIN variables ; /*variables que delimita el domiio/cruce para el que se calcula los errores*/ RATIO variable/variable ; /*variables ratio para las cuales se quiere calcular el error muestral*/ STRATA variables < / optio > ; /*variable que idica el estrato e el muestreo estatificado*/ VAR variables ; /* variables cuatitativas y cualitativas para las que se pretede calcular los errores muestrales*/ WEIGHT variable ; /* variable peso pre-calculada (opcioal)*/ Los parámetros geerales de esta sitaxis utilizados para el caso cocreto de la EMAF será los siguietes: STRATA = Variable estrato formada por la zoa geográfica y las tipologías de secció. CLUSTER = Variable que idetifica a la Uidad Primaria del Muestreo. E este caso será la variable secció cesal. DOMAIN = Variables de clasificació sociodemográfica. VAR = Variables cuatitativas y cualitativas de medio ambiete familiar. WEIGHT = Elevador de vivieda o de persoa segú estimacioes calculadas. 3.3 Estadísticos y domiios para el cálculo de errores e la EMAF Se difude tablas de coeficietes de variació para todas las estimacioes (porcetajes, medias, ídices, etc.) publicadas e el apartado de tablas estadísticas de la Web para esta operació. Las tablas de errores publicadas so: Tablas de coeficietes de variació para viviedas por las características sociodemográficas de la persoa de referecia - Viviedas de la C.A. de Euskadi por ábitos y dispositivos de aorro de agua (%). Coeficietes de - Viviedas de la C.A. de Euskadi por tipo de eergía utilizada (%). Coeficietes de - Viviedas de la C.A. de Euskadi por tipo de calefacció utilizada.(%). Coeficietes de 5
- Viviedas de la C.A.de Euskadi por tipo de aislamieto e ilumiació utilizada (%).Coeficietes de - Viviedas de la C.A. de Euskadi por los grados de temperatura diura.(%). Coeficietes de - Viviedas de la C.A. de Euskadi por el tratamieto dado a sus residuos (%). Coeficietes de - Viviedas de la C.A. de Euskadi por grades electrodomésticos (%).Coeficietes de - Viviedas de la C.A. de Euskadi por equipamieto audiovisual (%).Coeficietes de - Viviedas de la C.A. de Euskadi por pequeños electrodomésticos (%).Coeficietes de - Viviedas de la C.A. de Euskadi co problemas de ruidos y medidas tomadas (%).Coeficietes de - Viviedas de la C.A. de Euskadi co problemas de malos olores y medidas tomadas (%).Coeficietes de - Viviedas de la C.A. de Euskadi por úmero de veículos para uso persoal (%).Coeficietes de - Viviedas de la C.A. de Euskadi por el uso de ciertos productos (%).Coeficietes de - Viviedas de la C.A. de Euskadi por la importacia de ciertos factores al comprar (%).Coeficietes de Tablas de coeficietes de variació para persoas de 16 y más años por características sociodemográficas - Persoas de 16 y más años de la C.A. de Euskadi por medio de trasporte utilizado (%).Coeficietes de - Persoas de 16 y más años de la C.A. de Euskadi que usa trasporte público (%). Coeficietes de - Persoas de 16 y más años de la C.A. de Euskadi que va camiado o e bici (%).Coeficietes de - Persoas de 16 y más años de la C.A. de Euskadi por opiioes medioambietales (%).Coeficietes de - Persoas de 16 y más años de la C.A. de Euskadi co actividades medioambietales (%).Coeficietes de - Persoas de 16 y más años de la C.A. de Euskadi favorables a medidas medioambietales (%).Coeficietes de 6
Tablas de coeficietes de variació para idicadores de medio ambiete por características sociodemográficas de la persoa de referecia - Idicadores de medio ambiete de viviedas de la C.A. de Euskadi (%). Coeficietes de - Viviedas de la C.A. de Euskadi por ivel de idicadores de medio ambiete (%).Coeficietes de 3.4 Resultados e Iterpretació. A partir del coeficiete de variació, se puede calcular otras medidas del error que so de utilidad y ayuda a la iterpretació del mismo. Etre éstas, las más iteresates so: - Coeficiete de Variació. Es ua medida relativa del error que permite comparar precisioes etre distitos grupos o poblacioes. Se trata de ua magitud adimesioal muy utilizada como medida del error muestral y su expresió es: Var( ˆ) CV ˆ Siedo ˆ el valor del estadístico de iterés (media, total, proporció,..). - Itervalo de Cofiaza al 95%. Este itervalo de cofiaza se basa e la distribució e el muestreo del estadístico (proporció, media, tasa, ). Por el Teorema Cetral del Límite, la mayor parte de las veces podemos asumir ua ley Normal 1 para los estadísticos más comues, por lo que la costrucció de este itervalo vedrá dada por la siguiete expresió: ( ˆ 1,96 Var ( ˆ), ˆ 1,96 Var ( ˆ) ) El valor 1,96 es el percetil de ua distribució Normal co media 0 y desviació típica 1 que ecierra ua probabilidad del 95%. Esto permite afirmar que el itervalo calculado para el estadístico ˆ cotiee al verdadero valor del parámetro poblacioal e el 95% de los casos (posibles muestras). - Error relativo al 95% de cofiaza: Se obtiee al multiplicar el percetil 1,96 por el Coeficiete de Variació. Este error relativo os permite ablar e térmios de putos porcetuales del valor de la estimació. Por ejemplo, si el porcetaje de familias e la C.A. de Euskadi que recicla papel y cartó es del 92,3% co u coeficiete de variació del 0,5%, el correspodiete error relativo al 95% será del 0,98% (es decir, 1,96 x 0,5). O lo que es lo mismo, a u ivel de cofiaza del 95% podemos afirmar que el verdadero valor del porcetaje de familias e la C.A. de Euskadi que recicla papel y cartó oscila detro de u itervalo del ±0,98 % de la estimació dada. Es decir: [92,3 ± (0,0098 x 92,3)] = [91,39%, 93,2%] Es importate señalar aquellas estimacioes que sobrepase u determiado porcetaje del error relativo al 95%, para que el usuario tome las debidas cautelas a la ora de iterpretar la iformació dada. U umbral razoable estaría e aquellas estimacioes que sobrepase el 20% de error relativo 1 Se asume u tamaño muestral suficietemete grade ( >30). Cuado esto o sea así, el itervalo de cofiaza se calculará co el correspodiete percetil al 95% de la distribució t-studet co -1 grados de libertad. 7
(C.V. > 10% aprox.), señalado de forma especial aquellas casillas dode este error sea mayor que el 30% (C.V. > 15% aprox.). 8
Bibliografía [1] EUSTAT. Ecuesta de Medio Ambiete - Familias. Fica metodológica. ttp://www.eustat.es/documet/emaf2015%5fc.asp [2] Fuller, W. A. (1975), "Regressio Aalysis for Sample Survey," Saky, 37, Series C, Pt. 3, 117-132. [3] Sas Istitute Ic. (2004), SAS/STAT 9.1 Guia de Usuario. Copyrigt 2004, Cary, NC, USA. ISBN 1-59047-243-8 [4] Woodruff, R. S. (1971), "A Simple Metod for Approximatig te Variace of a Complicated Estimate" Joural of te America Statistical Associatio, 66, 411-414. 9