Iforme sobre el Cálculo de Errores de Muestreo Ecuesta de la Sociedad de la Iformació (ESI- Familias) EUSKAL ESTATISTIKA ERAKUNDA
INDICE 1. Itroducció...3 2. Método de expasió de Taylor...3 3. Cálculo de errores E.S.I. - Familias...4 3.1 Diseño Muestral...4 3.2 Procedimieto de cálculo...5 3.3 Estadísticos y domiios para el cálculo de errores e la E.S.I....5 3.4 Resultados e Iterpretació...7 Bibliografía...9 2
1. Itroducció Podemos defiir error de muestreo como la imprecisió que se comete al estimar ua característica de la població de estudio (parámetro) mediate el valor obteido a partir de ua parte o muestra de esa població (estadístico). Este error depede de mucos factores, etre ellos, del procedimieto de extracció de esa parte de la població (diseño muestral), del úmero de uidades que se extrae (tamaño de la muestra), de la aturaleza de la característica a estimar, etc. Ua expresió geeralizada del error de muestreo sería la siguiete: Error de muestreo = Var(θˆ) (1) Siedo θˆ el estadístico de iterés (media, total, proporció,..). Este estadístico tomará valores distitos depediedo de la muestra extraída. La variabilidad del estadístico e el muestreo determiará el error muestral. La expresió de este error cambiará depediedo de la técica de muestreo utilizada, aciédose más complejo su cálculo coforme más complicado sea el diseño muestral. Además, las icidecias que se produce durate la recogida de iformació, el ajuste a determiadas características de la població (post-estratificació) y otros factores a lo largo del desarrollo de ua ecuesta, implica variacioes e el cálculo de los elevadores o pesos fiales. La literatura a sugerido alguas alterativas a los métodos covecioales de cálculo de errores muestrales. Estas técicas eurísticas proporcioa ua buea estimació del error muestral a partir de los pesos fiales y las características del diseño muestral [3], [5]. E lo que sigue itroduciremos estos métodos y su aplicació cocreta e el caso de la Ecuesta de la Sociedad de la Iformació desde el periodo 2005. 2. Método de expasió de Taylor [3], [5]. Este método permite calcular estimacioes del error muestral para totales, medias y proporcioes e muestras co estratificació, clústers y probabilidades desiguales, como es el caso de mucas operacioes estadísticas e EUSTAT. El método obtiee aproximacioes lieales del estimador y calcula su variaza utilizado ésta como estimació del error muestral. La expresió para el cálculo de la variaza estimada para la media poblacioal es la siguiete: Vˆ( Yˆ ) = H (1 f) 1 = 1 i= 1 ( e i. e..) 2 (2) Dode: 3
e e i. = m i j= 1 e j= = 1 w i. ij ( y ij w... Yˆ ) y Notació: w... = H m i = 1 i= 1 j= 1 w ij = 1, 2,..., H idica el estrato co u total de H estratos. i = 1, 2,..., idica el úmero de clusters e el estrato, co u total de clusters. j = 1, 2,..., m i idica el úmero de uidad detro del cluster i del estrato, co u total de m i uidades = H = 1 i= 1 m i es el úmero total de observacioes e la muestra. w ij idica el elevador de la observació j e el cluster i del estrato y ij = ( y ij (1), y ij (2),..., y ij (P)) so los valores observados de la variable Y e la observació j del cluster i del estrato. (variables uméricas y categóricas). El procedimieto PROC SURVEYMEANS del paquete estadístico SAS [4], implemeta este método de estimació de errores muestrales y será la erramieta que se utilice para el cálculo de los errores muestrales e la operació que os ocupa. 3. Cálculo de errores ESI - Familias. 3.1 Diseño Muestral [1] La Ecuesta sobre la Sociedad de la Iformació a Familias (ESI-Familias) es ua ecuesta por muestreo sobre la població de la C.A. de Euskadi de 6 y más años. Esta ecuesta toma como base del muestreo el pael de viviedas familiares seleccioadas para la Ecuesta de la Població e Relació co la Actividad (PRA) e el mismo trimestre de referecia. A partir de 2005, esta muestra costa de 5.088 viviedas y se extrae aleatoriamete del Directorio de Viviedas de modo estratificado a ivel de Territorio Histórico. Detro de cada estrato, se muestrea viviedas de forma sistemática (co la misma probabilidad) [2]. 4
Detro de cada vivieda la selecció de la primera persoa se realiza de forma aleatoria mediate ua tabla de Kis, y además, cuado ay ocupados o estudiates, uo de cada es seleccioado por el mismo procedimieto. Desde el año 2003 se completa la muestra co todos los meores de 6 a 14 años asta llegar a ua muestra cercaa a los 7.500 idividuos. La ecuesta que se explota semestralmete (2º y 4º trimestre del año de referecia) y los resultados ace referecia tato a idividuos como a familias, mereciedo u tratamieto especial los usuarios de Iteret. El diseño descrito se adapta perfectamete a las especificacioes del método eurístico expuesto e el apartado aterior. Sólo abrá que idicar los parámetros requeridos por el procedimieto de SAS para la correcta estimació de la variaza. 3.2 Procedimieto de cálculo. La sitaxis básica del procedimieto de SAS implemetado para el cálculo de errores es la siguiete [4]: PROC SURVEYMEANS < ombre_ficero > < opcioes de salida >; BY variables ; /*cálculo de errores por subpoblacioes idepedietes*/ CLASS variables ; /*cálculo de errores para variables cualitativas*/ CLUSTER variables ; */variable que idica el clúster e el muestreo por coglomerados*/ DOMAIN variables ; /*variables que delimita el domiio/cruce para el que se calcula los errores*/ RATIO variable/variable ; /*variables ratio para las cuales se quiere calcular el error muestral*/ STRATA variables < / optio > ; /*variable que idica el estrato e el muestreo estatificado*/ VAR variables ; /* variables cuatitativas y cualitativas para las que se pretede calcular los errores muestrales*/ WEIGHT variable ; /* variable peso pre-calculada (opcioal)*/ Los parámetros geerales de esta sitaxis para el caso cocreto de la ESI Familias será los siguietes: CLUSTER = Idetificador de vivieda. STRATA = Territorio Histórico. WEIGHT = Elevador trimestral de persoas /Elevador trimestral de familias Elevador aual de persoas /Elevador aual de familias. VAR = Variables de equipamieto y uso de las Tecologías de la Iformació. DOMAIN = Cruces por variables socio-demográficas y ecoómicas. 3.3 Estadísticos y domiios para el cálculo de errores e la ESI - Familias. Se estimará errores de muestreo para los siguietes cruces y estadísticos: Equipamietos TIC e el ogar Trimestrales porcetaje de familias por equipamietos TIC e el ogar. 5
total y porcetaje de familias co ordeador e el ogar, iteret y teléfoo móvil segú el territorio istórico. total porcetaje de familias co ordeador e el ogar, iteret y teléfoo móvil segú el tipo de familia. porcetaje de població de 15 y más años por equipamietos TIC e el ogar. total y porcetaje de població de 15 y más años co ordeador, iteret y teléfoo móvil e el ogar segú el territorio istórico. total y porcetaje de població de 15 y más años co ordeador e el ogar segú características socioecoómicas. total y porcetaje de població de 15 y más años co iteret e el ogar segú características socioecoómicas. Auales porcetaje medio aual de familias por terrritorio istórico, tipo de familia y equipamietos iformáticos del ogar. porcetaje medio aual de familias por terrritorio istórico, tipo de familia y equipamietos televisivos y telefóicos del ogar. porcetaje medio aual de població de 15 y más años por territorio istórico y características socioecoómicas y equipamietos TIC del ogar. Usuarios de Iteret Trimestrales total y porcetaje de població de 15 y más años usuaria de Iteret por territorio istórico, sexo y edad. total y porcetaje de població de 15 y más años usuaria de Iteret por ivel de istrucció y relació co la actividad. porcetaje de població de 15 y más años usuaria de Iteret por servicios utilizados y duració media de la última coexió. porcetaje de població de 15 y más años usuaria de Iteret que a comprado por su opiió sobre la seguridad de pago por iteret. porcetaje de població de 15 y más años usuaria de Iteret por lugar de acceso e idiomas utilizados. 6
Auales - Coeficietes de Variació (%) e Itervalos de Cofiaza al 95% para la població media aual de 15 y más años usuaria de iteret por posibilidad de acceso, lugar de acceso y territorio istórico. - Coeficietes de Variació (%) e Itervalos de Cofiaza al 95% para la població media aual de 15 y más años usuaria de iteret por el fi de la coexió, frecuecia de acceso, duració de la coexió y territorio istórico. - Coeficietes de Variació (%) e Itervalos de Cofiaza al 95% para la població media aual de 15 y más años usuaria de iteret por los servicios utilizados, tipos de web visitadas y territorio istórico. - Coeficietes de Variació (%) e Itervalos de Cofiaza al 95% para la població media aual de 15 y más años usuaria de iteret por su relació co el comercio electróico y territorio istórico. Podemos resumir lo aterior e las siguietes tablas segú estadístico y variable de cruce: Estadístico Equipamietos TIC Territori o Histórico Sexo Edad Nivel de istrucció Relació co la actividad Tipo de famili a Relació co Iteret Porcetaje població 15 y más años X X X X X X X Total població de 15 y más años (miles) X X X X X X X Porcetaje població 15 y más años usuaria de Iteret X X X X X X X Total població de 15 y más años usuaria de Iteret (miles) X X X X X X X Porcetaje de familias (%) X X X Total familias (e miles) X X X Comercio electróic o 3.4 Resultados e Iterpretació. Aparte de la estimació del error de muestreo (2), SAS proporcioa otras medidas del error que so de utilidad y ayuda a la iterpretació del mismo. Etre éstas, las más iteresates so: El Coeficiete de Variació. Es ua medida relativa del error que permite comparar precisioes etre distitos grupos o poblacioes. Se trata de ua magitud adimesioal muy utilizada como medida del error muestral y su expresió es: Var( ˆ) θ CV = (3) ˆ θ Itervalo de Cofiaza al 95%. Este itervalo de cofiaza se basa e la distribució e el muestreo del estadístico (proporció, media, tasa, ). Por el Teorema Cetral del Límite, la mayor parte de las veces podemos asumir ua ley Normal 1 para los estadísticos más comues, por lo que la costrucció de este itervalo vedrá dada por la siguiete expresió: ˆ θ 1,96 Var ( ˆ), θ ˆ θ + 1,96 Var( ˆ θ ) (4) 1 Se asume u tamaño muestral suficietemete grade ( >30). Cuado o podemos realizar esta asució, el itervalo de cofiaza se calculará co el correspodiete percetil al 95% de la distribució t-studet co -1 grados de libertad. 7
El valor 1,96 es el percetil de ua distribució Normal co media 0 y desviació típica 1 que ecierra ua probabilidad del 95%. Esto permite afirmar que el itervalo calculado para el estadístico θˆ cotiee al verdadero valor del parámetro poblacioal e el 95% de los casos (posibles muestras). Co la iformació proporcioada por SAS, se costruirá las tablas defiitivas de errores que cotedrá la estimació del estadístico, el límite iferior y superior del itervalo de cofiaza al 95% y el coeficiete de variació e porcetaje. A cotiuació se preseta u modelo de tabla de difusió de errores: TIC_T1. Coeficietes de Variació (%) e Itervalos de Cofiaza al 95% para el porcetaje de familias por equipamietos TIC e el ogar. IV-2005. Fuete: EUSTAT. Ecuesta de la Sociedad de la Iformació - ESIF. Total (miles) Equipamietos Iformáticos Equipamietos Televisivos Ordeador Iteret Video Teletexto Atea Parabólica TV Pago Otros Equipamietos Teléfoo Móvil C.A. de Euskadi Estimació 776,8 50,1 36,9 69,0 79,1 9,7 8,2 81,2 L. Iferior 95% 773,4 48,6 35,5 67,7 78,0 8,8 7,4 80,1 L. Superior 95% 780,2 51,5 38,3 70,3 80,3 10,5 9,0 82,4 CV(%) 0,2 1,5 1,9 1,0 0,8 4,5 4,8 0,7 Otra forma de iterpretar esta iformació cosiste e calcular el error relativo al 95% de cofiaza, que se obtiee al multiplicar el percetil 1,96 por el Coeficiete de Variació. Este error relativo os permite ablar e térmios de putos porcetuales del valor de la estimació. Para la tabla aterior, el error relativo al 95% para el porcetaje de familias co ordeador e la C.A. de Euskadi es del 2,94 % (1,96*1,5). O lo que es lo mismo, a u ivel de cofiaza del 95% podemos afirmar que el verdadero valor del porcetaje de familias co ordeador e la C.A. de Euskadi oscila e u itervalo del ±2,94% de la estimació dada. Es decir, (50,1 ± 0,0294*776,8) = etre 48,6% y 51,5% Es importate señalar aquellas estimacioes que sobrepase u determiado porcetaje del error relativo al 95%, para que el usuario tome las debidas cautelas a la ora de iterpretar la iformació dada. U umbral razoable estaría e aquellas estimacioes que sobrepase el 20% de error relativo (C.V. > 10% aprox.), señalado de forma especial aquellas casillas dode este error sea mayor que el 30% (C.V. > 15% aprox.). 8
Bibliografía [1] EUSTAT (2005), Ecuesta sobre la Sociedad de la Iformació-ESI-Familias. Fica metodológica.. ttp://www.eustat.es/documet/esi_c.tml [2] EUSTAT (2005), Ecuesta de Població e Relació co la Actividad. Nota metodológica.2005. ttp://www.eustat.es/documet/datos/otamet_uevapra_c.pdf [3] Fuller, W. A. (1975), "Regressio Aalysis for Sample Survey," Saky, 37, Series C, Pt. 3, 117-132. [4] Sas Istitute Ic. (2004), SAS/STAT 9.1 Guia de Usuario. Copyrigt 2004, Cary, NC, USA. ISBN 1-59047-243-8 [5] Woodruff, R. S. (1971), "A Simple Metod for Approximatig te Variace of a Complicated Estimate" Joural of te America Statistical Associatio, 66, 411-414. 9