Tratamiento de datos de encuestas sobre trabajo infantil y almacenamiento de ficheros electrónicos



Documentos relacionados
GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES

LA SELECCION DE PERSONAL

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

4. METODOLOGÍA. 4.1 Materiales Equipo

Además se recomienda su uso como herramienta de trabajo dentro de las actividades habituales de gestión.

DE VIDA PARA EL DESARROLLO DE SISTEMAS

TEMA 3: EN QUÉ CONSISTE?

Revisión ISO 9001:2015 Preguntas frecuentes

Grupo de Trabajo del Tratado de Cooperación en materia de Patentes (PCT)

Por qué es importante la planificación?

Cómo Desarrollar un plan Estratégico

BANCO CENTRAL EUROPEO

* * FCCC/SBI/2014/5. Convención Marco sobre el Cambio Climático. Naciones Unidas

El reto de la Gestión Documental

Curso Auditor Interno Calidad

5.1. Organizar los roles

Nota de Información al cliente Auditoría Multisede

Unidad VI: Supervisión y Revisión del proyecto

Centro de Capacitación en Informática

GUÍA PARA LA FORMULACIÓN PROYECTOS

153. a SESIÓN DEL COMITÉ EJECUTIVO

Análisis y cuantificación del Riesgo

PARA COMERCIANTES Y AUTÓNOMOS. INFORMACIÓN SOBRE TARJETAS DE CRÉDITO.

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

9. SISTEMA DE GARANTÍA DE CALIDAD MASTER UNIVERSITARIO EN ESTUDIOS AVANZADOS EN PEDAGOGIA Universidad Complutense de Madrid

Jornada informativa Nueva ISO 9001:2008

Aire ambiente: No se recogieron muestras en esta comunidad.

Informe de Servicio Social. actividades tienen en la población meta y acerca del aprendizaje obtenido por el prestador de

Servicio de estadísticas de Alojamiento Fecha de revisión: 19/09/2005

Guía para la Capacitación en el Servicio y Educación de Preservicio Relativa al DIU

Correspondencias entre taxonomías XBRL y ontologías en OWL Unai Aguilera, Joseba Abaitua Universidad de Deusto, EmergiaTech

PROCEDIMIENTO OPERATIVO INVESTIGACION DE ACCIDENTES Y ESTADISTICA DE SINIESTRALIDAD DPMPO09

Instalación del programa PSPP y obtención de una distribución de frecuencias.

Cómo las herramientas en línea están revolucionando la implementación de ITIL e ISO 20000

GESTIÓN Y CONTROL DEL DESARROLLO E IMPLANTACIÓN DE APLICACIONES

Ref.: Normas - ST.10/C página: NORMA ST.10/C PRESENTACIÓN DE LOS COMPONENTES DE DATOS BIBLIOGRÁFICOS

In.Me.In. Institución de Mediación de Ingenieros Consejo General de la Ingeniería Técnica Industrial

PROCESAMIENTO DE DATOS DE LA ENCUESTA PERMANENTE DE HOGARES DE PROPÓSITOS MÚLTIPLES

PRÁCTICAS ADMINISTRATIVAS

NIFBdM A-4 CARACTERÍSTICAS CUALITATIVAS DE LOS ESTADOS FINANCIEROS

REGULACIÓN Y NORMALIZACIÓN CONTABLE

Manual de ayuda para crear y gestionar Tareas, como actividad evaluable

DIRECTRIZ DE ICC/ESOMAR SOBRE MANTENIMIENTO DE LAS DISTINCIONES ENTRE LA INVESTIGACIÓN DE MERCADO Y EL MARKETING DIRECTO

GESTIÓN DE LA DOCUMENTACIÓN

CENTROS DE APOYO A LA TECNOLOGÍA Y LA INNOVACIÓN - CATI GUÍA DE APLICACIÓN

1 El plan de contingencia. Seguimiento

Batería MC-UB Método de evaluación de riesgos psicosociales

Haga clic en Siguiente para comenzar.

INSTALACIÓN DE ORACLE 8i (8.1.7) SOBRE NT

COSTOS DE FINANCIAMIENTO

Qué requisitos deben cumplir los albaranes o notas de entrega?

OBJETIVOS GENERALES DEL AUDITOR INDEPENDIENTE Y CONDUCCIÓN DE UNA AUDITORÍA, DE ACUERDO CON LAS NORMAS INTERNACIONALES DE AUDITORÍA

NORMA INTERNACIONAL DE AUDITORÍA 320 IMPORTANCIA RELATIVA O MATERIALIDAD EN LA PLANIFICACIÓN Y EJECUCIÓN DE LA AUDITORÍA (NIA-ES 320)

Manual básico de gestión económica de las Asociaciones

Directrices sobre una definición estadística de empleo en el sector del medio ambiente

Uso de las tecnologias de la informacion en las PyMES de los municipios de Comalcalco y Cunduacán

PRÁCTICAS DE GESTIÓN GANADERA:

Para obtener una cuenta de padre

BANCOS. Manejo de Bancos. Como crear una ficha de Banco? Como modificar los datos de una ficha de Banco? Como borrar una ficha de Banco?

INVITACIÓN A LA PRESENTACIÓN DE RELATOS DE EXPERIENCIAS CONCRETAS

El Arreglo de Madrid relativo al Registro. Internacional de Marcas y el Protocolo. concerniente a ese Arreglo: Objetivos,

PREVENCIÓN DE DAÑOS EN TEXAS

Congreso de Colegios Católicos, Una pasión que se renueva. Pontificia Universidad Católica de Chile. Septiembre 2015.

Curso Internet Básico - Aularagon

SISTEMA ETAP en línea Estándares Tecnológicos para la Administración Pública

Comité de Desarrollo y Propiedad Intelectual (CDIP)

UNIVERSIDAD DEL CONO SUR DE LAS AMERICAS VICERRECTORIA DE INVESTIGACION Y DESARROLLO GUÍA DE TRABAJOS PRÁCTICOS

Introducción a la estadística y SPSS

Programa de las Naciones Unidas para el Desarrollo

1. VIRTUALIZACION DEL PROCESO REAL.

EXTRACTO Descripción del uso y manejo de SIRAIS 1.2

LABORATORIO Nº 2 GUÍA PARA REALIZAR FORMULAS EN EXCEL

GUÍA PARA LA PREPARACIÓN DE PLANES DE TRABAJO, INFORMES DE AVANCE E INFORMES DE AUTOEVALUACIÓN PARA PROGRAMAS Y PROYECTOS DE COOPERACIÓN TÉCNICA

CAPITULO VI CONCLUSIONES. Al haber analizado los conceptos presentados en este trabajo, pudimos llegar a la

CAPÍTULO III MARCO TEÓRICO. Cada día cambian las condiciones de los mercados debido a diferentes factores como: el

Base de datos en la Enseñanza. Open Office

INTRODUCCIÓN A LA CONTABILIDAD DE COSTOS DEFINICIÓN

Acceso a la aplicación de solicitud de subvenciones (Planes de Formación 2014)

PLIEGO DE PRESCRIPCIONES TÉCNICAS DEL CONTRATO DE SERVICIO DE TRADUCCIÓN E INTERPRETACIÓN TELEFÓNICA PARA EL CUERPO DE LA POLICÍA MUNICIPAL DE MADRID

Recursos para el Estudio en Carreras de Ingeniería 2006 UNIDAD TEMÁTICA Nº 4 LA TOMA DE APUNTES

CAPITULO V PLANIFICACIÓN Y GESTIÓN DEL PROYECTO

Lección 24: Lenguaje algebraico y sustituciones

Caso práctico de Cuadro de Mando con Tablas Dinámicas

CAPITULO III A. GENERALIDADES

Consejo Económico y Social

Resumen de investigación

4. SISTEMAS DE COSTOS P OR PROCESOS

Inter American Accreditation Cooperation. Grupo de prácticas de auditoría de acreditación Directriz sobre:

Políticas de Derechos de autor

2. La Junta de Centro establecerá y aprobará este reglamento.

Itinerario Formativo en Innovación Docente

(BOE, de 15 de febrero de 2008)

TALLER 2. MEJORA CONTINUA

Diseño y desarrollo de una aplicación informática para la gestión de laboratorios

GUÍA PARA LA REALIZACIÓN DE AUDITORÍAS INTERNAS SOBRE LA GESTIÓN DE GARANTÍAS SUBDIRECCIÓN GENERAL DE AUDITORÍA INTERNA Y EVALUACIÓN

Suplemento Enero 2014

AUDITORIA DE RECURSOS HUMANOS

Créditos académicos. Ignacio Vélez. Facultad de Ingeniería Industrial. Politécnico Grancolombiano

Introducción. Rene Coulomb* y Martha Schteingart*

COPPEL MANUAL TÉCNICO MCC DE SISTEMAS PROGRAMACIÓN DESCRIPCIÓN DEL PROCESO DE ARQUITECTURA DE SOFTWARE

Transcripción:

Programa de Información Estadística y Seguimiento en Materia de Trabajo Infantil (SIMPOC) Programa Internacional para la Erradicación del Trabajo Infantil (IPEC) Tratamiento de datos de encuestas sobre trabajo infantil y almacenamiento de ficheros electrónicos Guía práctica Revisado en Diciembre 2003 Oficina Internacional del Trabajo Ginebra

Copyright Organización Internacional del Trabajo 2004 Las publicaciones de la Oficina Internacional del Trabajo gozan de la protección de los derechos de propiedad intelectual en virtud del protocolo 2 anexo a la Convención Universal sobre Derecho de Autor. No obstante, ciertos extractos breves de estas publicaciones pueden reproducirse sin autorización, con la condición de que se mencione la fuente. Para obtener los derechos de reproducción o de traducción, deben formularse las correspondientes solicitudes a la Oficina de Publicaciones (Derechos de autor y licencias), Oficina Internacional del Trabajo, CH-1211 Ginebra 22, Suiza, solicitudes que serán bien acogidas. ISBN 92-2-313629-6 Primera edición 2004 Las denominaciones empleadas, en concordancia con la práctica seguida en las Naciones Unidas, y la forma en que aparecen presentados los datos en las publicaciones de la OIT no implican juicio alguno por parte de la Oficina Internacional del Trabajo sobre la condición jurídica de ninguno de los países, zonas o territorios citados o de sus autoridades, ni respecto de la delimitación de sus fronteras. La responsabilidad de las opiniones expresadas en los artículos, estudios y otras colaboraciones firmados incumbe exclusivamente a sus autores, y su publicación no significa que la OIT las sancione. Las referencias a firmas o a procesos o productos comerciales no implican aprobación alguna por la Oficina Internacional del Trabajo, y el hecho de que no se mencionen firmas o procesos o productos comerciales no implica desaprobación alguna. Las publicaciones de la OIT pueden obtenerse en las principales librerías o en oficinas locales de la OIT en muchos países o pidiéndolas a: Publicaciones de la OIT, Oficina Internacional del Trabajo, CH-1211 Ginebra 22, Suiza, que también puede enviar a quienes lo soliciten un catálogo o una lista de nuevas publicaciones. Fotocompuesto en Suiza Impreso en Suiza BRI VAU

Prólogo y nota de agradecimiento* La preparación de los datos obtenidos en una encuesta suele llevar mucho tiempo debido, entre otras cosas, a que algunos aspectos relacionados con su tratamiento no se abordan adecuadamente ni con la suficiente antelación. Es muy importante que el tratamiento de los datos se realice minuciosa e informadamente, por lo que en esta guía se ofrecen instrucciones detalladas que los expertos en planificación, digitación y sistemas informáticos encontrarán útiles para el desempeño de su labor. Asimismo, se indican las condiciones y los procedimientos de transferencia de ficheros electrónicos a la OIT tras la finalización de las encuestas sobre trabajo infantil, contribuyendo así a incrementar la cantidad de información disponible al respecto en el mundo. El objetivo principal es facilitar la generación de microdatos de gran calidad a partir de las encuestas sobre trabajo infantil. La presente guía ha sido preparada por el Sr. Muhammad Q. Hasan, de SIMPOC/IPEC (OIT). Son muchas las personas cuya labor guarda relación con las encuestas sobre trabajo infantil que han contribuido a su elaboración. Así pues, nosotros les expresamos el más sincero agradecimiento. En especial, damos las gracias al Sr. Sylvester Young, Director de la Oficina de Estadística de la OIT, y al Sr. Farhad Mehran, del Departamento de Integración de Políticas de la OIT, por sus útiles comentarios y sugerencias. Esta guía se revisará y reproducirá oportunamente, por lo que toda observación o sugerencia será bienvenida. Los usuarios que lo deseen pueden ponerse en contacto con el Programa de Información Estadística y de Seguimiento en Materia de Trabajo Infantil (SIMPOC) en la siguiente dirección: simpoc@ilo.org * A los efectos de la presente guía, el término niño se utiliza en sentido genérico e incluye tanto a los niños como a las niñas. iii

Índice 1. Introducción 1.1 Antecedentes... 1 1.2 Acopio de datos sobre el terreno: sinopsis... 2 1.3 Importancia del tratamiento de los datos... 3 2. Planificación 2.1 Introducción... 5 2.2 Planificación del tratamiento de datos... 6 2.3 Definición de los aspectos pertinentes de un conjunto de datos... 6 2.4 Selección de equipos y programas informáticos... 15 2.5 Dotación de personal... 18 2.6 Cronograma del tratamiento de datos... 19 2.7 Estrategia de conservación de los datos y procedimiento de acceso... 19 3. Tratamiento de los datos 3.1 Introducción... 23 3.2 Entrada de datos y validaciones preliminares... 24 3.3 Concatenación, fusión y división de ficheros... 25 3.4 Validación de los datos... 30 3.5 Decisiones finales sobre los errores... 33 3.6 Conclusión del tratamiento de datos y generación de ficheros... 33 3.7 Preparación de conjuntos de datos de uso público... 35 3.8 Documentación final... 36 3.9 Tabulaciones finales... 43 3.10 Conversión de los ficheros de datos a otros formatos... 44 3.11 Almacenamiento de los ficheros... 45 4. Conservación de los datos 4.1 Introducción... 49 4.2 Organización de los ficheros... 49 4.3 Transferencia de un fichero a un lugar de conservación... 51 4.4 Copias de seguridad... 52 Transferencia de ficheros a la OIT... 55 Bibliografía y recursos adicionales... 57 v

Glosario... 59 Anexos Anexo I Comparasión de paquetes estadísticos... 63 Anexo II Nombres de países y códigos correspondientes... 65 Anexo III Cuestionario de Encuesta de Finales de Década y Trabajo Infantil (módulo de educación) de Zambia... 72 Anexo IV Ejemplo de lista de códigos para datos ASCII creada con SAS... 73 Anexo V Estructura del conjunto de datos... 83 vi

1. Introducción 1.1 Antecedentes El Programa de Información Estadística y de Seguimiento en Materia de Trabajo Infantil (SIMPOC) brinda apoyo a las encuestas sobre trabajo infantil que se realizan en muchos diversos países. Uno de los aspectos más importantes del SIMPOC es la recopilación, el archivo y la difusión de microdatos fiables, bien documentados y de fácil acceso. Ello requiere un gran esfuerzo de planificación y organización, así como de ejecución de las actividades previstas, sobre todo en cada país donde se espera reunir datos que se archivarán durante un período de tiempo indefinido. Entretanto, esa información servirá de base en la OIT para constituir un depósito de datos sobre el trabajo infantil en el mundo que podrá ser utilizado por diversas personas en diversos países y diversos entornos informáticos. Por consiguiente, los datos deben haber sido depurados, ser consistentes, bien documentados y fácilmente accesibles para su uso, en cualquier momento, en actividades de investigación y preparación de políticas. Los conjuntos de datos que se envíen a la OIT deberán estar completos incluir listas de códigos, cuestionarios, etc. y poder ser utilizados directamente por cualquier analista en cualquier entorno informático. Las encuestas sobre trabajo infantil constan de tres fases. En primer lugar, se recopilan los datos mediante entrevistas a los niños o sus familiares. Tras la obtención de los datos, se lleva acabo su tratamiento. En esa fase se comprueba la información reunida en busca de errores y se generan los microdatos y los ficheros documentales pertinentes. Por último, se analizan los resultados desde la perspectiva de cualquier necesidad o política. Aunque el tratamiento de los datos es un proceso difícil y complejo, es la fase que suele recibir menos atención. Algunas actividades de tratamiento de datos, como la planificación de los equipos y programas informáticos requeridos y la capacitación del personal, pueden efectuarse simultáneamente a otras actividades como en diseño de encuestas y la obtención de datos sobre el terreno. Dado que en las encuestas sobre trabajo infantil los plazos son muy rígidos, se recomienda llevar a cabo todos los procedimientos de planificación, formación y ensayo antes de acometer el acopio de datos sobre el terreno. La fase de tratamiento de los datos comprende varias etapas que, a su vez, constan de múltiples pasos en los que pueden producirse y de hecho se producen errores. Las encuestas sobre trabajo infantil son actividades de menor envergadura que los censos, pero, dado que en su mayoría se realizan por primera vez y que en ellas se recoge una mayor cantidad de información que en muchas encuestas de hogares generales, tienden a ser más complejas. Si bien las actividades globales de elaboración de datos son, en muchos sentidos, análogas a las de otras encuestas de hogares generales, las encuestas sobre trabajo infantil requieren a veces más tiempo y más recursos porque las muestras son más grandes y los cuestionarios más extensos. La consecución de resultados presentables tras las encuestas suele demorarse debido a que, a menudo, las cuestiones relacionadas con el tratamiento de los datos no se abordan de manera adecuada ni con la suficiente antelación. En esta guía se hace un rápido recorrido de la fase de recogida de datos para pasar, primero, a resaltar la importancia del tratamiento de los datos y, segundo, a proporcionar unas directrices pormenorizadas para su realización con especial atención a ciertos aspectos relacionados con las encuestas sobre trabajo infantil. En el capítulo 2 se aborda la planificación del tratamiento de los datos. En el capítulo 3 se examina el tratamiento de los datos e, inmediatamente después de la conclusión de una encuesta sobre trabajo infantil, la generación de ficheros y de conjuntos de datos bien documentados para uso público. Una de las finalidades principales de esta guía es ayudar a los 1

especialistas en tratamiento de datos de cada país a preparar conjuntos de datos fiables y depurados junto con toda la documentación necesaria para realizar análisis secundarios tras la conclusión de una encuesta, a fin de que se elaboren datos agregados fidedignos. En el capítulo 4 se facilita información sobre la conservación de los conjuntos de datos para que exista un acceso fácil y continuo a lo largo de un período de tiempo indefinido. Los temas relacionados con el diseño de las encuestas, el análisis de los datos y su difusión quedan fuera del ámbito de la presente guía. La información que presentamos en los siguientes capítulos debe considerarse únicamente como una orientación naturalmente, es posible adaptar los procedimientos reseñados en función de los recursos disponibles a nivel nacional y de la experiencia en cada contexto. Esta guía, en su conjunto, está destinada a los planificadores y a los especialistas técnicos encargados de supervisar las actividades de tratamiento de datos. Ahora bien, el capítulo 3 ha sido específicamente concebido para aquéllos que llevan a cabo el tratamiento efectivo de los datos, mientras que el capítulo 4 está pensado para los administradores de sistemas informáticos encargados del almacenamiento de los datos de encuestas sobre trabajo infantil. Asimismo, se ofrece un panorama general de aquellas actividades de tratamiento de datos que pueden realizarse en la fase de diseño de una encuesta. 1.2 Acopio de datos sobre el terreno: sinopsis En general, es posible utilizar diversos métodos para recopilar datos, desde entrevistas personales o telefónicas hasta fotografías aéreas. Sin embargo, las encuestas sobre trabajo infantil se realizan únicamente mediante entrevistas personales en las que sólo caben dos métodos. PAPI. En las entrevistas a lápiz y papel (paper-and-pencil interviews), los encuestadores utilizan cuestionarios en papel y anotan los datos con lápices. A continuación, las personas encargadas de la digitación los registran en las computadoras o los trasforman para que las máquinas puedan leerlos combinando alguna técnica de lectura óptica con tecnología de reconocimiento de caracteres. Sea cual fuere el método de entrada de datos que se utilice, no es necesario verificar la información. Se utilizan varios medios para asegurarse de que los datos se introducen de forma adecuada. Esta cuestión se examinará con mayor detalle en los capítulos siguientes. CAPI. En las entrevistas personales con computadoras (computer-aided personal interviews), los encuestadores disponen de aparatos electrónicos de mano (por ejemplo, computadoras tipo palmtop o portátiles) que permiten el registro digital directo de los datos. Este método tiene varias ventajas en comparación con el de PAPI, ya que los errores suelen producirse solamente durante el ingreso de los datos, pudiendo realizarse una verificación justo después de su obtención. La información se transfiere a computadoras, sin necesidad de dedicar más tiempo a la entrada adicional de datos, y su depuración puede comenzar casi de inmediato. En esta guía se aborda principalmente el método PAPI, que es el utilizado para obtener datos en la mayoría de las encuestas sobre trabajo infantil. 2

1.3 Importancia del tratamiento de los datos El trabajo infantil es un problema que suele soslayarse en muchos sentidos. Con las encuestas se pretende obtener datos cuantitativos fiables al respecto. Para llevar a cabo encuestas nacionales se precisan cantidades considerables de dinero y un ingente esfuerzo de organización en el que deben participar ministerios, oficinas nacionales de estadística y otras instituciones. Los datos resultantes se facilitan a especialistas en políticas, investigadores, analistas mundiales y responsables de campañas para que hagan saber al público los nocivos efectos del trabajo infantil. Todos aquellos mencionados anteriormente necesitan datos fiables y de fácil acceso sobre los diversos aspectos del trabajo infantil. En los conjuntos de datos derivados de encuestas se observan errores de muestreo y de otros tipos. Los errores de muestreo se tratan durante la fase de diseño de la muestra y no los abordaremos en esta guía. Los otros errores pueden deberse a los entrevistados, los entrevistadores, los encargados de la digitación o los programadores de sistemas de tratamiento de datos. Uno de los principales objetivos del tratamiento de datos es hallar esos errores y corregirlos lo antes posible. Si se detectan errores irreparables, deben señalarse y explicarse. Los errores que pasan inadvertidos o no se señalan pueden alterar las interpretaciones de los datos y, en último extremo, propiciar la adopción de políticas inadecuadas. Es fundamental que las operaciones de tratamiento de datos corrección de errores, controles de lógica y compilación de información para la documentación, entre otras se lleven a cabo correcta y minuciosamente para que la información de la encuesta sea fiable; de otro modo, los resultados de una encuesta bien hecha (datos obtenidos sobre el terreno) pueden verse limitados a unos pocos cuadros con información de dudosa calidad. Los analistas encontrarán difícil, si no imposible, utilizar los datos, mientras que los encargados de elaborar políticas nacionales e internacionales pueden verse inducidos a error por los resultados de esa encuesta. Una de las claves en el tratamiento de datos es realizar una planificación exhaustiva. Es necesario detallar las diversas actividades lo antes posible y establecer planes de corrección. La elaboración de los datos reviste una importancia capital para el resultado de la encuesta y la depuración y la verificación de los datos son vitales. 3

2. Planificación 2.1 Introducción Una planificación adecuada contribuye a obtener conjuntos de datos de gran calidad. Para lograrlo, hay dos factores esenciales: Método estadístico. Es necesario emplear buenos instrumentos de acopio de datos y una metodología de encuesta bien desarrollada. Procesamiento y almacenamiento ulterior de los conjuntos de datos. Un segundo aspecto fundamental es el uso informado de instrumentos establecidos de tratamiento de datos y de una metodología apropiada, así como la utilización de equipos y programas informáticos modernos para las actividades pertinentes. En la mayoría de los casos, las encuestas sobre trabajo infantil se efectúan como operaciones independientes o vinculadas a algún tipo de encuesta nacional de hogares. En las encuestas independientes, usualmente se entrevista a los niños y padres. Atendiendo a estudios iniciales, en esta guía se ha decidido utilizar la hipótesis de que la recopilación de datos en todas las encuestas sobre trabajo infantil se realiza con el método de lápiz y papel (PAPI). La planificación de las encuestas y la depuración de los datos se abordarán desde el ángulo de esa hipótesis. Una vez terminadas las entrevistas, los datos obtenidos se introducen en una computadora. Esa entrada puede llevarse a cabo bajo el control de supervisores en oficinas sobre el terreno o en la sede de la encuesta, que suele ser la oficina nacional de estadística. Si los datos se introducen sobre el terreno, existirá un fichero al menos en cada ubicación de campo. Dado que se empleará el mismo cuestionario, todos los ficheros generados en esas ubicaciones tendrán algunas variables en común. Sea cual fuere el modo de recopilar los datos, los distintos ficheros se agregarán antes de realizar la depuración de los datos o justo después, normalmente en la sede de la encuesta. Si la encuesta sobre trabajo infantil es un módulo de una encuesta de hogares más amplia (si, por ejemplo, forma parte del módulo sobre la salud y la educación de los miembros de la familia), los datos relativos al trabajo infantil podrán obtenerse al mismo tiempo que los demás (como sucede con las encuestas independientes) o por separado, sin la información correspondiente a la vivienda (que se obtiene como parte de otro módulo). Asimismo, es posible recopilar los datos en momentos diferentes (por ejemplo, si se trata de una encuesta trimestral sobre la mano de obra, la muestra total será la de todo el año). En esos casos, es necesario extraer de otros ficheros la información correspondiente al hogar y combinarla con los datos sobre trabajo infantil. Habrá, pues, que agregar y fusionar datos (ambas actividades se describen con mayor detalle más adelante). Después de preparar un fichero de datos, se realiza la depuración (también pueden efectuarse depuraciones parciales en el fichero de cada módulo). Cabe señalar que resulta difícil definir el trabajo infantil si no se estudia detenidamente toda la información relativa a los niños hay que analizar la información sobre el hogar y los demás miembros de la familia para poder comprender las causas y las consecuencias del trabajo infantil. Un caso distinto 1 es el de las encuestas realizadas en varias fases con una serie de cuestionarios para entidades diferentes o con una cobertura distinta. En ese caso, puede que haya que presentar los datos en ficheros separados, sin fusionarlos ni concatenarlos. 1 Un ejemplo de ello es el informe Survey of activities of young people in South Africa 1999 [trad.: Encuesta de actividades de personas jóvenes en Sudáfrica 1999] realizado con ayuda del SIMPOC, http://www.ilo.org/childlabour/simpoc/southafrica/report/rep1999,pdf (en inglés). 5

Todas las situaciones descritas nos advierten de la necesidad de realizar una planificación detenida antes de tratar la información reunida y ponerla a disposición de los analistas. Todos los aspectos de la planificación se pueden abordar mientras se diseña la encuesta. Si las limitaciones financieras y temporales no son óbice, habría que ensayar todas las actividades de tratamiento de datos durante la encuesta piloto (ese proceso es fundamental cuando se utiliza el método CAPI para la recogida de los datos). Una planificación exhaustiva y oportuna reduce considerablemente el tiempo realmente dedicado al tratamiento de los datos. En las siguientes secciones examinaremos los aspectos de planificación que hay que considerar antes de llevar a cabo el tratamiento de datos. 2.2 Planificación del tratamiento de datos La planificación repercute en el tratamiento de datos sobre todo de dos maneras. Por un lado, debe decidirse la forma en que se llevará a cabo el tratamiento efectivo de los datos, lo cual se examinará detenidamente en el capítulo 3. Pero, primero, hay que establecer los recursos y las definiciones necesarios para realizar un tratamiento de datos eficaz y eficiente. Este primer paso puede denominarse «planificación». La planificación comprende los siguientes elementos esenciales: definición de los aspectos pertinentes del conjunto de datos, selección de equipos y programas informáticos, establecimiento de la dotación de personal, cronograma del tratamiento de datos, formulación de una estrategia de conservación de los datos, diseño de un procedimiento de acceso. 2.3 Definición de los aspectos pertinentes de un conjunto de datos En primer lugar, los microdatos deben ser correctamente procesados para que los analistas puedan utilizar eficazmente el conjunto de datos derivado de ellos. Ello implica varias etapas. La planificación preliminar es fundamental e incluye el establecimiento y la definición de algunos aspectos del conjunto de datos como los siguientes. Variables de identificación de registros Para identificar un caso o registro, suele crearse y codificarse una variable de identificación con un valor único. Hay, pues, que determinar el método de codificación y los elementos que constituyen esa variable que a menudo se designa como identificador único de registro a la que se asignará un nombre según el procedimiento descrito más adelante en este capítulo. Esa variable de identificación será el único vínculo entre el conjunto de datos original, que contiene todas las variables, y los conjuntos de datos de uso público (en que es posible que se hayan suprimido muchas variables de identificación por razones de confidencialidad) o que se encuentran en ficheros diferentes, aunque será necesario realizar una comparación cruzada de la información. 6

Por ejemplo, puede bastar una combinación de un código estatal o provincial, un código de zona y un número de hogar consecutivamente para identificar un hogar de forma distintiva. Es posible utilizar un número de línea (posición de una persona en un hogar) para identificar a un miembro de la familia de forma exclusiva. Existen otras posibilidades para alcanzar el mismo objetivo, pero habrá que tener siempre cuidado a la hora de combinar los números y, además, cada hogar y cada una de las personas que integran la familia deberán tener su propio identificador único. Estructura de los ficheros En las encuestas sobre trabajo infantil, la unidad de análisis es el «niño» o la «persona», mientras que el medio es el «hogar», porque para obtener la información sobre el niño o la persona se identifica primero el hogar. Así pues, merece la pena decidir de antemano cómo deben ser los ficheros de datos finales. La estructura de los ficheros de datos puede diferir considerablemente en cuanto a su formato y organización cuando, después de la introducción de los datos, los ficheros se ponen a disposición de especialistas para que realicen análisis secundarios. Es preferible un gran fichero con un registro extenso de datos (que describan tanto al niño como la vivienda en que reside, por ejemplo), o sería mejor disponer de varios ficheros pequeños con registros breves (en que, por ejemplo, la información sobre el niño y el hogar se encuentren en ficheros diferentes con una variable vinculante)? La decisión dependerá de factores como el modo de realizar la encuesta y el soporte lógico estadístico empleado para introducir y elaborar los datos. Cabe utilizar las siguientes consideraciones como directrices. Un fichero puede contener un registro grande o varios registros pequeños. Cuando existe un número elevado de registros, la velocidad de tratamiento de los datos es menor. Algunos paquetes estadísticos (por ejemplo, Stata) limitan el número de registros a un máximo de variables. Por otra parte, una de las ventajas de los registros grandes en un único fichero es que los analistas no tendrán que fusionar ficheros más tarde. En el anexo I se describen algunas limitaciones de paquetes estadísticos como SPSS, SAS y Stata. Los datos pueden organizarse en un fichero de tal modo que los registros sobre los hogares vayan seguidos de los registros sobre las personas (con distintos tipos de registros en un fichero jerárquico ASCII). Otra posibilidad es crear dos ficheros separados: uno para la vivienda y otro para una persona que resida en ella, con variables de conexión bien definidas comunes a ambos ficheros, en el formato de un paquete específico. También puede crearse un fichero único fusionado con registros grandes. En esos ficheros, los valores de muchas variables se repetirán para los miembros del mismo hogar, lo cual requerirá más espacio de almacenamiento. Cada sistema tiene sus ventajas e inconvenientes y en toda decisión de planificación deberá tenerse en cuenta la forma de reunir los ficheros que forman un conjunto de datos y cuál será su estructura. Dependiendo de la forma en que cada programa informático específico maneje los ficheros de datos, pueden surgir problemas durante la creación de ficheros de gran tamaño en el entorno Windows. Un fichero de datos sobre trabajo infantil puede resultar grande si se asocia con una encuesta de trabajo, así que puede ser necesario dividirlo antes del análisis. La estructura de los ficheros debe decidirse en función de los recursos informáticos disponibles y la experiencia en sistemas de tratamiento de datos. Ahora bien, debido a su sencillez, se recomienda utilizar ficheros planos, siempre que sea posible, para las encuestas de trabajo infantil. 7

Denominación de los ficheros Cuando se crea un fichero, hay que darle un nombre, por lo que vale la pena decidir de antemano la forma en que se nombrarán todos los ficheros. Esto significa, como mínimo, adoptar una convención de denominación. Para empezar, se recomienda que el nombre refleje siempre el contenido del fichero. También puede incluirse el número de versión del fichero (en el capítulo 3 veremos cómo se generan versiones diferentes). Por lo que respecta en concreto a las encuestas sobre trabajo infantil, se recomienda consignar la siguiente información en el nombre de los ficheros: contenido del fichero (datos, documentación, cuestionario, etc.), persona a la que se refiere el fichero (niño, padre o madre, familia), número de versión de que se trate, país donde se haya realizado la encuesta, si un fichero es de uso general o restringido. Estas convenciones uniformes de denominación resultan de suma utilidad a los usuarios cuando tienen que elegir el fichero que necesitan dentro de un conjunto de datos. En general, facilitan el procesamiento del contenido a menudo después de transcurrido mucho tiempo de sistemas de almacenamiento informático que podrían contener hasta miles de ficheros. Asimismo, puede incluirse otro tipo de información en el nombre, como el año de la encuesta o el ciclo. Ahora bien, por lo general el número de caracteres que pueden emplearse para denominar un fichero es limitado, permitiendo la mayoría de los sistemas informáticos estructuras del tipo 8.3 esto es, 8 caracteres para el nombre del fichero propiamente dicho y 3 para su extensión (por ejemplo, MY_FILE.DOC). La extensión suele asignarla el paquete con que se creó el fichero (por ejemplo, MSWORD utilizará la extensión DOC). Dicho de otro modo, sólo se puede jugar con 8 caracteres para expresar el máximo de información posible sobre la naturaleza de un fichero. En vista de esas limitaciones, se recomienda la siguiente convención de denominación. Todos los nombres de los ficheros deben comenzar con un código de país (en el anexo II se ofrece una lista de códigos de dos caracteres), seguido de la letra N si se trata de un niño, P si se trata de uno de los padres, F si es una familia (incluidos los padres y los niños) y de V para la vivienda. El número de versión se indica a continuación y, dado que es muy posible que con el tiempo se superen las nueve versiones, conviene utilizar dos caracteres. La letra G indica que el fichero es de uso general y la R que es restringido. En octavo lugar figurará la letra D, Q o C datos, cuestionario o código respectivamente, que indica el contenido del fichero. Si alguno de esos campos no es aplicable, debe sustituirse por el símbolo ( _ ), simplificando así las manipulaciones durante el tratamiento informático. En resumen, cuando se nombren los ficheros siguiendo una estructura de 8.3, debe utilizarse la siguiente convención. Primeros ocho caracteres Caracteres primero y segundo código de país Caracteres tercero y cuarto niño/padre o madre (persona), vivienda o ambos Para niño exclusivamente Para el niño y el padre o la madre (familia) 8

V_ Para vivienda P_ Para el padre o la madre solamente FV Para un fichero único que contenga información sobre el niño, los padres y la vivienda. Nota: el signo de subrayado ( _ ) se utiliza para rellenar el espacio correspondiente al cuarto carácter Caracteres quinto y sexto número de versión 01 Primera versión u original 02 etc. Segunda versión y, por consiguiente, diferente de la original Carácter séptimo uso del fichero G R Uso general (público) Uso restringido (interno) (en caso de que sean sólo datos) Carácter octavo contenido del fichero C D I S Q O L Para la lista de códigos (normalmente asociada con un fichero de datos ASCII) Para datos Para resumen de la clasificación de industrias Reglas de control de la consistencia Para cuestionario Para resumen de la clasificación de ocupaciones Para las variables Los últimos tres caracteres después del punto decimal indican el tipo de fichero (paquete informático u otro). He aquí varios ejemplos para aclarar la convención: BDN_01RD.DOC/SAV/POR La versión original de un fichero con datos sobre niños en Bangladesh podría llamarse BDN_01RD, donde BD significa Bangladesh; N significa niños; _ indica que no se dispone información sobre las casas (o viviendas) en las que viven; 01 significa que ese fichero es la primera versión; R expresa que el fichero es de uso restringido y D que son datos. El fichero de datos de uso público que se deriva el anterior llevaría casi el mismo nombre BDN_01GD. Los cuestionarios correspondientes se denominarían BDN_01GQ (como los cuestionarios son de uso público general, deben llevar siempre el código G). La extensión indica si se trata de un fichero de datos o de un documento de un paquete específico. Por ejemplo, los ficheros de datos SPSS llevan la extensión SAV o POR, mientras que los documentos MS llevan la extensión DOC. UAFV04RD.[xxx] Análogamente, un fichero que contenga datos sobre los padres, los hijos y las viviendas en Ucrania y que sea la cuarta versión puede llamarse UAFV04RD. La versión de uso público se denominaría UAFV04GD. Los cuestionarios correspondientes serían 9

UAFV04GQ, mientras que un fichero de descripción de variables se denominaría UAFV04GL. El nombre de un fichero de clasificación de ocupaciones sería UAFV04GO. Todos los nombres de los ficheros deben llevar la extensión de tres caracteres pertinente. PAFV02RD.txt Un fichero de datos ASCII que contenga información sobre los padres, los hijos y las viviendas en Panamá y que sea la segunda versión puede denominarse PAFV02RD.txt si es de uso restringido y PAFV02GD.txt si es de uso público. El fichero de códigos asociado se llamaría PAFV02GC, con la extensión TXT o DOC según el tipo de fichero. Creación y denominación de las variables Después de terminar una encuesta, se crea un conjunto de variables a partir del cuestionario (variables primarias). En una etapa posterior, podrán generarse variables derivadas a partir de las variables primarias. Si no se sigue una convención, la denominación de esas variables puede resultar difícil. He aquí varias reglas empíricas: Los nombres de las variables deben expresar el significado del contenido de los datos que representan. Cualquier analista potencial debe poder confiar en que se aplican los mismos nombres de variables a los mismos datos. Si se utilizan dos preguntas para determinar la situación laboral de un encuestado por ejemplo, para preguntar sobre su trabajo actual y su trabajo habitual las variables que representen esas preguntas no deben denominarse «trabajo 1» y «trabajo 2», ya que no queda claro a qué se refiere cada una. Lo ideal es que los cuestionarios se preparen de tal modo que cada pregunta corresponda a una variable cuyo nombre se haya decidido previamente. Por ejemplo, la variable correspondiente a la pregunta «Cuántos años tiene usted?» puede llamarse EDAD. Los cuestionarios de ese tipo suelen denominarse cuestionarios anotados. Igual que sucede con los ficheros, la denominación de las variables suele depender de paquetes estadísticos que restringen el número de caracteres utilizables a ocho o menos (por ejemplo SPSS) 2. Los entornos informáticos disponibles en un país concreto influyen también en las convenciones de denominación. En los cuestionarios de preguntas con respuestas múltiples debe asignarse un nombre de variable a cada respuesta. Por ejemplo, si en la pregunta número 9 hay dos respuestas para elegir una, las variables pueden llamarse P9a y P9b. Es posible aplicar varios métodos para denominar a las variables 3. Variables numeradas desde uno. En este enfoque, se numeran las variables consecutivamente. Así, si hay 100 variables en un fichero, ellas pueden ser numeradas desde 1 hasta 100. No obstante, muchos paquetes estadísticos de software no admiten nombres de variables que comiencen con un dígito (por ejemplo SPSS), lo que se hace usualmente es colocar una letra al comienzo del nombre de las variables (por ejemplo en SPSS las varia- 2 En el anexo I se ofrece más información sobre el número máximo de caracteres permitidos por algunos paquetes estadísticos para denominar a una variable. 3 Se siguen los enfoques delineados en: Inter-university Consortium for Political and Social Research (ICPSR), Guide to Social Science Data Preparation and Archiving. http://www.icpsr. umich.edu/access/dpm.html 10

bles serán asignadas de v1 a v100 o de var001 a var00100). Los nombres de las variables pueden ser cambiados manualmente después. Sin embargo, el problema de este método es que frecuentemente es imposible de comprender el significado de una variable o de parear los nombres de algunas variables con sus respectivas preguntas sin etiquetas adicionales. Errores pueden ocurrir fácilmente si se les da nombre a las variables manualmente de esta manera. Números de preguntas. Una posible alternativa al método de numerar las variables desde uno es de darle a las variables el nombre de la pregunta respectiva, por ejemplo P1 es el nombre que corresponde a la pregunta 1. Dado que las preguntas de respuesta múltiple requieren de la creación de más de una variable por pregunta, una letra puede ser anexada después del número de la pregunta, P4a, P4b, etc. Dado que todos los cuestionarios de trabajo infantil consisten de varias secciones, la primera letra se puede escoger para que represente la sección (A1, A2... B4a, B4b, etc. donde A y B son diferentes secciones). De nuevo, etiquetas adicionales pueden ser utilizadas para explicar el significado verdadero de las variables. Nombres mnemotécnicos. En este método, se le da a las variables un nombre que representa el concepto de las variables. No obstante, la misma palabra puede ofrecer diferentes significados a diferentes usuarios. Además, el máximos de 8 caracteres en el nombre de las variables puede imponer severas restricciones para transmitir el verdadero significado. También es difícil de asignar manualmente la misma palabra a diferentes variables transmitiendo el mismo tipo de significado. Sistemas de prefijo, raíz y sufijo. Una posible alternativa al método de nombres mnemotécnicos para construir nombres de variables es el de utilizar palabras abreviadas definidas con anticipación y unirlas como prefijo, raíz y sufijo. Por ejemplo, todas las variables relacionadas a niños pueden utilizar NI como prefijo; TS y TA para significar el trabajo de la última semana y el trabajo del último año, respectivamente, como raíz; y GRP para grupo de casos, como sufijo. Variables derivadas. Como hemos mencionado anteriormente, las variables derivadas se crean a partir de una o más variables primarias. Por ejemplo, la edad puede ser una variable primaria, pero los analistas podrían necesitar información sobre niños del grupo de edad entre 5 y 9 años. La información sobre la edad concreta de cada niño puede agruparse para formar la variable derivada «grupo de edad». Se recomienda diferenciar, siempre que sea posible, las variables primarias de las derivadas. Se aconseja también, por diversas razones, que el conjunto de datos de uso público no contenga un número elevado de variables derivadas: ello supone dedicar mucho tiempo al tratamiento de los datos. Además, para que esas variables puedan utilizarse de forma adecuada, deben acompañarse de suficientes explicaciones y los conjuntos de datos pueden resultar demasiado extensos o difíciles de manejar. También puede ocurrir que los analistas no tengan la ocasión de emplear las variables derivadas ulteriormente y prefieran crear variables derivadas a medida de sus propias necesidades. Cabe recordar que los coeficientes de ponderación que se incluyen en las series de datos no son variables del cuestionario y deben ser tratados por separado. Debería llamárseles «ponderación», siguiendo la convención de denominación aplicada a las variables primarias. Naturalmente, cada país puede escoger la convención de denominación que convenga para sus variables. Ahora bien, a fin de mantener una consistencia internacional por lo que respecta a los datos sobre trabajo infantil, se recomiendan las siguientes reglas: Utilizar el método de números de las preguntas para denominar las variables, de modo que los caracteres que representen la sección aparezcan como primer carácter en el nombre de la variable. Utilizar el método de raíz, prefijo y sufijo para denominar las variables derivadas. 11

Utilizar mayúsculas para las variables primarias, cuando sea posible. Utilizar minúsculas para las variables derivadas. Denominar el coeficiente de ponderación siguiendo las mismas normas que para las variables primarias, pero de modo que sea fácil diferenciarlo de ellas. Asignación de etiquetas de variables Los conjuntos de datos son más difíciles de comprender si no se describen correctamente los atributos asociados a las variables por ejemplo, la pregunta literal que se hizo a los encuestados. Los interesados en realizar análisis secundarios de las encuestas sobre trabajo infantil prefieren que se incluya toda la información en cada conjunto. Un método posible es asignar etiquetas adecuadas a todas las variables. Como hoy en día casi todos los software de procesamiento de datos (por ejemplo SPSS) ofrecen la opción de añadir etiquetas, esta opción se debe utilizar para describir cada variable. En caso que no se pueda encontrar ninguna etiqueta apropiada, la pregunta literal junto en el número de pregunta correspondiente puede ser utilizado como etiqueta. Si la variable es una variable derivada, se puede añadir una etiqueta para indicar cuál variable o cuáles variables se utilizan para crear esta nueva variable, y si es posible indicar la razón para crear dicha variable. Codificación Para analizar la información obtenida durante el acopio de datos en el terreno, se utilizan paquetes de programas informáticos de análisis estadístico. Así pues, es necesario transformar esa información en datos que puedan ser leídos por el programa que se vaya a utilizar. Para ello, hay que codificar cada respuesta. El proceso por el que se determina qué símbolo representa a qué ítem se conoce como codificación. La codificación debe llevarse a cabo durante el diseño de la encuesta y es importante que las personas que se ocuparán del tratamiento de los datos participen en esa labor. Las encuestas sobre trabajo infantil deberían precodificarse antes del acopio de los datos. Habría que codificar en el cuestionario todos los valores posibles inclusive respuestas como «no disponible», «no aplicable», «no responde» y los entrevistadores deberían recibir formación al respecto. Esa medida reduciría sobremanera el tiempo necesario para la codificación durante la entrada o el tratamiento de los datos. A continuación se presentan algunas directrices, basadas en Guide to Social Science Data Preparation and Archiving 4 [trad.: Guía para la preparación y archivo de datos de las ciencias sociales] de ICPSR y Survey análisis [trad. Análisis de encuesta] de Audience Dialogue 5. Si surge la necesidad de códigos adicionales (por ejemplo, para añadir códigos adicionales para preguntas abiertas), esto se debe hacer con consideración apropiada al esquema de codificación definido durante el diseño del cuestionario. Es particularmente importante de asegurar que no hay traslapes entre categorías de códigos y que cada código calza en sólo un categoría. Para preguntas abiertas, las categorías o clasificaciones mayores deben ser identificadas al examinar el número de respuestas y deben ser utilizadas para codificación 4 ibid. 5 Audience Dialogue: Survey analysis. http://www.audiencedialogue.org/kya5.html 12

adicional. El significado de cada código debe ser documentado claramente. Durante el proceso de codificación adicional también es buena práctica el preservar el máximo de información posible en los datos como son recolectados (es decir, no colapsar ni agrupar, etc). Por lo que respecta a la codificación de las ocupaciones, es importante seguir un formato uniforme establecido por alguna de las instituciones de normalización reconocidas por ejemplo, la Clasificación internacional uniforme de ocupaciones, CIUO-88 y emplear tantos dígitos como sea posible para brindar el máximo de información. Deben especificarse todos los tipos posibles de valores faltantes (como «no responde» o «no aplicable») y asignarse el mismo valor (99, por ejemplo) a cada tipo en el mismo conjunto de datos. Los siguientes factores suelen ser los causantes de que falten valores en los datos en encuestas de trabajo infantil y debería asignarse un código diferente a cada caso. No responde. La persona encuestada no responde. No sabe. La persona encuestada es incapaz de responder a la pregunta. Por ejemplo, es posible que no tuviera noción del tiempo o de matemáticas y hubiese respondido «no sé» a la pregunta «Cuáles fueron sus ingresos totales el año pasado?» (nunca debe animarse a los encuestados a responder «no sé»). No aplicable. Por alguna razón válida, la pregunta no fue formulada. Después de una respuesta «no trabaja», por ejemplo, no se hicieron las preguntas relativas a los ingresos. No coincide. Se ha observado en muchas encuestas sobre trabajo infantil que valores faltantes quedaron sin completar o se codificaron con un «cero» que no fue definido previamente. Por consiguiente, es fundamental asignar códigos diferentes a todos los casos durante el proceso de codificación: todos los casos deben estar precodificados en el cuestionario. Si, por algún motivo, no se completan los valores faltantes con algún código, deben explicarse claramente los motivos en la documentación. A menudo resulta bastante difícil codificar algunos ítems como las ocupaciones y las industrias. Cuando se crean códigos, pueden olvidarse algunas clasificaciones (como sucede, por ejemplo, con las ocupaciones), lo que dificulta aún más el trabajo de los encuestadores. Por lo tanto, se alienta a los países a consultar los siguientes recursos de la OIT: Clasificación internacional uniforme de ocupaciones (CIUO) 6 Clasificación internacional de la categoría en el empleo (CISE) 7 Clasificación industrial internacional uniforme de todas las actividades económicas (CIIU) 8 Clasificaciones de lesiones profesionales 9 Esta lista, que no es exhaustiva, puede consultarse en la página Web de la Oficina de Estadística de la OIT 10. Las clasificaciones sobre trabajo infantil, en las que las categorías 6 Ibíd. 7 Tomado de http:// http://www.ilo.org/public/spanish/bureau/stat/class/icse.htm 8 Tomado de http://www.ilo.org/public/spanish/bureau/stat/class/isic.htm 9 Tomado de http://www.ilo.org/public/spanish/bureau/stat/class/acc/index.htm 10 Detalles pueden ser obtenidos de http://www.ilo.org/public/spanish/bureau/stat/index.htm. 13

pertinentes difieren de un país a otro, todavía no están listas y puede ser preciso crear esquemas adicionales de codificación. Reglas de consistencia y lógica Es importante crear todas las reglas de lógica que sea posible utilizando el cuestionario como base. Ello requiere un excelente conocimiento del mismo y de su flujo, lo cual será de gran ayuda a los programadores informáticos en una etapa posterior. En primer lugar, reglas de consistencia deben elaborarse estudiando el direccionamiento de cada pregunta (por ejemplo, si la respuesta a la pregunta 20 es «sí», hay que introducir la instrucción de que se salten las preguntas 21 y 22). Algunos ejemplos de respuesta a cuestionarios que sugieren otras reglas de control de la consistencia son las siguientes: Se indica que un niño menor de 6 años ha terminado la enseñanza secundaria. Se indica que un niño no trabaja pero que aporta dinero al hogar. Un niño no trabaja, pero se indica que ha sufrido una lesión relacionada con el trabajo. También hay que establecer reglas de control lógico cuando los datos contienen un valor legítimo pero que parece incorrecto. Por ejemplo, se señala que una persona tiene 11 hijos. Ese dato puede ser cierto, pero a primera vista puede parecer incorrecto y puede significar fácilmente un error tipográfico. El valor correcto más probable puede ser 1 hijo. La regla correspondiente sería: «Señalar los casos en los que los padres indiquen tener más de 10 hijos». Los casos que resulten marcados deberán ser comprobados manualmente. Imputaciones Después de realizar los controles de consistencia, es posible completar muchos de los valores faltantes mediante procedimientos de imputación. Las imputaciones sirven para calcular los valores que faltan cuando los encuestados no responden a determinados ítems. Una regla de imputación es, por ejemplo, calcular los ingresos de una persona mediante una fórmula que comprenda la edad, el tipo de trabajo, la escala salarial y el número de días trabajados en una zona geográfica determinada. Es conveniente preparar tantas fórmulas de este tipo como sea posible utilizando el cuestionario como base. Ha de decidirse el modo de incorporar las variables imputadas a los conjuntos de datos. Cuando sea pertinente, pueden crearse y ensayarse programas computarizados a tales efectos. Para mayor sencillez, es posible generar una variable totalmente nueva que incluya los valores imputados para los códigos faltantes o sustituya los códigos que faltan por valores imputados junto con una variable marcada con el valor 1 para imputado y el valor 0 en caso contrario. Ponderación Dado que todas las encuestas sobre trabajo infantil se basan en muestras de la población, es necesario ponderar los datos para generar estimaciones a nivel nacional. Cuando se decide el procedimiento de muestreo, hay que preguntarse si los errores típicos basados en un muestreo aleatorio simple son apropiados o si se requieren métodos más complejos. Si hay que efectuar ponderaciones, deben describirse. En la documentación, ha de indicarse la tasa de respuesta, especificando la proporción de los integrantes de la muestra que participaron efectivamente en la encuesta. La tasa de retención también debe señalarse cuando sea aplicable. Las ponderaciones suelen estar a cargo de especialistas y es fundamental disponer de todas las fórmulas de ponderación con una descripción de todos sus elementos mucho antes de iniciar el tratamiento de los datos. 14

Documentación La documentación debe ser una parte integrante de la planificación, como lo es el análisis. Hay que decidir quién se encargará de llevar un diario de lo que sucede durante el tratamiento de los datos, incluyendo consideraciones como los problemas experimentados, las principales decisiones tomadas y cualquier método de imputación que se haya aplicado. En la sección sobre «documentación final» (sección 3.8) se ofrece más información al respecto. 2.4 Selección de equipos y programas informáticos La posibilidad de contar con los recursos necesarios para llevar a cabo una encuesta sobre trabajo infantil depende en gran medida de los equipos y programas informáticos y del personal de que disponga la oficina nacional de estadística. Teniendo en cuenta esas limitaciones, cuando se seleccionen equipos y programas informáticos para el tratamiento de datos debe pensarse en los siguientes aspectos: las computadoras y las impresoras, la entrada y la depuración de los datos, el procesamiento estadístico y las tabulaciones, la documentación y otras tabulaciones, las utilidades informáticas: herramientas automatizadas (para realizar tareas repetitivas), herramientas para transferir ficheros entre computadoras, programas antivirus, los accesorios de soporte físico, cables, discos, CD, UPS, etc. Computadoras e impresoras Dado que los datos se introducirán por lotes y probablemente de forma paralela, se requiere una computadora personal para cada operador de digitación. Sin embargo, los operadores pueden usar a menudo la misma computadora en momentos diferentes. También es necesario disponer de impresoras que admitan el formato horizontal. Si se utilizan impresoras matriciales o de líneas, deben tener una capacidad de 120 caracteres por línea. Una computadora Pentium con un disco duro de 1 GB es más que suficiente para el tratamiento de datos y el almacenamiento temporal de la información correspondiente a las encuestas sobre trabajo infantil. También hace falta una computadora permanente para archivar el conjunto final de datos. Es sumamente recomendable que la computadora utilizada para el almacenamiento permanente de los datos sea distinta de la que se utiliza para el trabajo cotidiano, aunque se trate de una computadora central compartida por distinta secciones de la oficina nacional de estadística para conservar datos de manera permanente. Entrada y depuración de los datos A veces se dedica un ingente número de horas de trabajo a la preparación de programas informáticos para comprobar los eventuales errores en la entrada de datos. Sería mejor utilizar programas informáticos de entrada automática de datos, ya que suelen disponer de 15

alguna herramienta de verificación integrada. A lo largo del tiempo, diversas organizaciones han diseñado programas de ese tipo para introducir los datos y validarlos inicialmente (la lista que figura a continuación no es exhaustiva): Blaise 11. Blaise es un sistema de soporte lógico flexible y relativamente potente para la gestión de encuestas con microcomputadoras. Creado por la Oficina Central de Estadística de los Países Bajos, permite realizar entrevistas, ingresar datos y editarlos con ayuda de equipos informáticos. Además, simplifica el tratamiento ulterior de los datos recopilados. Este soporte lógico se utiliza principalmente en los países de la Unión Europea. IMPS 12. Este sistema integrado de procesamiento informático, diseñado inicialmente para DOS por la Oficina del Censo de los Estados Unidos, ha sido reemplazado por una versión para Windows. Muchos países en desarrollo lo están utilizando para la entrada de datos. ISSA 13. Se trata de un sistema integrado para el análisis de encuestas (Integrated Systems for Survey Analysis) creado por SerPro Ltda., de Chile, y Macro Internacional, de los Estados Unidos. Diversos países en desarrollo lo están utilizando para entrar datos. La evidencia siguiere que el ISSA no tiene una base amplia de usuarios en los países SIMPOC y ofrece servicios de formación y documentación limitados. EpiInfo 14. Este programa de tratamiento de textos, bases de datos y estadística para el sector de la salud pública en microcomputadoras compatibles IBM ha sido desarrollado por los Centros para el Control y la Prevención de Enfermedades de los Estados Unidos. Muchos países en desarrollo lo están utilizando para ingresar datos. CSPro 15. Este sistema de tratamiento de censos y encuestas (Census and Survey Processing System) fue creado también por la Oficina del Censo estadounidense. Se ha previsto que el CSPro, que tiene muchas características en común con IMPS, ISSA y EpiInfo, sustituya progresivamente a los dos primeros. La evaluación pormenorizada de los programas informáticos citados queda fuera del ámbito de esta guía. Sin embargo, la disponibilidad de fondos, personal capacitado y microcomputadoras influyen en la decisión sobre el soporte lógico que se utilizará para el tratamiento de las encuestas sobre trabajo infantil. Si no se dispone de otro tipo de soporte lógico para la entrada de datos ni de personal cualificado de la oficina nacional de estadística, puede utilizarse el CSPro (véase más arriba), un programa estadístico de dominio público, para introducir, tabular y procesar los datos de las encuestas. El programa y su documentación están disponibles en línea, aunque tal vez haya que registrarse. La Oficina del Censo puede organizar cursos, pero no son gratuitos. Según la documentación del programa, éste puede tratar los datos de encuestas sobre trabajo infantil. Sin embargo, aunque parece que algunas oficinas nacionales de estadística lo utilizan, todavía no se ha probado específicamente en encuestas sobre trabajo infantil. Tal vez valga la pena realizar la inversión necesaria para ensayarlo. 11 Para más información, véase http://neon.vb.cbs.nl/blaise. 12 Para más información, refiérase al Buró de Censo de Estados Unidos http://www.census. gov/ipc/www/imps/index.html 13 Para más información, refiérase a http:// www.serpro.com/about.asp 14 Para más información, refiérase a Centre for Disease Control and Prevention http://www. cdc.gov/epiinfo/epi6man/epi6titl.htm 15 Para más información, refiérase al Buró de Censo, http://www.census.gov/ipc/www/ cspro/index.html. 16