TEMA 5: Chequeo y validación de los datos.

1. CODIFICACIÓN Y GRABACIÓN AUTOMÁTICA DE DATOS. 2. CHEQUEO Y VALIDACIÓN. 3. EVALUACIÓN DEL TRABAJO DE CAMPO. FALTA DE RESPUESTA. 3.1 FALTA DE RESPUESTA: TRATAMIENTO EN LA FASE DE CAMPO. 3.2 FALTA DE RESPUESTA: MÉTODOS ESTADÍSTICOS. 4. POST-ESTRATIFICACIÓN. 5. EVALUACIÓN DE LAS FUENTES DE ERROR. 5.1 SESGOS AJENOS AL MUESTREO 5.2 SESGOS DEBIDOS AL MUESTREO.

5.1 Codificación y Grabación de datos. Codificación automática (semiautomática). Homogeneiza y centraliza la codificación. La racionaliza reduciendo el número de casos a codificar. Permite la validación de los códigos, contrastándolos con los literales previamente grabados. Sistema adecuado para codificar literales con respuestas muy homogeneizadas. Grabación inteligente CADI: Traslado de la información de campos iguales a otros registros. Proporciona estadísticas de control del trabajo de grabación. Verificación (doble grabación) con estadísticas de coincidencia. Definir de forma flexible el formato de salida del fichero. Impone controles de validación obligatorios: rango, flujo, etc. Controles de grabación por inconsistencias en los campos básicos de definiciones de las unidades objetivo. Otros métodos: OMR y OCR.

5.2 Chequeo y validación de datos. Una vez grabada la información es necesario elaborar un plan de validación, que nos permita localizar y corregir los posibles errores o incoherencias-inconsistencias lógicas (Fellegi-Holt). Imprescindible en grabación manual. Tarea próxima (en el tiempo) a la fuente que ha producido el error. Fases: Control de recepción y cobertura de los ficheros grabados. Validación de la estructura de la información. Ejecución de los controles de Rangos y Flujo. Corrección manual de errores. Grabación de correcciones. Ejecución del programa de control de contenido. Ejecución repetida de los controles cruzados con las fases anteriores. Ejecución de los controles especiales. Ejecución de todos los controles para verificar que no hay errores.

5.3 Evaluación del trabajo de campo. Falta de Respuesta. Revisión del cumplimiento de la muestra: Comprobación de tamaños muestrales efectivos. Análisis de zonas y afijaciones. Incidencia de la no-respuesta. Causas de la Falta de Respuesta: Ausencia temporal del individuo seleccionado para entrevistar. Negación absoluta a colaborar. Falta de conocimiento del entrevistado o incapacidad por parte del entrevistador. Pérdida de la información. No cubrimiento, que hace imposible alcanzar ciertas unidades de la muestra. Efectos de la Falta de Respuesta Total: Sesgo proporcional en la estimación de los parámetros poblacionales, e independiente del tamaño muestral. Disminución de la precisión.

5.3.1 Falta de Respuesta: Tratamiento en la Fase de Campo. Encuestas Repetidas (CALLBACKS): Es el mejor método. Por correo (<=2), telefónicas las repeticiones (<=5), personales (usando e. telefónica). La encuesta delegada (PROXY): Falta de control en la idoneidad de la unidad alternativa. Tendencia a sustituciones excesivas. Inconveniencia en cuestiones íntimas. Sustitución de Unidades: Mantiene el tamaño de la muestra (no aumenta dispersión). Dos tipos básicos: Selección aleatoria y Sustituto especialmente designado. Introducción de sesgos. El Uso de Incentivos: Costes adicionales. Tendencia a la adecuación de las respuestas.

5.3.1 Falta de Respuesta: Métodos Estadísticos. Método de Hansen y Hurwitz. Uso de un muestreo bifásico. Obtención de una submuestra con: - C0 : coste por unidad de la muestra total, (coste inicial) - C1 : coste por unidad de la muestra de respondientes. - C2 : coste por unidad de la muestra de no respondientes Método de Politz y Simmons: trata de reducir los sesgos se supone que el entrevistador realiza un solo intento para conseguir la información.

5.3.1 Falta de Respuesta: Métodos Estadísticos. Método de Platck, Singh y Tremblay: aplica la probabilidad de respuesta para cada unidad Hay que estimar ela sesgo y la varianza en la no respuesta. Se emplean datos externos. Método de Thomsen y Siring: La varianza, el sesgo debido a la falta de respuesta y el coste, son parámetros estimables. Cuando un entrevistador establece contacto con una unidad, los resultados podrían ser: Obtención de respuesta con probabilidad P. No obtención de respuesta con probabilidad f y decisión de realizar intentos sucesivos C=1,2,,c, con probabilidad constante P D de obtener respuestas. No obtención de respuestas e inclusión de la unidad en la categoría de los no respondientes, con probabilidad f.

5.4 Post-Estratificación. Definir a posteriori los estratos en función de los distintos valores de una o varias variables. Método Elección de un tamaño muestral elevado. Distribución de la muestra de forma que estén adecuadamente representadas todas las categorías de la población a las que se les pone a priori un componente estratificador. Análisis de los resultados muestrales para obtener los componentes homogenizadores respecto a las variables o variables de interés. Estudio de los tamaños muestrales efectivos y de los errores de muestreo que conllevan para cada uno de los nuevos estratos. En caso necesario, amplificación de la muestra en campo para los estratos menos representativos. Cálculo a posteriori de los elevadores o factores de expansión o ponderación y de los estimadores.

5.5 Evaluación de las Fuentes de Error. Error: Diferencia entre entre el valor real de la característica en estudio en la población objetivo y la estimación del mismo basada en los datos muestrales.

5.5.1 Errores ajenos al muestreo. Error sistemático debido a las operaciones de recogida de datos. Diferencias entre la población objetivo y la población estudiada (Error de cobertura). Solución: modificar o actualizar el marco. Sesgos por ausencia de respuesta. Determinar si es sistemática o aleatoria (no tiene efecto). Técnica del avestruz. Análisis de sensibilidad. Submuestreo de los no respondientes (tiempo y recursos). Análisis de tendencias. Negativa a responder: Notificación previa de que se va a realizar una encuesta. Motivar al encuestado. Contar con entrevistadores experimentados. Un adecuado formato de formulación de las preguntas.

5.5.2 Errores debidos al muestreo. Diferencia entre el valor de la población de estudio y el valor esperado de la muestra. Corresponde a los responsables de la Investigación: Fase de diseño teórico. Fase de diseño de muestreo. Tipos: Sesgos de selección: no todos los miembros de la población tiene igual probabilidades de selección (duplicidades, omisiones). Sesgos de estimación, y Variabilidad muestral por mal diseño de muestreo. Solución: La planificación adecuada, organizada y precisa.