IDEAM Subdirección de Estudios Ambientales 25 de mayo de 2018

Documentos relacionados
VALIDACIÓN DE DATOS. Rangos de Validación. Introducción

Guía: Tratamiento Estadístico de datos para monitoreos continuos

Programa Estatal de Monitoreo Municipal Estudio en el municipio de Melchor Ocampo, Nuevo León

Programa Estatal de Monitoreo Municipal Estudio en Col. Linda Vista, Guadalupe, Nuevo León.

Programa Estatal de Monitoreo Municipal Estudio en el municipio de General Treviño, Nuevo León

Programa Estatal de Monitoreo Municipal Estudio en el municipio de Los Aldamas, Nuevo León

Programa Estatal de Monitoreo Municipal Estudio en el municipio de Cerralvo, Nuevo León

Programa Estatal de Monitoreo Municipal. Estudio en el municipio de Pesquería, Nuevo León

Programa Estatal de Monitoreo Municipal. Estudio en el municipio de Dr. González, Nuevo León

Programa Estatal de Monitoreo Municipal Estudio en Los Ramones, Nuevo León

Programa Estatal de Monitoreo Municipal Estudio en la Colonia Sierra Real en García, Nuevo León

Programa Estatal de Monitoreo Municipal Estudio en Cadereyta Jiménez, Nuevo León

Calidad y reporte de información a SISAIRE. IDEAM Subdirección de Estudios Ambientales

Reporte de la Unidad Móvil

Brigada Nuevo León Unido

Un indicador se define como un valor que

Programa Estatal de Monitoreo Municipal Estudio en la Secretaría de Seguridad Pública Anáhuac, Nuevo León.

Programa Estatal de Monitoreo Municipal Estudio en Col. Mitras Sur, Monterrey, Nuevo León.

17.1 Información general

4. Procedimiento para obtener indicadores de la

INFORME ANUAL. Circuito Mintzita 470 Fraccionamiento Manantiales (443)

Programa Estatal de Monitoreo Municipal Estudio en Col. Bosques de la Huasteca, Santa Catarina, Nuevo León.

Reporte de la Unidad Móvil

Reporte de la Unidad Móvil

5.1 Dióxido de nitrógeno (NO2 )

INFORME ANUAL. Circuito Mintzita 470 Fraccionamiento Manantiales (443)

INFORME ANUAL. Circuito Mintzita 470 Fraccionamiento Manantiales (443)

TALLER DE ANÁLISIS DE DATOS ESPACIALES

SISTEMA DE VIGILANCIA DE CALIDAD DE AIRE PARA EL MUNICIPIO DE SANTIAGO DE CALI

FEBRERO DE Reporte de calidad del aire y meteorología del Área Metropolitana de Monterrey

Programa Estatal de Monitoreo Municipal Estudio en el municipio Hualahuises, Nuevo León.

MARZO DE Reporte de calidad del aire y meteorología del Área Metropolitana de Monterrey

Reporte de Calidad del Aire y Meteorología del Área Metropolitana de Monterrey. ABRIL 2016

ENERO DE Reporte de calidad del aire y meteorología del Área Metropolitana de Monterrey

Reporte de la Unidad Móvil

Parámetros Estadísticos básicos, Resumen y Presentación de datos. Jhon Jairo Padilla, PhD.

Reporte de Calidad del Aire y Meteorología del Área Metropolitana de Monterrey. JULIO 2016

SISTEMA INTEGRADO DE GESTIÓN -SSYMA-

Reporte de Calidad del Aire y Meteorología del Área Metropolitana de Monterrey. ENERO 2017

Reporte de Calidad del Aire y Meteorología del Área Metropolitana de Monterrey. JULIO 2017

MONITOREO DE LA CALIDAD DEL AIRE EN MÉXICO

Reporte de la Unidad Móvil de Monitoreo Ambiental. Estudio del Monitoreo Atmosférico en la Col. Fontanares en Monterrey, N.L.

5. Los objetivos de la Calidad de los Datos (OCD) y la Evaluación de la

Reporte de Calidad del Aire y Meteorología del Área Metropolitana de Monterrey. AGOSTO 2017

Reporte de Calidad del Aire y Meteorología del Área Metropolitana de Monterrey. SEPTIEMBRE 2017

Resolución 0222 de 2011 ACTIVIDADES Y FUNCIONES

Reporte de Calidad del Aire y Meteorología del Área Metropolitana de Monterrey. NOVIEMBRE 2017

Reporte de la Unidad Móvil

Índice de calidad del aire (ICA)

ESTADÍSTICA DESCRIPTIVA PARA DISTRIBUCIÓN ESPACIAL

Tendencias de temperatura media en Jalisco, México: Una primera aproximación

Charla 17: Elementos de una Rutina Básica para Pronosticar la Calidad del Aire Enfocada en el PM 2.5

ANÁLISIS COMPARATIVO DE TRES DIFERENTES BASES DE DATOS DE PRECIPITACIÓN MENSUAL SOBRE MÉXICO

Análisis e Interpretación de los Datos de Vigilancia

Reporte de la Unidad Móvil

15.1 Información general

Reporte de la Unidad Móvil

EL INGRESO Y/O EL GASTO COMO VARIABLES PARA MEDIR EL BIENESTAR DE LOS HOGARES FERNANDO MEDINA CEPAL

Estadística Descriptiva I

La Ley del Sistema Nacional de Información Estadística y Geográfica y los Estándares Internacionales

13.1 Información general

4. MODELOS PARA ESTIMAR LA CONCENTRACIÓN DE CONTAMINANTES ATMOSFÉRICOS. La dispersión de los contaminantes depende de factores tales como:

Curso de Estadística Aplicada a las Ciencias Sociales

SISTEMA NACIONAL DE INFORMACIÓN DE CALIDAD DEL AIRE. Junio de 2016

Estadística I Tema 2: Análisis de datos univariantes Descripción numérica de datos

Reporte de Calidad del Aire y Meteorología del Área Metropolitana de Monterrey. MARZO 2018

INDICADORES AMBIENTALES

Reporte de Calidad del Aire y Meteorología del Área Metropolitana de Monterrey. ENERO 2018

Reporte de Calidad del Aire y Meteorología del Área Metropolitana de Monterrey. ENERO 2018

Reporte de Calidad del Aire y Meteorología del Área Metropolitana de Monterrey. DICIEMBRE 2017

TRÁFICO y CONTAMINACIÓN: PRUEBAS PILOTO EN LOS ACCESOS A MADRID POR LA AUTOVIA A- 6

TEMA II EL ANÁLISIS PRELIMINAR DE LOS DATOS

Estadística Descriptiva I

Resumenes numéricas de una muestra de datos. M. Wiper Análisis Estadístico del Delito 1 / 41

PRÁCTICA 3. Identificación de un Motor de Corriente Continua. mediante su Respuesta Frecuencial

Monitoreos de Calidad de Aire

ESTADÍSTICA SEMANA 2

UNIDAD 6 ORDENES ESTADÍSTICA DESCRIPTIVA CON EXCEL

1. INTRODUCCIÓN. Por esta razón y debido a que en 1992 en la Conferencia sobre Medio Ambiente y Desarrollo de las Naciones Unidas se identificó la

León, Gto. 8.1 Información general. Figura 8.1 Inventario de emisiones de la ciudad de León (2006)

4. ANALISIS DE DATOS. El registro de datos de operación de Repsol es el punto de partida para la

Resultados de la aplicación de modelos de simulación en Salamanca, Gto. y en Tula, Hgo.

Curso: Competitividad y Eco-eficiencia en cadenas de proveedores

Primer Congreso Latinoamericano de Medición y Evaluación Educacional (COLMEE)

Tema 6 Descripción numérica (2) Curso de Estadística Aplicada a las Ciencias Sociales. 1. La mediana. Introducción. Tema 6. Descripción numérica (2)

INFORME MENSUAL DE MONITOREO DEL AIRE EN EL CENTRO DE LA CIUDAD DE MORELIA, MAYO 2018

TALLER ARTICULACIÓN DE INFORMACIÓN AMBIENTAL PARA EL FORTALECIMIENTO DEL SIAC SIAC - CAR`S

KAIRÓS. Sistema inteligente de inspección y control de calidad de agregados

18.1 Información general

SISTEMA VENTANILLA ÚNICA DEL RETC

SERIE DE ANÁLISIS DEL SISTEMA DE MONITOREO ATMOSFÉRICO DE LA CIUDAD DE MÉXICO

DIRECCIÓN GENERAL PARA EL CAMBIO CLIMÁTICO

Transcripción:

Validación de datos de registros ambientales IDEAM Subdirección de Estudios Ambientales 25 de mayo de 2018

Conceptos generales sobre validación

Por qué es importante validar la información? Errores profundos en el análisis de información y en la formulación de políticas públicas pueden ser originados por datos erróneos. Las entidades deben prevenir, identificar, corregir y definir las dificultades que pueden afectar la calidad de los datos. Una información de buena calidad contribuye a una toma de decisiones efectiva.

Valide su información oportunamente Validación de datos Nivel de esfuerzo Como buena práctica, valide la información tan pronto como se recopile. Esto reduce el esfuerzo en la validación y minimiza la pérdida de información. Tiempo Cantidad de información

Aspectos que facilitan la revisión y validación de datos Metadatos. Mejor capacidad computacional. Herramientas de procesamiento y visualización especializadas. Procedimientos mejorados para el acceso y manejo de la información que permiten una revisión más frecuente. Estos insumos proporcionan la capacidad de agrupar todas las bases de datos en un único lugar y permiten un proceso de validación y revisión más eficiente.

Calidad vs. cantidad La validación implica diferentes niveles de esfuerzo. Desde una revisión limitada de la información reportada Hasta una revisión completa de los datos crudos. La rigurosidad de la validación depende de: - Objetivos de calidad de los datos. - Presupuesto. - Tiempo. Es necesario priorizar esfuerzos.

Niveles de validación Nivel 0 Controles de rutina para verificar que las operaciones de gestión de la información se están ejecutando de acuerdo con los procedimientos estandarizados. Nivel 1 Pruebas de consistencia interna para identificar valores en los datos que pueden ser atípicos cuando se comparan con valores de toda la base. Nivel 2/3 Pruebas de consistencia externa para verificar valores en los datos que pueden ser atípicos cuando se comparan con otras bases de datos. Evaluación continua de la información como parte del proceso de interpretación de datos, incluyendo comparación con otras bases de datos con posibles características similares (misma región, mismo periodo de tiempo). Permite identificar sesgos.

Aproximación general a la validación de datos 1. Examine sus datos. 2. Manipúlelos: ordénelos, grafíquelos, represéntelos espacialmente. De esta forma se puede identificar el comportamiento de la serie.

Aproximación general a la validación de datos Con frecuencia, los problemas o errores importantes con los datos se manifiestan solamente después de que alguien comienza a usarlos para un fin específico.

Ejemplos de manipulación de datos Gráficos de dispersión Gráficos de series de tiempo Gráficos de tres variables (huellas) Estadísticas generales Mapas Diagramas de caja

Herramientas

Herramientas disponibles de análisis Excel SPSS MATLAB

https://www.r-project.org/ Página principal de R https://cran.r-project.org/ Página de descarga Ambiente de software gratuito para análisis estadístico y generación de gráficas. Puede usarse en Linux, (Mac) OS X y Windows. Ampliamente usado para el análisis de datos. https://www.rstudio.com/ Entorno de desarrollo integrado (IDE).

Ventajas y desventajas de usar R Gratuito Ventajas Robusto / funciona en varias plataformas. Diseñado para análisis de datos. Varias opciones de análisis. Flexibilidad en análisis gráfico. Amplia comunidad de usuarios. Gran variedad de paquetes especializados. Desventajas Requiere dedicación para aprender. No tiene interfaz gráfica (ventaja a largo plazo). No tiene el soporte técnico directo que caracteriza a un software comercial. Fuente: The openair manual

Curva de aprendizaje Fuente: New York University Data Services. https://sites.google.com/a/nyu.edu/statistical-software-guide/summary

Tutoriales de R Existe una gran variedad de tutoriales disponibles en internet.

Ejemplo de algoritmo de procesamiento - RESPEL

Marco general del proceso de validación

Revisión y validación de las bases de datos Identificar valores mínimos y máximos extremos. Revisar datos que se repiten de forma inusual. Inspección de información en los casos en que esta no sea identificada por controles automáticos. Aseguramiento de que los controles automáticos identifican de forma correcta datos inválidos o sospechosos. Revisión visual de la información para identificar casos que son fáciles de observar por el ojo humano pero no por un programa.

Datos atípicos Definición: Un dato atípico es un valor que se distancia de la mayoría de los otros valores de una base de datos en particular. Identificación: estadísticamente pueden ser determinados mediante: - Valores superiores al percentil 95. - 3 o 4 desviaciones estándar sobre la media. - Distancia según el rango intercuartílico. Tratamiento: son válidos o sospechosos hasta que se pruebe lo contrario.

Fuente: http://www.whatissixsigma.net/box-plot-diagram-to-identify-outliers/ Diagrama de caja

Criterios de validación. Datos atípicos Se debe hacer una revisión de los rangos usuales para las variables estudiadas. Los rangos esperados pueden cambiar con el tiempo. Los datos atípicos se deben identificar por grupos similares. Ejemplo: grupos con el mismo código CIIU y mismo número de empleados.

Criterios de validación. Inconsistencias Campos con valores negativos que no corresponden a la realidad. Valores iguales para diferentes campos de un mismo registro. Registros de un mismo establecimiento con diferente número de empleados. Establecimientos con mismo NIT y dirección pero diferente nombre. Verificación de cálculos realizados por el aplicativo. Reporte de información en unidades erróneas.

Invalidación de información Proceda desde un marco general hasta los detalles. Establezca y aplique criterios de selección para identificar datos potencialmente sospechosos. Investigue los datos sospechosos. Invalide información solo si hay suficiente evidencia. Documente los datos inválidos, lo cual permite realizar un seguimiento al proceso.

Ejemplos

Validación - Nivel 1 Revisión de la consistencia temporal de las series (ciclos diarios, semanales,anuales). Para RUA Manufacturero y RESPEL: posibles cambios abruptos en las tendencias interanuales de ciertas variables para un establecimiento en particular (generación de residuos, energía consumida, agua captada, etc.) Para Inventario PCB: cambios abruptos en el número de equipos para un determinado establecimiento.

Validación - Nivel 1 Comparación mutua de diferentes variables para un mismo registro se observan las relaciones esperadas? Ejemplos: - SISAIRE: concentraciones de PM 2.5 y PM 10. - PCB: potencia y el peso de los equipos. - RESPEL: generación de residuos con tamaño del establecimiento. - RUA MF: agua captada vs. agua vertida.

Validación - Nivel 1 Identificación de valores inusuales incluyendo: Valores que normalmente siguen en términos cualitativos un patrón predecible espacial o temporal y muestran inconsistencias. Valores negativos que no son válidos para ciertas variables. Ejemplos: Diferencias entre la información reportada de coordenadas geográficas y municipio (aplica para todos los registros). Concentraciones de contaminantes negativas. Agua vertida mayor al agua captada en RUA MF.

Validación - Nivel 1 Identificación de valores inusuales incluyendo: Valores que normalmente siguen los valores de otras variables en una serie temporal. Ejemplo: ozono y radiación solar global (SISAIRE).

Validación - Nivel 1 Identificación de datos atípicos. Aplica para gran parte de las variables analizadas.

Validación - Nivel 1 Identificación de valores inusuales incluyendo: Datos con inconsistencias en unidades. Ejemplos: Concentraciones de gases contaminantes reportadas a SISAIRE en unidades inconsistentes con las del analizador (ppb, ppm, µg/m 3 ). Datos de generación de residuos peligrosos que no se convirtieron de toneladas (t) a kilogramos (kg) y se reportaron directamente en el aplicativo. Consumos de agua o energía que no se reportaron en las unidades sugeridas.

Validación Nivel 2 Comparación con otras bases de datos Comparar con bases de datos paralelas que se refieren a circunstancias similares Ejemplo: datos del SVCA con campañas de monitoreo particulares o con estaciones meteorológicas. Comparar relaciones (por ejemplo, relaciones temporales), observadas entre las variables de una base de datos y las relaciones observadas en las variables de otros sitios o en años previos. Ejemplos: - Comparación de datos de estaciones de calidad del aire aledañas. - Revisión de datos de fuentes de emisión que puedan afectar la calidad del aire de la zona (SISAIRE y RUA MF).

Validación Nivel 2 Comparación con otras bases de datos Comparar con bases de datos paralelas que se refieren a circunstancias similares como bases de datos de otras entidades: Ejemplos: - Encuestas o censos del DANE - Balance Energético Colombiano de la UPME. - Datos satelitales. - Intercomparación de estaciones de calidad del aire.

Gracias por su atención Subdirección de Estudios Ambientales Teléfono: 3527160 Extensión. 1601