Proyecto CONICYT/BID 51/94. Desarrollo de metodologías orientadas al control de calidad e imputación de datos faltantes en parámetros meteorológicos



Documentos relacionados
EXPERIMENTACIÓN COMERCIAL(I)

Índice de Precios de las Materias Primas

Tema 3. Estadísticos univariados: tendencia central, variabilidad, asimetría y curtosis

12-16 de Noviembre de Francisco Javier Burgos Fernández

Histogramas: Es un diagrama de barras pero los datos son siempre cuantitativos agrupados en clases o intervalos.

Capitalización y descuento simple

Tema 1: Estadística Descriptiva Unidimensional Unidad 2: Medidas de Posición, Dispersión y de Forma

PROPORCIONAR RESERVA ROTANTE PARA EFECTUAR LA REGULACIÓN PRIMARIA DE FRECUENCIA ( RPF)

Relaciones entre variables

De factores fijos. Mixto. Con interacción Sin interacción. No equilibrado. Jerarquizado

CÁLCULO DE INCERTIDUMBRE EN MEDIDAS FÍSICAS: MEDIDA DE UNA MASA

2.2 TASA INTERNA DE RETORNO (TIR). Flujo de Caja Netos en el Tiempo

Investigación y Técnicas de Mercado. Previsión de Ventas TÉCNICAS CUANTITATIVAS ELEMENTALES DE PREVISIÓN UNIVARIANTE. (IV): Ajustes de Tendencia

CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS

ANÁLISIS DE ACCESIBILIDAD E INTERACCIÓN ESPECIAL:

GUIAS DE ACTIVIDADES Y TRABAJO PRACTICO Nº 22

PROPUESTAS PARA LA DETERMINACIÓN DE LOS PARÁMETROS DEL GRÁFICO DE CONTROL MEWMA

DEFINICIÓN DE INDICADORES

Trabajo y Energía Cinética

Análisis de Regresión y Correlación

Comparación entre distintos Criterios de decisión (VAN, TIR y PRI) Por: Pablo Lledó

Correlación y regresión lineal simple

Economía de la Empresa: Financiación

Smoothed Particle Hydrodynamics Animación Avanzada

METODOLOGÍA MUESTRAL ENCUESTA A LAS PEQUEÑAS Y MEDIANAS EMPRESAS

Econometría. Ayudantía # 01, Conceptos Generales, Modelo de Regresión. Profesor: Carlos R. Pitta 1

UNIVERSIDAD CARLOS III DE MADRID Ingeniería Informática Examen de Investigación Operativa 21 de enero de 2009

CAPÍTULO 4 MARCO TEÓRICO

REGRESION Y CORRELACION

Créditos Y Sistemas de Amortización: Diferencias, Similitudes e Implicancias

OPERACIONES ARMONIZACION DE CRITERIOS EN CALCULO DE PRECIOS Y RENDIMIENTOS

Unidad I Definición de reacción de combustión Clasificación de combustibles

CURSO INTERNACIONAL: CONSTRUCCIÓN DE ESCENARIOS ECONÓMICOS Y ECONOMETRÍA AVANZADA. Instructor: Horacio Catalán Alonso

Pronósticos. Humberto R. Álvarez A., Ph. D.

Pruebas Estadísticas de Números Pseudoaleatorios

TERMODINÁMICA AVANZADA

TERMODINÁMICA AVANZADA

GERENCIA DE OPERACIONES Y PRODUCCIÓN DISEÑO DE NUEVOS PRODUCTOS Y SERVICIOS ESTRATEGIAS DE OPERACIONES

Guía de ejercicios #1

Marcos Gutiérrez-Dávila

Diseño y Análisis de Experimentos en el SPSS 1

CAPÍTULO IV. MEDICIÓN. De acuerdo con Székely (2005), existe dentro del período información

Mª Dolores del Campo Maldonado. Tel: :

INSTRUCTIVO No. SP 04 / 2002 INSTRUCTIVO PARA LA DETERMINACIÓN Y CÁLCULO DEL SALARIO BÁSICO REGULADOR

TÉCNICAS AUXILIARES DE LABORATORIO


Tasas de Caducidad. - Guía de Apoyo para la Construcción y Aplicación - Por: Act. Pedro Aguilar Beltrán. paguilar@cnsf.gob.mx

PORTAFOLIO DE TRES ACTIVOS FINANCIEROS

Procesamiento Digital de Imágenes. Pablo Roncagliolo B. Nº 17

Trabajo Especial 2: Cadenas de Markov y modelo PageRank

A. Una pregunta muy particular que se puede hacer a una distribución de datos es de qué magnitud es es la heterogeneidad que se observa.

TEMA 8: PRÉSTAMOS ÍNDICE

Problemas donde intervienen dos o más variables numéricas

Estimación del consumo diario de gas a partir de lecturas periódicas de medidores

Unidad Central del Valle del Cauca Facultad de Ciencias Administrativas, Económicas y Contables Programa de Contaduría Pública

ENCUESTA ESTRUCTURAL DE TRANSPORTE POR CARRETERA AÑO CONTABLE 2013 INSTITUTO NACIONAL DE ESTADÍSTICAS

Medidas de Variabilidad

UNIVERSIDAD DE GUADALAJARA, CUCEI DEPARTAMENTO DE ELECTRÓNICA LABORATORIO DE ELECTRÓNICA II

Instituto Nacional de Estadísticas Chile METODOLOGÍA. Encuesta Estructural de Transporte por Carretera Año contable 2012

CAPÍTULO 3 METODOLOGÍA. En el siguiente capítulo se presenta al inicio, definiciones de algunos conceptos actuariales

Análisis de error y tratamiento de datos obtenidos en el laboratorio

Control de la exactitud posicional por medio de tolerancias

ADENDA 008 LICITACIÓN L-CEEC

MÉTODOS PARA PROBAR NUMEROS

Diseño de una metodología sistémica de evaluación de impacto territorial de intervenciones urbanísticas

ENCUESTA ESTRUCTURAL DE TRANSPORTE POR CARRETERA AÑO CONTABLE 2011 INSTITUTO NACIONAL DE ESTADÍSTICAS

Matemática Financiera Sistemas de Amortización de Deudas

TEMA 4 Variables aleatorias discretas Esperanza y varianza

Medidas de Tendencia Central y de Variabilidad

TEMA 10. OPERACIONES PASIVAS Y OPERACIONES ACTIVAS.

Figura 1

Índice de Madurez Tecnológica en el Sector Hotelero

Maestría en Economía Facultad de Ciencias Económicas Universidad Nacional de La Plata TESIS DE MAESTRIA. ALUMNO Laura Carella. DIRECTOR Alberto Porto

CANTIDADES VECTORIALES: VECTORES

Tema 1: Estadística Descriptiva Unidimensional

APENDICE A. El Robot autónomo móvil RAM-1.

ESTRATEGIAS DIDÁCTICAS PARA ABORDAR LA EDUCACIÓN

Título: Dos métodos de diagnóstico de circuitos digitales de alta y muy alta escala de integración.

MODELOS DE ELECCIÓN BINARIA

Apéndice A: Metodología para la evaluación del modelo de pronóstico meteorológico

CÁLCULO VECTORIAL 1.- MAGNITUDES ESCALARES Y VECTORIALES. 2.- VECTORES. pág. 1

Introducción a la Física. Medidas y Errores

ANÁLISIS DE LA MOROSIDAD TRIBUTARIA DE LAS EMPRESAS APLICANDO TÉCNICAS BORROSAS Y ESTADÍSTICAS. EL CASO DE MAR DEL PLATA.

ACUERDO DE ACREDITACIÓN IST 184. Programa de Magister en Ciencias mención Oceanografía Universidad de Concepción

1. GENERALIDADES DEL ÁLGEBRA GEOMÉTRICA. Definición del álgebra geométrica del espacio-tiempo

Incertidumbre de la Medición: Teoría y Práctica

Extracción de Atributos. Dr. Jesús Ariel Carrasco Ochoa Oficina 8311

1.- Una empresa se plantea una inversión cuyas características financieras son:

CAPITULO 3.- ANÁLISIS CONJUNTO DE DOS VARIABLES. 3.1 Presentación de los datos. Tablas de doble entrada.

Aspectos fundamentales en el análisis de asociación

DEPARTAMENTO DE INGENIERIA MECÁNICA INGENIERÍA INDUSTRIAL

Media es la suma de todas las observaciones dividida por el tamaño de la muestra.

Focalización Geográfica del Gasto Social: Mapas de Pobreza. Javier Escobal Máximo Torero * Carmen Ponce ** RED CIES DE POBREZA GRADE-APOYO

Desigualdad de oportunidades y el rol del sistema educativo en los logros de los jóvenes uruguayos

EQUILIBRIO LÍQUIDO VAPOR EN UN SISTEMA NO IDEAL

Procedimiento de Calibración. Metrología PROCEDIMIENTO DI-010 PARA LA CALIBRACIÓN DE COMPARADORES MECÁNICOS

La adopción y uso de las TICs en las Microempresas Chilenas

Qué es la EN81-28? Atrapado en el ascensor?

Estimación no lineal del estado y los parámetros

Reconocimiento de Locutor basado en Procesamiento de Voz. ProDiVoz Reconocimiento de Locutor 1

Transcripción:

Proyecto CONICYT/BID 51/94 Desarrollo de metodologías orentadas al control de caldad e mputacón de datos faltantes en parámetros meteorológcos Informe fnal Julo 1999

INDICE 1 - RESUMEN...1 1.2- RESUMEN TÉCNICO...2 1.3- RECONOCIMIENTOS Y AGRADECIMIENTOS...3 2 - INTRODUCCIÓN...4 2.1- PLANTEO DEL PROBLEMA...4 2.2- ANTECEDENTES DEL PROBLEMA...6 3. DESCRIPCIÓN DE LOS DATOS DISPONIBLES...10 3.1 - CARACTERÍSTICAS DEL BANCO DE DATOS DE LLUVIA DIARIA...10 3.1.1- Característcas de la Cuenca estudada...10 3.1.1.1 - Introduccón...10 3.1.1.2 - Descrpcón Clmátca...10 3.1.1.3 - Informacón Meteorológca...10 3.1.1.4 - Factores clmátcos...11 3.1.1.5 - Formacón de Precptacones...12 3.1.2 - La lluva en la Cuenca: estructura y estaconaldad...13 3.1.2.1 - Aproxmacones metodológcas para determnar estructuras....13 3.1.2.2 - Estaconaldad...18 3.2 CARACTERÍSTICAS DEL BANCO DE DATOS DE VIENTO HORARIO......20 3.2.1- Característcas de la regón estudada......20 3.2.1.1 - Introduccón......20 3.2.1.2 - Descrpcón Clmátca......20 3.2.1.3 - Informacón Meteorológca......20 3.2.1.4 - Régmen Eólco......21 3.3 CARACTERÍSTICAS DEL BANCO DE DATOS DE NIVELES......23 3.3.1 Característcas de la regón estudada......23 3.3.1.1 Introduccón......23 3.3.1.2 Descrpcón Clmátca......23 3.3.1.3 Informacón Hdrológca.......23 3.3.1.4 Régmen hdrológco.......24 3.4 CARACTERÍSTICAS DEL BANCO DE DATOS DE EVAPORACIÓN DIARIA......25 3.4.1 Característcas de la regón estudada......25 3.4.1.1 - Introduccón......25 3.4.1.2 - Descrpcón Clmátca......26 3.4.1.3 - Informacón Meteorológca......26 4. IMPUTACIÓN DE AUSENCIAS...28 4.1 - MÉTODOS EN LOS QUE SE TIENE EN CUENTA ÚNICAMENTE LA INFORMACIÓN HISTÓRICA...28 4.1.1 - Por nterpolacón temporal entre regstros...28 4.1.2 - Promedo julano...28 4.1.3 - Promedo global de la estacón...29 4.1.4 - Valor aleatoro sorteado unformemente entre los regstros dsponbles de la estacón...29 4.1.5 - Valor modal de la sere...29 4.1.6 Imputacón con el últmo valor dsponble en la sere...30 4.1.7 Promedo y moda horaro-mensuales de la estacón (sólo vento)...30 4.1.8 Promedo julano (sólo vento)...31 4.2- MÉTODOS EN LOS QUE SE TIENE EN CUENTA ÚNICAMENTE LA INFORMACIÓN REGIONAL...31 4.2.1 - Imputacón dnámca ( Hot - Deck )...31 4.2.2 - Vecno geográfcamente más cercano...32 4.2.3- Vecno más cercano por Crtero de Expertos...32 4.2.4 - Promedo espacal correspondente al día de la ausenca...32 4.2.5 Promedo/medana espacal correspondente al día de la ausenca (sólo vento)...34 4.2.6 - Promedo espacal ponderado correspondente al día de la ausenca...34

4.2.7 - Métodos basados en la pseudo-dstanca de Kulback-Lebler...35 4.2.8 - Mínmos Cuadrados...37 4.2.9 - Mínmo Error Promedo...37 4.2.10 - Mínmo Error Promedo Robusto...38 4.2.11 - Mínmo Percentl 95...38 4.2.12 - Métodos robustos de ajuste: Least Medan of Squares (LMS)...38 4.2.13 - Métodos robustos de ajuste: Least Trmmed Squares (LTS)...39 4.2.14 - Métodos de mputacón basados en redes neuronales:...39 4.2.15 - Funcones Clmatológcas de Interpolacón...43 4.2.16 Penalzacón de coefcentes prncpales...47 4.3- MÉTODOS EN LOS QUE SE TIENE EN CUENTA LA INFORMACIÓN REGIONAL E HISTÓRICA...48 4.3.1 - Promedo ponderado arbtraramente (sólo lluva)...48 4.3.2 - Promedo ponderado arbtraramente (sólo vento)...48 4.3.3 - Condconamento según el estado del día anteror (sólo lluva)...49 4.3.4 - Interpolacón temporal de coefcentes prncpales...50 5. CONTROL DE CALIDAD....52 5.1- CONSIDERACIONES GENERALES...52 5.1.1 - Necesdad de una depuracón progresva....52 5.1.2 - Metodología y crteros para la comparacón de los dstntos métodos aplcados....52 5.2- MÉTODOS UTILIZADOS PARA LA DETECCIÓN DE ERRORES...56 5.2.1 - Breve síntess del Análss de Componentes Prncpales (ACP)...56 5.2.2 - Datos margnales en la dstrbucón unvarada...59 5.1.3 - Datos margnales en la dstrbucón multvarada...59 5.2.4 - Método de Hawkns...60 5.2.5 - Otros métodos basados en la dstanca de Mahalanobs...61 5.2.5.1 - Covaranza de Determnante Mínmo (MCD) y Elpsode de Volumen Mínmo (MVE)...63 5.2.5.2 - Estmador-S y Estmador-M de T(X) y C(X)...63 5.2.5.3 - Método de Had (1994)...64 5.2.6 - Método de las redes neuronales...66 5.2.7 - Método de la verosmltud de la valdacón cruzada...67 5.2.8 - Método del gradente admsble...68 5.2.9 - Método de la curvatura admsble...69 5.2.10 - Método del producto de gradentes admsbles...69 5.2.11 Modelado de la dstrbucón (sólo lluva)...70 6 - RESULTADOS OBTENIDOS......73 6.1 LLUVIA DIARIA......73 6.1.1 Generacón de ausencas......73 6.1.2 Imputacón de valores ausentes......74 6.1.3 Generacón de errores aleatoros......78 6.1.4 Deteccón de valores erróneos......78 6.2 VIENTO DE SUPERFICIE HORARIO......84 6.2.1 Generacón de ausencas......85 6.2.2 Imputacón de valores ausentes: caso de las componentes......85 6.2.3 Imputacón de valores ausentes: comparacón datos orgnales vs. componentes......86 6.2.3.1 Resultados operando sobre los datos orgnales......88 6.2.2 Resultados operando sobre los datos transformados......89 6.2.4 Generacón de errores: caso de las componentes......90 6.2.5 Deteccón de valores erróneos: caso de las componentes......90 6.3- NIVELES DIARIOS...94 6.3.1 - Imputacón de valores ausentes...96 6.3.2 - Generacón de errores aleatoros...96 6.3.3 - Deteccón de valores erróneos...98 6.4- EVAPOTRANSPIRACIÓN...99

6.4.1 - Imputacón de valores ausentes...99 6.4.2 - Generacón de errores aleatoros...101 6.4.3 - Deteccón de valores erróneos...102 6.5- TRATAMIENTO DE DATOS DE NIVEL MEDIANTE MODELOS DE SERIES TEMPORALES...103 6.5.1 -Transformacón estaconara...103 6.5.2 - Modelo ARIMA estmado...104 6.5.3 - Modelo ARCH estmado...104 7- REFERENCIAS....106 8 DOCUMENTOS Y PUBLICACIONES ANEXAS...110 9 OTROS ANEXOS...111 9.1- DATOS DEL PROYECTO...111 9.2- METAS PREVISTAS Y LOGRADAS: CUMPLIMIENTO DEL PLAN DE TRABAJO...111 9.3- ACTIVIDADES DESARROLLADAS SEGÚN LAS ENUMERADAS EN EL PROYECTO)...112 9.4- FUNDAMENTACIÓN DE CUALQUIER DESVIACIÓN DE OBJETIVOS...116 9.5- RECURSOS MATERIALES...116 9.6 - RECURSOS HUMANOS...117 9.6.1 Integracón orgnal del equpo de trabajo...117 9.6.2 Capacdad generada...117 9.6.3 Clasfcar el equpo de nvestgacón en alguna de las sguentes categorías, y fundamentarlo...118 9.6.4 S corresponde, ndcar nterrelaconamento o convenos nsttuconales...118 9.7- IMPACTO DE LOS RESULTADOS OBTENIDOS A NIVEL DE:...118 9.7.1 Publcacones...118 9.7.2 Convenos, asesoramentos, etc....119 9.7.3 Defnr los resultados obtendos según su alcance a nvel local, regonal o nternaconal...119 9.7.4 Clasfcarlos como mportantes en:...119 9.7.5 Otras consderacones de mportanca...120

1 - RESUMEN Se presentan a contnuacón los resultados obtendos en el marco del proyecto BID/CONICYT 51/94. Los msmos se pueden sntetzar en: 1. la construccón de las bases de datos contenendo todos los datos pluvométrcos de UTE y de la DNM correspondentes respectvamente a la cuenca del Río Negro y a la cuenca del Santa Lucía, para un período de 30 años; los datos de vento de superfce para el período 1979-1991, así como los regstros de escalas en tres puntos de la cuenca del Río Negro, para el período 1975-1991. 2. la realzacón de una depuracón prmara de dchos datos, cotejándolos manualmente con los de las planllas de la DNM y de la UTE. 3. dversos análss estadístcos de los datos dsponbles, que se detallarán. 4. la mplementacón de más de una trentena de alternatvas metodológcas para mputar valores ausentes, algunas tomadas de la lteratura y otras producto de los trabajos realzados. 5. la realzacón de smulacones comparatvas, calfcando a los métodos por dferentes crteros de éxto (error medo cuadrátco, error promedo, etc.) 6. la mplementacón de numerosos métodos conocdos, y desarrollo de otros nuevos, para la deteccón de errores (de dgtacón) en los datos. 7. la realzacón de estudos comparatvos por la vía de métodos de Monte Carlo para la comparacón del desempeño de todos los métodos relatvos. Se dseñaron estadístcos orgnales que permten clasfcar un método como mejor que otro para los bancos de datos estudados. 8. se realzó el estudo de la estructura general de la lluva en la cuenca y por estacón en el período de 30 años. Para ello se utlzan por un lado técncas de análss multway y por otro crteros de relacones entre la dstrbucón de lluva de las dstntas estacones. Se buscan relacones de tpo lneal y no lneal. Basada en la undad mes, debdo a las condconantes de la Base de Datos consderada se llega a una estaconaldad por estacón y para la cuenca. Se analza además la evolucón, cuando es posble, en el período consderado. 9. la construccón de un modelo probablístco basado en la nformacón de dstrbucón de lluva del día anteror y la de otras estacones el msmo día, para las dferentes estructuras estaconales detectadas en el punto anteror. Con él se obtendrán dstrbucones condconadas de lluva para cada estacón pluvométrca y para la cuenca en su conjunto para la estructura estaconal detectada en el punto anteror. El modelo así obtendo brndará nformacón en térmnos probablístcos que permtrá mejorar la efcenca de los ndcadores y además responderá en modo adecuado a demandas de nformacón hstórca sobre la probabldad de que haya llovdo y cuánto en una zona determnada, fuera de las estacones pluvométrcas o meteorológcas. Tambén el modelo cumple claras funcones de control de caldad. 10.como ndcadores de éxto, se deben menconar los varos artículos presentados y aceptados en congresos nternaconales, así como una tess de doctorado. 1

1.2- Resumen técnco El proyecto tenía varos objetvos que se han cumpldo apropadamente. En lo que respecta a la mputacón de valores ausentes, se ensayaron un cúmulo de alternatvas tomadas de la lteratura, o desarrolladas específcamente para este trabajo. Ello hace de este documento una referenca muy mportante en térmnos del estado del arte en el tema, y para las varables consderadas. Los métodos fueron aplcados smultáneamente a un msmo banco de datos, en el que se le elmnaron temporalmente una fraccón de la poblacón, y los valores mputados fueron comparados contra ellos. La bondad de la mputacón fue evaluada con al menos cnco estadístcos: error cuadrátco medo, error promedo y tres percentles de la dstrbucón del error absoluto tomados al 75, 85 y 95%. Ello permtó manejar apropadamente el hecho que nngún banco de datos puede asumrse lbre de errores, y los últmos tres estadístcos son nmunes a ellos. En el expermento fueron analzados métodos tradconales en los que típcamente el valor ausente es susttudo por una combnacón lneal de los datos presentes. Tambén fueron consderados métodos no lneales de varos tpos, poco tratados en la lteratura meteorológca, que permteron lustrar el buen desempeño de las redes neuronales artfcales. Se estma que esto es un aporte sgnfcatvo del proyecto. Para cada parámetro hdrometeorológco consderado el orden de precedenca entre los métodos dependó del estadístco selecconado para la medda de bondad de la mputacón. Los resultados fueron claros: entre los mejores métodos sempre hubo una red neuronal, que tende a producr resultados más robustos (.e. con mejores percentles) que los otros métodos, a expensas de un mayor error cuadrátco medo. Dependendo del problema, otros métodos tambén costosos funconaron ben, como ser los métodos lneales que mnmzan los percentles o la suma parcal de errores al cuadrado. Consderando úncamente los métodos más smples, se debe menconar el buen desempeño de aquellos dervados de la Interpolacón Objetva, y los vnculados al Análss de Componentes Prncpales. Un aspecto metodológco que no fue sufcentemente tratado es que, en la práctca, el usuaro debe mputar un únco banco de datos. Por ello, hay que tomar con cudado el orden de precedenca que se establece, ya que el msmo se derva de una smulacón de Monte Carlo. Que los resultados que se presentan ndquen que el método A es mejor que el método B, debe nterpretarse como que, en valor esperado, A se comportará mejor que B. Ello no obsta a que, en un caso concreto el orden no sea el mostrado por la mayoría de las smulacones. S este comentaro se analza a la escala de datos ndvduales, no puede conclurse que para mputar una ausenca en concreto, el método A sea mejor que B. Ello puede estar afectado en gran medda por los datos dsponbles, etc. por lo que debería ser consderada la posbldad de asocar al valor mputado algún ndcador de confabldad. En este aspecto, las redes neuronales vuelven a mostrarse mejor posconadas, ya que como se presentará luego, las msmas pueden servr smultáneamente como fórmulas de regresón y como detectores de casos sospechosos, propedad que no es compartda con otros métodos, que eventualmente (Rousseeuw, 1991) deben combnarse con métodos específcos de deteccón de errores. El otro objetvo del proyecto era la comparacón de métodos de deteccón de errores (tambén denomnados outlers en la lteratura estadístca). A esos efectos no sólo se relevó la lteratura exstente y se mplementaron la mayor parte de los métodos allí descrtos, sno que fue necesaro proponer métrcas para calfcar un método como mejor que otro. Esto fue otro aporte orgnal del proyecto. Nuevamente los métodos (ahora orgnales) asocados a las redes 2

neuronales tuveron un excelente desempeño. Entre los métodos más económcos, se señala el propuesto por Hawkns, 1974, y el propuesto por López 1994a, que fueron además los aplcados en etapas tempranas del proyecto para depurar el banco de datos de lluva y de vento de superfce, con buenos resultados. Los resultados señalados permten conclur que las redes neuronales son una herramenta válda para encarar tanto la mputacón como la deteccón de errores, con la ventaja de ser aplcables smultáneamente a ambos problemas sn más cálculos. En contrapartda, con las técncas dsponbles las redes deben ser dseñadas en forma arbtrara varando tentatvamente el número de capas ocultas y el número de neuronas en cada una de ellas. Además, pudo comprobarse que los algortmos de optmzacón dsponbles quedan fáclmente atrapados en óptmos locales, lo que agrega otro elemento más de dscreconaldad para decdr cuándo el proceso de entrenamento se da por concludo. 1.3- Reconocmentos y agradecmentos Han colaborado drectamente en este proyecto los sguentes nvestgadores (orden alfabétco) Bdegan, Maro Burrun, Jorge Blanco, Jorge Camaño, Gabrel De los Santos, Hugo Fontana, Héctor Grosskoff, Rosa Gutérrez Celna López, Carlos Sabguero, Arel Los coordnadores han sdo: por la Dreccón Naconal de Meteorología, M.Sc. Maro Bdegan, y por el Insttuto de Estadístca de la Faculta de Cencas Económcas el Dr. Jorge Blanco. El responsable centífco del proyecto fue el Dr. Ing. Carlos López. Se agradece la colaboracón de UTE y del resto del personal de la DNM para el acceso en dversas etapas del proyecto a los regstros orgnales en papel. Además de los equpos adqurdos por el proyecto se hzo uso extensvo de las facldades dsponbles en nuestros respectvos departamentos y otras orgnadas en el marco de los proyectos CONICYT/BID 180/92 e INCO-DC 87/96, así como de equpos del departamento de Geonformátca del Royal Insttute of Technology, Estocolmo, Sueca. 3

2 - INTRODUCCIÓN 2.1- Planteo del Problema El proyecto tene como objetvo el estudo de dferentes técncas aplcables fundamentalmente (pero no en forma excluyente) a datos meteorológcos, para resolver los problemas prncpales que se detallan a contnuacón: a) detectar errores aleatoros en un banco de datos exstente b) señalar valores sospechosos en el momento de su ngreso al banco de datos c) mputar o asgnar valores para los datos ausentes, tanto en tempo real como en el propo banco (entendéndose como tempo real, la ejecucón de las tareas menconadas en lapsos comparables con el nsumdo en el ngreso de la nformacón). En la mayoría de los bancos de datos exstentes en nuestro país no hay mplementados mecansmos de control de la caldad de los datos o ben sólo exsten controles de valdacón por rango: los datos son aceptados s están dentro de un ntervalo prefjado. A nvel nternaconal, úncamente en los grandes centros de asmlacón de datos se aplcan controles más sofstcados. La correccón de los errores de la base en momento de procederse a su utlzacón, o ben ocasona costos adconales de depuracón de los msmos cada vez que se van a procesar los datos (estmacón de estadístcas descrptvas, elaboracón de modelos, proyeccones, predccones, etc.), o ben ncorporan errores quzá mportantes en los resultados del procesamento. En efecto, en toda operacón de medda exsten nevtablemente errores, tanto sstemátcos como aleatoros. Asmsmo, los regstros tomados usualmente son posterormente transcrtos a un banco de datos antes de su uso, por lo que se agregan nuevas formas de error, generadas en tempo de ngreso o proceso de la nformacón. El orden de magntud de los errores depende de muchos parámetros, y de la propa varable. Por ejemplo, como caso extremo, Slanna et. al., 1990, da cuenta que en la medda de trazadores de contamnantes los nstrumentos suelen equvocarse por exceso, y los errores pueden llegar a ser del 100 al 500%, para las trazas de cadmo, znc, arsénco, etc. Otro aspecto del problema es el efecto secundaro que pueden tener esos errores, cuando por ejemplo son usados en la toma de decsones. Según Husan, 1989, "...el fracaso de muchos proyectos de abultado presupuesto puede ser atrbudo en parte, a la mprecsón de la nformacón hdrológca manejada...". Sn necesdad de hablar de fracaso, el dseño de los dques de una presa, de los muelles de un puerto o de la operacón dara del sstema eléctrco naconal, descansa en mayor o menor medda, en datos recogdos en forma rutnara por organsmos especalzados. El efecto por errores en los datos sobre los costos ncales, o sobre los costos operatvos, puede ser muy sgnfcatvo, según los casos. 4

Como ejemplos, la decsón de verter agua en una represa, o el sobredmensonado de una boya petrolera (Reolón, 1992), le pueden costar a la empresa o al país cantdades que no son fáclmente estmables. Tambén, al ntentar modelar algún fenómeno, tanto matemátca como físcamente, es corrente que, en la etapa de calbracón o ajuste de parámetros empírcos del msmo, sea en la práctca mposble analzar una secuenca de mles de n-uplas de datos. Por ello, es usual que en estos casos se defnan y calculen a partr de los msmos, varables resumen como la meda, valor máxmo, valores extremos con período de retorno dado, desvacón estándar, sesgo, etc. para realzar un manejo más smple de los msmos. El trabajar con valores promedo oculta en el conjunto, tanto aquellos eventos nítdamente erróneos como otros más sutles, sesgando el valor de los estmadores en forma descontrolada. En el caso de los fenómenos que responden a leyes lneales, tales estadístcos pueden no ser afectados sgnfcatvamente por errores pequeños. Sn embargo, muchos fenómenos nteresantes e mportantes no caen dentro de esa categoría, y modelar o calcular las n-uplas de datos con errores puede mplcar sensbles dferencas en los resultados. Otra categoría mportante es la de aquellos estudos que analzan la evolucón temporal de los parámetros. En estos casos, el efecto de un error aslado persste durante certo tempo, perturbando quzá sgnfcatvamente los resultados en tal ntervalo. Por ejemplo al estudar la dspersón de contamnantes en la atmósfera un error aslado en la dreccón del vento, traslada el campo de contamnantes afectando de forma rreversble cualquer cálculo al menos durante algún tempo hasta que se renueve la masa de are. Otro caso más grave es el de un error en el cálculo del caudal de un río que aporta a una represa; esta últma que ofca de acumulador no puede elmnar de forma alguna un volumen de aporte fctco, por lo que sesga defntvamente el nvel del embalse en lo sucesvo. En general, el tratamento de ausencas en los bancos de datos es un problema recurrente en todo estudo vnculado tanto a fenómenos naturales como a otras áreas, puesto que típcamente todo estudo asume como hpótess que las seres en que se basa están completas, mputándose caso a caso (con técncas no sempre demasado depuradas), alterando quzás resultados o generando errores adconales. S ben muchos problemas no requeren de la mputacón de todos los datos faltantes, los cálculos suelen ser muy sensbles a los errores s exsten pocos regstros (Kennedy, 1989). Cualquer método para asgnar valores faltantes debe preservar las característcas prncpales del banco y ofrecer garantías de no dsmnur los nveles de caldad del msmo. Debe consderarse asmsmo la posbldad de trabajar con dstntos nveles de precsón a los efectos de la mputacón de valores faltantes. Habrá estudos que sean más sensbles que otros a los datos ausentes y para los cuales se deba asgnar valores confables a regstros ncompletos. 5

Debdo a ello, la posbldad de asgnar valores, dando una estmacón del error cometdo (objetvo c) ) es de gran nterés en la aplcacón. Corresponde señalar que nnguna de las aseveracones realzadas es específca de los parámetros meteorológcos. El msmo problema puede observarse en bancos de datos socoeconómcos u de otra índole, y smlares nconvenentes se presentan en ellos. Para los problemas enumerados, se han ensayado y puesto a punto dferentes algortmos ya exstentes e mplementado nuevos, que tenen en cuenta la correlacón en el espaco y/o en el tempo de los regstros. En este nforme se presenta el caso de la lluva dara, un campo con aprecable correlacón espacal y débl correlacón temporal. Se solctó a las nsttucones nteresadas (UTE, DNM) que sumnstraran bancos de datos, recbéndose de la prmera el banco de datos del Río Negro, y de la segunda, la parte correspondente a la cuenca del Río Santa Lucía. 2.2- Antecedentes del Problema Para la deteccón rutnara de datos anómalos en el área meteorológca, el únco antecedente naconal conocdo consste en las recomendacones realzadas por la Dreccón de Clmatología y Documentacón de la Dreccón Naconal de Meteorología (DNM, 1988). En general se basan en un control por rango admsble para cada parámetro. A nvel regonal la stuacón es smlar (Núñez, S., 1994) A nvel nternaconal, exsten trabajos (Sevruk, 1982) que proponen procedmentos para corregr errores sstemátcos en cada estacón. Se requere conocer, entre otros, la velocdad del vento, la ntensdad de la lluva, la temperatura y humedad del are, etc. Con respecto a los errores aleatoros, la tendenca es comparar las meddas con un modelo del fenómeno (p. ej.: Francs, 1986; Hollngsworth et al., 1986). Este últmo asevera que para el caso del vento, las dferencas entre observacones y predccones tenen aproxmadamente una dstrbucón normal. En ese caso, es relatvamente fácl detectar los datos anómalos y separarlos para un análss a posteror. Como desventaja debe señalarse el mportante volumen de nformacón requerdo, así como los altos costos computaconales nvolucrados, dado que es necesaro modelar (eventualmente por separado) los dferentes parámetros, utlzando métodos específcos para cada uno. En los grandes centros mundales de asmlacón de datos se utlzan sstemátcamente métodos más complejos de control de caldad. Ellos requeren de un volumen de nformacón sólo dsponble allí msmo (Gandn, 1988; D Mego, 1988, Parrsh, 1992). Por tanto, s ben son métodos conocdos, resultan naplcables en general para otro tpo de parámetros, e ncluso en las presentes condcones no podrían ser usados por los organsmos naconales competentes. Los recursos humanos e nformátcos consttuyen una lmtante nsalvable en este sentdo. Gandn, 1988 reconoce que parte sgnfcatva de los errores detectados pertenecen a países en desarrollo, donde los recursos afectados a la toma de datos son sgnfcatvamente menores que en otros países. 6

S se prescnde o se desconoce la relacón físca que debería lgar a las varables, los métodos puramente estadístcos son una alternatva a evaluar. Barnett et al., 1984 efectúa una síntess de dstntas técncas aplcables para el abordaje de este problema. Para el caso unvarado, los controles por rango s ben necesaros se han revelado como nsufcentes. Exsten extensones aplcables a este tpo de seres como los métodos de deteccón basados en estmadores robustos (Goyeneche et. al., 1989). Para el caso multvarado, Barnett et al., 1984 dstngue dos grandes líneas metodológcas, según que la funcón de dstrbucón de la muestra se suponga conocda, o no. La prmera de ellas corresponde a los llamados Tests de dscordanca, que agrupa una sere de técncas aplcables según la forma en que se dstrbuyen los datos muestreados, y requeren conocer -o poder estmar- los parámetros de la dstrbucón. Exsten tambén antecedentes vnculados al caso en que la dstrbucón teórca responda a un tpo de ley y los datos muestreados a otra, como es el caso del planteo de O'Hagan, 1990. Allí el hecho que una de las dstrbucones sea normal y la otra de tpo t hablta al uso de certa metodología para poner en evdenca los datos anómalos. El problema aquí tratado no es abordable a partr de este tpo de métodos, puesto que las hpótess no son lo sufcentemente generales para aplcarlas a una varedad de parámetros mportante. La segunda línea dentfcada por Barnett corresponde a lo que se ha dado en llamar Métodos nformales. Estos prescnden de los aspectos formales de la dstrbucón de los datos, y apuntan a explotar certas propedades de los msmos. En este grupo se encuentran los métodos de deteccón de margnales, fjando un rango de probabldad; los métodos gráfcos, basados en la búsqueda de puntos alejados de la nube de datos; la aplcacón de métodos de correlacón (Gnanadeskan et al., 1972); la búsqueda de dstancas generalzadas representatvas, técncas asocadas con el análss de conglomerados (cluster analyss) (ver por ejemplo, Fernau et al., 1990) y análss de componentes prncpales (ACP), entre otros. Un antecedente muy específco respecto al ACP lo presenta el trabajo de Hawkns, 1974. En él se comparan cuatro ndcadores o estadístcos, dseñados para resaltar datos anómalos. Hawkns asume que cada observacón tene dstrbucón normal, por lo que su hpótess no es aplcable en general (no la cumple, por ejemplo, la lluva dara); sn embargo, los conceptos por él vertdos son smlares a los manejados en López et. al., 1994a, 1993a y 1996. Bajo hpótess muy generales, exsten tambén una varedad de métodos que se basan en la dstanca de Mahalanobs como ndcador de fabldad, y que dferen en la forma de estmar la matrz de covaranza y el valor esperado. Entre ellos, se encuentran los descrtos en Rousseeuw, 1991; Rousseeuw et al., 1987, 1990; Roche, 1996; Rocke et al., 1987; Had, 1992 1994, etc. A modo de conclusón, la opnón de un experto reconocdo como el Dr. Gandn (Gandn, 1988) debe ser ctada. El autor asevera que tradconalmente, el problema de control de caldad de la nformacón ha sdo relegado en las prordades de nvestgacón, por ser (erróneamente) consderado un problema puramente técnco, que se agota en la deteccón de los msmos. 7

Con respecto a los datos ausentes, en el campo de la Meteorología son práctca corrente métodos de análss objetvo (ver Haagenson, 1982, Johnson, 1982, etc.), que permten generar un campo nterpolado a partr de datos rregularmente dstrbudos. Ello permtría calcular los valores faltantes, a partr de los exstentes. Otras veces se utlzan magntudes dervadas, y no el dato en bruto. Por ejemplo, para el cálculo de lluva meda sobre una regón, exsten métodos como el de los polígonos de Thessen (Jácome Sarmento et al., 1990) que no requeren en prncpo, de un banco de datos completo. Ambas stuacones han llevado a que el tema del tratamento o elmnacón de ausencas haya sdo tambén relegado, lo que se refleja en lo escaso de los trabajos específcos en la lteratura especalzada consultada. En la mayoría de los casos práctcos, el dato ausente es smplemente gnorado, (bajo la hpótess mplícta que estas ausencas son al azar) o se aplcan técncas ad-hoc (nterpolacón lneal, susttucón por el más próxmo) que luego no son documentadas en el trabajo fnal. En cualquer caso, se afecta a la poblacón en forma arbtrara, en base a hpótess que rara vez son evaluadas. El tema en cambo, es de gran nterés en el área de la Estadístca y las Cencas Socales en general, pudéndose encontrar en lbros específcos (Rubn, 1987) ctas a volúmenes producdos por grupos de trabajo dedcados al tópco. Exsten métodos de mputacón más o menos sofstcados. Entre éstos últmos, se puede ctar el utlzado por la Ofcna del Censo de los EEUU (Rubn, 1987). El msmo consste en asgnar al dato ausente un valor tomado al azar de entre los restantes eventos que tenen déntca respuesta en el resto del cuestonaro. S eventualmente no exstese otro gual, o ben se relatvza esa exgenca, admtendo que alguna o algunas respuestas no lo sean, o ben, se ntroduce una "dstanca" entre cuestonaros, y se busca aquel que dste menos. Otro método tambén smple, es el de hacer una regresón sobre el conjunto de datos, ajustando un modelo sencllo. Típcamente, se utlzan mínmos cuadrados (total o parcalmente) o componentes prncpales, métodos que Stone et al., 1990 presenta desde una perspectva ntegrada. Los propuestos en Rousseeuw et al., 1987; Rousseeuw, 1984; Hawkns, 1993, 1994ª 1994b tenen la partculardad de producr una regresón lneal dseñada para ser apropada aún en la presenca de un grupo consderable de errores arbtraramente grandes, propedad muy mportante en la práctca ya que los bancos de datos no pueden asumrse lbre de errores en nnguna nstanca. Todos los métodos consderados producen una únca alternatva: para cada ausenca se propone una únca mputacón. Según Rubn, 1987, "..en general, es ntutvamente claro que mputar la predccón 'óptma' para cada ausenca subestmará la varabldad...". Exste, sn embargo, la posbldad de mputar más de un valor para una msma ausenca. Así Rubn presenta una varedad de técncas, algunas excesvamente especalzadas, para su aplcacón en encuestas. Como dea general, se propone crear para cada ausenca, un número m (pequeño) de alternatvas, y consderar que se dspone de m conjuntos completos dferentes. Para el caso en que la tasa de ausencas es baja, el método funcona razonablemente ben, requréndose sn embargo más espaco (para guardar las múltples mputacones) y más tempo de cálculo (para procesar los dferentes conjuntos completos generados). 8

Como caso partcular, tanto para la deteccón de errores, como para la mputacón de ausencas en un banco de datos hdrológcos, se pueden encontrar a nvel naconal los trabajos de Slvera et al., 1991, y los de López et al., 1994a y 1994b. En ellos se descrben resultados extosos para el parámetro lluva dara, utlzando métodos que podrían ser aplcables a otros casos. Los msmos métodos han sdo ensayados sobre un banco de datos de vento y presón atmosférca a nvel del mar (López et. al., 1993a) y fueron comparados en ese caso, con los resultados dervados de la aplcacón del método de Interpolacón Optma (Gandn, 1963, 1988) entre otros. Los resultados obtendos con los métodos no tradconales propuestos fueron sensblemente mejores, en los expermentos presentados. El método de deteccón de errores basado en el ACP tambén ha sdo ensayado sobre modelos dgtales de terreno, en expermentos controlados (López, 1997). 9

3. DESCRIPCIÓN DE LOS DATOS DISPONIBLES 3.1 - Característcas del banco de datos de lluva dara 3.1.1- Característcas de la Cuenca estudada 3.1.1.1 - Introduccón La Cuenca hdrográfca del Ro Santa Lucía, con una superfce de 13600 km 2, está stuada en la regón sur del Uruguay, aproxmadamente entre los 55 y 57 de longtud oeste y 33 40 y 34 50 lattud sur. Las cuchllas o sucesón de cerros que srven de límte a la Cuenca no superan los 300 metros. La vegetacón predomnante es la pradera y los pocos árboles y arbustos se encuentran a lo largo de los ríos y arroyos. El Río Santa Lucía, de 225 km de largo es el más mportante del sur del país, sus dos prncpales contrbuyentes son el Río San José, de 111 km y el Santa Lucía chco, de 122 km. 3.1.1.2 - Descrpcón Clmátca El clma de esta regón es templado húmedo sn estacón seca. Le corresponde la categoría Cfa en la clasfcacón clmátca de Koeppen. Las temperaturas medas anuales son de 17 C. Los extremos de temperatura anuales son mportantes con máxmas absolutas de 43 C y mínmas absolutas de -8 C. Las precptacones totales anuales estan stuadas en los 1000 mm. Se observa un máxmo de unos 1100 mm. sobre las nacentes del Río San José y un mínmo de 900 en el sureste de la cuenca junto al Río de la Plata. Las precptacones presentan sn embargo una gran varabldad nteranual, con años muy lluvosos, por ejemplo 1959 con 1600 mm. y muy secos, por ejemplo 1916 con 500 mm. El mes más lluvoso es marzo, con 100 mm. y el menos lluvoso es julo con 75 mm., la dferenca entre ambos (25 mm.) ndca la regulardad de las precptacones a lo largo del año. La humedad relatva de la cuenca presenta un valor medo anual de 70%, y oscla entre 60% en dcembre y enero y 78% en juno. 3.1.1.3 - Informacón Meteorológca. Las meddas de la precptacón en la cuenca se realzan por medo de una red pluvométrca que consta de unas 50 estacones, en general atenddas por personal del Mnstero del Interor y de A.F.E. (Ferrocarrles del Estado). La dstrbucón espacal no homogénea de los pluvómetros en la cuenca obedece a que fueron establecdos a lo largo de las líneas férreas (estacones del ferrocarrl) y en poblados 10

(comsarías). A este hecho hay que sumar a medados de la década del ochenta el cerre de la mayoría de las estacones del ferrocarrl y por lo tanto la ausenca de observacones pluvométrcas a partr de esas fechas. En este Proyecto se han selecconado 10 estacones pluvométrcas, con nformacón en el período 1960-1990. En la Tabla 1 y en la Fgura 1 se ndcan algunas de sus característcas y su localzacón geográfca. N Nombre Lattud Longtud Elevacón 2436 Puntas de Sauce 33 50'S 57 01'W 120 mts 2486 Pntos 33 54'S 56 50'W 100 mts 2549 Barrga Negra 33 56'S 55 07'W 95 mts 2588 Casupá 34 06'S 55 39'W 124 mts 2662 Cufré 34 13'S 57 07'W 92 mts 2707 Ragón 34 21'S 56 39'W 37 mts 2714 San Ramón 34 18'S 55 58'W 70 mts 2719 Ortz 34 17'S 55 23'W 115 mts 2816 Joancó 34 36'S 56 11'W 35 mts 2846 Olmos 34 44'S 55 54'W 40 mts Tabla 1 Lstado de las estacones pluvométrcas con nformacón en el período 1960-1990 La nformacón de las otras varables atmosfércas (temperatura, humedad, presón atmosférca, evaporacón, vento, horas de sol, etc.) es obtenda en las Estacones Meteorológcas de la Cuenca, pertenecentes a la Dreccón Naconal de Meteorología, que son: N Nombre Lattud Longtud Elevacón Período 86580 Carrasco 34 50'S 56 00'W 33 mts 1947 - Presente 86585 Prado 34 51'S 56 12'W 16 mts 1901 - Presente 86575 Mellla 34 47'S 56 15'W 49 mts 1951 - Presente 86568 Lbertad 34 41'S 56 32'W 21 mts 1977- Presente 86545 Florda 34 04'S 56 14'W 92 mts 1987 - Presente Tabla 2 Estacones meteorológcas próxmas a la zona de estudo La nformacón en estas Estacones Meteorológcas es relevada en forma horara, transfréndose vía telefónca a Montevdeo, y es utlzada en la elaboracón del pronóstco del tempo, y tambén en la obtencón de estadístcas clmátcas de valores esperados acumulados, medos y extremos. 3.1.1.4 - Factores clmátcos Dversos factores tanto geográfcos, oceanográfcos y meteorológcos nfluyen en el clma de la Cuenca. La Cuenca se stúa ntegramente en la zona templada del hemsfero sur. La poca extenson y la ausenca de sstemas orográfcos mportantes, determnan que las temperaturas medas mensuales sean homogéneas y suaves (entre 10 C y 25 C todo el año). 11

La corrente oceánca de Brasl, transporta aguas de orgen tropcal, y su transporte calórco produce una aumento de la temperatura del are, y un aporte mportante de vapor de agua a la atmósfera. La corrente de las Malvnas transporta aguas frías desde el sur producendo una establdad en las capas bajas de la atmósfera. El antcclón sempermanente del Atlántco Sur ejerce una gran nfluenca en el tempo atmosférco que se desarrolla sobre el Uruguay. La crculacón generada por este antcclón produce ventos del sector noreste al este, aportando masas de are de caracter tropcal y húmedas. 2436 2486 2549 2662 2707 2588 2714 2719 2816 2846 100 km Fgura 1 Localzacón de las estacones pluvométrcas utlzadas Tambén el antcclón sempermanente del Pacfco Sur, con su crculacón del sur al suroeste sobre el país, aporta prncpalmente durante el nverno, masas de are frías y en general secas. La depresón térmco-orográfca del noroeste argentno, produce en determnadas stuacones aporte de are muy húmedo y cáldo desde el Chaco, prncpalmente en el verano. 3.1.1.5 - Formacón de Precptacones Las masas de are portadoras de humedad necestan certos mecansmos dnámcos para producr precptacones. El prncpal mecansmo de produccón de lluvas sobre la cuenca son los pasajes de sstemas frontales o frentes. Las prncpales masas de are presentes sobre el país son la masas de are tropcal con un gran contendo de vapor de agua, y las masas de are polar de carácter frío y seco. La zona de transcón entre dos masas de are de dferentes característcas defne una zona frontal, que está asocada en general a precptacones. 12

Se estma el pasaje de unos 70 a 80 frentes fríos en el año que provocan precptacones en zonas y cantdades varables. El volumen de las precptacones depende del contendo de agua precptable en la masa de are húmedo. Otro mecansmo de precptacón es el ascenso de are producdo por una depresón o cclón dnámco y su pasaje sobre la cuenca, este tpo de perturbacón produce en general precptacones muy mportantes en volumen, afecta un área lmtada, y está asocada a ventos fuertes y tormentas severas. 3.1.2 - La lluva en la Cuenca: estructura y estaconaldad El objetvo persegudo en esta etapa es el de determnar, s exste, una estructura de la lluva en la cuenca durante los trenta años consderados. De lo contraro caracterzar las varacones que se han producdo en dcha estructura en el período. Este aspecto tene ndrecta relacón con el objetvo prmordal del proyecto, pero asume gran mportanca a la hora del conocmento del fenómeno y permtrá aceptar o rechazar dferentes hpótess realzadas en uno y otro sentdo, al msmo tempo que mejorar la efcenca de cualquer modelo que se pretenda utlzar para analzar el fenómeno.. En cuanto a la estaconaldad, aquí entendda como comportamento dferencado de algunos meses del año respecto a otros, en relacón a la dstrbucón de la lluva, será de utldad nmedata para la construccón del modelo que se plantea en el punto 8. del Resumen, y para mejorar la efcenca de los dferentes estmadores que ha desarrollado el proyecto. 3.1.2.1 - Aproxmacones metodológcas para determnar estructuras. En este sentdo se han desarrollado dos líneas de trabajo dferencadas. Por una parte se utlzan algunas de las técncas para el análss de datos multvarados multway y en otras se buscan relacones lneales y no lneales en el tempo y en el espaco. Métodos Multvarados Multway Con el objetvo de ubcar al lector en el sgnfcado de la prmera aproxmacón metodológca se realza una presentacón resumda y elemental de algunos métodos multway en partcular, precedda, por una breve presentacón general de los métodos a más de dos vías. El análss multvarado clásco extrae generalmente nformacón de una tradconal matrz 2- way (2 vías) de datos. X x11 x12 L x1 n x x x n = { xj } = 21 22 L 2 L L L L xn1 xn2 L xnn 13

donde x j es el valor que toma la varable j en la undad. Las dos vías están aquí representadas por las undades y las varables. Un ejemplo de 3-way de datos esta dado por: X { x jk } = donde x jk es el valor que toma la varable j (j=1,...j) en la undad (=1,...I) en la ocasón k (k=1,...k), consderando que son las msmas varables y undades en cada ocasón. En general p-way data pueden ser representados por: X = { x 1 L p } donde cada dato elemental x 1... p se clasfca de acuerdo a p ways como por ejemplo, undades, varables, tempos, áreas, categorías de varables, etc... En modo general se puede dstngur entre: ) Arrays de p-way datos s todas las combnacones de dferentes índces se encuentran presentes. Un ejemplo de array a 3-way es del tpo undades varables ocasones donde se consderan las msmas undades y las msmas varables en cada ocasón. ) Sets de p-way datos. No todas las combnacones de los valores de dferentes índces se encuentran presentes. En el caso de 3-way undades varables ocasones camban o las varables o las undades en cada ocasón. En el caso que nos ocupa se pueden conformar arrays o sets de múltples formas. Uno partcularmente nteresante para medr el comportamento estructural de la lluva en el período de los últmos trenta años es la matrz estacones pluvométrcas undades de tempo (ej. meses) dstrbucón de lluva. Para consttur arrays en este caso se debe consderar solamente las undades de tempo con nformacón completa, estando en las demás stuacones frente a sets. Del enfoque general a p-way nos nteresa en este momento solamente el de 3-way en la stuacón undades varables ocasones que es el que concretamente se aplca en la presente nvestgacón. Veamos una síntess de algunos enfoques metodológcos aquí aplcados lo que no sgnfca para nada un desarrollo exhaustvo de las aproxmacones multway. Modelos multlneales Los modelos multlneales fueron consderados por Kruskal (1984). Se ncluyen dentro de los llamados modelos estructurales descrptvos. Dentro de los más utlzados para el análss de datos a 3-way se destacan los sguentes: a) Modelo Cuadrlneal Modelo Tucker 3 (Tucker, 1963, 1964, 1966; Kroonenberg, 1983): P Q x m = a b c g jk jk p jq k r pqr p= 1 q= 1 r= 1 R donde el sgnfcado de los parámetros es el sguente:: 14

a p = puntaje de la undad en relacón a la dmensón latente ( componente deal ) p, b jq = puntaje de la varable j en relacón a la dmensón latente q, c kr = puntaje de la ocasón k relatva a la dmensón latente r; g pqr = puntaje conjunto de la genérca terna (p,q,r) de las componentes deales de los tres modos (p-ésma para las undades, q-ésma para las varables y r-ésma para las ocasones). Este parámetro es una medda de la nteraccón trple entre las tres genércas dmensones latentes. El conjunto de las g pqr forman la llamada CORE MATRIX. b) Modelo Trlneal: Modelo Tucker 2. P x m = a b g jk jk p jq pqk p= 1 q= 1 Q Aquí el componente deal de las ocasones se omte y g pqk conforma la CORE MATRIX extendda. c) PARAFAC (Harshman, 1970) x m = a b c P jk jk p jp kp p= 1 Este puede ser consderado como el Modelo Tucker 3 con una CORE MATRIX superdéntca. d) Componentes Prncpales Smultáneas. Kers y Ten Berge ( 1989) Esta es una generalzacón del Análss de Componentes Prncpales para la stuacón donde las msmas varables se observan en dos o más poblacones. La generalzacón se obtene consderando ACP para cada poblacón bajo la condcón de que las matrces de pesos de componentes deben ser guales para cada análss. Estrategas de análss multfase. Estos métodos se aplcan generalmente a arrays o sets 3-way. X = { X,L X L 1 X } Prmera Fase: Interestructura A cada matrz X k se asoca un elemento E k el cual caracterza sus estructuras, en el caso de un método típco de esta famla llamado STATIS (Escoufer, 1973, 1977, Lavt, 1988, 1994) E k es un operador lneal (matrz) A k Se realza un análss smultáneo de los E k. En STATIS se realza un análss de componentes prncpales en relacón a las matrces A k organzadas de la sguente manera: ( ) A veca veca veca K = 1 2 L donde veca k es la vectorzacón de A k. k K 15

Los puntajes O k se obtenen a partr del análss de los E k. En STATIS los puntajes se obtenen a través de los componentes prncpales de las columnas de A (llamadas ocasones). Segunda Fase: Compromso Se calcula un elemento medo de los E k que representa el conjunto de las X k. En STATIS un operador medo A * (meda ponderada de los A k con pesos dados por el prmer autovector obtendo del ACP de A). Se realza un análss de E * obtenendo puntajes U,V j. En STATIS el ACP de A y el subsguente cálculo de puntajes para undades y varables. Tercera Fase: Intraestructura Basándose en el análss de compromso E *, se obtenen los puntajes para undades y k varables en las dferentes ocasones( U, V k j ). En STATIS undades y varables están geométrcamente representadas por los dstntos ejes prncpales calculados con el ACP de A *. Anals Fattorale Dnamca (AFD) Un método que está fuera de las clasfcacones anterores es el Anals Fattorale Dnamca (Copp-Zanella 1978, Copp-Corazzar 1995). Esta metodología permte analzar array 3-way del tpo undades varables tempos, donde estos últmos están ordenados y juegan el rol de ocasones. Es un método aplcable a varables cuanttatvas. ellas. Se analzan tres tpos de varabldades, estructural, dnámca, y la nteraccón entre Los tres aspectos son analzados en AFD medante la conjuncón de una modelzacón basada en técncas factorales y regresvas. Relacones medante dscrepanca logarítmca Otro modo de construr matrces de proxmdades, se basó en la dscrepanca logarítmca de Kulback- Lebler. Para poder aplcar esta dscrepanca fue necesaro en prmer lugar construr las dstrbucones de lluva daras para cada estacón. Se consderó una dstrbucón común para todas las estacones que reúne la doble condcón de ser adecuada a los datos dsponbles y brndar nformacón mejorada respecto a la smple dcotomía llueve- no llueve, aunque no sea la óptma por estacón. Los ntervalos elegdos fueron [0], (0, 7], (7, 17], >17mm. 16

Luego de codfcada la nformacón dara por estacón en esos cuatro ntervalos, se agrupó por mes, obtenendo de hecho la dstrbucón de la lluva, por estacón, para todos los eneros, todos los febreros, etc del período de años consderado. A contnuacón se calculó la dscrepanca de Kulback- Lebler de las dstrbucones de las demás estacones a la consderada en cada caso para los dferentes meses. Se obtene así para cada mes las estacones más cercanas en dstrbucón según la dscrepanca logarítmca. En el caso concreto, la expresón general de Kulback se transforma en: donde: p = 8 p δ p/ p = p ln = 1 p probabldad del ntervalo en la estacón consderada, para el mes dado. p = probabldad del ntervalo para cada una de las otras 8 estacones para el mes dado. Se construyen con estas dscrepancas nueve matrces, una para cada estacón, del tpo (12 8 ) conformadas con las dstancas de las otras ocho a la estacón consderada, en cada uno de los meses del año. Tambén aquí, como en el caso de las relacones lneales, se construyeron además matrces de (12 3) donde en lugar de consderar las dstancas de la totaldad de las estacones se consderan solamente las tres más cercanas. Menor dstanca mensual de una estacón a otra. Conjuntamente con el proceso anteror se realzó, sempre medante la dscrepanca de Kulback- Lebler y las correlacones, la búsqueda de la estacones más cercanas a cada estacón en los dferentes meses del año. Tambén se dvdó el período de trenta años en tres y se analzaron meses y trmestres para saber s hubo cambos en la dstanca a la meda general del período lo que sería otro ndcatvo de cambo de estructura. En cuanto a las estacón por mes más cercana se procedó de la sguente manera. Se realzó la dstrbucón por mes, con los ntervalos antes consderados, de la lluva para cada estacón. Luego se tomó la dstrbucón de cada estacón como la verdadera, es decr la p de la expresón de la dscrepanca y se halló la dscrepanca de cada una de las otras a la consderada. Se obtene así una medda de cual es el orden de dstanca de las dferentes estacones a la consderada para cada mes lo que será luego de gran utldad en la construccón del modelo que se plantea en el numeral 8 del Indce. Dstanca a nvel de Estacón Fnalmente se consderó un últmo procedmento para el análss de estructuras. Este fue construr las dscrepancas de Kulback- Lebler por estacón y para cada mes respecto a la dstrbucón meda o margnal de la estacón en todo el período. La dferenca esencal de este método respecto a los anterores es que no se tene en cuenta la relacón de una estacón con las demás sno cada una consgo msma. Con el vector de dstancas se agruparon luego los meses. 17

3.1.2.2 - Estaconaldad Conjuntamente con los métodos multway descrptos se utlzaron otra sere de técncas para agrupar meses de smlar comportamento de la lluva en cada una de las estacones y en la cuenca en su conjunto. Métodos de relacón entre las estacones pluvométrcas En este sentdo se consderaron dos tpos de relacones. En prmer lugar las correlacones lneales de tpo Pearson entre las lluvas en los dferentes meses en el período, y por otro medante el análss de la dscrepanca logarítmca de Kulback-Lebler entre las dstrbucones de lluva en las dferentes estacones. Relacones Lneales entre pluvómetros. Se parte en prmer lugar de la matrz orgnal de datos, X x11 x12 L x1 j x x x n = { xj } = 21 22 L 2 L L L L xi1 xi2 L xij donde el térmno genérco{ x j } representa el volumen en mm de lluva caída el día en la estacón j. Es decr que la matrz tene tantas flas como días de nformacón de lluva se tenen (trenta años) y tantas columnas como estacones pluvométrcas consderadas (nueve). Se consdera como undad mínma el mes. A esto se llega luego de varas pruebas buscando la mínma undad posble, La decsón de consderar el mes se alcanza en razón de la caldad de nformacón dsponble y tenendo en cuenta la partcular dstrbucón de la lluva por día donde en aproxmadamente un 80 % de ellos, el valor es cero. es: Se construye una matrz de correlacón de Pearson para cada mes del año. Esta matrz r11 r12 L r1 j r r r n R = { rj } = 21 22 L 2 L L L L ri1 ri2 L rij donde{ r j } es el coefcente de correlacón de Pearson entre las precptacones de las estacones y j en el mes consderado. Con estas correlacones se construyen nueve matrces, una por cada estacón pluvométrca, de 12 8, donde cada fla ndca las correlacones para un mes dado de la estacón consderada con las demás. 18

El objetvo del procedmento es analzar las alteracones que se producen en el año en las correlacones lneales entre la lluva medda en una certa estacón y en las demás. Se está buscaron las estacones más correlaconadas lnealmente y como varían en el transcurso de los meses. Este procedmento se realzó tambén agrupando en los sguentes trmestres: Dcembre, Enero, Febrero Marzo, Abrl, Mayo. Juno, Julo, Agosto. Setembre, Octubre, Novembre. Además de consderar matrces de 12 8, se consderaron matrces 12 3, donde se tenían en cuenta aquellas tres estacones que durante el año estaban más correlaconadas a la consderada. Esto se buscó construyendo un rankng de estacones. Una vez construídas las matrces de nterés se aplcaron dversos métodos de cluster analyss (análss de conglomerados) buscando encontrar agrupamentos de meses según smlares comportamentos de las correlacones de una estacón con las demás. Los algortmos de clasfcacón consderados se basaron en la dstanca de Mahalanobs y fueron los de Ward, Centrode y Complete. De acuerdo a los resultados obtendos con los dferentes métodos se buscó determnar una agrupacón para cada estacón. Los resultados se resumen en la tabla 3. Estacón Número de grupos Agrupacón de meses 2436 4 (5,6,8,9,11) (10,12,1) (3,4) (2,7) 2486 4 (2,5,8,9,10) (3,7,12) (4,6) (1,11) 2549 3 (4,6,9) (2,5,7,12) (1,2,4,10,11) 2588 4 (10,12,4) (11,3,9) (7,1) (8,6,2,5) 2662 3 (1,6,7,10,11) (4,5,8,9) (2,3,12) 2707 3 (4,6,8) (2,7,3,10,5) (11,12,9,1) 2714 3 (2,3,5,7,10) (1,4,6,12) (8,9,11) 2719 4 (8,9,10,12) (1,6,7) (2,4,5) (3,11) 2816 3 (2,5,8,9) (3,6,7,10) (1,4,11,12) Tabla 3 Agrupacón de meses por estacón Dscrepancas logarítmcas estaconales globales Para hacer posble la agrupacón de meses no ya por pluvómetro, sno en general para toda la cuenca, se busca la dstrbucón por mes de la lluva, en los cuatro ntervalos consderados para toda la cuenca de Santa Lucía. Luego se construye una matrz de 13 4 donde las prmeras doce flas son la dstrbucón por meses de la lluva y la últma la dstrbucón meda. Se calcula Kulback - Lebler de cada mes a la meda y luego se agrupa por cercanías. La estaconaldad obtenda para toda la cuenca fue la sguente: a) Abrl, Setembre, Octubre. b) Mayo, Juno. c) Agosto, Novembre. d) Febrero, Julo. e) Dcembre, Enero, Marzo. 19