UNA APLICACION REAL DEL MÉTODO DE REGRESIÓN LINEAL Planteamiento del problema Desde siempre los seres humanos han buscado adelantarse a cualquier eventualidad con la finalidad de minimizar los riesgos en cualquiera de sus actividades tanto recreativas como aquellas de carácter económico. Particularmente en agricultura, se ha vuelto indispensable contar con bases de datos meteorológicos fiables, ya que todas las actividades agrícolas dependen en gran parte del clima. En México, la Comisión nacional del agua (Conagua), a través del Servicio Meteorológico Nacional (SMN), es la fuente oficial de datos meteorológicos y climáticos. No obstante, la base de datos con que cuenta el SMN no es la óptima si lo que se busca es hacer inferencias para la agricultura, ya que las estaciones del SMN no se encuentran en zonas agrícolas, además de que existe un retraso considerable para la disposición de los datos (varía de región a región pero los retrasos van desde meses hasta varios años). Es por estas razones que en Sonora se impulsó con ayuda del gobierno y de los productores agrícolas el establecimiento de la red de estaciones agro meteorológicas conocida en la actualidad como la red AGROSON (AGROSON, 2004) La red AGROSON tuvo sus inicios en 1996 con la instalación de tres estaciones (Cd. Obregon (CIANO), Caborca (CIANO), Hermosillo (CECH)) y en la actualidad cuenta con 52 estaciones, distribuidas en las diferentes regiones agrícolas del Estado. Dichas estaciones registran rutinariamente en periodos de 10 minutos, nueve variables meteorológicas (Temperatura ambiente, temperatura máxima, temperatura mínima, humedad relativa, radiación solar, precipitación, humedad de la hoja, velocidad y dirección del viento). 19
Con el establecimiento del Sistema de Alerta Fitosanitaria del Estado de Sonora (SIAFESON, 2008) se volvió prioritario contar con un sistema de control de calidad de los datos meteorológicos, por lo que entre los diversos objetivos del SIAFESON se encuentra el de organizar y depurar las bases de datos climáticos y meteorológicos existentes en Sonora. Como resultado de la depuración ya mencionada se encontró que la base de datos de la red AGROSON contaba con gran cantidad de huecos (Figura 7. Pag. 25) en sus registros de temperatura ambiente, es decir pérdida de datos, como consecuencia de los altos costos de mantenimiento y de errores en el manejo de la base de datos. Es por ello que el personal del SIAFESON se ha dado a la tarea de recuperar los datos perdidos en la medida de sus posibilidades. Objetivo General Estandarizar y rellenar las series de temperatura de las estaciones agrometeorológicas del Valle del Mayo para su utilización en los diversos modelos fitosanitarios aplicables al sur de Sonora. Justificación A lo largo del programa y de los estudios llevados por AGROSON, la información obtenida y la certeza de los datos ofrecidos por AGROSON se ha visto seriamente cuestionada, ya que se han encontrado datos fuera de rango, series incompletas, demasiados huecos en la información, inhomogeneidad de la información (corrimientos de cero) o columnas con los mismos datos. Los problemas antes mencionados obedecen a diversas circunstancias que van desde el problema de comunicación con las estaciones hasta un manejo inadecuado de la información. Los modelos fitosanitarios requieren de series de tiempo fiables de las diversas variables meteorológicas. Una serie de tiempo o serie temporal es una colección de observaciones tomadas a lo largo del tiempo cuyo objetivo principal es describir, explicar, predecir y controlar algún proceso. Las observaciones están 20
ordenadas respecto al tiempo y sucesivas observaciones son generalmente dependientes. Este trabajo busca dotar al SIAFESON de series de tiempo fiables y continuas en el tiempo para la variable temperatura de las estaciones del Valle del Mayo para su utilización en modelos fitosanitarios con fines de pronóstico. Lo anterior serviría para prevenir o pronosticar problemas fitosanitarios en la zona con mayor certeza de la que se tiene actualmente. Delimitaciones del Estudio En Sonora existen 52 estaciones Agro meteorológicas, de las cuales este trabajo se enfocará en nueve estaciones correspondientes a la zona agrícola del Valle del Mayo (Figura 4). Cabe mencionar que si bien es necesario estandarizar y rellenar las series de tiempo de las nueve variables que se registran en las estaciones, este trabajo se centrará en las series de temperatura ambiente, que incluye: temperatura mínima, máxima y promedio; ya que son las variables con mayor demanda dentro de los modelos fitosanitarios. Figura 4: Estaciones agro meteorológicas en el Valle del Mayo 21
El Valle del Mayo El Valle del Mayo es la zona que comprende desde las sierras de Alamos hasta las costas de Huatabampo, este valle limita al norte con el Valle del Yaqui, al sur con el estado de Sinaloa y al oriente con el Mar de Cortez. El Valle del Mayo comprende los municipios de Huatabampo, Álamos, Etchojoa, Quiriego y Navojoa. Esta zona se caracteriza por su riqueza en suelos, además por sus mantos acuíferos localizados al sur de estado, por los cuales hacen ideal estas tierras para la agricultura, que por sus características meteorológicas y geográficas, lo hacen un lugar ideal para la siembra. El Valle del Mayo cuenta con una superficie de alrededor de 140 mil hectáreas, de las cuales su principal producción es de trigo. 22
Metodología aplicada El procedimientoo que se siguió para resolver la problemática planteada se resume en el esquema siguiente, el cual se explicara en la sección de resultados: Figura 5. Metodología aplicada Analizar base de datos Identificar patrón de datos faltantes Seleccionar método de imputación Depurar datos Estimar correlación entre variables Definir parámetros y modelos para datos faltantes Estimar valores faltantes Análisis de resultados 23
Resultados del caso Analizar base de datos. La base datos analizada incluye 80,109 registros correspondientes a 2967 días comprendidos entre enero del 2002 hasta junio de 2010. Se detectaron valores no factibles o improbables, además de múltiples datos faltantes. Después de eliminar los valores improbables se identificó un total de 19,335 datos faltantes, que equivalen al 24.13%. En la tabla 5 que aparece a continuación, se detallan los datos faltantes por estación. Tabla 5: Resumen de datos faltantes por estación Estación No.Datos No.Datos faltantes % de faltantes Observaciones Jupare 8901 2733 30.70% Inició operaciones el 1/1/2003 Buaysicobe 8901 2022 22.72% Tesia 8901 1047 11.76% Sahuaral 8901 2040 22.92% Mumuncuera 8901 2055 23.09% Tres Carlos 8901 2067 23.22% Cemay 8901 111 1.25% Inició operaciones el 1/25/2002 Chapote 8901 3930 44.15% Inició operaciones el 1/23/2005 Huatabampo 8901 3330 37.41% Inició operaciones el 5/15/2005 TOTAL 80109 19335 Identificar patrón de datos faltantes. Al analizar la matriz de datos faltantes, se puede identifica un patrón de datos perdidos completamente al azar, es decir del tipo MCAR. Por las dimensiones de la matriz (27x2967), no es posible reproducirla completamente para su visualización, pero en la figura 6 se muestra un segmento de la misma, y en la figura 7 se puede apreciar la ausencia de datos en las series de temperatura de manera muy agregada. 24
Figura 6. Patrón general de datos faltantes Figura 7. Patrón de series de datos de temperatura ambiente 25
Seleccionar método de imputación Para seleccionar el método de imputación se consideraron los siguientes aspectos: El tipo de variable a imputar es continua (temperatura máxima, mínima y promedio); El propósito de la imputación es contar con una base datos completa y consistente para que posteriormente estos datos puedan ser utilizados en modelos fitosanitarios con fines de pronóstico, que sirvan para prevenir o pronosticar problemas fitosanitarios en la zona con mayor certeza. La base de datos no será utilizada para análisis de covarianza o correlación. La naturaleza de la variable a imputar y el patrón de datos faltantes. La red AGROSON no cuenta con software especializado, por lo que es necesario realizar la imputación con los recursos disponibles. La opinión de expertos en meteorología. El método de imputación seleccionado es el de Regresión Lineal a partir de variables correlacionadas. El coeficiente de correlación mínimo aceptable se estableció en 0.9. Considerando que se requiere estimar los datos faltantes de 27 variables distintas (3 variables x 9 estaciones), se necesita definir una ecuación de regresión lineal para cada una de ellas. Depurar datos Para poder analizar la relación entre las variables de la base de datos, es necesario estandarizar los tamaños de muestra de todas las estaciones; con este propósito, se eliminaron todos los registros correspondientes a las fechas donde existían observaciones con datos incompletos y se organizó la base de datos en EXCEL. 26
Estimar correlación entre variables Para calcular la correlación entre las variables, se construyeron 3 matrices (una para cada tipo de variable faltante) a partir de la información obtenida aplicando la herramienta análisis de datos de EXCEL. Las matrices de correlación aparecen en las tablas 6, 7 y 8. Tabla 6: Coeficiente de Correlación para la variable Temperatura máxima. T.Max Jupare Buayisacobe Tesia Huatabampo Sahuaral Mumuncuera Tres Carlos Cemay Chapote Jupare 0.9707 0.9567 0.9851 0.9832 0.9658 0.9746 0.9514 0.9617 Buayisacoba 0.9717 0.9817 0.9812 0.9739 0.9797 0.9694 0.9805 Tesia 0.9735 0.9761 0.9738 0.9775 0.9690 0.9701 Huatabampo 0.9859 0.9876 0.9877 0.9671 0.9727 Sahuaral 0.9763 0.9822 0.9664 0.9733 Mumuncuera 0.9832 0.9660 0.9666 Tres Carlos 0.9682 0.9731 Cemay 0.9624 Chapote Tabla 7. Coeficiente de Correlación para la variable Temperatura mínima. T.Min Jupare Buayisacobe Tesia Huatabampo Sahuaral Mumuncuera Tres Carlos Cemay Chapote Jupare 0.9886 0.9795 0.9922 0.9929 0.9878 0.9907 0.9840 0.9907 Buayisacoba 0.9848 0.9881 0.9885 0.9804 0.9865 0.9848 0.9907 Tesia 0.9801 0.9802 0.9783 0.9821 0.9843 0.9872 Huatabampo 0.9915 0.9866 0.9918 0.9845 0.9907 Sahuaral 0.9908 0.9933 0.9861 0.9935 Mumuncuera 0.9941 0.9855 0.9888 Tres Carlos 0.9880 0.9926 Cemay 0.9895 Chapote Tabla 8. Coeficiente de Correlación para la variable Temperatura promedio. T.Prom Jupare Buayisacobe Tesia Huatabampo Sahuaral Mumuncuera Tres Carlos Cemay Chapote Jupare 0.9935 0.9882 0.9965 0.9958 0.9908 0.9942 0.9830 0.9910 Buayisacoba 0.9917 0.9944 0.9933 0.9913 0.9938 0.9860 0.9942 Tesia 0.9920 0.9921 0.9923 0.9934 0.9881 0.9931 Huatabampo 0.9973 0.9965 0.9977 0.9871 0.9943 Sahuaral 0.9951 0.9963 0.9868 0.9946 Mumuncuera 0.9969 0.9877 0.9931 Tres Carlos 0.9881 0.9946 Cemay 0.9874 Chapote 27
Definir parámetros y modelos para datos faltantes Se ajustó un modelo de Regresión Lineal para cada variable faltante, tomando como variables predictoras las que tenían un coeficiente de correlación mayor y datos disponibles en las fechas requeridas. Por ejemplo, si consideramos la estación Tres Carlos y requerimos imputar la variable Temperatura máxima, para las fechas comprendidas del 30 de enero de al 21 de febrero de 2002 se utilizarían los datos de la estación Huatabampo ya que tiene el mayor coeficiente de correlación: 0.987737311 (ver figura 6), pero en este caso la estación Huatabampo no tiene datos disponibles en la fecha requerida; la única estación con datos en esas fechas es Tesia con un coeficiente de correlación de 0.9777. El análisis de datos de EXCEL, también proporciona los parámetros de la ecuación de regresión lineal, los cuales se organizaron en 27 matrices (una para cada variable faltante) que aparecen en el anexo 2. En la tabla 9 se muestra la matriz correspondiente a la variable Temperatura máxima de la estación Tres Carlos: Tabla 9: Matriz de Coeficientes de Correlación, Pendiente e Intersección Tres Carlos Estación Coef. Correlación Pendiente Intersección Huatabampo 0.987737311 1.026521005-0.412547279 Mumuncuera 0.983221225 0.996119398 0.209765894 Sahuaral 0.982241584 0.989327546-0.271157996 Buayisacobe 0.979669398 0.939473246-0.210107464 Tesia 0.977485269 1.008415564-1.218797738 Jupare 0.97460431-0.210107464-0.210107464 Chapote 0.973061957 0.932072241 1.540377708 Cemay 0.968238191 0.903293815 2.344118732 28
por lo tanto la ecuación de regresión a utilizar para estimar las temperaturas máximas es: = -1.218 + 1.008 x i Estimar valores faltantes Para calcular los valores faltantes, se aplica la ecuación anterior y se obtienen los valores que aparecen en la tabla 12. Tabla 10: Valores faltantes (yi) Tabla 11: Valores a utilizar (xi) TRES CARLOS Fecha T.Prom T.Max T.Min 30/01/2002 31/01/2002 01/02/2002 02/02/2002 03/02/2002 04/02/2002 05/02/2002 06/02/2002 07/02/2002 08/02/2002 09/02/2002 10/02/2002 11/02/2002 12/02/2002 13/02/2002 14/02/2002 15/02/2002 16/02/2002 17/02/2002 18/02/2002 19/02/2002 20/02/2002 21/02/2002 TESIA Fecha T.Prom T.Max T.Min 30/01/2002 14.08 19.29 5.545 31/01/2002 13.53 20.81 4.655 01/02/2002 11.52 19.95 2.68 02/02/2002 16.29 25.96 9.76 03/02/2002 17.77 24.16 12.15 04/02/2002 16.17 18.28 14.03 05/02/2002 15.62 21.27 9.46 06/02/2002 15.41 25.01 7.88 07/02/2002 16.42 26.13 8.21 08/02/2002 17.28 29.19 8.28 09/02/2002 15.98 27.97 5.22 10/02/2002 16.11 26.85 4.001 11/02/2002 17.93 27.68 8.11 12/02/2002 16.28 26.59 6.832 13/02/2002 16.45 27.18 6.436 14/02/2002 17.6 28.04 8.08 15/02/2002 19.81 30.63 12.29 16/02/2002 20.06 29.95 11.86 17/02/2002 17.55 26.93 11.53 18/02/2002 15.49 23.11 7.39 19/02/2002 13.98 25.83 3.076 20/02/2002 15.55 27.81 4.166 21/02/2002 18.25 31.71 3.935 29
Tabla 12. Valores estimados Ecuación para T.Máxima Ecuación para T.Mínima Ecuación para T.promedio y=a+bx Fecha T.Max y=a+bx T.Min y=a+bx T.Prom a= -1.2188 30/01/2002 18.23354 a= 1.079526 6.575243 a= -0.84998 12.84686 b= 1.008416 31/01/2002 19.76633 b= 0.991112 5.693153 b= 0.972787 12.31182 01/02/2002 18.89909 3.735707 10.35652 02/02/2002 24.95967 10.75278 14.99672 03/02/2002 23.14452 13.12154 16.43644 04/02/2002 17.21504 14.98483 14.87998 05/02/2002 20.2302 10.45545 14.34495 06/02/2002 24.00168 8.88949 14.14066 07/02/2002 25.1311 9.216557 15.12318 08/02/2002 28.21685 9.285935 15.95977 09/02/2002 26.98659 6.253132 14.69515 10/02/2002 25.85716 5.044966 14.82161 11/02/2002 26.69415 9.117446 16.59209 12/02/2002 25.59497 7.850805 14.98699 13/02/2002 26.18994 7.458324 15.15236 14/02/2002 27.05717 9.087713 16.27107 15/02/2002 29.66897 13.26029 18.42093 16/02/2002 28.98325 12.83412 18.66412 17/02/2002 25.93783 12.50705 16.22243 18/02/2002 22.08569 8.403845 14.21849 19/02/2002 24.82858 4.128187 12.74958 20/02/2002 26.82524 5.208499 14.27685 21/02/2002 30.75806 4.979553 16.90338 El procedimiento descrito para el ejemplo es el que se siguió para estimar todas las variables faltantes. 30
Análisis de resultados Como resultado de la imputación por regresión lineal, se pudieron estimar todos los datos faltantes. Todos los valores imputados se consideran factibles ya que se encuentran dentro del rango esperado. No se detectan sesgos con respecto al comportamiento de los datos. 35 Figura 8: Valores Imputados 30 25 20 15 10 5 T.Max T.Min T.Prom Lineal (T.Prom) 0 31