2 ANÁLISIS EXPLORATORIO DE DATOS El objetivo de esta tarea es la descripción estadística de los parámetros. Para ello se hace necesario reducir la dimensión del espacio de los datos originales, sintetizando estos últimos mediante un conjunto de índices que representen adecuadamente al conjunto de datos primitivos. Para ello se utilizan estadísticos descriptivos, pruebas de normalidad y de comparación, asociación y modelización de los parámetros. Se utiliza como herramienta estadística la aplicación SPSS 11.0 para Windows. El estudio descriptivo se ha realizado de dos maneras distintas: El análisis se realiza con todos los datos disponibles de las mediciones anuales, independientemente del número de éstas que se realizaran por año Para el análisis se lleva a cabo una reducción de los datos disponibles con el fin de disponer del mismo número de datos por año. En tal caso, los años 1988 y 1989, para los que se disponía de cuatro mediciones en cada uno de ellos, se han reducido a una sola obtenida como mediana de los cuatro valores disponibles. Sólo ha sido necesario realizarlo para el Zinc y el Arsénico. Es necesario señalar que las cuatro medidas disponibles estaban realizadas en distintas estaciones. Dicha decisión se ha tomado para evitar el efecto de sobre valoración que supondrían dichos años (88 y 89) con respecto a los demás. 2.1 METODOLOGÍA ESTADÍSTICA PARA EL ANÁLISIS EXPLORATORIO DE DATOS La base de datos de la zona mediterránea consta de 1780 puntos de muestreo correspondientes a las 148 estaciones existentes (que aparecen en la tabla A1.1 del Anexo 1), durante el periodo de años 1988 a 2001, en las que se tomaron diferentes medidas de determinados parámetros. El objetivo de este apartado del estudio es describir la muestra obtenida. La metodología estadística seguida consta de dos etapas. En primer lugar se realiza una exploración estadística de los datos y posteriormente se lleva a cabo el análisis descriptivo. A continuación se detalla cada una de estas etapas, pero antes se verán algunos conceptos estadísticos necesarios para comprender el proceso. 11
2.1.1 ESTADÍSTICOS Y CONCEPTOS UTILIZADOS En este apartado se definen los principales estadísticos que se utilizan en el análisis de los datos y algunos términos y conceptos estadísticos fundamentales. Variable cuantitativa o numérica: Característica en estudio medible numéricamente. Variable cualitativa o categórica: Atributo en estudio cuyo resultado no se puede expresar mediante números. Cada una de las categorías o de los resultados posibles de un atributo es una modalidad. Casos válidos para una variable: Observaciones o puntos de muestreo que tienen valores conocidos de esa característica. Casos perdidos para una variable: Observaciones o puntos de muestreo con valores desconocidos para la variable. Distribución de una variable categórica: Tabla de frecuencias y porcentajes para las modalidades observadas. Distribución de una variable numérica: Conjunto de los valores de la característica observada y sus probabilidades. Una distribución tiene tres propiedades: tendencia central, dispersión y forma, y los estadísticos descriptivos son las medidas que las resumen. Distribución normal: Distribución de una variable continua, simétrica en su media y con forma de campana, en la que moda, media y mediana coinciden. Valores extremos: Datos muestrales que se diferencian claramente de los demás en una distribución (extremadamente altos o bajos). Recorrido de una variable: Diferencia entre el valor máximo y mínimo de su distribución. Percentil i de una variable: Valor numérico por debajo del cuál se encuentra el i% de las observaciones y por encima del mismo, el (100-i)%. Hay 99 percentiles, valores pertenecientes o no a la muestra que la dividen en 100 partes iguales y 3 cuartiles, que la dividen en 4 partes iguales. El primer cuartil es el percentil 25, el segundo cuartil es el percentil 50 (la mediana) y el tercer cuartil, el percentil 75. Estas medidas se denominan de posición y están basadas en la muestra de los valores de la variable ordenada de menor a mayor y dividida en i partes. Media aritmética: Suma de las observaciones de una variable en la muestra dividida por el número de observaciones de la misma. 12
Intervalo de confianza para la media al 95%: Rango de valores basado en la media de muestreo que incluye a la media poblacional con probabilidad 0,95. Mediana: Valor por debajo y por encima del cuál se encuentran la mitad (el 50%) de los valores observados de una variable. La mediana es una medida de tendencia central que no es sensible a los valores extremos, a diferencia de la media que puede resultar afectada por valores muy grandes o muy pequeños. Este estadístico se basa en los datos ordenados de menor a mayor de manera que, si el número de observaciones es par, la mediana es el promedio de las dos observaciones centrales. Desviación típica: Medida de la dispersión de los valores de una variable con respecto a su media. Rango intercuartílico (RI): Medida de dispersión alternativa a la desviación típica, del mismo modo que la mediana lo es a la media como medida de tendencia central. Se define como la diferencia entre el tercer y el primer cuartil de la muestra de valores de una variable y representa el rango de unidades de la misma en el que se encuentra el 50% de los datos. Coeficiente de asimetría: Medida de la forma de la distribución de los valores de una variable respecto a su media. Su valor es cero si la distribución es simétrica como la normal, es positivo cuando las desviaciones a la media son mayores para los valores superiores a la media que para los inferiores (distribución asimétrica a la derecha) y es negativo si ocurre al revés (asimétrica a la izquierda). 2.1.2 EXPLORACIÓN ESTADÍSTICA DE LOS DATOS Se realiza en primer lugar la exploración estadística de los datos para generar estadísticos de resumen y representaciones gráficas, para todos los casos y de forma separada para grupos de casos (según las variables estación y años). Las razones para utilizar este procedimiento son: identificar valores atípicos, obtener descripciones, comprobar supuestos y caracterizar diferencias entre subpoblaciones (grupos de casos). La inspección de los datos puede mostrar que existen valores inusuales o extremos, discontinuidades en los datos u otras peculiaridades, además de ayudar a determinar si son adecuadas las técnicas estadísticas que se van a considerar en el análisis posterior. Dicha exploración también puede indicar la necesidad de transformar los datos cuando la técnica se basa en una distribución normal, o bien, puede ayudar a decidir el uso de pruebas no paramétricas. 13
2.1.3 ANÁLISIS DESCRIPTIVO Una vez realizada la exploración estadística se procede al análisis descriptivo mediante la síntesis de las medidas tomadas en la muestra y recogidas en las distintas variables. Las variables cuantitativas o numéricas se expresan como media ± desviación típica o mediana ± rango intercuartílico, según la simetría o asimetría de la distribución de sus valores con respecto a su media. Las variables cualitativas o categóricas se resumen a través de tablas de frecuencias y porcentajes. Todas estas medidas, que no son más que estadísticos que resumen los dos tipos de variables, se determinan tanto en la muestra global como para grupos de casos definidos por otra variable. Este análisis se complementa con distintas representaciones gráficas según el tipo de información: histogramas para las variables numéricas y diagramas de barras o sectores para las categóricas. 2.1.4 NIVELES DE CALIDAD El principal objetivo de este Proyecto Fin de Carrera es determinar los niveles de calidad de las aguas y sedimentos acuáticos de Andalucía. A tal fin, es evidente que se necesita establecer a partir de qué valores se considerará que las aguas están contaminadas. Es de destacar la dificultad que presenta fijar estos valores, ya que tanto la composición de las aguas como la de los sedimentos están muy influenciadas por las características del medio geológico en el que se encuentran, o por el que discurren, en el caso de las aguas, y puede ocurrir que la composición natural de un agua o un sedimento presente concentraciones notablemente elevadas de metales o de sales (sulfatos, cloruros, carbonatos, etc.) cuya procedencia natural conviene conocer para diferenciarla de una posible contaminación posterior. Se han realizado múltiples intentos para fijar los denominados niveles naturales o de fondo de las aguas y sedimentos, si bien en la mayoría de los casos estos niveles se han establecido como rango de valores, que en múltiples ocasiones, son bastante amplios, especialmente para los sedimentos. 14
También en el caso de las aguas, en las legislaciones Europea, Española y Andaluza, se han fijado, para determinados parámetros, los denominados objetivos de calidad, no obstante, en la práctica totalidad de los casos, estos objetivos se han establecido para aguas afectadas directamente por vertidos. Otra forma de abordar el problema, en el caso de las aguas, consiste en determinar su calidad en base a un uso específico. En particular se dispone de normativa para los siguientes usos: consumo humano, producción de agua potable, vida piscícola y baños. Como principal limitación se puede señalar que es frecuente que un agua, que resulte contaminada para un determinado uso, pueda ser perfectamente válida para otros y también que usos tan importantes como el riego y la industria no tienen definida una normativa. En este contexto se debe comentar que, en diversos estudios, tanto de aguas como de sedimentos no se fija un solo valor para distinguir entre muestras contaminadas y no contaminadas, sino que se establecen rangos de valores que permiten clasificar las muestras según distintos niveles de calidad o de contaminación. En base a todo lo anterior y a la experiencia de más de diez años de los técnicos de la Sección de Medio Ambiente, realizando los Planes de Policía de Aguas del Litoral Andaluz, se han establecido, los criterios para la clasificación de la calidad de las muestras de aguas y de sedimentos. 2.1.4.1 Calidad de las aguas A la hora de establecer los niveles de calidad de las aguas, se han diferenciado entre aguas de mar y de río. De acuerdo con las características de las zonas muestreadas el criterio seguido para establecer hasta donde llega la influencia marina en los ríos, ha sido considerar que la zona estuárica se extiende hasta aquellas muestras con una conductividad superior a 3000 µs/cm, a 25 C. Es de destacar, como excepción, que en zonas sin influencia marina de los ríos Tinto y Odiel, se han encontrado muestras con conductividades claramente superiores a los citados 3000 µs/cm, sin duda como consecuencia de sus bajos ph (elevada acidez) y sus altos contenidos en sales disueltas procedentes del terreno pirítico por el que discurren estos ríos; en estos casos se han considerado como aguas de río. 15
Se han fijado cinco niveles de calidad en las aguas al igual que lo indicado en la propuesta modificada de Directiva del Consejo por el que se establece un marco comunitario de actuación en el ámbito de la política de aguas (Diario Oficial de las Comunidades Europeas 108 de 7-4-1998) para la presentación de los resultados de los controles y clasificación armonizada de la calidad ecológica. NIVEL CALIDAD 1 Muy buena 2 Buena 3 Suficiente 4 Insuficiente 5 Mala 2.1.4.2 Calidad de los sedimentos Dado el amplio rango de niveles normales de concentraciones de metales en los sedimentos encontrado en distintas publicaciones, se han fijado solo cuatro niveles de calidad, intentando mantener la máxima concordancia con los baremos encontrados en distintas publicaciones. NIVEL CALIDAD 1 Muy buena - buena 2 Suficiente 3 Insuficiente 4 Mala 16