2 ANÁLISIS EXPLORATORIO DE DATOS

Documentos relacionados
MEDIDAS DE POSICIÓN CUANTILES CUARTILES DECILES CARLOS DARIO RESTREPO

Estadística Descriptiva 2da parte

ESTADÍSTICA Camerina Laura Ramírez Gallegos

Técnicas Cuantitativas para el Management y los Negocios

Tablas de contingencia Las tablas de frecuencia pueden organizar datos de sólo una variable a la vez.

ESTADÍSTICA APLICADA A LA EDUCACIÓN (Tema 5) Asignatura de Formación Básica (FB) de 1º curso, común a los Grado en Educación Social y en Pedagogía

Tema 3: Estadística Descriptiva

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

ESTADÍSTICA APLICADA A LA EDUCACIÓN (Tema 5) Asignatura de Formación Básica (FB) de 1º curso, común a los Grado en Educación Social y en Pedagogía

Estadística I Tema 2: Análisis de datos univariantes

ÁREAS DE LA ESTADÍSTICA

Estadística Descriptiva

Estadística Descriptiva en R: Parámetros y estadísticos. José Enrique Martín García Universidad Politécnica de Gimialcón (Copyright 2016)

Recopilación: Camerina Laura Ramírez G. ESTADÍSTICA. Recopilación: Camerina Laura Ramírez G.

Análisis de datos y gestión n veterinaria. Tema 1 Estadística descriptiva. Prof. Dr. José Manuel Perea Muñoz

Medidas Descriptivas Numéricas

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2011

Conceptos de Estadística

Fase 2. Estudio de mercado: ESTADÍSTICA

MÓDULO III. MEDIDAS DE TENDENCIA CENTRAL, DISPERSIÓN Y ASIMETRÍA

Tema 2: Estadísticos. Bioestadística. U. Málaga. Tema 2: Estadísticos 1

Y accedemos al cuadro de diálogo Descriptivos

ESTADÍSTICA I. Dr. Favio Murillo García

DESCRIPCIÓN DE DATOS. Medidas Numéricas

Parámetros Estadísticos básicos, Resumen y Presentación de datos. Jhon Jairo Padilla, PhD.

Part I. Descripción estadística de una variable. Estadística I. Mario Francisco. Conceptos generales. Distribuciones de frecuencias.

Histograma. Diagrama de frecuencia. Diagrama de barras 1, 3. Polígono de frecuencias acumuladas. Diagrama de sectores 1, 3

Estadística I Tema 2: Análisis de datos univariantes Descripción numérica de datos

Estadística Inferencial. Estadística Descriptiva

Estadística ESTADÍSTICA

CLASIFICACIÓN DE LA ESTADÍSTICA

Módulo de Estadística

Estadísticos Descriptivos

INTRODUCCIÓN. Fenómeno Real. Aprendizaje sobre el fenómeno. Análisis Estadístico. Datos Observados

PREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

ESTADÍSTICA BASICA EN CONTROL DE CALIDAD

Estadística para investigadores: todo lo que siempre quiso saber y nunca se atrevió a preguntar

Los estadísticos descriptivos clásicos (Robustez)

Capítulo 1 Probabilidades y Estadística

Estadística Aplicada a la Educación

Estadística Descriptiva

Estadística Descriptiva en SPSS

Tema 9: Estadística descriptiva

ESTADÍSTICA DESCRIPTIVA

ÍNDICE CAPÍTULO 1. INTRODUCCIÓN

MEDIDAS DE DISPERSIÓN Y ASIMETRÍA DE UNA DISTRIBUCIÓN DE FRECUENCIAS

Julio Deride Silva. 18 de agosto de 2010

Medidas de dispersión. Rango o recorrido. Desviación media. Medidas de dispersión

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

Estadística Aplicada

Una vez que tenga la información de la muestra ordenada, se pueden emitir conclusiones finales.

ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA

Curso de Estadística Aplicada a las Ciencias Sociales

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2012

ESTADÍSTICA DESCRIPTIVA EN POCAS PALABRAS (por jmd matetam.com)

Medidas de Tendencia Central.

Tema 1: Análisis de datos univariantes

MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. Lic. Esperanza García Cribilleros

TEMA 8: ESTADÍSTICA. 8.1 Elementos de la Estadística. 8.2 Parámetros estadísticos. 8.3 Parámetros de posición para datos aislados.

COLEGIO CALASANCIO. MADRID. ESTADÍSTICA UNIDIMENSIONAL. 4º E.S.O.

EJERCICIOS TEMA 1. Clasifica los siguientes caracteres estadísticos según sean cualitativos, variables discretas o variables continuas:

INFORME ESTADÍSTICO ESTADÍSTICA DESCRIPTIVA. Enrique O. Íñiguez Castro Primero de Enfermería Grupo 4 - Subgrupo 16.

TEMA 5 Estadística descriptiva. Análisis de datos

Estadística. Análisis de datos.

ESTADÍSTICA. Rincón del Maestro:

Instrumentos y matriz de datos

x i = n = 35 5 =7 MEDIDAS DE CENTRALIZACIÓN Media aritmética: variables cuantitativas , x 2 Datos no agrupados: x 1 ,...,x n x= x 1 +x

CLASE 2 INTRODUCCION A LA ESTADISTICA

2.2: Resumen numérico

UNIVERSIDAD AUTÓNOMA DEL PERÚ DEPARTAMENTO DE FORMACIÓN GENERAL

OARI CLASE 19/05/2015. DESCRIPCIÓN CUANTITATIVA DE LOS DATOS. MEDIDAS RESUMEN

TEMA 14: ESTADÍSTICA 1. CONCEPTOS ESTADÍSTICOS

ESTADÍSTICA. 1. Introducción. 2. Frecuencias

Información de contacto. Tema 1 Análisis exploratorio de datos. Ejemplo de introducción: contaminación por mercurio en el pescado.

Estadística aplicada al Periodismo

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

Sumario Prólogo Unidad didáctica 1. Introducción a la estadística. Conceptos preliminares Objetivos de la Unidad...

Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va

Diagnóstico. Dirección de Cómputo para la Docencia. UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO Dirección General de Servicios de Cómputo Académico

Fundamentos de Estadística y Simulación Básica

ESTADÍSTICA DESCRIPTIVA

Estadística Descriptiva I

Estadística Básica 1er Cuatrimestre 2012

Tema 1 Estadística descriptiva: Medidas de posición

GUIA DOCENTE ESTADISTICA

Transcripción:

2 ANÁLISIS EXPLORATORIO DE DATOS El objetivo de esta tarea es la descripción estadística de los parámetros. Para ello se hace necesario reducir la dimensión del espacio de los datos originales, sintetizando estos últimos mediante un conjunto de índices que representen adecuadamente al conjunto de datos primitivos. Para ello se utilizan estadísticos descriptivos, pruebas de normalidad y de comparación, asociación y modelización de los parámetros. Se utiliza como herramienta estadística la aplicación SPSS 11.0 para Windows. El estudio descriptivo se ha realizado de dos maneras distintas: El análisis se realiza con todos los datos disponibles de las mediciones anuales, independientemente del número de éstas que se realizaran por año Para el análisis se lleva a cabo una reducción de los datos disponibles con el fin de disponer del mismo número de datos por año. En tal caso, los años 1988 y 1989, para los que se disponía de cuatro mediciones en cada uno de ellos, se han reducido a una sola obtenida como mediana de los cuatro valores disponibles. Sólo ha sido necesario realizarlo para el Zinc y el Arsénico. Es necesario señalar que las cuatro medidas disponibles estaban realizadas en distintas estaciones. Dicha decisión se ha tomado para evitar el efecto de sobre valoración que supondrían dichos años (88 y 89) con respecto a los demás. 2.1 METODOLOGÍA ESTADÍSTICA PARA EL ANÁLISIS EXPLORATORIO DE DATOS La base de datos de la zona mediterránea consta de 1780 puntos de muestreo correspondientes a las 148 estaciones existentes (que aparecen en la tabla A1.1 del Anexo 1), durante el periodo de años 1988 a 2001, en las que se tomaron diferentes medidas de determinados parámetros. El objetivo de este apartado del estudio es describir la muestra obtenida. La metodología estadística seguida consta de dos etapas. En primer lugar se realiza una exploración estadística de los datos y posteriormente se lleva a cabo el análisis descriptivo. A continuación se detalla cada una de estas etapas, pero antes se verán algunos conceptos estadísticos necesarios para comprender el proceso. 11

2.1.1 ESTADÍSTICOS Y CONCEPTOS UTILIZADOS En este apartado se definen los principales estadísticos que se utilizan en el análisis de los datos y algunos términos y conceptos estadísticos fundamentales. Variable cuantitativa o numérica: Característica en estudio medible numéricamente. Variable cualitativa o categórica: Atributo en estudio cuyo resultado no se puede expresar mediante números. Cada una de las categorías o de los resultados posibles de un atributo es una modalidad. Casos válidos para una variable: Observaciones o puntos de muestreo que tienen valores conocidos de esa característica. Casos perdidos para una variable: Observaciones o puntos de muestreo con valores desconocidos para la variable. Distribución de una variable categórica: Tabla de frecuencias y porcentajes para las modalidades observadas. Distribución de una variable numérica: Conjunto de los valores de la característica observada y sus probabilidades. Una distribución tiene tres propiedades: tendencia central, dispersión y forma, y los estadísticos descriptivos son las medidas que las resumen. Distribución normal: Distribución de una variable continua, simétrica en su media y con forma de campana, en la que moda, media y mediana coinciden. Valores extremos: Datos muestrales que se diferencian claramente de los demás en una distribución (extremadamente altos o bajos). Recorrido de una variable: Diferencia entre el valor máximo y mínimo de su distribución. Percentil i de una variable: Valor numérico por debajo del cuál se encuentra el i% de las observaciones y por encima del mismo, el (100-i)%. Hay 99 percentiles, valores pertenecientes o no a la muestra que la dividen en 100 partes iguales y 3 cuartiles, que la dividen en 4 partes iguales. El primer cuartil es el percentil 25, el segundo cuartil es el percentil 50 (la mediana) y el tercer cuartil, el percentil 75. Estas medidas se denominan de posición y están basadas en la muestra de los valores de la variable ordenada de menor a mayor y dividida en i partes. Media aritmética: Suma de las observaciones de una variable en la muestra dividida por el número de observaciones de la misma. 12

Intervalo de confianza para la media al 95%: Rango de valores basado en la media de muestreo que incluye a la media poblacional con probabilidad 0,95. Mediana: Valor por debajo y por encima del cuál se encuentran la mitad (el 50%) de los valores observados de una variable. La mediana es una medida de tendencia central que no es sensible a los valores extremos, a diferencia de la media que puede resultar afectada por valores muy grandes o muy pequeños. Este estadístico se basa en los datos ordenados de menor a mayor de manera que, si el número de observaciones es par, la mediana es el promedio de las dos observaciones centrales. Desviación típica: Medida de la dispersión de los valores de una variable con respecto a su media. Rango intercuartílico (RI): Medida de dispersión alternativa a la desviación típica, del mismo modo que la mediana lo es a la media como medida de tendencia central. Se define como la diferencia entre el tercer y el primer cuartil de la muestra de valores de una variable y representa el rango de unidades de la misma en el que se encuentra el 50% de los datos. Coeficiente de asimetría: Medida de la forma de la distribución de los valores de una variable respecto a su media. Su valor es cero si la distribución es simétrica como la normal, es positivo cuando las desviaciones a la media son mayores para los valores superiores a la media que para los inferiores (distribución asimétrica a la derecha) y es negativo si ocurre al revés (asimétrica a la izquierda). 2.1.2 EXPLORACIÓN ESTADÍSTICA DE LOS DATOS Se realiza en primer lugar la exploración estadística de los datos para generar estadísticos de resumen y representaciones gráficas, para todos los casos y de forma separada para grupos de casos (según las variables estación y años). Las razones para utilizar este procedimiento son: identificar valores atípicos, obtener descripciones, comprobar supuestos y caracterizar diferencias entre subpoblaciones (grupos de casos). La inspección de los datos puede mostrar que existen valores inusuales o extremos, discontinuidades en los datos u otras peculiaridades, además de ayudar a determinar si son adecuadas las técnicas estadísticas que se van a considerar en el análisis posterior. Dicha exploración también puede indicar la necesidad de transformar los datos cuando la técnica se basa en una distribución normal, o bien, puede ayudar a decidir el uso de pruebas no paramétricas. 13

2.1.3 ANÁLISIS DESCRIPTIVO Una vez realizada la exploración estadística se procede al análisis descriptivo mediante la síntesis de las medidas tomadas en la muestra y recogidas en las distintas variables. Las variables cuantitativas o numéricas se expresan como media ± desviación típica o mediana ± rango intercuartílico, según la simetría o asimetría de la distribución de sus valores con respecto a su media. Las variables cualitativas o categóricas se resumen a través de tablas de frecuencias y porcentajes. Todas estas medidas, que no son más que estadísticos que resumen los dos tipos de variables, se determinan tanto en la muestra global como para grupos de casos definidos por otra variable. Este análisis se complementa con distintas representaciones gráficas según el tipo de información: histogramas para las variables numéricas y diagramas de barras o sectores para las categóricas. 2.1.4 NIVELES DE CALIDAD El principal objetivo de este Proyecto Fin de Carrera es determinar los niveles de calidad de las aguas y sedimentos acuáticos de Andalucía. A tal fin, es evidente que se necesita establecer a partir de qué valores se considerará que las aguas están contaminadas. Es de destacar la dificultad que presenta fijar estos valores, ya que tanto la composición de las aguas como la de los sedimentos están muy influenciadas por las características del medio geológico en el que se encuentran, o por el que discurren, en el caso de las aguas, y puede ocurrir que la composición natural de un agua o un sedimento presente concentraciones notablemente elevadas de metales o de sales (sulfatos, cloruros, carbonatos, etc.) cuya procedencia natural conviene conocer para diferenciarla de una posible contaminación posterior. Se han realizado múltiples intentos para fijar los denominados niveles naturales o de fondo de las aguas y sedimentos, si bien en la mayoría de los casos estos niveles se han establecido como rango de valores, que en múltiples ocasiones, son bastante amplios, especialmente para los sedimentos. 14

También en el caso de las aguas, en las legislaciones Europea, Española y Andaluza, se han fijado, para determinados parámetros, los denominados objetivos de calidad, no obstante, en la práctica totalidad de los casos, estos objetivos se han establecido para aguas afectadas directamente por vertidos. Otra forma de abordar el problema, en el caso de las aguas, consiste en determinar su calidad en base a un uso específico. En particular se dispone de normativa para los siguientes usos: consumo humano, producción de agua potable, vida piscícola y baños. Como principal limitación se puede señalar que es frecuente que un agua, que resulte contaminada para un determinado uso, pueda ser perfectamente válida para otros y también que usos tan importantes como el riego y la industria no tienen definida una normativa. En este contexto se debe comentar que, en diversos estudios, tanto de aguas como de sedimentos no se fija un solo valor para distinguir entre muestras contaminadas y no contaminadas, sino que se establecen rangos de valores que permiten clasificar las muestras según distintos niveles de calidad o de contaminación. En base a todo lo anterior y a la experiencia de más de diez años de los técnicos de la Sección de Medio Ambiente, realizando los Planes de Policía de Aguas del Litoral Andaluz, se han establecido, los criterios para la clasificación de la calidad de las muestras de aguas y de sedimentos. 2.1.4.1 Calidad de las aguas A la hora de establecer los niveles de calidad de las aguas, se han diferenciado entre aguas de mar y de río. De acuerdo con las características de las zonas muestreadas el criterio seguido para establecer hasta donde llega la influencia marina en los ríos, ha sido considerar que la zona estuárica se extiende hasta aquellas muestras con una conductividad superior a 3000 µs/cm, a 25 C. Es de destacar, como excepción, que en zonas sin influencia marina de los ríos Tinto y Odiel, se han encontrado muestras con conductividades claramente superiores a los citados 3000 µs/cm, sin duda como consecuencia de sus bajos ph (elevada acidez) y sus altos contenidos en sales disueltas procedentes del terreno pirítico por el que discurren estos ríos; en estos casos se han considerado como aguas de río. 15

Se han fijado cinco niveles de calidad en las aguas al igual que lo indicado en la propuesta modificada de Directiva del Consejo por el que se establece un marco comunitario de actuación en el ámbito de la política de aguas (Diario Oficial de las Comunidades Europeas 108 de 7-4-1998) para la presentación de los resultados de los controles y clasificación armonizada de la calidad ecológica. NIVEL CALIDAD 1 Muy buena 2 Buena 3 Suficiente 4 Insuficiente 5 Mala 2.1.4.2 Calidad de los sedimentos Dado el amplio rango de niveles normales de concentraciones de metales en los sedimentos encontrado en distintas publicaciones, se han fijado solo cuatro niveles de calidad, intentando mantener la máxima concordancia con los baremos encontrados en distintas publicaciones. NIVEL CALIDAD 1 Muy buena - buena 2 Suficiente 3 Insuficiente 4 Mala 16