GEOESTADÍSTICA APLICADA

Documentos relacionados
GEOESTADÍSTICA APLICADA

Sumario Prólogo Unidad didáctica 1. Introducción a la estadística. Conceptos preliminares Objetivos de la Unidad...

ANÁLISIS DE REGRESIÓN

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

TEMA 14 ESTADÍSTICA. Cuantitativa: si puede medirse y expresarse con números (es una variable), por ejemplo la talla de calzado.

Tema 1: Estadística descriptiva. Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1

Definición de Correlación

ÍNDICE CAPÍTULO 1. INTRODUCCIÓN

PREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2

Curso de nivelación Estadística y Matemática

Información de contacto. Tema 1 Análisis exploratorio de datos. Ejemplo de introducción: contaminación por mercurio en el pescado.

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

Introducción a la Estadística Aplicada en la Química

Tema 6. Variables aleatorias continuas

Tema 4. Regresión lineal simple

Estadística Clase 2. Maestría en Finanzas Universidad del CEMA. Profesor: Alberto Landro Asistente: Julián R. Siri

Práctica 3: Regresión simple con R

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

INDICE Prefacio 1. Introducción 2. Distribuciones de frecuencia: tablas estadísticas y graficas

peso edad grasas Regresión lineal simple Los datos

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

Experimento de lanzar 3 monedas al aire. Denominando por (C) a Cara y (X) a Cruz, el espacio muestral será: Ω={CCC,CCX,CXC,XCC,CXX,XCX,XXC,XXX}

viii CAPÍTULO 2 Métodos de muestreo CAPÍTULO 3 Análisis exploratorio de datos

ANALISIS ESTADISTICO MINISTERIO DE ECONOMIA Y FINANZAS

Bachillerato Internacional. Matemáticas Nivel Medio. Programa para el curso 1º ( )

SELECCIÓN Y SECUENCIACIÓN DE CONTENIDOS PARA MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I. BLOQUE 1 : ARITMÉTICA Y ÁLGEBRA

PROGRAMA DE ESTADÍSTICA DESCRIPTIVA

ANÁLISIS DE FRECUENCIAS

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

Agenda 1 Variable aleatoria Continua Valor esperado de una variable aleatoria continua. Varianza. 2

Estadística Descriptiva y Probabilidad FORMULARIO

ANALISIS DE REGRESIÓN Y CORRELACIÓN LINEAL

478 Índice alfabético

Diplomado en Estadística Aplicada

Método de cuadrados mínimos

Contenidos IB-Test Matemática NM 2014.

ANALISIS DE FRECUENCIA EN HIDROLOGIA

INDICE 1. Introducción 2. Recopilación de Datos Caso de estudia A 3. Descripción y Resumen de Datos 4. Presentación de Datos

ÁREAS DE LA ESTADÍSTICA

ANALISIS DE FRECUENCIA EN HIDROLOGIA JULIAN DAVID ROJO HERNANDEZ

1º BACHILLERATO HUMANIDADES Y CIENCIAS SOCIALES MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I PENDIENTES

EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I.

El momento k-ésimo para una variable aleatoria discreta respecto del origen, es. n = esperanza matemática de X

Estadís6ca y Métodos Numéricos Tema 6. Modelos de Regresión

TEMA II EL ANÁLISIS PRELIMINAR DE LOS DATOS

Teoría de la decisión

Lección 3. Análisis conjunto de dos variables

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Part I. Variables aleatorias unidimensionales. Estadística I. Mario Francisco. Definición de variable aleatoria. Variables aleatorias discretas

INDICE. Prólogo a la Segunda Edición

ECONOMETRÍA I. Tema 2: El Modelo de Regresión Lineal Simple. Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

ESTADÍSTICA. Individuo. Es cada uno de los elementos que forman la población o muestra.

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2011

Estadís5ca. María Dolores Frías Domínguez Jesús Fernández Fernández Carmen María Sordo. Tema 2. Modelos de regresión

El ejemplo: Una encuesta de opinión

Tema 2: Estadística Bivariante Unidad 1: Correlación y Regresión

Estadística para el análisis de los Mercados S3_A1.1_LECV1. Estadística Descriptiva Bivariada

Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va

Módulo de Estadística

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso

Diplomado en Econometría Coordinadora académica: M.F. Esperanza Sainz López

CM0244. Suficientable

Asimetría Coeficiente de Asimetría de Fisher

REGRESIÓN LINEAL SIMPLE

Tema 2: Análisis de datos bivariantes

Tema 3: Análisis de datos bivariantes

Variables aleatorias

Análisis descriptivo y exploratorio de datos

Cátedra: Estadística Técnica Facultad de Ingeniería UNCuyo. Índice D. Fernández & M. Guitart TABLA DE CONTENIDOS

Cálculo de Probabilidades II Preguntas Tema 2

Variables aleatorias bidimensionales discretas

TEMARIO PRUEBA DE SÍNTESIS MATEMÁTICA NIVEL SÉPTIMO BÁSICO

Tema 2: Estadísticos. Bioestadística. U. Málaga. Tema 2: Estadísticos 1

Repaso de conceptos de álgebra lineal

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento.

UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS FACULTAD DE INGENIERÍA PROYECTO CURRICULAR DE INGENIERÍA DE SISTEMAS

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

El Modelo de Regresión Lineal

Distribuciones Bidimensionales.

RELACIÒN ENTRE LOS PROMEDIOS

Longitud = Calcular la media, la mediana, la moda y la desviación estándar de la muestra en Matlab.

PROBABILIDAD Y ESTADÍSTICA TEMARIO

Syllabus. Curso:SEXTO. Materia:ESTUDIOS MATEMÁTICOS

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

Julio Deride Silva. 18 de agosto de 2010

Construcción de Gráficas en forma manual y con programados

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2012

Medidas de Tendencia Central, Medidas de Dispersión & Otros Estadísticos (Cap. 2) Math. 298 Prof. Gaspar Torres Rivera

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Índice general. Pág. N. 1. Capítulo 1 ETAPAS DE UNA INVESTIGACIÓN. Diseño. Población. Muestra. Individuo (Observación, Caso, Sujeto) Variables

METODOS ESTADÍSTICOS

PRUEBAS INFORMALES DE NORMALIDAD PARA UN CONJUNTO UNIVARIADO DE MEDICIONES.

Prueba de Hipótesis. Para dos muestras

Transcripción:

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO GEOESTADÍSTICA APLICADA Tema: Análisis Exploratorio de Datos Instructores: Dr. Martín A. Díaz Viera (mdiazv@imp.mx) Dr. Ricardo Casar González (rcasar@imp.mx) 2009

Análisis Exploratorio de Datos Qué es el AED? Importancia del AED Etapas de cualquier AED Herramientas del AED Estadística univariada Estadística bivariada Estadística multivariada Regresión lineal y mínimos cuadrados 20/08/2010 CG2-Análisis Exploratorio de Datos 2

Qué es el AED? Es un conjunto de técnicas estadísticas y gráficas que permiten establecer un buen entendimiento básico del comportamiento de los datos y de las relaciones existentes entre las variables que se estudian. 20/08/2010 CG2-Análisis Exploratorio de Datos 3

Importancia del AED El análisis exploratorio de datos (AED) es un paso previo e indispensable para la aplicación exitosa de cualquier método estadístico. En particular permite la detección de fallos en el diseño y toma de datos, el tratamiento y/o la evaluación de datos ausentes, la identificación de valores atípicos y la comprobación de los supuestos requeridos por parte de las técnicas geoestadísticas. 20/08/2010 CG2-Análisis Exploratorio de Datos 4

Etapas de un AED Realizar un examen gráfico de la naturaleza de las variables individuales y un análisis descriptivo numérico que permita cuantificar algunos aspectos gráficos de los datos. Realizar un examen gráfico de las relaciones entre las variables y un análisis descriptivo numérico que cuantifique el grado de interrelación existente entre ellas. Evaluar algunos supuestos básicos subyacentes a muchas técnicas estadísticas, por ejemplo, normalidad, linealidad y homocedasticidad. Identificar los posibles valores atípicos (outliers) y evaluar el impacto potencial que puedan ejercer en análisis estadísticos posteriores. Evaluar, el impacto potencial que pueden tener los datos ausentes (missing) sobre la representatividad de los datos analizados. 20/08/2010 CG2-Análisis Exploratorio de Datos 5

Herramientas del AED Estadística univariada Estadística bivariada Regresión lineal y mínimos cuadrados 20/08/2010 CG2-Análisis Exploratorio de Datos 6

Ejemplo: Estadística univariada Variable Aleatoria (V.A.): Es una variable Z que puede tomar una serie de valores o realizaciones (z i ) cada una de las cuales tienen asociadas una probabilidad de ocurrencia (p i ). Al lanzar un dado puede resultar {1, 2, 3, 4, 5 o 6} con una probabilidad de ocurrencia igual a 1/6. Las probabilidades cumplen las condiciones: a) p 0, i b) p 1 i i i 20/08/2010 CG2-Análisis Exploratorio de Datos 7

Estadística univariada Variable Aleatoria Discreta: cuando el número de ocurrencias es finito o contable, se conoce como variable aleatoria discreta. Ejemplo: tipos de facies en un yacimiento. Variable Aleatoria Continua: si el número de ocurrencias posibles es infinito. Ejemplo: el valor de la porosidad de un medio se encuentra en el intervalo [0,100%]. 20/08/2010 CG2-Análisis Exploratorio de Datos 8

Función de Distribución de Probabilidad (FDP) La FDP caracteriza completamente a la VA. Se define como: F( z) Pr Z z 0,1 Su gráfica es el histograma acumulativo 20/08/2010 CG2-Análisis Exploratorio de Datos 9

Función de Densidad de Probabilidad (fdp). Se define como: df( z) f ( z) Su gráfica es el histograma. dz 20/08/2010 CG2-Análisis Exploratorio de Datos 10

Percentiles o cuantiles de una distribución. El percentil de una distribución F(z) es el valor z p de la V.A. que corresponde a un valor p de probabilidad acumulada, es decir: F( z p) Si existe la función inversa se puede expresar como: p z F 1 ( p) p 20/08/2010 CG2-Análisis Exploratorio de Datos 11

Algunos cuantiles de interés: Mediana, p=0.5 Cuartiles (primer cuartil o inferior) p=0.25 (tercer cuartil o superior) p=0.75 Rango o intervalo intercuartil (IR) M F 1 (0.5) z 1 0.25 F (0.25) z 1 0.75 F (0.75) z, z 0.25 0.75 20/08/2010 CG2-Análisis Exploratorio de Datos 12

Ejemplo de cuartiles y rango intercuartil Z 0.50 Z 0.25 Z 0.75 20/08/2010 CG2-Análisis Exploratorio de Datos 13

Valor esperado o esperanza matemática de una VA. Es el valor más probable que puede tomar una VA. Se conoce también como valor medio o media. Se define como: ( ) ( ) m E Z zdf z zf z dz Su estimador más común es el promedio de todas las observaciones de la variable Z m * 1 N zi N i 1 Este estimador es muy sensible a los valores atípicos (outliers) 20/08/2010 CG2-Análisis Exploratorio de Datos 14

Momento de orden r de una FDP m E Z r z r df( z) z r f ( z) dz r Momento central de orden r de una FDP r r r r E Z m z m df( z) z m f ( z) dz 20/08/2010 CG2-Análisis Exploratorio de Datos 15

Varianza de una VA (2do momento central) Se define como Z E Z m 2 2 Var 0 Y caracteriza la dispersión de la distribución alrededor de la media. Su estimador es 1 N 1 * N 2 2 z i m i1 20/08/2010 CG2-Análisis Exploratorio de Datos 16

Distribución Normal o Gaussiana. Esta distribución está completamente caracterizada por sus dos parámetros: media y 2 varianza y se designa mediante N m, La fdp normal o Gaussina está dada por 1 1 g( z) exp 2 2 Es simétrica respecto a la media z m 2 20/08/2010 CG2-Análisis Exploratorio de Datos 17

Ejemplos de distribuciones Gaussianas 20/08/2010 CG2-Análisis Exploratorio de Datos 18

Distribución LogNormal Una VA positiva Y se dice que tiene una distribución lognormal si su logaritmo ln(y) esta normalmente distribuido. 2 2 Y 0 log N m,, si X ln Y N, Muchas distribuciones experimentales en Ciencias de la Tierra tienden a ser asimétricas y la mayoría de las variables toman valores no negativos. 20/08/2010 CG2-Análisis Exploratorio de Datos 19

Ejemplos de distribuciones Lognormales 20/08/2010 CG2-Análisis Exploratorio de Datos 20

Desviación Estándar Var Z Coeficiente de variación (dispersión relativa) CV / m Coeficiente de simetría (medida de la simetría) 3 1 3/ 2 2 Coeficiente de curtosis (medida del achatamiento) 20/08/2010 CG2-Análisis Exploratorio de Datos 21 4 2 2 2 3

Simetría y Curtosis de una distribución 20/08/2010 CG2-Análisis Exploratorio de Datos 22

BOX PLOT 20/08/2010 CG2-Análisis Exploratorio de Datos 23

BOX PLOT 20/08/2010 CG2-Análisis Exploratorio de Datos 24

Histograma (Porosidad) 20/08/2010 CG2-Análisis Exploratorio de Datos 25

Histograma (Permeabilidad) 20/08/2010 CG2-Análisis Exploratorio de Datos 26

Transformación logarítmica de la Permeabilidad 20/08/2010 CG2-Análisis Exploratorio de Datos 27

Q-Q Plot de la Permeabilidad Antes de transformar 30000 Net.kh 20000 10000 0-2 -1 0 1 2 Normal Distribution 20/08/2010 CG2-Análisis Exploratorio de Datos 28

Q-Q Plot de la Permeabilidad Después de transformar 11 9 logkh 7 5 3 1-2 -1 0 1 2 Normal Distribution 20/08/2010 CG2-Análisis Exploratorio de Datos 29

Con valores atípicos (outliers) 20/08/2010 CG2-Análisis Exploratorio de Datos 30

Con valores atípicos (outliers) 20/08/2010 CG2-Análisis Exploratorio de Datos 31

Sin valores atípicos (outliers) 20/08/2010 CG2-Análisis Exploratorio de Datos 32

Sin valores atípicos (outliers) 20/08/2010 CG2-Análisis Exploratorio de Datos 33

Serán valores atípicos? 20/08/2010 CG2-Análisis Exploratorio de Datos 34

Serán valores atípicos? 20/08/2010 CG2-Análisis Exploratorio de Datos 35

Después de eliminar los valores atípicos 20/08/2010 CG2-Análisis Exploratorio de Datos 36

Después de eliminar los valores atípicos 20/08/2010 CG2-Análisis Exploratorio de Datos 37

Estadística bivariada Hasta el momento, sólo hemos considerado a las variables aleatorias por separado, sin que exista ninguna interrelación entre éstas. En muchos campos de aplicación y en particular, en las Ciencias de la Tierra, es frecuentemente más importante conocer el patrón de dependencia que relaciona a una variable aleatoria X (porosidad) con otra variable aleatoria Y (permeabilidad). Por lo que le dedicaremos especial atención al análisis conjunto de dos variables aleatorias, conocido como análisis bivariado. 20/08/2010 CG2-Análisis Exploratorio de Datos 38

Estadística bivariada Función de Distribución de Probabilidad Bivariada La distribución de probabilidad conjunta de un par de variables aleatorias X y Y se define como: F ( x, y) Pr X x, Y y XY En la práctica se estima mediante la proporción de pares de valores de X y Y que se encuentran por debajo del umbral x, y respectivamente. 20/08/2010 CG2-Análisis Exploratorio de Datos 39

Estadística bivariada Diagrama de Dispersión (Scattergram) El equivalente bivariado del histograma es el diagrama de dispersión o scattergram, donde cada par (x i, y i ) es un punto. El grado de dependencia entre dos variables aleatorias X y Y puede ser caracterizado por el diagrama de dispersión alrededor de cualquier línea de regresión. 20/08/2010 CG2-Análisis Exploratorio de Datos 40

Estadística bivariada Covarianza Se define la covarianza de manera análoga a los momentos centrales univariados, como Se calcula como Cov X Y E X m Y m, XY X Y N 1 1 x m y m x y m m XY i X i Y i i X Y N i1 N i1 N 20/08/2010 CG2-Análisis Exploratorio de Datos 41

Estadística bivariada Semivariograma Es el momento de inercia del diagrama de dispersión con respecto a una línea con pendiente de 45 o y se define como N 1 1 N 2 2 d x y XY i i i N i1 2N i1 Permite caracterizar la carencia de dependencia 20/08/2010 CG2-Análisis Exploratorio de Datos 42

Estadística bivariada y x Semivariograma y i 45 x d i x x i x i x, y i i y i x x Mientras mayor sea el valor del semivariograma más dispersos estarán los valores en el diagrama de dispersión y menor será la dependencia entre las dos variables aleatorias. 20/08/2010 CG2-Análisis Exploratorio de Datos 43

Estadística bivariada Coeficiente de correlación lineal de Pearson Se define como: CovX, Y XY r XY 1,1 Var X Var Y X Y Caracteriza el grado de dependencia lineal entre dos variables aleatorias. Por ejemplo si Y=aX+b, entonces se cumple que: r XY 1, para a 0 1, para a 0 20/08/2010 CG2-Análisis Exploratorio de Datos 44

Estadística bivariada Diagrama de Dispersión (Scattergram) Coeficiente de correlación=0.716875 Antes de transformar 12 Net.phixh 8 4 0 0 5000 10000 15000 20000 25000 30000 35000 Net.kh 20/08/2010 CG2-Análisis Exploratorio de Datos 45

Estadística bivariada Diagrama de Dispersión (Scattergram) Coeficiente de correlación=0.8819055 Después de transformar 10 Net.phixh 5 0-5 2 4 6 8 10 logkh 20/08/2010 CG2-Análisis Exploratorio de Datos 46

Estadística multivariada Existen muchas técnicas multivariadas: Análisis de Regresión Análisis de Conglomerados Análisis de Componentes Principales Análisis Factorial Análisis Discriminante, etc 20/08/2010 CG2-Análisis Exploratorio de Datos 47

Regresión lineal y Mínimos cuadrados La regresión trata de establecer relaciones funcionales entre variables aleatorias. En particular la regresión lineal consiste en establecer una relación descrita mediante una recta. Los modelos de regresión nos permiten hacer predicciones o pronósticos a partir del modelo establecido. El método que se emplea para estimar los parámetros del modelo de regresión es el de los Mínimos Cuadrados 20/08/2010 CG2-Análisis Exploratorio de Datos 48

Regresión lineal Dados N valores de dos v.a. X y Y. Suponemos que: 1. X es una variable independiente 2. Y depende de X en forma lineal Donde 0 1 Modelo lineal: Y X 0 1 yi 0 1 xi ei, i=1,...,n, son los parámetros del modelo e i errores o residuos del modelo 20/08/2010 CG2-Análisis Exploratorio de Datos 49

Regresión lineal Condiciones que deben cumplir los residuos E e i Var e i 0, (valor esperado cero) 2 e, (varianza constante) Cov e, e 0, i j, (no correlacionados) i j e N 2 0, e, (distribución normal) 20/08/2010 CG2-Análisis Exploratorio de Datos 50

Mínimos Cuadrados Ordinarios (MCO) Mínimos Cuadrados Ordinarios consiste en hallar los parámetros del modelo de manera que la suma de los cuadrados de los errores sea mínima. N N N 2 i i i i 0 1 i i1 i1 i1 Sistema de ecuaciones a resolver 2 ˆ ˆ ˆ 2 SCR e y y y x SCR SCR 0, 0 0 1 20/08/2010 CG2-Análisis Exploratorio de Datos 51

Mínimos Cuadrados Ordinarios (MCO) Coeficiente de determinación R 2 Para los modelos lineales 1. Mide el grado de la bondad del ajuste 2. Es igual al coeficiente de correlación lineal al cuadrado. 3. Representa la proporción de varianza explicada por la regresión lineal. 20/08/2010 CG2-Análisis Exploratorio de Datos 52

Mínimos Cuadrados Ordinarios (MCO) Criterios de la bondad del ajuste Si R 2 1, el ajuste es bueno (Y se puede calcular de modo bastante aproximado a partir de X y viceversa). Si R 2 0, las variables X y Y no están relacionadas (linealmente al menos), por tanto no tiene sentido hacer un ajuste lineal. Sin embargo no es seguro que las dos variables no posean ninguna relación en el caso r=0, ya que si bien el ajuste lineal puede no ser procedente, tal vez otro tipo de ajuste sí lo sea. 20/08/2010 CG2-Análisis Exploratorio de Datos 53

Regresión lineal Y=Permeabilidad, X=Porosidad Antes de transformar 20/08/2010 CG2-Análisis Exploratorio de Datos 54

Regresión lineal Y=logPermeabilidad, X=Porosidad Después de transformar 20/08/2010 CG2-Análisis Exploratorio de Datos 55

Regresión lineal Y=logPermeabilidad, X=Porosidad Análisis de los residuos 2 1 residuals 0-1 -2-3 -2-1 0 1 2 Normal Distribution 20/08/2010 CG2-Análisis Exploratorio de Datos 56

Regresión lineal Y=logPermeabilidad, X=Porosidad Análisis de los residuos Estadística Residuos 10 8 6 4 2 0-2.600848-1.717491-0.834134 0.049223 0.932580 1.815937-2.159170-1.275813-0.392456 residuals 0. 490901 1.374258 Min: -2.600848e+000 1st Qu.: -6.021758e-001 Mean: 1.156482e-018 Median: -1.075592e-001 3rd Qu.: 6.815479e-001 Max: 1.815937e+000 Total N: 4.800000e+001 Variance: 7.146409e-001 Std Dev.: 8.453644e-001 SE Mean: 1.220178e-001 Skewness: 1.878733e-001 Kurtosis: 6.868942e-001 20/08/2010 CG2-Análisis Exploratorio de Datos 57