ANALISIS EXPLORATORIO DE DATOS LIC. ESPERANZA GARCIA CRIBILLEROS

Documentos relacionados
Estadísticos Descriptivos

MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. Lic. Esperanza García Cribilleros

Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0

Los estadísticos descriptivos clásicos (Robustez)

Fundamentos de Estadística y Simulación Básica

Estadística Inferencial. Estadística Descriptiva

ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES ESTADÍSTICA ESPACIAL

Medidas de posición para variables cuantitativas

Capítulo 11. Análisis exploratorio: El procedimiento Explorar. Explorar

Y accedemos al cuadro de diálogo Descriptivos

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

PREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2

Tablas de distribución de Frecuencias

Código: ESA-343. Horas Semanales: 4. Prelaciones: CAL-265

ESTADISTICA. Tradicionalmente la aplicación del término estadística se ha utilizado en tres ámbitos:

2.1. Introducción Análisis exploratorio Análisis exploratorio para variables con muchas modalidades

ÍNDICE INTRODUCCIÓN... 21

Estadística descriptiva y métodos diagnósticos

2 Pasos en un estudio estadístico.

CURSO-TALLER DE ANÁLISIS ESTADÍSTICO BÁSICO CON EXCEL Y SPSS Instructor: Mario Alberto Barajas Malacara

Pruebas para evaluar diferencias

Módulo de Estadística

4.1 Análisis bivariado de asociaciones

Medidas de Posición n y. Boxplot Lección n 11 Secc Prof. Pedro A. Torres ESMA febrero de Prof. Pedro A. Torres, ESMA 3015 UPRM

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

Tema 2: Estadísticos. Bioestadística. U. Málaga. Tema 2: Estadísticos 1

Práctica 5 ANÁLISIS DE UNA MUESTRA INTERVALOS DE CONFIANZA CONTRASTE DE HIPÓTESIS

CM0244. Suficientable

UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS FACULTAD DE INGENIERÍA PROYECTO CURRICULAR DE INGENIERÍA DE SISTEMAS

Estadística Asistencial I. Prof. Rafael Rey

CONTENIDO. Prólogo a la 3. a edición en español ampliada... Prólogo...

CONTENIDO PROGRAMÁTICO

Título. Nota introductoria AQUÍ VA EL GRÁFICO. Notas al pie o al calce Fuente

Análisis de la varianza ANOVA

Selección de fuentes de datos y calidad de datos

GLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill.

A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA. Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2011

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2012

ÍNDICE CAPÍTULO 1. INTRODUCCIÓN

Las Herramientas de la Calidad

Repaso Estadística Descriptiva

Tipo de punta (factor) (bloques)

Teoría de la decisión

web:

Descripción simultánea de varias variables con STATGRAPHICS

Carrera: EMM Participantes Representante de las academias de ingeniería Electromecánica de los Institutos Tecnológicos.

Análisis de datos en los estudios epidemiológicos III Correlación y regresión

Bloque 1. Contenidos comunes. (Total: 3 sesiones)

ANX-PR/CL/ GUÍA DE APRENDIZAJE. ASIGNATURA Estadistica. CURSO ACADÉMICO - SEMESTRE Primer semestre

Fase 2. Estudio de mercado: ESTADÍSTICA

Tema 2. Análisis gráfico Ejercicios resueltos 1

UNIVERSIDAD DE CIENCIAS EMPRESARIALES Y SOCIALES FACULTAD DE CIENCIAS DE LA COMUNICACIÓN

PROGRAMA DE ESTUDIOS. - Nombre de la asignatura : Taller de herramientas Estadísticas. - Pre requisitos : LCP 219 Estadística

CLAVE-LAB 3-Supuestos del Análisis de la Varianza

BLOQUE III: SENTIDO ESTADÍSTICO COMO OBJETO DE ENSEÑANZA/APRENDIZAJE. MODULO 6: Probabilidad MODULO 7: Estadística

GUIA N 1: Estadistica descriptiva.

SE OFRECE A ESTUDIANTES DE GRADO: SI X. MÓDULO DEL PLAN 2013 EN QUE ACREDITA: Módulo Metodológico DESCRIPTORES: Probabilidad y Estadística

Curso de Estadística Aplicada a las Ciencias Sociales

CAPITULO ANÁLISIS ESTADÍSTICO MULTIVARIADO /1/ /2/ En el presente capítulo se realiza el análisis estadístico multivariado de los

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA DE ICA

Bioestadística: Estadística Descriptiva

Tema 6. Variables aleatorias continuas

EJERCICIOS TEMA 1. Clasifica los siguientes caracteres estadísticos según sean cualitativos, variables discretas o variables continuas:

Probabilidad y Estadística Descripción de Datos

Estadística Descriptiva Métodos descriptivos visuales y medidas resumen

1. Cómo introducir datos en SPSS/PC? - Recordatorio

Universidad Nacional de Mar del Plata. Facultad de Ingeniería. Estadística Básica COMISIÓN 1. 1 Cuatrimestre 2016

Probabilidad y Estadística, EIC 311

Proyecto Tema 8: Tests de hipótesis. Resumen teórico

INDICE 1. Introducción 2. Recopilación de Datos Caso de estudia A 3. Descripción y Resumen de Datos 4. Presentación de Datos

Identificación de valores atípicos.

Métodos de Investigación en Psicología (10) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

CAPÍTULO 4: ESTADÍSTICA DESCRIPTIVA

Proyecto PropULSA: Estadística y Probabilidad Breviario Académico

Dr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental

INDICE Introducción Capitulo 1. Control de calidad y herramientas informáticos básicas Capitulo 2. Introducción al concepto de control de calidad y

PRUEBAS DE HIPÓTESIS NO PARAMÉTRICAS PARA LA COMPARACIÓN DE DOS MEDIAS

Capítulo 8. Análisis Discriminante

INDICE. Prólogo a la Segunda Edición

1. Dado el siguiente volumen de ventas de una empresa y su gasto en I+D en miles. Prediga las ventas de este empresario para un gasto en I+D de 7.

Título: ESTADISTICA I DESDE UN ENFOQUE POR COMPETENCIAS Primera edición. de esta edición. Fondo Editorial. Universidad San Ignacio de Loyola

El ejemplo: Una encuesta de opinión

2. Recolección de información - Medidas de posición: moda, media aritmética, mínimo, máximo - Frecuencia absoluta, relativa y porcentual

Estadística aplicada a la comunicación

ESTADÍSTICA I PRESENTACIÓN DE LA ASIGNATURA

478 Índice alfabético

Unidad 1. Obtención, Medición y Representación de Datos. Estadística E.S.O.

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Curva de Lorenz e Indice de Gini Curva de Lorenz

Al finalizar la formación a través de las distintas unidades, el usuario será capaz de:

ANALISIS E INTERPRETACION DE DATOS SOBRE PERMANENCIA Y GASTOS DE LOS ALUMNOS EN LA UNIVERSIDAD NACIONAL DE INGENIERIA

Ajustes de datos: transformación de datos. Capítulo 9 de McCune y Grace 2002

Distribución Chi (o Ji) cuadrada (χ( 2 )

INDICE Semblanzas de los autores Prologo Introducción Capitulo 1: el proceso de la investigación y los enfoques

RESPUESTAS BREVES A LA PRÁCTICA 2

Estadística Descriptiva de una variable con STATGRAPHICS

Mater iales y Métodos

Estadística Descriptiva

Transcripción:

ANALISIS EXPLORATORIO DE DATOS LIC. ESPERANZA GARCIA CRIBILLEROS 2006

ENFOQUES DE ANALISIS ESTADISTICO Confirmatorio (Clásico) Exploratorio (Tukey( Tukey,, 1977)

COMPARACION DE LOS ENFOQUES DE ANALISIS (Bertrand( Bertrand) EXPLOTARIO CONFIRMATORIO Enfoque descriptivo Enfoque inferencial Indica las hipótesis a Prueba hipótesis probar Usa estadísticos sticos Usa estadísticos sticos Plan de investigación Plan de investigación riguroso y bien definido. flexible y poco definido Usa datos sin error Usa los datos (ideal). disponibles Poca importancia a la Privilegia la representación n gráfica. representación n gráfica. Tiene una visión n precisa Tiene visión n intuitiva de de los datos. los datos Semeja a un juicio Semeja una investigación n policial.

Definición n de análisis exploratorio de datos: Conjunto de herramientas estadísticas sticas que permiten una visualización n previa al análisis definitivo de los datos en estudio. Este análisis tiene los siguientes objetivos: Evaluar la calidad y la consistencia de los datos. Determinar la distribución n de las variables en estudio. Aplicar el tratamiento de datos ausentes. Detectar datos atípicos (outliers( outliers).

Comprobar supuestos: normalidad, linealidad, homocedasticidad. Resumir los datos mediante el uso conjunto de medidas de resumen y sus gráficos. Explorar formas de categorizar variables a través s de búsqueda b de puntos de corte.

El análisis exploratorio de datos puede ser: Univariado: Estatura, peso, pulso, temperatura, etc. Bivariado: Estatura y peso, frecuencia cardiaca y nivel de colesterol. Multivariado: Se quiere medir la relación n entre la presión n arterial, edad, peso y estrés. s.

El análisis exploratorio de datos se puede realizar en: Forma de gráficos Pruebas de contraste

ANÁLISIS EXPLORATORIO UNIVARIADO HISTOGRAMA: Muestra la forma de distribución n de los datos. Revela la presencia o no de simetría Proporciona información n respecto a la variabilidad de los datos.

Ejemplo: Edades de un grupo de pacientes que participaron en un trabajo de investigación. n. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 20 23 24 25 25 26 26 28 28 29 30 30 30 30 30 30 32 32 33 33 34 34 34 34 34 35 35 36 36 36 37 37 37 38 38 39 39 40 40 41 41 42 42 42 42 43 43 43 44 44 44 44 45 45 46 46 47 47 47 48 48 48 49 49 49 50 50 51 52 52 53 53 54 55 55 55 56 56 56 57 57 57 57 57 57 58 58 58 59 59 60 60 61 62 62 63 64 64 65 65

Histograma

Histograma y curva normal

Asimetría Identifica datos extremos

Se observa simetría Normalidad Ausencia de datos extremos

Diagrama de tallo y hojas Permite observar al conjunto de datos como un todo y destacar algunas características, tales como: La simetría a del conjunto de datos La variabilidad de los datos La presencia o no de outliers Concentración n de los datos Brechas en el conjunto de datos

Ejemplo: Se tienen las edades de 100 pacientes que participaron en un estudio de investigación. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 20 23 24 25 25 26 26 28 28 29 30 30 30 30 30 30 32 32 33 33 34 34 34 34 34 35 35 36 36 36 37 37 37 38 38 39 39 40 40 41 41 42 42 42 42 43 43 43 44 44 44 44 45 45 46 46 47 47 47 48 48 48 49 49 49 50 50 51 52 52 53 53 54 55 55 55 56 56 56 57 57 57 57 57 57 58 58 58 59 59 60 60 61 62 62 63 64 64 65 89

Diagrama de tallo y hojas en forma compacta: Stem-and-leaf of EDAD N = 100 Leaf Unit = 1.0 10 2 0345566889 37 3 000000223344444556667778899 (28) 4 0011222233344445566777888999 35 5 0012233455566677777788899 10 6 001223445 HI 89, Simetría Normalidad Valor extremo alto (89)

Tallo desdoblada Edad de los pacientes Stem-and-Leaf Plot Frec. Tallo Hojas 3 2. 034 7 2. 5566889 15 3. 000000223344444 12 3. 556667778899 15 4. 001122223334444 13 4. 5566777888999 8 5. 00122334 17 5. 55566677777788899 8 6. 00122344 1 6. 5 1 Extremes (>=89) Stem width: 10 Each leaf: 1 case(s) Cumple las mismas funciones que el histograma. Conserva todos los datos y se pueden determinar los datos extremos. Adecuado para muestras grandes y pequeñas.

Tallo y hojas con brechas Stem-and and-leaf of Edad N = 20 Leaf Unit = 1.0 2 1 79 2 2 7 3 02579 (4) 4 1356 9 5 9 6 002345789

GRÁFICO DE CAJAS (BOXPLOT) Es una presentación n simple de la información n que permite conocer: La localización n del centro de los datos Dispersión

DIAGRAMA O GRÁFICO DE Simetría CAJAS (BOXPLOT) La extensión: n: Limite Superior = (Q 3 +1.5*dQ dq); Limite inferior =(Q 1-1.5* 1.5*dQ La existencia de los valores extremos (outliers).

valor max=65 Q 3 =55 Me=44 Q 1 =34.25 Valor min=20

DATOS ATÍPICOS (OUTLIERS) TIPOS: Aquellos que surgen de un error de procedimiento. Los que ocurren por un hecho extraordinario, tiene explicación. Observaciones extraordinaria sin explicación.

Normalidad de los datos: Se considera que los datos son normales si la distribución n de la población n de la cual ha sido extraída la muestra se aproxima a la distribución n teórica. Se puede verificar esta propiedad por: Métodos gráficos para ver normalidad Contrastes de normalidad

MÉTODOS GRÁFICOS PARA VER NORMALIDAD: Histogramas Gráfico P-P P Gráfico QQ plot. CONTRASTES DE NORMALIDAD: Prueba Chi cuadrado: Bondad de ajuste Z = 2 x x / 2 ( o E ) i i ( ) s i χ = E i

Prueba de Colmogorov-Smirnov D = max Fn ( x) Fo ( x) Prueba de Shapiro Wilks W = D ns 2 2 Todas las pruebas plantean Ho de normalidad.

TRASFORMACIÓN N DE LOS DATOS En este gráfico se observa que los datos son normales. Si existe normalidad la recta del diagrama pasa por el origen. Es un artificio para normalizar datos. Se construye a partir de la transformación de los datos a su log natural.

Tests of Normality a Kolmogorov-Smirnov Shapiro-Wilk Statistic df Sig. Statistic df Sig. Edad de los pacien.072 100.200*.971 100.024 *. This is a lower bound of the true significance. a. Lilliefors Significance Correction Para este caso es conveniente interpretar el resultado con la prueba de Kolmogorov-Smirnov. La de Shapiro- Wilk es útil con muestras no mayores de 50. Ho, (normalidad) no se puede rechazar porque el valor calculado es mayor que 0.05.

En el gráfico P-P se observa la normalidad de los datos.

ANALISIS BIVARIADO No Sexo Peso Estatura No Sexo Peso Estatura 1 1 18.2 112 21 1 18.3 114.3 2 1 14.6 103.4 22 1 21.3 115 3 1 19.4 114.9 23 1 16.2 103 4 2 15.7 104.1 24 1 23.31 117.7 5 2 18.7 104.9 25 1 20 113.4 6 1 16.6 105.5 26 2 22.3 114.3 7 2 20.7 113 27 2 25.4 121 8 2 19.3 109.4 28 1 17.6 106.6 9 1 16.6 104.7 29 1 19.8 111.4 10 1 20.6 114.4 30 1 17.1 108.3 11 1 18.2 112.9 31 1 18.2 109.6 12 1 20.4 110.1 32 2 25.1 114.6 13 1 21.8 122.5 33 2 16.9 104.5 14 1 22.6 116.3 34 1 18.4 107.3 15 1 20.7 115.9 35 1 18.8 106.8 16 2 15.5 107.2 36 2 17.5 108.5 17 2 18.9 110.4 37 1 21.4 112.9 18 2 15.4 113.2 38 1 19.4 111.6 19 2 18.4 109.5 39 1 18.9 106.8 20 1 18.3 110.4 40 1 20.2 115.8

Análisis exploratorio bivariado:

Gráfico de dispersión n de estatura y peso por sexo

NIÑOS SEGÚN N PESO Y SEXO

ANÁLISIS EXPLORATORIO MULTIVARIADO

FIN