ANALISIS EXPLORATORIO DE DATOS LIC. ESPERANZA GARCIA CRIBILLEROS 2006
ENFOQUES DE ANALISIS ESTADISTICO Confirmatorio (Clásico) Exploratorio (Tukey( Tukey,, 1977)
COMPARACION DE LOS ENFOQUES DE ANALISIS (Bertrand( Bertrand) EXPLOTARIO CONFIRMATORIO Enfoque descriptivo Enfoque inferencial Indica las hipótesis a Prueba hipótesis probar Usa estadísticos sticos Usa estadísticos sticos Plan de investigación Plan de investigación riguroso y bien definido. flexible y poco definido Usa datos sin error Usa los datos (ideal). disponibles Poca importancia a la Privilegia la representación n gráfica. representación n gráfica. Tiene una visión n precisa Tiene visión n intuitiva de de los datos. los datos Semeja a un juicio Semeja una investigación n policial.
Definición n de análisis exploratorio de datos: Conjunto de herramientas estadísticas sticas que permiten una visualización n previa al análisis definitivo de los datos en estudio. Este análisis tiene los siguientes objetivos: Evaluar la calidad y la consistencia de los datos. Determinar la distribución n de las variables en estudio. Aplicar el tratamiento de datos ausentes. Detectar datos atípicos (outliers( outliers).
Comprobar supuestos: normalidad, linealidad, homocedasticidad. Resumir los datos mediante el uso conjunto de medidas de resumen y sus gráficos. Explorar formas de categorizar variables a través s de búsqueda b de puntos de corte.
El análisis exploratorio de datos puede ser: Univariado: Estatura, peso, pulso, temperatura, etc. Bivariado: Estatura y peso, frecuencia cardiaca y nivel de colesterol. Multivariado: Se quiere medir la relación n entre la presión n arterial, edad, peso y estrés. s.
El análisis exploratorio de datos se puede realizar en: Forma de gráficos Pruebas de contraste
ANÁLISIS EXPLORATORIO UNIVARIADO HISTOGRAMA: Muestra la forma de distribución n de los datos. Revela la presencia o no de simetría Proporciona información n respecto a la variabilidad de los datos.
Ejemplo: Edades de un grupo de pacientes que participaron en un trabajo de investigación. n. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 20 23 24 25 25 26 26 28 28 29 30 30 30 30 30 30 32 32 33 33 34 34 34 34 34 35 35 36 36 36 37 37 37 38 38 39 39 40 40 41 41 42 42 42 42 43 43 43 44 44 44 44 45 45 46 46 47 47 47 48 48 48 49 49 49 50 50 51 52 52 53 53 54 55 55 55 56 56 56 57 57 57 57 57 57 58 58 58 59 59 60 60 61 62 62 63 64 64 65 65
Histograma
Histograma y curva normal
Asimetría Identifica datos extremos
Se observa simetría Normalidad Ausencia de datos extremos
Diagrama de tallo y hojas Permite observar al conjunto de datos como un todo y destacar algunas características, tales como: La simetría a del conjunto de datos La variabilidad de los datos La presencia o no de outliers Concentración n de los datos Brechas en el conjunto de datos
Ejemplo: Se tienen las edades de 100 pacientes que participaron en un estudio de investigación. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 20 23 24 25 25 26 26 28 28 29 30 30 30 30 30 30 32 32 33 33 34 34 34 34 34 35 35 36 36 36 37 37 37 38 38 39 39 40 40 41 41 42 42 42 42 43 43 43 44 44 44 44 45 45 46 46 47 47 47 48 48 48 49 49 49 50 50 51 52 52 53 53 54 55 55 55 56 56 56 57 57 57 57 57 57 58 58 58 59 59 60 60 61 62 62 63 64 64 65 89
Diagrama de tallo y hojas en forma compacta: Stem-and-leaf of EDAD N = 100 Leaf Unit = 1.0 10 2 0345566889 37 3 000000223344444556667778899 (28) 4 0011222233344445566777888999 35 5 0012233455566677777788899 10 6 001223445 HI 89, Simetría Normalidad Valor extremo alto (89)
Tallo desdoblada Edad de los pacientes Stem-and-Leaf Plot Frec. Tallo Hojas 3 2. 034 7 2. 5566889 15 3. 000000223344444 12 3. 556667778899 15 4. 001122223334444 13 4. 5566777888999 8 5. 00122334 17 5. 55566677777788899 8 6. 00122344 1 6. 5 1 Extremes (>=89) Stem width: 10 Each leaf: 1 case(s) Cumple las mismas funciones que el histograma. Conserva todos los datos y se pueden determinar los datos extremos. Adecuado para muestras grandes y pequeñas.
Tallo y hojas con brechas Stem-and and-leaf of Edad N = 20 Leaf Unit = 1.0 2 1 79 2 2 7 3 02579 (4) 4 1356 9 5 9 6 002345789
GRÁFICO DE CAJAS (BOXPLOT) Es una presentación n simple de la información n que permite conocer: La localización n del centro de los datos Dispersión
DIAGRAMA O GRÁFICO DE Simetría CAJAS (BOXPLOT) La extensión: n: Limite Superior = (Q 3 +1.5*dQ dq); Limite inferior =(Q 1-1.5* 1.5*dQ La existencia de los valores extremos (outliers).
valor max=65 Q 3 =55 Me=44 Q 1 =34.25 Valor min=20
DATOS ATÍPICOS (OUTLIERS) TIPOS: Aquellos que surgen de un error de procedimiento. Los que ocurren por un hecho extraordinario, tiene explicación. Observaciones extraordinaria sin explicación.
Normalidad de los datos: Se considera que los datos son normales si la distribución n de la población n de la cual ha sido extraída la muestra se aproxima a la distribución n teórica. Se puede verificar esta propiedad por: Métodos gráficos para ver normalidad Contrastes de normalidad
MÉTODOS GRÁFICOS PARA VER NORMALIDAD: Histogramas Gráfico P-P P Gráfico QQ plot. CONTRASTES DE NORMALIDAD: Prueba Chi cuadrado: Bondad de ajuste Z = 2 x x / 2 ( o E ) i i ( ) s i χ = E i
Prueba de Colmogorov-Smirnov D = max Fn ( x) Fo ( x) Prueba de Shapiro Wilks W = D ns 2 2 Todas las pruebas plantean Ho de normalidad.
TRASFORMACIÓN N DE LOS DATOS En este gráfico se observa que los datos son normales. Si existe normalidad la recta del diagrama pasa por el origen. Es un artificio para normalizar datos. Se construye a partir de la transformación de los datos a su log natural.
Tests of Normality a Kolmogorov-Smirnov Shapiro-Wilk Statistic df Sig. Statistic df Sig. Edad de los pacien.072 100.200*.971 100.024 *. This is a lower bound of the true significance. a. Lilliefors Significance Correction Para este caso es conveniente interpretar el resultado con la prueba de Kolmogorov-Smirnov. La de Shapiro- Wilk es útil con muestras no mayores de 50. Ho, (normalidad) no se puede rechazar porque el valor calculado es mayor que 0.05.
En el gráfico P-P se observa la normalidad de los datos.
ANALISIS BIVARIADO No Sexo Peso Estatura No Sexo Peso Estatura 1 1 18.2 112 21 1 18.3 114.3 2 1 14.6 103.4 22 1 21.3 115 3 1 19.4 114.9 23 1 16.2 103 4 2 15.7 104.1 24 1 23.31 117.7 5 2 18.7 104.9 25 1 20 113.4 6 1 16.6 105.5 26 2 22.3 114.3 7 2 20.7 113 27 2 25.4 121 8 2 19.3 109.4 28 1 17.6 106.6 9 1 16.6 104.7 29 1 19.8 111.4 10 1 20.6 114.4 30 1 17.1 108.3 11 1 18.2 112.9 31 1 18.2 109.6 12 1 20.4 110.1 32 2 25.1 114.6 13 1 21.8 122.5 33 2 16.9 104.5 14 1 22.6 116.3 34 1 18.4 107.3 15 1 20.7 115.9 35 1 18.8 106.8 16 2 15.5 107.2 36 2 17.5 108.5 17 2 18.9 110.4 37 1 21.4 112.9 18 2 15.4 113.2 38 1 19.4 111.6 19 2 18.4 109.5 39 1 18.9 106.8 20 1 18.3 110.4 40 1 20.2 115.8
Análisis exploratorio bivariado:
Gráfico de dispersión n de estatura y peso por sexo
NIÑOS SEGÚN N PESO Y SEXO
ANÁLISIS EXPLORATORIO MULTIVARIADO
FIN