Grado en Fisioterapia, 2010/11 Cátedra de Bioestadística Universidad de Extremadura 13 de octubre de 2010
Índice Descriptiva de una variable 1 Descriptiva de una variable 2
Índice Descriptiva de una variable 1 Descriptiva de una variable 2
De qué trata? Descriptiva de una variable Descripción conjunto concreto de datos (sin generalizar) Clasificación Tablas de frecuencia Representación Gráficos Resumen Valores típicos
Tipos de variables? Según SPSS Cualitativas (factores) Nominales: Grupo sanguíneo Ordinales: Grado enfermedad Cuantitativas o de escala : Temperatura, estatura, glucemia, n o hijos...
Problemas estadísticos: relación Tipos de relaciones Cualitativa (factor) Cuantitativa (Comparación de grupos o tratamientos) Cuantitativa Cuantitativa (Regresión) Cualitativa (factor) Cuanlitativa (Tablas de contingencia)
Gráficos Tipos de variables según gráfico Cualitativas Diagrama sectores Cuantitativas discretas Diagrama barras Cuantitativas continuas Histograma *Nota: estudiaremos ahora una sola variable
Variable cualitativa: diagrama de sectores Grupo f i ˆp i 0 2892 0,458 A 2625 0,416 B 570 0,090 AB 226 0,036 Total 6313 1
Figura: Grupo sanguíneo
Variable cuantitativa discreta: diagrama de barras Edad alumnos titulación universitaria Edad f i ˆp i 18 6 0.24 19 5 0.20 20 3 0.12 21 3 0.12 22 3 0.12 23 3 0.12 24 2 0.08 Total 25 1
Frequencia 0 1 2 3 4 5 6 18 19 20 21 22 23 24 Edad
Variable cuantitativa continua Glucemia n=100: Diagrama de barras Frequency 0.0 0.2 0.4 0.6 0.8 1.0 71.43061 76.69276 78.97109 80.0199 80.63695 81.29456 82.48693 82.96681 83.49599 84.3332 85.12535 86.0123 86.63882 87.17015 87.55771 88.70981 89.46449 90.48297 91.60582 93.09123 cero Agrupar datos por intervalos
Histograma Descriptiva de una variable Glucemia k=6 frequency 0 5 10 15 20 25 30 35 70 75 80 85 90 95 100 Datos$cero
Otros gráficos para variables continuas Tallo-hoja
Diagrama de caja o box-plot Figura: Concentración ozono
Valores típicos Descriptiva de una variable Resumir numéricamente la información Medidas de centralización Medidas de dispersión
Medidas de centralización Centro de los datos, número más representativo Media aritmética (centro de gravedad): n i=1 x = x i n Mediana (orden): dato que queda en medio una vez ordenados de menor a mayor.
La mediana es robusta: no se ve influenciada por la presencia de valores extremos Ansiedad n=20 frequency 0 2 4 6 8 10 12 8 10 12 14 16 18 20 Datos$ham
Otro caso de sesgo n=350 300 200 100 0 7500,0 17500,0 27500,0 37500,0 47500,0 Salario empleados de una banco (USA)
Distribución normal: media frequency 0 5 10 15 20 25 30 35 70 75 80 85 90 95 100 Datos$cero
Medidas de dispersión Variabilidad de los datos Varizanza desviación típica Amplitud (o rango) intercuartil
Resumen de la información Centralización-dispersión media-desv. típica o mediana-rango inter.?
70 75 80 85 90 95 100 Datos$cero Descriptiva de una variable media-desviación típica Resumen perfectamente la información si la distribución de los datos sigue un modelo normal x ± s 68 % x ± 2s 95 % x ± 3s 99 % Podemos construir la distribución partiendo exclusivamente de x y s. frequency 0 5 10 15 20 25 30 35
mediana-rango intercuartil En aquellas situaciones en que la media sea poco representativa: fuerte sesgo + valores extremos. 300 200 100 0 7500,0 17500,0 27500,0 37500,0 47500,0 Salario empleados de una banco (USA)
mediana-rango intercuartil En aquellas situaciones en que la media sea poco representativa: fuerte sesgo + valores extremos. 300 200 100 0 7500,0 17500,0 27500,0 37500,0 47500,0 Salario empleados de una banco (USA)
Problemas estadísticos: relación Tipos de relaciones Cuantitativa Cuantitativa (Regresión-correlación) Cualitativa (factor) Cualitativa () Cualitativa (factor) Cuantitativa (Comparación de grupos o tratamientos) Cualitativa (factor) Cuantitativa (Reg logística, etc) Temas 2,3 y 4 según programa
Relación entre dos variables cuantitativas Peso-altura X =peso(kg) 80 45 63 94 24 75 56... Y =altura(cm) 174 152 160 183 102 183 148...
Gráfico Descriptiva de una variable Diagrama de dispersión Y 200 190 180 170 160 150 140 130 120 110 100 10 20 30 40 50 60 70 80 90 100 X
Otro ejemplo 5,200 5,100 5,000 Anchura cabeza 4,900 4,800 4,700 4,600 4,500 7,800 8,100 8,400 Longitud cabeza 8,700 9,000
Estudiamos inicialmente relaciones lineales 11,00 Concentración de calcio (mg/100ml) 10,00 9,00 8,00 7,00 6,00 5,00 0,00 1,00 2,00 3,00 4,00 Concentración de hormona paratiroidea (mug/ml) 5,00
Valores típicos Descriptiva de una variable Dos tipos De las variables por separados. Referentes a la relación entre las variables
Variables por separado x, s x, y, s y, ỹ,...
Referentes a la relación entre las variables: Covarianza r n i=1 s xy = (x i x)(y i y) n 1 s x s y s xy + s x s y.
Interpretación gráfica covarianza Y Y X Y X X
Interpretación gráfica 630,71 s xy +630,71 s xy = 577,86 200 175 Altura 150 125 100 20 40 60 80 100 Peso
5,200 5,100 5,000 Anchura cabeza 4,900 4,800 4,700 4,600 4,500 7,800 8,100 8,400 Longitud cabeza 8,700 9,000
Covarianza próxima a cero 8,00 7,00 6,00 5,00 y 4,00 3,00 2,00 1,00 2,00 4,00 x 6,00 8,00
Covarianza negativa 11,00 Concentración de calcio (mg/100ml) 10,00 9,00 8,00 7,00 6,00 5,00 0,00 1,00 2,00 3,00 4,00 Concentración de hormona paratiroidea (mug/ml) 5,00
Coeficiente de correlación lineal r Medida adimensional del grado de correlación s x s y s xy + s x s y. r = s xy s x s y 1 r 1
r = 0,91 Y 200 190 180 170 160 150 140 130 120 110 100 10 20 30 40 50 60 70 80 90 100 X
r = 0,625 5,200 5,000 anch 4,800 4,600 7,800 8,100 8,400 longt 8,700 9,000
r = 0,97 11,00 Concentración de calcio (mg/100ml) 10,00 9,00 8,00 7,00 6,00 5,00 0,00 1,00 2,00 3,00 4,00 Concentración de hormona paratiroidea (mug/ml) 5,00
Recta de regresión lineal y = a + b x y = 89,11 + 1,10x Predicciones: x = 62kg ŷ = 89,11 + 1,10 60 = 155,11cm 200 175 Altura 150 125 100 20 40 60 80 100 Peso
Regresión múltiple Pueden introducirse más variables explicativas en la ecuación? y = a + b 1 x 1 + b 2 x 2 + b 3 x 3
Varianza residual Mide el error cometido por la recta de regresión s 2 y x = 1 n 2 n i=1 [y i (a + bx i )] 2 = 1335,32/10 x i y i (a + bx i ) [y i (a + bx i )] 2 80 174 176.80 7.86 45 152 138.44 183.94 63 160 158.17 3.36 94 183 192.15 83.70 24 102 115.42 180.05 75 183 171.32 136.37 56 148 150.50 6.23 52 152 146.11 34.69 61 166 155.98 100.48 34 140 126.38 185.51 21 98 112.12 199.66 78 160 174.61 213.47 1335.32
Coeficiciente de determinación r 2 s 2 y x s 2 y = 1 r 2 xy 1 r 2 xy indica la proporción de la variabilidad total de Y no explicada por la regresión. r 2 xy expresa lo contrario.
r 2 = 0,82 200 175 Altura 150 125 100 20 40 60 Peso 80 100
r 2 0 8,00 7,00 6,00 5,00 y 4,00 3,00 2,00 1,00 2,00 4,00 x 6,00 8,00
r 2 = 0,39 5,200 5,100 5,000 Anchura cabeza 4,900 4,800 4,700 4,600 4,500 7,800 8,100 8,400 Longitud cabeza 8,700 9,000
Regresión no lineal Edad días-peso embrión: Transformar variables 3.000 2.000 Peso Embrión 1.000 0 10 12 14 16 Edad embrión
Relación entre variables cualitativas nivel contaminación - salud árboles Cloroplastos SO 2 (3 3) Alto Medio Bajo Total Alto 3 4 13 20 Medio 5 10 5 20 Bajo 7 11 2 20 Total 15 25 20 60
Vacunación-hepatitis Hepatitis Vacunación (2 2) Sí No Total Sí 11 70 81 No 538 464 1002 Total 549 534 1083
Gráfico Descriptiva de una variable Barras agrupadas Gráfico de barras Nivel de cloroplastos 12,5 Cloroplastos alto Cloroplastos medio Cloroplatos bajo 10,0 Recuento 7,5 5,0 2,5 0,0 SO2 alto SO2 medio Nivel de SO2 SO2 bajo
Medidas del grado de dependencia Observados vs Esperados independencia: distancia χ 2 (O ij E ij ) 2 χ 2 exp = i,j E ij 0 χ 2 exp + Coeficiente de contingencia de Pearson C χ 2 exp C = χ 2 exp + n q 1 0 C q, q = min{no filas, n o colunas}
Ejemplo: cloropastos Tabla 3 3. Por lo tanto, En este caso concreto, 0 C Grado de asociación medio 2 3 = 0,816 C = 0,444
Independencia C = 0 Cloroplastos SO 2 (3 3) Alto Medio Bajo Total Alto 5 8.3 6.7 20 Medio 5 8.3 6.7 20 Bajo 5 8.3 6.7 20 Total 15 25 20 60
Máxima dependencia C = 0, 816 Los valores observados deberían ser éstos: Cloroplastos SO 2 (3 3) Alto Medio Bajo Total Alto 0 0 20 20 Medio 0 20 0 20 Bajo 20 0 0 20 Total 20 20 20 60
Cualitativa cuantitativa 20,00 Puntuación de ansiedad de Hamilton 18,00 16,00 14,00 12,00 10,00 5 8,00 Viven solos Grupo Viven con otras personas Influye el estilo de vida en la ansiedad?
Influye la acidosis en la glucemia? 100,000 Nivel de glucemia en el cordón umbilical 90,000 80,000 70,000 60,000 50,000 40,000 Control Acidosis Respiratoria Tipo de acidosis Acidosis Metabólica Acidosis Mixta
Contrastes de hipótesis H 0 : µ 1 = µ 2 = µ 3 = µ 4 Parámetros poblacionales µ denota la media poblacional de una variable cuantitativa Parámetros muestrales Nosotros sólo contamos con los valores típicos (x,s, etc) de una muestra de cada población.
Inferencia Estadística En general, cómo generalizar conclusiones a partir de una muestra?