Modelos Lineales Generalizados. Víctor Moreno 2004

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Modelos Lineales Generalizados. Víctor Moreno 2004"

Transcripción

1 Modelos Lineales Generalizados Víctor Moreno

2 Esquema Teoría estadística avanzada: Modelos lineales generalizados. Función de verosimilitud. Prueba de la razón de verosimilitud. Aproximaciones cuadráticas: test del "score" y test de Wald. Modelos para proporciones. Regresión logística. Pruebas de asociación y de tendencia. Control de la confusión. Exploración de interacciones. Bondad de ajuste Aplicaciones específicas: Análisis de casos y controles. Modelo logístico condicional Generación de escalas de pronóstico. Valoración de la capacidad predictiva. Análisis discriminante logístico. Regresión logística politómica: Regresión multinomial Modelos ordinales 2

3 Modelo lineal de regresión E( y x) = α + βx y 2 N( µσ, ) y cuantitativa continua R: {-, + } No hay restricciones sobre X 3

4 Análisis de respuesta binaria Nos interesa un modelo de regresión: E( y x) = α + βx Y: la variable respuesta es binaria: { 1 : evento Y = 0 :no evento Si se agrupan los datos, E(y x) = µ = Σy/n = p : proporción de eventos Modelo para proporciones 4

5 ML general para respuestas binarias p {0,1}, difícilmente normal además no queremos restricciones sobre los parámetros α,β sin ellas, el modelo lineal podría generar predicciones imposibles para p 5

6 Modelos lineales generalizados Extensión del modelo lineal para acomodar: Respuesta con distribución no normal Transformaciones linearizantes Componentes del modelo: Respuesta (Y) observada en unidades independientes con valores fijos de variables explicativas (X) Las variables X afectan la respuesta según un modelo lineal: η = β x β x 1 1 p p 6

7 Puede ser necesario transformar la respuesta para conseguir linealidad: η=g(µ) µ: valor medio de la respuesta La distribución de probabilidad de la respuesta pertenece a la familia exponencial: Transformación g(µ) Normal identidad: = Binomial logit: log(µ/{1 µ }) Poisson log(µ) Gamma inversa: -1/µ 7

8 Utilidad de cada distribución Normal: Binomial: Cuantitativa continua > Regresión lineal Binaria (proporciones) > Regresión logística Poisson: Recuento (discreta >=0 ) > Regresión Poisson / Log-lineal Gamma: Cuantitativa contínua > 0 8

9 Interés de los MLG Comparten la teoría estadística necesaria para: Estimar los coeficientes y sus varianzas Máxima verosimilidtud, mediante iteraciones de ajustes por mínimos cuadrados ponderados Tests de hipótesis sobre coeficientes Análisis de varianza / deviance (desvianza) Tests de bondad de ajuste del modelo R 2 y equivalentes no lineales 9

10 Modelo logístico µ log 1-µ = α + β x β x 1 1 p p Y: la variable respuesta es binaria: { 1 : evento Y = 0 :no evento Si se agrupan los datos, µ: proporción de eventos µ = p = Σy/n Modelo para proporciones 10

11 Función logística z y e = log f ( z) = z y = z e 1+ e z f(z) z 11

12 Propiedades f(z) siempre entre 0 y 1 => Útil para modelar proporciones Permite valores de z entre - y + => Cualquier valor del predictor lineal Simétrica alrededor de 0: z f(z) 1-f(z) Entre -2 y 2 es casi lineal y varía un 80% 12

13 Predicciones del modelo { 1 : evento Y = 0 :no evento Pr(y=1 x,...,x )= 1+e α β 1 k -( + x+...+ β x) k k 13

14 Otras transformaciones Probit: Φ -1 (p) Complementario log-log: log(-log(1-p)) Pr(z) logit cloglog probit z 14

15 Condiciones para aplicar el modelo Observaciones independientes si hay dependencia se genera sobredispersión La varianza de p: var(p) = p(1-p) se puede modelar var(p) = φp(1-p) Si se estudia la aparición de un evento, el tiempo de seguimiento debe ser igual para todos los individuos. Se puede modelar mortalidad al año, pero no puede haber censuras. 15

16 Ejemplos de aplicación Estudios de casos y controles P(ser caso X:factores de riesgo y confusores) Estudios de factores pronóstico, para tiempos de seguimiento corto e igual para todos los individuos P(morir antes de 35 días tras un infarto X) Estudios de métodos diagnósticos P(enfermo resultado de la prueba) Estudios de cualquier característica binaria P(ser fumador X:condiciones) P(ser tratado en el hospital X) 16

17 Variables Respuesta / Dependiente: BINARIA Independientes: cualquier tipo Binarias Categóricas se codifican con variables indicadoras dummy Cuantitativas pueden emplearse transformaciones: logaritmo potencia polinomios splines 17

18 Caso 1. Variable binaria Estudio de la relación entre el virus de la hepatitis B y la cirrosis hepática, a partir de un diseño de casos y controles: HbsAg + HbsAg - Cirrosis Controles

19 Hepatitis B * grupo Crosstabulation grupo Hepatitis B Total HBsAg - HBsAg + Count % within Hepatitis B % within grupo Count % within Hepatitis B % within grupo Count % within Hepatitis B % within grupo control cirrosis Total % 43.8% 100.0% 95.5% 74.5% 85.0% % 85.0% 100.0% 4.5% 25.5% 15.0% % 50.0% 100.0% 100.0% 100.0% 100.0% Chi-Square Tests Risk Estimate Pearson Chi-Square Continuity Correction a Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases Asymp. Sig. Value df (2-sided) b a. Computed only for a 2x2 table Exact Sig. (2-sided) Exact Sig. (1-sided) b. 0 cells (.0%) have expected count less than 5. The minimum expected count is Odds Ratio for Hepatitis B (HBsAg - / HBsAg +) For cohort grupo = control For cohort grupo = cirrosis N of Valid Cases 95% Confidence Interval Value Lower Upper

20 Odds: medida de riesgo odds P( suceso) P( suceso) = = Pno ( suceso) 1 P( suceso) Cuántas veces más probable es que ocurra un suceso respecto a que no ocurra puede tomar valores de {0,+ } odds P( y = 1) P( y = 1) = = P( y = 0) 1 P( y = 1) 20

21 Odds-ratio: medida de asociación OR OR OR OR = = = = odds( enfermedad exp uestos ) odds( enfermedad no exp uestos ) P( y = 1 x = 1)/ P( y = 0 x = 1) P( y = 1 x = 0)/ P( y = 0 x = 0) ( 1 ( α+ β) )/(1 1 ( α+ β) ) 1+ e 1+ e ( 1 ( α) )/(1 1 ( α) ) 1+ e 1+ e β e 21

22 Odds-ratio Por cuánto se multiplica el riesgo de cirrosis si se está infectado respecto a no estar infectado riesgo relativo: razón de odds puede tomar valores de {0,+ } OR P(cirr + )/P(cont + ) = = P(cirr -)/P(cont -) e β = e1.98 = /( ) OR = = /( ) 22

23 Simetria del odds-ratio OR = odds(exp osicion enfermos ) odds(exp osicion no e nfermos ) OR = P( x = 1 y = 1)/ P( x = 0 y = 1) P( x = 1 y = 0)/ P( x = 0 y = 0) OR = e β 23

24 Modelo logístico Logit{ P(cirrosis HBsAg) } = α + βhbsag Variables: Respuesta: grupo 1(cirrosis) 0(control) independiente: HBsAg 1(+) 0(-) Modelo ajustado: Variable B S.E. Wald df Sig R Exp(B) HBSAG Constant

25 25 Verificación /( ) 0.850/( ) OR -) -)/p(cont p(cirr ) )/p(cont p(cirr OR e 1 1 e 1 1 1) HBsAg p(cirrosis e 1 1 e 1 1 0) HBsAg p(cirrosis ) -(-0.25 ) ( -(-0.25) e e = = = + + = = + = + = = = + = + = = = = + + β β α α

26 Interpretación de los coeficientes Constante: α = logit{p(cirrosis HBsAg=0)} logit de P(evento en los no expuestos) En un estudio de casos y controles no tiene interés pues depende del la relación entre el número de casos y de controles, que se fija en el diseño, y de los códigos que se empleen en la variable exposición. En un estudio de cohortes es una estimación de interés Coeficientes: β = log(or) OR = e β : cuantifica la magnitud de la asociación entre la respuesta y el factor de interés El código de la exposición debe ser exp: 1 + no exp 26

27 La codificación es esencial para interpretar los coeficientes exp =1 / no exp=0 OR(evento/exp) = e β exp =0 / no exp=1 OR(evento/exp) = e -β exp =2 / no exp=1 exp =1 / no exp=-1 OR(evento/exp) = e β OR(evento/exp) = e 2β 27

28 28 Estadística en regresión logística Ajustar el modelo: estimar los parámetros Máxima verosimilitud Variable dependiente binaria: distribución binomial: ) e nlog(1 y log p) logl(x e 1 1 p x ) p (1 p L(X p) i i i i i i i i i i x i N 1 y n x y x i i y n y n η η + + = + = β α + = η = η i

29 Parámetros: (α,β) Elementos de interés Matriz de varianza-covarianza: V( α) = C( α, β C( α, β 1 1 ) ) C( α, β V( β C( β ), β 1 ) ) C( α, β1) C( β1, β2) V( β ) 2 Valor de logl cuando es máximo: Likelihood value Tiene asociados unos grados de libertad : g.l. = #observaciones - #parámetros

30 OR = e β Elementos derivados permite interpretar los coeficientes como riesgos Errores estándar de β: ee β = V(β) permite calcular intervalos de confianza y realizar tests de hipótesis Deviance = -2 * logl permite: valorar el ajuste del modelo (datos agrupados) realizar test de hipótesis (comparando modelos) 30

31 Análisis de los coeficientes {β, ee β } Test de Wald: z = β/ee β ~ N(0,1) z > > β 0 -> OR 1 asociación significativa p-valor = Φ -1 (z) Intervalo de confianza (al 95%) para β: β ± 1.96ee β : simétricos para OR: e β±1.96ee β : {e β-1.96ee β ; e β+1.96ee β } asimétricos 31

32 Prueba de asociación global Test de razón de verosimilitud (TRV) Equivale al χ 2 de Pearson Es necesario ajustar 2 modelos y comparar las deviances: Análisis de deviance : Modelo deviance g.l. deviance g.l. α D α g.l. α α + β D α+β g.l. α+β D α D α+β gl α gl α+β deviance ~ χ 2 con g.l. 32

33 Beginning Block Number 0. Initial Log Likelihood Function -2 Log Likelihood * Constant is included in the model. Beginning Block Number 1. Method: Enter Variable(s) Entered on Step Number 1.. NKCAL NTILES of TKCAL -2 Log Likelihood Chi-Square df Significance Model Block Step

34 Aproximaciones al TRV Aproximaciones cuadráticas a la función de verosimilitud: Test de Wald aproxima la función de verosimilitud coincidiendo en el valor del máximo. Test del score aproxima la función de verosimilitud coincidiendo en el valor nulo 34

35 Aproximaciones cuadráticas a LogL logl score Wald p 35

36 Ajuste del modelo Deviance residual. Diferencia con la deviance de un modelo saturado (tantos coeficientes como observaciones). Sólo es interpretable si se trabaja con datos agrupados. Criterio de información de Akaike AIC = -2*logL + 2*#β Criterio de Schwarz (SC) o BIC AIC = -2*logL + #β*log(n) penalizan el uso de parámetros no informativos. Son útiles para comparar modelos no anidados. 36

37 Caso 2. Variable categórica: Relación entre tabaco y cáncer de colon en Mallorca TABAC * GROUP Crosstabulation TABAC Total No fumador Ex-fumador Fumador Count % within GROUP Count % within GROUP Count % within GROUP Count % within GROUP GROUP caso control Total % 55.6% 54.4% % 23.1% 18.1% % 21.4% 27.5% % 100.0% 100.0% 37

38 Codificación con variables auxiliares TABACO Exfuma Fuma Categorias de la variable original No fuma 0 0 Ex fumador 1 0 Fumador 0 1 Son necesarias (k-1) variables auxiliares para el modelo pues la primera corresponde a la constante (siempre vale 0) 38

39 Modelo logístico Parameter Value Freq Coding (1) (2) TABAC No fumador Ex-fumador Fumador Variable B S.E. Wald df Sig R Exp(B) TABAC TABAC(1) TABAC(2) Constant

40 Interpretación del modelo logit(pr(cancer tabaco) = α + β 1 ExFuma + β 2 Fumador exp(β 1 ) = OR de ex-fuma vs no fuma exp(β 2 ) = OR de fuma vs no fuma α = logit(pr(cancer no fuma) ) Si se desea el OR de ex-fuma vs fuma: exp(β 2 -β 1 ) o cambiar la categoría de referencia 40

41 Precaución al analizar variables categóricas Es importante que la categoría de referencia tenga un número suficiente de casos para evitar inestabilidad en el modelo: EDAD N b e OR (IC95%) (0.003;812) (0.004;992) (0.005;1339) 41

42 Caso 3. Variable cuantitativa Estudio de la relación entre la edad y la mortalidad por cardiopatía isquémica en diabéticos: EDAD Causa de muerte N p Otra CI Total

43 P(MCI) 1.0 logit(p) Edad Edad 43

44 Ajuste del modelo logístico Logit{ P(MCI EDAD) } = α + βedad Variables: Respuesta: causa muerte 1(ci) 0(otra) independiente: edad (en años) Modelo ajustado: Variable B S.E. Wald df Sig R Exp(B) EDAD Constant

45 Interpretación de los coeficientes p(mci EDAD) = ( *EDAD) 1 + e 1 Constante: α = logit{p(mci EDAD=0)} α = > P(MCI EDAD=0) = No tiene interés en esta situación, pero puede serlo si cambiamos el 0 de la variable: ED30 = (EDAD-30) α = > P(MCI EDAD=30) =

46 P(MCI) Edad 46

47 Coeficientes: β = log(or) OR = e β : cuantifica la magnitud de la asociación entre la respuesta (mortalidad por CI) y el cambio factor de interés en una unidad (aumento de EDAD en 1 año) OR = 1.11 (para 10 años: e 10β = 2.86) El modelo supone linealidad {en escala logit(mci)} para todos los posibles valores de EDAD Se pueden emplear transformaciones de las variables cuantitativas para conseguir mejorar la linealidad (más adelante) 47

48 Detección rápidad de nolinealidad Ajustar un modelo cuadrático E(Y/X)= α + βx+ β X 2 l c El coeficiente β c permite detectar curvatura en la función de riesgo 48

49 Otras opciones con variables cuantitativas Transformaciones Log(X) potencia: X r Polinomios: logit(p) = α + β 1 X + β 2 X 2 + β 3 X β k X k No deben emplearse grados muy elevados, normalmente sólo 2 ó 3 Los coeficientes son muy difíciles de interpretar, se usan fundamentalmente para ajustar otras variables de manera fina Splines 49

50 Variables cuantitativas categorizadas Si la relación dosis-respuesta no es lineal para una variable cuantitativa, ésta se suele categorizar y modelar como categórica: Ejemplo: la relación entre la ingesta calórica total y cáncer colorrectal Las Kcal pueden categorizarse en 5 grupos según quintiles y comparar cada grupo respecto al primero 50

51 Caso 4. Energía y cancer colorrectal GROUP * NTILES of TKCAL Crosstabulation GROUP Total control caso Count % within NTILES of TKCAL Count % within NTILES of TKCAL Count % within NTILES of TKCAL NTILES of TKCAL Total % 51.7% 50.4% 48.3% 41.4% 50.8% % 48.3% 49.6% 51.7% 58.6% 49.2% % 100.0% 100.0% 100.0% 100.0% 100.0% Variable B S.E. Wald df Sig R Exp(B) TKCAL TKCAL(1) TKCAL(2) TKCAL(3) TKCAL(4) Constant

52 logit(pr(caso)) Total kcal 52

53 1 Modelo de heterogeneidad (categórico) Un coeficiente para cada dummy Test: TRV a ( deviance con k-1 g.l.) Variable B S.E. Wald df Sig R Exp(B) NTKCAL NTKCAL(1) NTKCAL(2) NTKCAL(3) NTKCAL(4) Constant Chi-cuadrado gl Sig. TKCAL

54 2. Test de tendencia para variables ordinales La variable se codifica con valores crecientes en 1 unidad de categoría en categoría (1,2,3,...) Un único coeficiente, que recoge la variación promedio Test: TRV t ( deviance con 1 g.l.) Variable B S.E. Wald df Sig R Exp(B) NTKCAL Constant Chi-cuadrado gl Sig. TKCAL

55 3. Test de desviación de la linealidad Test: diferencia del modelo de heterogeneidad y el de tendencia: TRV DL : deviance con k-2 g.l. Modelo categórico: -2 Log Likelihood Modelo tendencia: -2 Log Likelihood Desviación de la linealidad: Cambio en -2 Log Likelihood = (NS con 3 g.l.) 55

56 Estrategia de análisis multivariante 1º Análisis bivariante cada variable por separado identificar variables de interés (significativas o no) 2º Análisis combinado de las variables equivale a un análisis estratificado cada factor está ajustado por los demás del modelo 3º Análisis de interacciones modificación del efecto de una variable por otra 56

57 Caso 5. Energía y ácido fólico (densidad) en el cáncer colorrectal Tabla de contingencia GROUP * NTILES of DFOLIC GROUP Total control caso Recuento % de GROUP Recuento % de GROUP Recuento % de GROUP NTILES of DFOLIC Total ,0% 23,1% 27,1% 28,8% 100,0% ,0% 26,9% 23,1% 21,0% 100,0% ,0% 25,0% 25,1% 25,0% 100,0% Variables en la ecuación Paso 1 a NDFOLIC NDFOLIC(1) NDFOLIC(2) NDFOLIC(3) Constante B E.T. Wald gl Sig. Exp(B) Inferior Superior 9,050 3,029 -,167,236,502 1,479,846,532 1,344 -,484,236 4,197 1,040,616,388,979 -,640,238 7,236 1,007,527,331,841 a. Variable(s) introducida(s) en el paso 1: NDFOLIC.,292,168 3,020 1,082 1,339 I.C. 95,0% para EXP(B) 57

58 Tendencia Paso 1 a NDFOLIC Constante Variables en la ecuación B E.T. Wald gl Sig. Exp(B) Inferior Superior -,224,075 8,860 1,003,799,690,926,529,206 6,609 1,010 1,696 a. Variable(s) introducida(s) en el paso 1: NDFOLIC. I.C. 95,0% para EXP(B) Tendencia Heterogeneidad Pruebas omnibus sobre los coeficientes del modelo Pruebas omnibus sobre los coeficientes del modelo Paso 1 Paso Bloque Modelo Chi-cuadrado gl Sig. 8,974 1,003 8,974 1,003 8,974 1,003 Paso 1 Paso Bloque Modelo Chi-cuadrado gl Sig. 9,148 3,027 9,148 3,027 9,148 3,027 58

59 Análisis ajustado Si en un modelo se incluye más de una variable, los coeficientes de cada variable se interpretan como ajustados por las demás Ajustado equivale a un promedio ponderado en los estratos de las variables de ajuste Este análisis anula el efecto de confusión que pudiera haber 59

60 Confusión Exposición Enfermedad Variable confusora El análisis crudo de la asociación entre una exposición y una enfermedad no excluye la posibilidad de que interfiera una tercera variable (la confusora) 60

61 Exploración de la confusión 1. Análisis de la asociación en cada estrato de la confusora potencial. Comparar los coeficientes crudos con los de cada estrato. Este método permite también explorar si hay interacción. 2. Comparación del modelo crudo con el ajustado por la confusora. Cambios superiores a un 20% de los coeficientes (β) indican confusión importante 61

62 Análisis del efecto del ac. fólico ajustado por ingesta calórica total Ac. Fólico Cáncer Ingesta calórica 62

63 Análisis estratificado NTILES of TKCAL Paso NDFOLIC 1 a Constante Paso NDFOLIC 1 a Constante Paso NDFOLIC 1 a Constante Paso NDFOLIC 1 a Constante Paso NDFOLIC 1 a Constante a. Variable(s) introducida(s) en el paso 1: NDFOLIC. Variables en la ecuación B E.T. Wald gl Sig. Exp(B) -,072,183,155 1,694,930 -,274,584,221 1,638,760 -,090,161,313 1,576,914,157,444,125 1,724 1,170 -,266,176 2,264 1,132,767,659,487 1,834 1,176 1,933 -,239,172 1,937 1,164,787,638,450 2,009 1,156 1,892 -,196,189 1,078 1,299,822,754,437 2,980 1,084 2,126 En general la estimación por estratos de calorías muestra un efecto protector menor al análisis crudo 63

64 Análisis ajustado Paso 1 a Paso 1 a NDFOLIC Constante Variables en la ecuación B E.T. Wald gl Sig. Exp(B) Inferior Superior -,224,075 8,860 1,003,799,690,926,529,206 6,609 1,010 1,696 a. Variable(s) introducida(s) en el paso 1: NDFOLIC. Variables en la ecuación NDFOLIC NTKCAL NTKCAL(1) NTKCAL(2) NTKCAL(3) NTKCAL(4) Constante I.C. 95,0% para EXP(B) B E.T. Wald gl Sig. Exp(B) Inferior Superior -,171,078 4,787 1,029,842,723,982 6,191 4,185,338,271 1,557 1,212 1,402,825 2,382,397,269 2,169 1,141 1,487,877 2,521,453,272 2,774 1,096 1,573,923 2,681,680,279 5,940 1,015 1,973 1,142 3,408,023,303,006 1,940 1,023 a. Variable(s) introducida(s) en el paso 1: NTKCAL. I.C. 95,0% para EXP(B) El análisis ajustado confirma la confusión 64

65 Interacción Pruebas omnibus sobre los coeficientes del modelo Paso 1 Paso Bloque Modelo Chi-cuadrado gl Sig. 1,008 4,909 1,008 4,909 16,256 9,062 Variables en la ecuación Paso 1 a NDFOLIC NTKCAL NTKCAL(1) NTKCAL(2) NTKCAL(3) NTKCAL(4) NDFOLIC * NTKCAL NDFOLIC by NTKCAL(1) NDFOLIC by NTKCAL(2) NDFOLIC by NTKCAL(3) NDFOLIC by NTKCAL(4) Constante a. Variable(s) introducida(s) en el paso 1: NDFOLIC * NTKCAL. B E.T. Wald gl Sig. Exp(B) Inferior Superior -,072,183,155 1,694,930,649 1,333 2,815 4,589,431,734,345 1,557 1,539,365 6,486,934,760 1,508 1,219 2,543,573 11,286,912,737 1,530 1,216 2,489,587 10,559 1,029,729 1,989 1,158 2,797,670 11,684 1,005 4,909 -,018,244,005 1,942,982,609 1,585 -,193,255,576 1,448,824,500 1,358 -,167,252,442 1,506,846,517 1,385 -,124,263,222 1,638,883,527 1,481 -,274,584,221 1,638,760 I.C. 95,0% para EXP(B) 65

66 Interpretación de la interacción Modificación del efecto (riesgo) de una variable al ira acompañada de otra Cambia la referencia en la comparación: Efectos principales: riesgo promedio entre categorías de la otra variable (Riesgo del a. fólico ajustado por calorías, pero como promedio entre las diferentes categorías de calorías) Interacción: Riesgo específico respecto a una categoría de referencia combinada (consumo bajo fólico y calorías) 66

67 Caso 6. Alcohol y tabaco GRUPO * Alcohol * Tabaco Crosstabulation Count Alcohol Tabaco Fuma No fuma GRUPO Total GRUPO Total control caso control caso no bebe moderado importante Total Variable B S.E. Wald df Sig Exp(B) Lower Upper BEBE BEBE(1) BEBE(2) Constant FUMA(1) Constant

68 Variable B S.E. Wald df Sig R FUMA(1) BEBE BEBE(1) BEBE(2) Constant % CI for Exp(B) Variable Exp(B) Lower Upper FUMA(1) BEBE(1) BEBE(2) FUMA y moder * calculadora FUMA y inten * Variable B S.E. Wald df Sig FUMA(1) BEBE BEBE(1) BEBE(2) BEBE * FUMA BEBE(1) by FUMA(1) BEBE(2) by FUMA(1) Constant

69 Interpretación de modelos con interacciones 95% CI for Exp(B) Variable Exp(B) Lower Upper 1. No fuma No bebe FUMA(1) Fuma No bebe BEBE(1) No fuma Moderado BEBE(2) No fuma Intenso BEBE(1) by FUMA(1) BEBE(2) by FUMA(1) *3.7397*.5515 = Fuma Moderado *6.1154*.3481 = Fuma Intenso Ignorar la interacción supone infraestimar los riesgos respecto a no fumar y no beber 69

70 10 No fuma Fuma 1 10 No bebe moderado intenso No fuma Fuma no interaccion 1 No bebe moderado intenso 70

71 Riesgo para cada combinación Modelo efectos principales: α + β 1 F + β 2 M + β 3 I NB M I β1 β1+ β2 β F e e e β2 β NF 1 e e + β Modelo efectos principales + interacción: α + β 1 F + β 2 M + β 3 I + β 4 F M + β 5 F I NB M I β1 β + β + β β + β + β F e e e β2 β NF 1 e e 3 71

72 Es fundamental emplear modelos jerárquicos: Si hay una interacción, los efectos principales deben estar también: A + B + A.B Modelo SATURADO Tiene tantos parámetros como observaciones Todas las variables y sus interacciones No explica más que los datos Son útiles si se trabaja con datos agrupados (el SPSS no lo permite) 72

73 Intervalos de confianza con interacciones Se pueden calcular si se dispone de la matriz de varianza-covarianza de los parámetros: V(β 1 + β 2 ) = V(β 1 ) + V(β 2 ) -2C(β 1,β 2 ) Es más fácil crear una nueva variable combinación de las categorías de las que interaccionan: FUMABEBE NF-NB; NF-M; NF-I; F-NB; F-M; F-I 73

74 Variable B S.E. Wald df Sig R FUMABEBE FUMABEBE(1) FUMABEBE(2) FUMABEBE(3) FUMABEBE(4) FUMABEBE(5) Constant % CI for Exp(B) Variable Exp(B) Lower Upper 1 NF - NB FUMABEBE(1) NF - M FUMABEBE(2) NF - I FUMABEBE(3) F - NB FUMABEBE(4) F - M FUMABEBE(5) F - I 74

75 Diagnóstico en Regresión logística Verificar que el modelo es adecuado Bondad de ajuste Con datos agrupados: deviance residual Con datos individuales hace falta una referencia, que puede obtenerse a partir del modelo saturado, siempre que se trabaje con pocas variables y éste sea estimable Otros estadísticos: Σ(O-E) 2 /E sobre cada observación Hosmer y Lemeshow: Σ(O-E) 2 /E sobre 10 categorías de p 75

76 Residuales Diferencia (observado - esperado) para cada observación hay múltiples posibilidades: Estandarizados Deviance... Se pueden hacer gráficas para intentar dertectar patrones no aleatorios Son poco útiles a no ser que se trabaje con variables cuantitativas 76

77 Observaciones influyentes Individuos que modifican de manera importante el ajuste del modelo y la estimación de los parámetros Delta-betas: β Modificación de cada parámetro al eliminar una observación cada vez Si son grandes: modelo inestable (típico de N ) 77

78 Dfbeta for BEBE(1) Dfbeta for BEBE(2) -.04 Dfbeta for FUMA(1) Dfbeta for BEBE(1) b Dfbeta for BEBE(2) b NF-NB 78

79 Modelos predictivos El objetivo del modelo puede ser: generar una ecuación con capacidad predictiva, como una clasificación (análisis discriminante) buscar qué factores tienen capacidad predictiva Si la respuesta es la aparición de un evento, pueden llamarse modelos pronósticos En este tipo de estudios es típico contar con un gran número de variables a explorar 79

80 Métodos de selección automática Adelante: 1 Se inicia con un modelo vacío (sólo α) 2 Se ajusta un modelo y se calcula el p valor de incluir cada variable por separado 3 Se selecciona el modelo con la más significativa 4 Se ajusta un modelo con la(s) variable(s) seleccionada(s) y se calcula el p valor de añadir cada variable no seleccionada por separado 5 Se selecciona el modelo con la más significativa 6 Se repite 4-5 hasta que no queden variables significativas para incluir. 80

81 Atrás: 1 Se inicia con un modelo con TODAS las variables candidatas 2 Se eliminanan, una a una, cada variable y se calcula la pérdida de ajuste al eliminar 3 Se selecciona para eliminar la menos significativa 4 Se repite 2-3 hasta que todas las variables incluidas sean significativas y no pueda eliminarse ninguna sin que se pierda ajuste. 81

82 Stepwise Se combinan los métodos adelante y atrás. Puede empezarse por el modelo vacío o por el completo, pero en cada paso se exploran las variables incluidas, por si deben salir y las no seleccionadas, por si deben entrar No todos los métodos llegan a la misma solución necesariamente 82

83 Consideraciones Criterio exclusivamente estadístico: no se tienen en cuenta otros conocimientos sobre las variables más interesantes a incluir (aunque se puede forzar a que algunas variables siempre estén en el modelo) Si hay un conjunto de variables muy correlacionadas, sólo 1 será seleccionada No es fácil tener en cuenta interacciones entre variables (los modelos deben ser jerárquicos) 83

84 Valoración de la capacidad predictiva del modelo Area bajo la curva ROC construída para todos los posibles puntos de corte de η para clasificar los individuos en +/-: + Realidad + - VP FP η = β x β x > 1 1 p p Modelo - FN VN k 84

85 Cálculo de área bajo ROC Guardar los valores que predice el modelo (esperados) Calcular la U de Mann-Whitney respecto a los esperados: AUC = 1 n U + n n + y n - son el número esperado de + y - resp. 85

86 Test Statistics a GROUP Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed) Predicted Value Valid control caso Total Frequency Percent a. Grouping Variable: GROUP U AUC = 1 = 1 = n n Un AUC=0.5 corresponde a una capacidad predictiva nula. El máximo es 1. 86

87 Elección del punto de corte óptimo Debe optimizarse la sensibilidad y la especificidad, y elegir un punto según la naturaleza del modelo predictivo El cambio en el punto de corte corresponde a emplear diferentes constantes en el modelo logístico Con frecuencia la constante estimada (α) consigue una sensibilidad y especificidad máxima, pero puede no ser el caso. 87

88 Validación del modelo El cálculo de la capacidad predictiva (CP) del modelo sobre la misma muestra que lo generó siempre es optimista, y debe validarse: Diferentes estrategias: Probar el modelo en otra muestra diferente Elaborar el modelo con un 75% de la muestra y calcular la CP en el 25% restante Usar la misma muestra, pero calcular los indicadores de CP mediante técnicas de bootstrap o validación cruzada, que corrigen el optimismo 88

89 Regresión multinomial La variable dependiente es categórica con más de 2 grupos Puede analizarse con Regresión logística politómica (modelo multinomial) Se elige una categoría como referencia y se modelan varios logits simultáneamente, uno para cada una de las restantes categorías respecto a la de referencia 89

90 Ejemplo: Hábito tabáquico La variable resultado tiene 3 categorías: Fumador Ex-fumador No fumador (referencia) Se modelan 2 logits simultáneamente: logit(fumador/no fumador z) = α 1 + β 1 z logit(ex-fumador/no fumador z) = α 2 + β 2 z Las covariables (z) son comunes pero se estiman coeficientes diferentes para cada logit (incluso diferente constante) 90

91 Caso 7. Acido fólico y tabaco Resumen del procesamiento de los casos N Porcentaje marginal TABAC2 Fumador % Ex-fumador % Fumador % NTILES of TKCAL % % % % % Válidos % Perdidos 0 Total

92 Contrastes de la razón de verosimilitud Efecto -2 logl Chi-cuadrado gl Sig. Intersección (a) NTFOLIC NTKCAL Estimaciones de los parámetros TABAC2(a) B Error típ. Wald gl Sig. Exp(B) Fumador Intersección Intervalo de confianza al 95% para Exp(B) Límite Límite inferior superior NTFOLIC [NTKCAL=1] [NTKCAL=2] [NTKCAL=3] [NTKCAL=4] [NTKCAL=5] 0(b) Ex-fumador Intersección NTFOLIC [NTKCAL=1] [NTKCAL=2] [NTKCAL=3] [NTKCAL=4] [NTKCAL=5] 0(b) a La categoría de referencia es: Fumador. b Este parámetro se ha establecido a cero porque es redundante. 92

93 Regresión ordinal La variable respuesta tiene más de 2 categorías ordenadas Se modela un único logit que recoge la relación (de tendencia) entre la respuesta y las covariables Hay varios modelos posibles según interese modelar la tendencia: odds proporcionales (acumualado) categorías adyacentes (parejas) 93

94 Odds-proporcionales Se compara un promedio de los posibles logit acumulados (respecto a la 1ª categoría): Logit Muy bajo Respuesta Bajo Alto Muy alto Cada logit tiene una constante diferente pero comparten el coeficiente de las covariables 94

95 Modelo de odds proporcionales: logit k (y > y k z) = α k + β z y = 1,2,... C k = 2,3,... C Supone que el cambio entre diferentes puntos de corte de la respuesta es constante (β), pero parte de diferentes niveles (α k ) 95

96 Caso 8. Estudio de la clase funcional En pacientes operados de cirugía cardíaca la clase funcional es una variable importante. Se ha agrupado en 3 categorías ordenadas: CLASEFUN baja / media / alta Un probable determinante de la clase funcional es el hecho de haber sido intervenido previamente: REOPER: sí/no 96

97 3 categorías: 2 logits logit(baja / media-alta) = logit(baja-media / alta) = α + βreoper α βreoper Tabla de contingencia Classe funcional * Reoperació Reoperació Classe funcional Total Classe II Classe III Classe IV NO SI Total Recuento % de Classe funcional 91.6% 8.4% 100.0% Recuento % de Classe funcional 89.3% 10.7% 100.0% Recuento % de Classe funcional 86.2% 13.8% 100.0% Recuento % de Classe funcional 89.3% 10.7% 100.0% 97

98 Response Profile Ordered Total Value CLASEFUN Frequency 1 1-medio-alto bajo 368 Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept REOPER Response Profile Ordered Total Value CLASEFUN Frequency 1 1-alto bajo-medio 965 Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept <.0001 REOPER

99 Response Profile Ordered Total Value CLASEFUN Frequency 1 2-alto medio bajo 368 Score Test for the Proportional Odds Assumption Chi-Square DF Pr > ChiSq Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept <.0001 Intercept REOPER

100 ordinal Estimaciones de los parámetros Intervalo de confianza 95% Umbral Estimación Error típ. Wald gl Sig. Límite inferior Límite superior [CLASE = 2.00] [CLASE = 3.00] Ubicación [REOPER=1] [REOPER=2] 0(a) Función de vínculo: Logit. a Este parámetro se establece en cero porque es redundante. multinomial Estimaciones de los parámetros Clase funcional(a) B Error típ. Wald gl Sig. Exp(B) Intervalo de confianza al 95% para Exp(B) Alta Intersección Límite inferior Límite superior [REOPER=1] [REOPER=2] 0(b) Media Intersección [REOPER=1] [REOPER=2] 0(b) a La categoría de referencia es: baja. b Este parámetro se ha establecido a cero porque es redundante. 100

101 Modelos log-lineales Análisis de datos categóricos donde el objetivo es analizar la relaciones entre variables No hay una respuesta y otras covariables Limitaciones del método: No se pueden analizar variable cuantitativas si no se categorizan previamente 101

102 Versión log-lineal del modelo logístico Un modelo logístico en el que las covariables sean categóricas se puede formular como un modelo Poisson: logit(y) = X+Z log(f) = X*Z +Y+ (X+Z)*Y Y~Bin Multinom f~poi f: frecuencias en la tabla de clasificación entre X,Z,Y X*Z = X + Z + X Z 102

103 Ajuste mediante regresión de Poisson Respuesta (Y): la frecuencia observada en cada celda de la tabla de clasificación multidimensional Transformación: log(y) Distribución de probabilidad: Poisson Modelos jerárquicos: log( Y) = α + β X + β Z + β XZ Interesan las interacciones (X Z): valoran la asociación entre variables 103

104 Caso 9. Tablas multidimensionames Estudio de la relación entre el consumo de macronutrientes (aportan energía) Carbohidratos Lípidos Porteínas Se han categorizado según terciles 104

105 Table of NTCARB by NTLIP NTCARB NTLIP Frequency Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total NTLIP Table of NTLIP by NTPROT NTPROT NTCARB Table of NTCARB by NTPROT NTPROT Frequency Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total Frequency Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total

106 proc freq data=glm6.coloncon noprint; tables ntcarb*ntlip*ntprot/out=dieta sparse; run; * efectos principales; proc genmod data=dieta; class ntcarb ntlip ntprot; model count= ntcarb ntlip ntprot /dist=p type3; run; * modelo saturado; proc genmod data=dieta; class ntcarb ntlip ntprot; model count= ntcarb ntlip ntprot /dist=p type3;run; * interacciones de orden 2 máximo; proc genmod data=dieta; class ntcarb ntlip ntprot; model count= ntcarb ntlip ntprot@2 /dist=p type3;run; 106

107 Efectos principales: (Categorías según terciles!) LR Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq NTCARB NTLIP NTPROT Modelo saturado: LR Statistics For Type 1 Analysis Chi- Source Deviance DF Square Pr > ChiSq Intercept NTCARB NTLIP NTCARB*NTLIP <.0001 NTPROT NTCARB*NTPROT <.0001 NTLIP*NTPROT <.0001 NTCARB*NTLIP*NTPROT

108 Modelo sin la interacción de 3er nivel LR Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq NTCARB NTLIP NTCARB*NTLIP NTPROT NTCARB*NTPROT NTLIP*NTPROT <.0001 Este modelo tiene muchos parámetros (18): es difícil de interpretar 108

109 Modelo con tendencias data dietat; set dieta; carb=ntcarb; prot=ntprot; lip=ntlip; proc genmod data=dietat; class ntcarb ntlip ntprot; model count= ntcarb ntlip ntprot carb*lip carb*prot lip*prot /dist=p type3; run; tendencias DF Deviance Log Likelihood categórico Deviance Log Likelihood Apenas se pierde ajuste por la diferencia en grados de libertad 109

110 Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept <.0001 NTCARB <.0001 NTCARB <.0001 NTCARB NTLIP <.0001 NTLIP <.0001 NTLIP NTPROT <.0001 NTPROT <.0001 NTPROT carb*lip carb*prot lip*prot <.0001 Scale LR Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq NTCARB <.0001 NTLIP <.0001 NTPROT <.0001 carb*lip <.0001 carb*prot <.0001 lip*prot <

111 Análisis de conteos Cualquier variable que se derive de contar unidades individuales es susceptible de ser estudiada con modelos de regresión de Poisson Ejemplos: Casos de cáncer en un territorio en un periodo Células con anomalías cromosómicas Accidentes de tráfico 111

112 Modelos para tasas Si las unidades de observación donde se ha realizado el conteo no son comparables por corresponder a diferente tamaño de muestra diferente duración del periodo de observación Se puede realizar una estandarización interna: modelos para tasas 112

113 offset tasa casos y = = personas tiempo ariesgo Nt log y = α + βx Nt lo g( y) = log( Nt ) + α + βx Queremos que log(n t) esté en el predictor, pero sin que se le estime un coeficiente (β=1) Se puede definir como un offset en el modelo 113

114 Caso 10. Modelo para tasas Estimación de la tendencia en la incidencia del cáncer de mama en Tarragona Variables: y: número de casos edat: grupo de edad (de 0 a 35 agrupado) per: año de diagnóstico (80-96) pob: población de cada año y grupo de edad 114

115 data mama; set glm6.mama; if edat<8 then edat=8; lpob=log(pob); per2=per*per; proc genmod data=mama; class edat; model y=edat per/dist=p offset=lpob type1; run; Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept <.0001 EDAT <.0001 EDAT <.0001 EDAT <.0001 EDAT <.0001 EDAT EDAT EDAT EDAT EDAT EDAT EDAT PER <.0001 Scale

116 Análisis de la desviación de la linealidad proc genmod data=mama; class edat; model x=edat per per2/dist=p offset=lpob type1; run; LR Statistics For Type 1 Analysis Chi- Source Deviance DF Square Pr > ChiSq Intercept EDAT <.0001 PER <.0001 per

117 Estimación del riesgo relativo RR: razón de tasas Cada año el aumento en log(tasa) = RR = exp(β) Porcentage de incremento anual: (RR -1)*100 Parameter RR LCL UCL PIA LCL_PIA UCL_PIA PER

118 proc genmod data=mama; class edat; model x=edat per /dist=p offset=lpob type1; ods output ParameterEstimates=Parms; run; data Parms; set Parms; RR=exp(Estimate); LCL=exp(LowerCL); UCL=exp(UpperCL); PIA=(RR-1)*100; LCL_PIA=(LCL-1)*100; UCL_PIA=(UCL-1)*100; format RR LCL UCL PIA LCL_PIA UCL_PIA f8.3 ; run; proc print data=parms noobs; var parameter RR LCL UCL PIA LCL_PIA UCL_PIA; where parameter='per'; run; 118

119 Análisis de la supervivencia Víctor Moreno 2004

120 Esquema Diseño de estudios de seguimiento Supervivencia: tiempo hasta un evento Censuras Funciones estadísticas Estimación de la probabilidad de sobrevivir Comparación de curvas de supervivencia

121 Diseño de un estudio prospectivo Estudio de cohortes (registros) Ensayo clínico Incio del estudio Fin del Reclutamiento Fin del Estudio 0 t 1 t 2 Reclutamiento Seguimiento

122 Variable de interés Tiempo hasta que ocurre un suceso tiempo tiempo entrada suceso Eventos: muerte: supervivencia recaída/metástasis: tiempo libre de enfermedad curación transplante

123 Std. Dev = Mean = N = TIEMPO Descriptive Statistics TIEMPO Valid N (listwise) N Minimum Maximum Mean Std. Skewness Kurtosis Statistic Statistic Statistic Statistic Deviation Statistic Statistic Std. Error Statistic Std. Error

124 Std. Dev = 1.33 Mean = 4.09 N = LOGT Descriptive Statistics LOGT Valid N (listwise) N Minimum Maximum Mean Std. Skewness Kurtosis Statistic Statistic Statistic Statistic Deviation Statistic Statistic Std. Error Statistic Std. Error

125 Datos Censurados Para algunos pacientes el evento de interés puede no haber ocurrido durante el tiempo de observación (t) Información incompleta: T>t Se necesitan dos variables para caracterizar los datos de supervivencia T: tiempo de observación δ: indicador del estado (binario)

126 Causas de censuras Final programado del estudio para el análisis Pérdidas de seguimiento Abandonos Muerte por otras causas diferentes de la de interés

127 Tipos de censura Tipo I. Todos los individuos se siguen hasta una fecha fin de estudio Por la derecha: Pacientes vivos al finalizar el estudio Pacientes perdidos o abandonos En intervalo: Las visitas de control son espaciadas Por la izquierda: Se desconoce la fecha de inicio Tipo II. Los individuos se siguen hasta que han ocurrido r eventos

128 Truncamiento Los individuos entran en el estudio por un criterio determinado y los que no cumplen el criterio no son visibles al investigador. Ejemplo: Interesa estudiar la edad al morir pero sólo se estudian ancianos de un asilo Inicio: edad al ingresar al asilo (truncamiento) Final: edad al morir Los muertos anteriores a la jubilación no pueden entrar en el asilo, por tanto los datos están truncados por la izquierda

129 Escalas de tiempo Calendario: Inicio a fin del estudio Tiempo del paciente en el estudio: entrada a salida (por muerte o censura) Otras escalas pueden ser de interés: edad en el momento actual duración de una exposición

130 patient calendar time

131 patient survival time

132 sorted patient survival time

133 Descripción de la supervivencia T es cuantitativa continua Descripción: Supervivencia: Probabilidad de sobrevivir t o más: S(t) = Pr (T t) Acumulativa Percentiles: tiempo que sobrevive una proporción de la población

134 Proporción que sobrevive t o más Survival probability S(5)= Survival time

135 Tiempo mediano de supervivencia Survival probability S(t)=0.5 median Survival time

136 Tiempo medio de supervivencia Media = área bajo S(t) No estimable si S(t) no llega a 0 Sesgado (T asimétrico) No es un buen resumen Survival probability Survival time

137 Función de distribución (de la mortalidad): F(t) Pr(morir en t o antes) : acumulada Ejemplos: Pr(morir a los 65 años o antes) Pr(recidivar a los 3 años o antes) F(t) = Pr(T t) Es equivalente a S(t): eventos acumulados

138 Función de distribución: F(t) F(t) Tiempo

139 Función densidad: f(t) Tasa de mortalidad instantánea en t Tiempo en el denominador (δ) f(t) δ = Pr(morir entre t y t+δ) Ejemplos: Pr(morir a los 65 años) Pr(tener un reinfarto a los 2 meses del 1º) Estimación: f(t) = lim δ 0 Pr(t T δ t + δ)

140

141 Función de riesgo (Hazard) Tasa de mortalidad en el momento (t a t+δ) condicional a estar vivo en t h(t) = lim δ 0 Pr(t T t δ + δ t T) Es una tasa de mortalidad instantánea: Tiempo en el denominador (δ) h(t) δ = Pr(morir entre t y t+δ vivo en t) Util para modelar la supervivencia

142 Riesgo integrado Tasa de mortalidad acumulada H( t) h( u)du = t Relacionada directamente con la función de supervivencia: 0 S(t) = exp(-h(t)) H(t) = -log(s(t))

143 Densidad: f(t) vs riesgo: h(t) Las dos son probabilidades instantáneas La diferencia es el denominador: densidad: toda la población riesgo: la población viva antes de t Ejemplo: f(65): Pr(morir a los 65,00-65,99 años) h(65): Pr(morir a los 65,00-65,99 años vivo a los 65) es mayor pues el denominador es menor

144 densidad: f(t) y riesgo: h(t) f(x) Tiempo h(x) Tiempo

145 Relaciones entre funciones h(t) S(t) f(t) S' (t) = = S(t) S(t) dlns(t) = dt = exp[ h(u)du] = exp[ H(t)] t 0

146 Estimación de S(t) Si no hay censuras función de supervivencia empírica: S ~ ( t) = Número de individuos que sobreviven Número de individuos en la muestra t S(t) es una función escalonada. Se mantiene ~ constante entre los tiempos de dos muertes adyacentes

147 Estimador de Kaplan-Meier de S(t) Se divide el tiempo en k intervalos de manera que cada intervalo acaba justo cuando un paciente (o varios si hay empates) muere o queda censurado d d d n 1 n 2 n k 1 2 k Para cada intervalo i = 1 k : n i están vivos al inicio d i mueren al final. d i suele ser 1, pero varios eventos pueden registrarse en el mismo tiempo por problemas de redondeo o es 0 si censura.

148 Probabilidad de morir en el intervalo, T (t i-1,t i ], condicional a estar vivo al inicio p i = d i / n i Probabilidad de sobrevivir al final de intervalo, T>t i, condicional a estar vivo al inicio s i = 1 - p i = 1 - d i / n i Como los intervalos son independientes, la probabilidad acumulada de sobrevivir t desde el tiempo 0 S(t) = t i= 1 s i = t ( ) i i= 1 1-p = t i= 1 di 1- ni

149 Cálculos de Kaplan-Meier Time n i d i c i 1 - d i / n i = s i S(t) / 20 = / 19 = / 17 = / 15 = / 14 = / 13 = / 12 = / 9 = / 6 = / 3 = / 2 =

150 Tiempo mediano de supervivencia Survival probability median Survival time

151 Precisión de S(t) El error estándar de S(t) se puede calcular para cada tiempo mediante la fórmula de Greenwood: ^ e.e S( t) ^ S( t) El intervalo de confianza al 95% se calcula de la manera usual: S(t) ± 1.96 e.e.{s(t)} k i= 1 di n (n d) i i i 1 2

152 Bandas de confianza para S(t)

153 IC 95% para S(t) Para valores de S(t) cercanos a 1 y 0 el IC podría contener valores no válidos para una probabilidad (<0 ó >1) Se debe calcular el e.e. De una transformación de S(t) logaritmo: log(s) logit: log-log: log{s/(1-s)} log{-log(s)}

154 log(s) Var{log(S)} ~ Var(S)/{S log(s)} 2 φ = ee{log(s)} = Var{logS} 1/2 = ee(s)/{slog(s)} IC 95% = S exp(±1.96φ)

155 Estimación de S(t) para datos agrupados. Método de la tabla de vida El tiempo se divide en bandas amplias, usualmente de tamaño fijo (3m, 6m, 1a) Para cada banda i = 1 k : n i están vivos al inicio d i mueren en la banda c i son censurados en la banda Las observaciones censuradas se supone que se distribuyen de manera uniforme a lo largo de la banda

156 Las personas a riesgo se ajustan para tener en cuenta las observaciones censuradas n i = n i - c i / 2 Probabilidad de morir en la banda, condicional a estar vivo al inicio p i = d i / n i Probabilidad de sobrevivir la banda, condicional a estar vivo al inicio s i = 1 - p i = 1 - d i / n i

Estudio de casos y controles sobre factores de riesgo en el cáncer colorrectal

Estudio de casos y controles sobre factores de riesgo en el cáncer colorrectal Estudio de casos y controles sobre factores de riesgo en el cáncer colorrectal Objetivos del estudio Estimar el riesgo de padecer cáncer colorrectal asociado a una serie de variables Población Casos Controles

Más detalles

1 Ejemplo de análisis descriptivo de un conjunto de datos

1 Ejemplo de análisis descriptivo de un conjunto de datos 1 Ejemplo de análisis descriptivo de un conjunto de datos 1.1 Introducción En este ejemplo se analiza un conjunto de datos utilizando herramientas de estadística descriptiva. El objetivo es repasar algunos

Más detalles

Modelos de regresión: lineal simple y regresión logística

Modelos de regresión: lineal simple y regresión logística 14 Modelos de regresión: lineal simple y regresión logística Irene Moral Peláez 14.1. Introducción Cuando se quiere evaluar la relación entre una variable que suscita especial interés (variable dependiente

Más detalles

1) Introducción *%+,"' -+%%.&+ '

1) Introducción *%+,' -+%%.&+ ' ! "#$%&'()'"&%% *%+,"' -+%%.&+ ' /#-+%%. # # % % 0 % 1"0)"2 $% 3#%"4%%+ 5# 6%%7#&&%"6 5%%8 79#1)#%+&:#% $ 5% + 1) Introducción Antes de abordar este documento es muy recomendable leer detenidamente su

Más detalles

Cómo obtener un Modelo de Regresión Logística Binaria con SPSS

Cómo obtener un Modelo de Regresión Logística Binaria con SPSS Universitat de de Barcelona. Institut de de Ciències de de l Educació Cómo obtener un Modelo de Regresión Logística Binaria con SPSS Vanesa Berlanga-Silvente y Ruth Vilà-Baños Fecha de presentación:

Más detalles

TEMA 4: Variables binarias

TEMA 4: Variables binarias TEMA 4: Variables binarias Econometría I M. Angeles Carnero Departamento de Fundamentos del Análisis Económico Curso 2011-12 Econometría I (UA) Tema 4: Variables binarias Curso 2011-12 1 / 51 Variables

Más detalles

Cómo hacer paso a paso un Análisis de Supervivencia con SPSS para Windows.

Cómo hacer paso a paso un Análisis de Supervivencia con SPSS para Windows. DOCUWEB FABIS Dot. Núm 0702006 Cómo hacer paso a paso un Análisis de Supervivencia con SPSS para Windows. Aguayo Canela M, Lora Monge E Servicio de Medicina Interna. Hospital Universitario Virgen Macarena.

Más detalles

Análisis de Regresión Múltiple con Información Cualitativa: Variables Binarias o Ficticias

Análisis de Regresión Múltiple con Información Cualitativa: Variables Binarias o Ficticias Análisis de Regresión Múltiple con Información Cualitativa: Variables Binarias o Ficticias Carlos Velasco 1 1 Departamento de Economía Universidad Carlos III de Madrid Econometría I Máster en Economía

Más detalles

ANÁLISIS DESCRIPTIVO CON SPSS

ANÁLISIS DESCRIPTIVO CON SPSS ESCUELA SUPERIOR DE INFORMÁTICA Prácticas de Estadística ANÁLISIS DESCRIPTIVO CON SPSS 1.- INTRODUCCIÓN Existen dos procedimientos básicos que permiten describir las propiedades de las distribuciones:

Más detalles

ESTADÍSTICA DESCRIPTIVA CON SPSS

ESTADÍSTICA DESCRIPTIVA CON SPSS ESTADÍSTICA DESCRIPTIVA CON SPSS (2602) Estadística Económica Joaquín Alegre y Magdalena Cladera SPSS es una aplicación para el análisis estadístico. En este material se presentan los procedimientos básicos

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión...

8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión... Tema 8 Análisis de dos variables: dependencia estadística y regresión Contenido 8.1. Introducción............................. 1 8.2. Dependencia/independencia estadística.............. 2 8.3. Representación

Más detalles

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL Objetivo terminal: Calcular e interpretar medidas de tendencia central para un conjunto de datos estadísticos. Objetivos específicos: 1. Mencionar las características

Más detalles

Conceptos básicos de estadística para clínicos

Conceptos básicos de estadística para clínicos Conceptos básicos de estadística para clínicos Víctor Abraira A Coruña. Noviembre 2008 Programa Valor p : qué significa? Aleatorización Pruebas de hipótesis para variables continuas Pruebas de hipótesis

Más detalles

(.$263*7.5"4+%#,"8..9$ $.$ - -. 7.# "4< $ 8 $ 7 "% @

(.$263*7.54+%#,8..9$ $.$ - -. 7.# 4< $ 8 $ 7 % @ !"#$%!& ' ($ 2 ))!"#$%& '$()!& *($$+%( & * $!" "!,"($"$ -(.$!- ""& +%./$$&,-,$,". - %#,"0# $!01 "23(.4 $4$"" ($" $ -.#!/ ". " " ($ "$%$(.$2.3!- - *.5.+%$!"$,"$ (.$263*7.5"4+%#,"8..9$ $.$ - $,"768$"%$,"$%$!":7#;

Más detalles

Puede considerarse un caso especial de l análisis de regresión en donde la variable dependiente es dicotómica («Sí» [1] o «No» [0])

Puede considerarse un caso especial de l análisis de regresión en donde la variable dependiente es dicotómica («Sí» [1] o «No» [0]) Regresión logística Puede considerarse un caso especial de l análisis de regresión en donde la variable dependiente es dicotómica («Sí» [1] o «No» [0]) Se trata de calcular la probabilidad en la que una

Más detalles

ESTIMACIÓN. puntual y por intervalo

ESTIMACIÓN. puntual y por intervalo ESTIMACIÓN puntual y por intervalo ( ) Podemos conocer el comportamiento del ser humano? Podemos usar la información contenida en la muestra para tratar de adivinar algún aspecto de la población bajo estudio

Más detalles

Covarianza y coeficiente de correlación

Covarianza y coeficiente de correlación Covarianza y coeficiente de correlación Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también

Más detalles

Análisis de supervivencia

Análisis de supervivencia 16 Análisis de supervivencia Ágata Carreño Serra 16.1. Introducción En variados estudios nuestro objetivo consiste en estimar el tiempo transcurrido hasta un suceso en concreto, dependiendo de otras variables

Más detalles

El modelo Ordinal y el modelo Multinomial

El modelo Ordinal y el modelo Multinomial El modelo Ordinal y el modelo Multinomial Microeconomía Cuantitativa R. Mora Departmento de Economía Universidad Carlos III de Madrid Esquema Motivación 1 Motivación 2 3 Motivación Consideramos las siguientes

Más detalles

Regresión Polinomial y Regresión Logística

Regresión Polinomial y Regresión Logística MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 1 Regresión Polinomial y Regresión Logística M.L. Gámiz Pérez Departamento Estadística e Inv. Operativa

Más detalles

Los valores de las respuesta son las puntuaciones que, de cada individuo, o cluster, obtenemos semanalmente durante cinco semanas consecutivas:

Los valores de las respuesta son las puntuaciones que, de cada individuo, o cluster, obtenemos semanalmente durante cinco semanas consecutivas: Sobre los modelos lineales mixtos Ejemplo: Recuperación de infarto. Para estudiar las diferencias entre dos procedimientos diferentes de recuperación de pacientes de un infarto, se consideraron dos grupos

Más detalles

ESTUDIO COMPARATIVO DE MODELOS FLEXIBLES DE DISCRIMINACIÓN DE LA CIRROSIS EN PACIENTES CON AFECTACIÓN HEPÁTICA

ESTUDIO COMPARATIVO DE MODELOS FLEXIBLES DE DISCRIMINACIÓN DE LA CIRROSIS EN PACIENTES CON AFECTACIÓN HEPÁTICA VI Congreso Galego de Estatística e Investigación de Operacións Vigo 5-7 de Novembro de 2003 ESTUDIO COMPARATIVO DE MODELOS FLEXIBLES DE DISCRIMINACIÓN DE LA CIRROSIS EN PACIENTES CON AFECTACIÓN HEPÁTICA

Más detalles

Estimación de una probabilidad

Estimación de una probabilidad Estimación de una probabilidad Introducción En general, la probabilidad de un suceso es desconocida y debe estimarse a partir de una muestra representativa. Para ello, deberemos conocer el procedimiento

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

Medidas de tendencia central o de posición: situación de los valores alrededor

Medidas de tendencia central o de posición: situación de los valores alrededor Tema 10: Medidas de posición y dispersión Una vez agrupados los datos en distribuciones de frecuencias, se calculan unos valores que sintetizan la información. Estudiaremos dos grandes secciones: Medidas

Más detalles

ANÁLISIS DE ENCUESTAS

ANÁLISIS DE ENCUESTAS ANÁLISIS DE ENCUESTAS TÉCNICAS MULTIVARIANTES 1. Introducción 2. Clasificación de las técnicas 3. Etapas de análisis 4. Supuestos básicos 5. Valores perdidos y anómalos introducción Definición. i ió -

Más detalles

Tema 1: Test de Distribuciones de Probabilidad

Tema 1: Test de Distribuciones de Probabilidad Tema 1: Test de Distribuciones de Probabilidad 1.- Una compañía de seguros tiene 1000 asegurados en el ramo de accidentes. Si la el modelo mejor para el número de siniestros en un año es: a) Normal (5;,3).

Más detalles

Statgraphics Centurión

Statgraphics Centurión Facultad de Ciencias Económicas y Empresariales. Universidad de Valladolid 1 Statgraphics Centurión I.- Nociones básicas El paquete Statgraphics Centurión es un programa para el análisis estadístico que

Más detalles

REGRESIÓN LINEAL MÚLTIPLE

REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN LINEAL MÚLTIPLE.- Planteamiento general....- Métodos para la selección de variables... 5 3.- Correlaciones parciales y semiparciales... 8 4.- Multicolinealidad en las variables explicativas...

Más detalles

DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT

DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT REACCIONES ADVERSAS DE LOS MEDICAMENTOS Los fármacos por naturaleza

Más detalles

Anexo 12-a. Plantillas de lectura crítica del SIGN

Anexo 12-a. Plantillas de lectura crítica del SIGN Anexo 12-a. Plantillas de lectura crítica del SIGN Plantilla de Lectura crítica nº 1: Ensayo clínico aleatorizado (ECA) Identificación del estudio (Referencia bibliográfica del estudio, formato Vancouver)

Más detalles

Cómo hacer una Regresión Logística con SPSS paso a paso. (I)

Cómo hacer una Regresión Logística con SPSS paso a paso. (I) DOCUWEB FABIS Dot. Núm 070202 Cómo hacer una Regresión Logística con SPSS paso a paso. (I) Aguayo Canela, Mariano. Servicio de Medicina Interna. Hospital Universitario Virgen Macarena. Sevilla Resumen

Más detalles

EJERCICIOS PROPUESTOS - ANÁLISIS DE REGRESION MULTIPLE

EJERCICIOS PROPUESTOS - ANÁLISIS DE REGRESION MULTIPLE EJERCICIOS PROPUESTOS - ANÁLISIS DE REGRESION MULTIPLE. En un estudio diseñado para analizar l efect de añadir avena a la dieta estadounidense tradicional, se dividieron aleatoriamente l individu en d

Más detalles

Aplicaciones de Estadística Descriptiva

Aplicaciones de Estadística Descriptiva Aplicaciones de Estadística Descriptiva Contenidos de la presentación Funciones estadísticas en Excel. Gráficos. El módulo de análisis de datos y las tablas dinámicas de Excel. Información Intentaremos

Más detalles

DISEÑOS DE INVESTIGACIÓN

DISEÑOS DE INVESTIGACIÓN DISEÑOS DE INVESTIGACIÓN María a Eugenia Mackey Estadística stica Centro Rosarino de Estudios Perinatales El diseño de un estudio es la estrategia o plan utilizado para responder una pregunta, y es la

Más detalles

ANÁLISIS DE DATOS NO NUMERICOS

ANÁLISIS DE DATOS NO NUMERICOS ANÁLISIS DE DATOS NO NUMERICOS ESCALAS DE MEDIDA CATEGORICAS Jorge Galbiati Riesco Los datos categóricos son datos que provienen de resultados de experimentos en que sus resultados se miden en escalas

Más detalles

Regresión de Poisson

Regresión de Poisson Regresión de Poisson -- Si la estructura de los errores es realmente de Poisson, entonces: devianza residual / grados de libertad residuales = 1 si el cociente es mayor que 1 estamos ante el fenómeno (incómodo)

Más detalles

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas. El primer paso en el diseño de una base de datos es la producción del esquema conceptual. Normalmente, se construyen varios esquemas conceptuales, cada uno para representar las distintas visiones que los

Más detalles

En la presente investigación, se contrastará el modelo propuesto en la. investigación de Marisa Bucheli y Carlos Casacubierta, Asistencia escolar y

En la presente investigación, se contrastará el modelo propuesto en la. investigación de Marisa Bucheli y Carlos Casacubierta, Asistencia escolar y Capítulo 2.- Metodología En la presente investigación, se contrastará el modelo propuesto en la investigación de Marisa Bucheli y Carlos Casacubierta, Asistencia escolar y Participación en el mercado de

Más detalles

Fundamentos de Biología Aplicada I Estadística Curso 2011-2012 Práctica 6: Regresión Logística I

Fundamentos de Biología Aplicada I Estadística Curso 2011-2012 Práctica 6: Regresión Logística I Fundamentos de Biología Aplicada I Estadística Curso 2011-2012 Índice 1. Objetivos de la práctica 2 2. Estimación de un modelo de regresión logística con SPSS 2 2.1. Ajuste de un modelo de regresión logística.............................

Más detalles

La metodologia Cuantitativa. Encuestas y muestras

La metodologia Cuantitativa. Encuestas y muestras La metodologia Cuantitativa. Encuestas y muestras Técnicas «cuantitativas» y «cualitativas» «Las técnicas cuantitativas»: Recogen la información mediante cuestiones cerradas que se planteal sujeto de forma

Más detalles

Se podría entender como una matriz de filas y columnas. Cada combinación de fila y columna se denomina celda. Por ejemplo la celda A1, B33, Z68.

Se podría entender como una matriz de filas y columnas. Cada combinación de fila y columna se denomina celda. Por ejemplo la celda A1, B33, Z68. Departamento de Economía Aplicada: UDI de Estadística. Universidad Autónoma de Madrid Notas sobre el manejo de Excel para el análisis descriptivo y exploratorio de datos. (Descriptiva) 1 1 Introducción

Más detalles

Capítulo 17 Análisis de correlación lineal: Los procedimientos Correlaciones bivariadas y Correlaciones parciales

Capítulo 17 Análisis de correlación lineal: Los procedimientos Correlaciones bivariadas y Correlaciones parciales Capítulo 17 Análisis de correlación lineal: Los procedimientos Correlaciones bivariadas y Correlaciones parciales Cuando se analizan datos, el interés del analista suele centrarse en dos grandes objetivos:

Más detalles

1.1. Introducción y conceptos básicos

1.1. Introducción y conceptos básicos Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................

Más detalles

Práctica 5. Contrastes paramétricos en una población

Práctica 5. Contrastes paramétricos en una población Práctica 5. Contrastes paramétricos en una población 1. Contrastes sobre la media El contraste de hipótesis sobre una media sirve para tomar decisiones acerca del verdadero valor poblacional de la media

Más detalles

CORRELACIONES CON SPSS

CORRELACIONES CON SPSS ESCUEL SUPERIOR DE INFORMÁTIC Prácticas de Estadística CORRELCIONES CON SPSS 1.- INTRODUCCIÓN El concepto de relación o correlación entre dos variables se refiere al grado de parecido o variación conjunta

Más detalles

Documento diseño de evaluación en términos de comparabilidad entre grupos de tratamiento y control

Documento diseño de evaluación en términos de comparabilidad entre grupos de tratamiento y control SEPTIEMBRE 2012 Tercer Informe Documento diseño de evaluación en términos de comparabilidad entre grupos de tratamiento y control ÍNDICE 1. Introducción...4 2. La base de datos del PRONABES....5 3. Selección

Más detalles

TEMA 4: Introducción al Control Estadístico de Procesos

TEMA 4: Introducción al Control Estadístico de Procesos TEMA 4: Introducción al Control Estadístico de Procesos 1 Introducción 2 Base estadística del diagrama de control 3 Muestreo y agrupación de datos 4 Análisis de patrones en diagramas de control 1. Introducción

Más detalles

DIPLOMADO EN RELACIONES LABORALES Estadística Asistida por Ordenador Curso 2008-2009

DIPLOMADO EN RELACIONES LABORALES Estadística Asistida por Ordenador Curso 2008-2009 Índice general 6. Regresión Múltiple 3 6.1. Descomposición de la variabilidad y contrastes de hipótesis................. 4 6.2. Coeficiente de determinación.................................. 5 6.3. Hipótesis

Más detalles

Hay diferencias en la media del HOMA entre los diabéticos y los no diabéticos? Resumen del procesamiento de los casos

Hay diferencias en la media del HOMA entre los diabéticos y los no diabéticos? Resumen del procesamiento de los casos Test de hipótesis t de Student Hay diferencias en la media del HOMA entre los diabéticos y los no diabéticos? Resumen del procesamiento de los casos HOMA Casos Válidos Perdidos Total N Porcentaje N Porcentaje

Más detalles

Nure Investigación Nº 63 Marzo - Abril 2013. Lectura crítica de un artículo científico V: La valoración de la relevancia clínica

Nure Investigación Nº 63 Marzo - Abril 2013. Lectura crítica de un artículo científico V: La valoración de la relevancia clínica Nure Investigación Nº 63 Marzo - Abril 2013 Lectura crítica de un artículo científico V: La valoración de la relevancia clínica Critical reading of a scientific paper V: Assessing the clinical significance

Más detalles

Confusión e interacción (1): Qué son, qué suponen y cómo manejarlas en el análisis estratificado

Confusión e interacción (1): Qué son, qué suponen y cómo manejarlas en el análisis estratificado DocuWeb FABIS Dot. Núm 0702007 Confusión e interacción (1): Qué son, qué suponen y cómo manejarlas en el análisis estratificado Aguayo Canela, Mariano Hospital Universitario Virgen Macarena. Sevilla Resumen

Más detalles

Técnicas Cuantitativas para el Management y los Negocios

Técnicas Cuantitativas para el Management y los Negocios Segundo cuatrimestre - 4 Técnicas Cuantitativas para el Management y los Negocios Mag. María del Carmen Romero 4 romero@econ.unicen.edu.ar Módulo III: APLICACIONES Contenidos Módulo III Unidad 9. Análisis

Más detalles

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de CAPITULO 4 JUSTIFICACION DEL ESTUDIO En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de estudios previos y los alcances que justifican el presente estudio. 4.1. Justificación.

Más detalles

Práctica 2. Estadística Descriptiva

Práctica 2. Estadística Descriptiva Práctica 2. Estadística Descriptiva Ejercicio 1 Mucha gente manifiesta reacciones de alergia sistémica a las picaduras de insectos. Estas reacciones varían de paciente a paciente, no sólo en cuanto a gravedad,

Más detalles

Tests de hipótesis estadísticas

Tests de hipótesis estadísticas Tests de hipótesis estadísticas Test de hipótesis sobre la media de una población. Introducción con un ejemplo. Los tests de hipótesis estadísticas se emplean para muchos problemas, en particular para

Más detalles

TEMA 7: Análisis de la Capacidad del Proceso

TEMA 7: Análisis de la Capacidad del Proceso TEMA 7: Análisis de la Capacidad del Proceso 1 Introducción Índices de capacidad 3 Herramientas estadísticas para el análisis de la capacidad 4 Límites de tolerancia naturales 1 Introducción La capacidad

Más detalles

I1.1 Estudios observacionales IISESIÓN DISEÑO O DE ESTUDIOS EN INVESTIGACIÓN N MÉDICA DESCRIPTIVA CURSO DE. 1.2 Estudios experimentales

I1.1 Estudios observacionales IISESIÓN DISEÑO O DE ESTUDIOS EN INVESTIGACIÓN N MÉDICA DESCRIPTIVA CURSO DE. 1.2 Estudios experimentales 1 2 3 4 5 6 ESQUEMA DEL CURSO ESTADÍSTICA BÁSICA DISEÑO DE EXPERIMENTOS CURSO DE ESTADÍSTICA STICA BÁSICAB ESTADÍSTICA DESCRIPTIVA TIPOS DE VARIABLES MEDIDAS DE POSICIÓN CENTRAL Y DE DISPERSIÓN TABLAS

Más detalles

Diagnosis y Crítica del modelo -Ajuste de distribuciones con Statgraphics-

Diagnosis y Crítica del modelo -Ajuste de distribuciones con Statgraphics- Diagnosis y Crítica del modelo -Ajuste de distribuciones con Statgraphics- 1. Introducción Ficheros de datos: TiempoaccesoWeb.sf3 ; AlumnosIndustriales.sf3 El objetivo de esta práctica es asignar un modelo

Más detalles

Tema 1 con soluciones de los ejercicios. María Araceli Garín

Tema 1 con soluciones de los ejercicios. María Araceli Garín Tema 1 con soluciones de los ejercicios María Araceli Garín Capítulo 1 Introducción. Probabilidad en los modelos estocásticos actuariales Se describe a continuación la Tarea 1, en la que se enumeran un

Más detalles

MATEMÁTICAS ESO EVALUACIÓN: CRITERIOS E INSTRUMENTOS CURSO 2014-2015 Colegio B. V. María (Irlandesas) Castilleja de la Cuesta (Sevilla) Página 1 de 7

MATEMÁTICAS ESO EVALUACIÓN: CRITERIOS E INSTRUMENTOS CURSO 2014-2015 Colegio B. V. María (Irlandesas) Castilleja de la Cuesta (Sevilla) Página 1 de 7 Página 1 de 7 1 CRITERIOS DE EVALUACIÓN 1.1 SECUENCIA POR CURSOS DE LOS CRITERIOS DE EVALUACION PRIMER CURSO 1. Utilizar números naturales y enteros y fracciones y decimales sencillos, sus operaciones

Más detalles

Análisis y cuantificación del Riesgo

Análisis y cuantificación del Riesgo Análisis y cuantificación del Riesgo 1 Qué es el análisis del Riesgo? 2. Métodos M de Análisis de riesgos 3. Método M de Montecarlo 4. Modelo de Análisis de Riesgos 5. Qué pasos de deben seguir para el

Más detalles

Análisis de Regresión y Correlación con MINITAB

Análisis de Regresión y Correlación con MINITAB Análisis de Regresión y Correlación con MINITAB Primeras definiciones y conceptos de la regresión El análisis de la regresión es una técnica estadística que se utiliza para estudiar la relación entre variables

Más detalles

MODELO PREDICTIVO DE RIESGO DE MOROSIDAD PARA CRÉDITOS BANCARIOS USANDO DATOS SIMULADOS

MODELO PREDICTIVO DE RIESGO DE MOROSIDAD PARA CRÉDITOS BANCARIOS USANDO DATOS SIMULADOS INVESTIGACIÓN MODELO PREDICTIVO DE RIESGO DE MOROSIDAD PARA CRÉDITOS BANCARIOS USANDO DATOS SIMULADOS CLAUDIO ALFREDO LÓPEZ MIRANDA Un problema grave en las instituciones de crédito son los préstamos no

Más detalles

Distribución porcentual de consumidores de alcohol por patrón de consumo de alcohol según sexo, 1998. Patrón de consumo Hombres Mujeres

Distribución porcentual de consumidores de alcohol por patrón de consumo de alcohol según sexo, 1998. Patrón de consumo Hombres Mujeres CONSUMIDORES DE ALCOHOL POR PATRÓN DE CONSUMO El patrón de consumo de alcohol combina el número de copas consumidas con el lapso de tiempo durante el cual se consumen, para clasificar a la población. Distinguir

Más detalles

Matemáticas 2º BTO Aplicadas a las Ciencias Sociales

Matemáticas 2º BTO Aplicadas a las Ciencias Sociales Matemáticas 2º BTO Aplicadas a las Ciencias Sociales CONVOCATORIA EXTRAORDINARIA DE JUNIO 2014 MÍNIMOS: No son contenidos mínimos los señalados como de ampliación. I. PROBABILIDAD Y ESTADÍSTICA UNIDAD

Más detalles

CORRELACIÓN Y PREDICIÓN

CORRELACIÓN Y PREDICIÓN CORRELACIÓN Y PREDICIÓN 1. Introducción 2. Curvas de regresión 3. Concepto de correlación 4. Regresión lineal 5. Regresión múltiple INTRODUCCIÓN: Muy a menudo se encuentra en la práctica que existe una

Más detalles

Inferencia Estadística

Inferencia Estadística EYP14 Estadística para Construcción Civil 1 Inferencia Estadística El campo de la inferencia estadística está formado por los métodos utilizados para tomar decisiones o para obtener conclusiones sobre

Más detalles

8. Estimación puntual

8. Estimación puntual 8. Estimación puntual Estadística Ingeniería Informática Curso 2009-2010 Estadística (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 1 / 30 Contenidos 1 Introducción 2 Construcción de estimadores

Más detalles

ANEXOS. 1) Modelo Probit.

ANEXOS. 1) Modelo Probit. ANEXOS 1) Modelo Probit. Estos modelos pertenecen a los modelos de respuesta binaria 1, es decir, la variable dependiente es una variable dicotómica, donde toma 1 para indicar el éxito en la variable de

Más detalles

TEMA 7 ANÁLISIS DE DATOS: INTRODUCCIÓN AL SPSS

TEMA 7 ANÁLISIS DE DATOS: INTRODUCCIÓN AL SPSS TEMA 7 ANÁLISIS DE DATOS: INTRODUCCIÓN AL SPSS 1. Introducción 2. Definición de variables 3. Introducción de los datos 4. Análisis de los datos 5. Otras utilidades 1. INTRODUCCIÓN El SPSS es un paquete

Más detalles

Eduardo Kido 26-Mayo-2004 ANÁLISIS DE DATOS

Eduardo Kido 26-Mayo-2004 ANÁLISIS DE DATOS ANÁLISIS DE DATOS Hoy día vamos a hablar de algunas medidas de resumen de datos: cómo resumir cuando tenemos una serie de datos numéricos, generalmente en variables intervalares. Cuando nosotros tenemos

Más detalles

Estadística con Excel Informática 4º ESO ESTADÍSTICA CON EXCEL

Estadística con Excel Informática 4º ESO ESTADÍSTICA CON EXCEL 1. Introducción ESTADÍSTICA CO EXCEL La estadística es la rama de las matemáticas que se dedica al análisis e interpretación de series de datos, generando unos resultados que se utilizan básicamente en

Más detalles

Plan de estudios ISTQB: Nivel Fundamentos

Plan de estudios ISTQB: Nivel Fundamentos Plan de estudios ISTQB: Nivel Fundamentos Temario 1. INTRODUCCIÓN 2. FUNDAMENTOS DE PRUEBAS 3. PRUEBAS A TRAVÉS DEL CICLO DE VIDA DEL 4. TÉCNICAS ESTÁTICAS 5. TÉCNICAS DE DISEÑO DE PRUEBAS 6. GESTIÓN DE

Más detalles

Análisis de Tablas de Contingencia:Capítulo 2 Modelos Log-lineales

Análisis de Tablas de Contingencia:Capítulo 2 Modelos Log-lineales Análisis de Tablas de Contingencia:Capítulo 2 Modelos Log-lineales Capítulo 2 1. Introducción Los modelos Log-lineales, también denominados modelos lineales logarítmicos y modelos log-linear, se presentan

Más detalles

Test de hipótesis. Si H0 es cierta el estadístico. sigue una distribución t de Student con n grados de libertad: s n

Test de hipótesis. Si H0 es cierta el estadístico. sigue una distribución t de Student con n grados de libertad: s n Un diseño experimental que se utiliza muy a menudo es el de un grupo control y uno de tratamiento. En el caso de que los datos sean cuantitativos y sigan una distribución normal, la hipótesis de interés

Más detalles

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Introducción Las Compañías aseguradoras determinan sus precios basadas en modelos y en información histórica

Más detalles

Procedimientos para agrupar y resumir datos

Procedimientos para agrupar y resumir datos Procedimientos para agrupar y resumir datos Contenido Introducción Presentación de los primeros n valores Uso de funciones de agregado 4 Fundamentos de GROUP BY 8 Generación de valores de agregado dentro

Más detalles

BASES Y DIMENSIÓN. Propiedades de las bases. Ejemplos de bases.

BASES Y DIMENSIÓN. Propiedades de las bases. Ejemplos de bases. BASES Y DIMENSIÓN Definición: Base. Se llama base de un espacio (o subespacio) vectorial a un sistema generador de dicho espacio o subespacio, que sea a la vez linealmente independiente. β Propiedades

Más detalles

DISCOS RAID. Se considera que todos los discos físicos tienen la misma capacidad, y de no ser así, en el que sea mayor se desperdicia la diferencia.

DISCOS RAID. Se considera que todos los discos físicos tienen la misma capacidad, y de no ser así, en el que sea mayor se desperdicia la diferencia. DISCOS RAID Raid: redundant array of independent disks, quiere decir conjunto redundante de discos independientes. Es un sistema de almacenamiento de datos que utiliza varias unidades físicas para guardar

Más detalles

Parámetros y estadísticos

Parámetros y estadísticos Parámetros y estadísticos «Parámetro»: Es una cantidad numérica calculada sobre una población y resume los valores que esta toma en algún atributo Intenta resumir toda la información que hay en la población

Más detalles

ASOCIACIÓN LINEAL ENTRE VARIABLES CUANTITATIVAS: la correlación de Pearson

ASOCIACIÓN LINEAL ENTRE VARIABLES CUANTITATIVAS: la correlación de Pearson ASOCIACIÓN LINEAL ENTRE VARIABLES CUANTITATIVAS: la correlación de Pearson 3datos 2011 Análisis BIVARIADO de variables cuantitativas OBJETIVO DETERMINAR 1º) si existe alguna relación entre las variables;

Más detalles

ANÁLISIS DISCRIMINANTE

ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE 1. Introducción 2. Etapas 3. Caso práctico Análisis de dependencias introducción varias relaciones una relación 1 variable dependiente > 1 variable dependiente

Más detalles

EVALUACIÓN N DE LA VALIDEZ DE PRUEBAS DIAGNÓSTICAS

EVALUACIÓN N DE LA VALIDEZ DE PRUEBAS DIAGNÓSTICAS EVALUACIÓN N DE LA VALIDEZ DE PRUEBAS DIAGNÓSTICAS César Gutiérrez Villafuerte Sección n de Epidemiología a y Estadística stica Facultad de Medicina UNMSM Lima, marzo de 2006 Tuberculosis pulmonar Cáncer

Más detalles

6 ANÁLISIS DE INDEPENDENCIA O ASOCIACIÓN ENTRE DOS ATRIBUTOS

6 ANÁLISIS DE INDEPENDENCIA O ASOCIACIÓN ENTRE DOS ATRIBUTOS 6 ANÁLISIS DE INDEPENDENCIA O ASOCIACIÓN ENTRE DOS ATRIBUTOS Esquema del capítulo Objetivos 6.1. 6.. 6.3. 6.4. ANÁLISIS DE INDEPENDENCIA O ASOCIACIÓN ENTRE DOS ATRIBUTOS COEFICIENTES DE CONTINGENCIA LA

Más detalles

UNEDpSI: Un programa didáctico de análisis de datos en Psicología. Área Temática: Universidades virtuales y centros de educación a distancia.

UNEDpSI: Un programa didáctico de análisis de datos en Psicología. Área Temática: Universidades virtuales y centros de educación a distancia. UNEDpSI: Un programa didáctico de análisis de datos en Psicología. Área Temática: Universidades virtuales y centros de educación a distancia. Ángel Villarino y Pedro Rodríguez-Miñón. (avillarino@psi.uned.es

Más detalles

BREVE MANUAL DE SOLVER

BREVE MANUAL DE SOLVER BREVE MANUAL DE SOLVER PROFESOR: DAVID LAHOZ ARNEDO PROGRAMACIÓN LINEAL Definición: Un problema se define de programación lineal si se busca calcular el máximo o el mínimo de una función lineal, la relación

Más detalles

TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones.

TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones. TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones. La herramienta que nos indica si el proceso está o no controlado o Estado de Control son

Más detalles

Técnicas de valor presente para calcular el valor en uso

Técnicas de valor presente para calcular el valor en uso Normas Internacionales de Información Financiera NIC - NIIF Guía NIC - NIIF NIC 36 Fundación NIC-NIIF Técnicas de valor presente para calcular el valor en uso Este documento proporciona una guía para utilizar

Más detalles

Desigualdades socio-económicas en la supervivencia a cáncer colorectal

Desigualdades socio-económicas en la supervivencia a cáncer colorectal Desigualdades socio-económicas en la supervivencia a cáncer colorectal Daniel Jurado, Luisa Bravo, Esther de Vries & María Clara Yépez Centro de Estudios en Salud- CESUN Universidad de Nariño INTRODUCCIÓN

Más detalles

Tema 3. Comparaciones de dos poblaciones

Tema 3. Comparaciones de dos poblaciones Tema 3. Comparaciones de dos poblaciones Contenidos Hipótesis para la diferencia entre las medias de dos poblaciones: muestras pareadas Hipótesis para la diferencia entre las medias de dos poblaciones:

Más detalles

Grado en Ingeniería. Estadística. Tema 3

Grado en Ingeniería. Estadística. Tema 3 Grado en Ingeniería Asignatura: Estadística Tema 3. Control Estadístico de Procesos (SPC) Control Estadístico de Procesos (SPC) Introducción Variabilidad de un proceso de fabricación Causas asignables

Más detalles

Los modelos que permite construir el ANOVA pueden ser reducidos a la siguiente forma:

Los modelos que permite construir el ANOVA pueden ser reducidos a la siguiente forma: Ignacio Martín Tamayo 25 Tema: ANÁLISIS DE VARIANZA CON SPSS 8.0 ÍNDICE --------------------------------------------------------- 1. Modelos de ANOVA 2. ANOVA unifactorial entregrupos 3. ANOVA multifactorial

Más detalles

10. DISEÑOS EXPERIMENTALES

10. DISEÑOS EXPERIMENTALES 10. DISEÑOS EXPERIMENTALES Dr. Edgar Acuña http://math.uprm.edu/~edgar UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ Diseños Experimentales de Clasificación Simple En un diseño experimental

Más detalles

TEMA 5 VALIDEZ DE LA INVESTIGACIÓN (II): Validez de conclusión estadística

TEMA 5 VALIDEZ DE LA INVESTIGACIÓN (II): Validez de conclusión estadística TEMA 5 VALIDEZ DE LA INVESTIGACIÓN (II): Validez de conclusión estadística 1 TAMAÑO DEL EFECTO 2 TAMAÑO DEL EFECTO vel tamaño del efecto es el nombre dado a una familia de índices que miden la magnitud

Más detalles

QUERCUS PRESUPUESTOS MANUAL DEL USO

QUERCUS PRESUPUESTOS MANUAL DEL USO QUERCUS PRESUPUESTOS MANUAL DEL USO 2 Tabla de Contenido 1 Introducción 1 1.1 General 1 1.1.1 Que es Quercus Presupuestos? 1 1.1.2 Interfaz 1 1.1.3 Árbol de Navegación 2 1.1.4 Estructura de Datos de un

Más detalles

IBM SPSS Regression 20

IBM SPSS Regression 20 IBM SPSS Regression 20 Nota: Antes de utilizar esta información y el producto que admite, lea la información general en Avisos el p. 46. Esta edición se aplica a IBM SPSS Statistics 20 y a todas las versiones

Más detalles

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos Descargado desde www.medwave.cl el 13 Junio 2011 por iriabeth villanueva Medwave. Año XI, No. 2, Febrero 2011. ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos Autor:

Más detalles

Introducción. Métodos

Introducción. Métodos Factor de riesgo en aumento En este estudio se analiza la relación entre la obesidad y el riesgo de cáncer de distintas localizaciones en individuos de diferentes razas, y si existen diferencias entre

Más detalles