Modelos Lineales Generalizados. Víctor Moreno 2004
|
|
- José Ángel Velázquez Cabrera
- hace 8 años
- Vistas:
Transcripción
1 Modelos Lineales Generalizados Víctor Moreno
2 Esquema Teoría estadística avanzada: Modelos lineales generalizados. Función de verosimilitud. Prueba de la razón de verosimilitud. Aproximaciones cuadráticas: test del "score" y test de Wald. Modelos para proporciones. Regresión logística. Pruebas de asociación y de tendencia. Control de la confusión. Exploración de interacciones. Bondad de ajuste Aplicaciones específicas: Análisis de casos y controles. Modelo logístico condicional Generación de escalas de pronóstico. Valoración de la capacidad predictiva. Análisis discriminante logístico. Regresión logística politómica: Regresión multinomial Modelos ordinales 2
3 Modelo lineal de regresión E( y x) = α + βx y 2 N( µσ, ) y cuantitativa continua R: {-, + } No hay restricciones sobre X 3
4 Análisis de respuesta binaria Nos interesa un modelo de regresión: E( y x) = α + βx Y: la variable respuesta es binaria: { 1 : evento Y = 0 :no evento Si se agrupan los datos, E(y x) = µ = Σy/n = p : proporción de eventos Modelo para proporciones 4
5 ML general para respuestas binarias p {0,1}, difícilmente normal además no queremos restricciones sobre los parámetros α,β sin ellas, el modelo lineal podría generar predicciones imposibles para p 5
6 Modelos lineales generalizados Extensión del modelo lineal para acomodar: Respuesta con distribución no normal Transformaciones linearizantes Componentes del modelo: Respuesta (Y) observada en unidades independientes con valores fijos de variables explicativas (X) Las variables X afectan la respuesta según un modelo lineal: η = β x β x 1 1 p p 6
7 Puede ser necesario transformar la respuesta para conseguir linealidad: η=g(µ) µ: valor medio de la respuesta La distribución de probabilidad de la respuesta pertenece a la familia exponencial: Transformación g(µ) Normal identidad: = Binomial logit: log(µ/{1 µ }) Poisson log(µ) Gamma inversa: -1/µ 7
8 Utilidad de cada distribución Normal: Binomial: Cuantitativa continua > Regresión lineal Binaria (proporciones) > Regresión logística Poisson: Recuento (discreta >=0 ) > Regresión Poisson / Log-lineal Gamma: Cuantitativa contínua > 0 8
9 Interés de los MLG Comparten la teoría estadística necesaria para: Estimar los coeficientes y sus varianzas Máxima verosimilidtud, mediante iteraciones de ajustes por mínimos cuadrados ponderados Tests de hipótesis sobre coeficientes Análisis de varianza / deviance (desvianza) Tests de bondad de ajuste del modelo R 2 y equivalentes no lineales 9
10 Modelo logístico µ log 1-µ = α + β x β x 1 1 p p Y: la variable respuesta es binaria: { 1 : evento Y = 0 :no evento Si se agrupan los datos, µ: proporción de eventos µ = p = Σy/n Modelo para proporciones 10
11 Función logística z y e = log f ( z) = z y = z e 1+ e z f(z) z 11
12 Propiedades f(z) siempre entre 0 y 1 => Útil para modelar proporciones Permite valores de z entre - y + => Cualquier valor del predictor lineal Simétrica alrededor de 0: z f(z) 1-f(z) Entre -2 y 2 es casi lineal y varía un 80% 12
13 Predicciones del modelo { 1 : evento Y = 0 :no evento Pr(y=1 x,...,x )= 1+e α β 1 k -( + x+...+ β x) k k 13
14 Otras transformaciones Probit: Φ -1 (p) Complementario log-log: log(-log(1-p)) Pr(z) logit cloglog probit z 14
15 Condiciones para aplicar el modelo Observaciones independientes si hay dependencia se genera sobredispersión La varianza de p: var(p) = p(1-p) se puede modelar var(p) = φp(1-p) Si se estudia la aparición de un evento, el tiempo de seguimiento debe ser igual para todos los individuos. Se puede modelar mortalidad al año, pero no puede haber censuras. 15
16 Ejemplos de aplicación Estudios de casos y controles P(ser caso X:factores de riesgo y confusores) Estudios de factores pronóstico, para tiempos de seguimiento corto e igual para todos los individuos P(morir antes de 35 días tras un infarto X) Estudios de métodos diagnósticos P(enfermo resultado de la prueba) Estudios de cualquier característica binaria P(ser fumador X:condiciones) P(ser tratado en el hospital X) 16
17 Variables Respuesta / Dependiente: BINARIA Independientes: cualquier tipo Binarias Categóricas se codifican con variables indicadoras dummy Cuantitativas pueden emplearse transformaciones: logaritmo potencia polinomios splines 17
18 Caso 1. Variable binaria Estudio de la relación entre el virus de la hepatitis B y la cirrosis hepática, a partir de un diseño de casos y controles: HbsAg + HbsAg - Cirrosis Controles
19 Hepatitis B * grupo Crosstabulation grupo Hepatitis B Total HBsAg - HBsAg + Count % within Hepatitis B % within grupo Count % within Hepatitis B % within grupo Count % within Hepatitis B % within grupo control cirrosis Total % 43.8% 100.0% 95.5% 74.5% 85.0% % 85.0% 100.0% 4.5% 25.5% 15.0% % 50.0% 100.0% 100.0% 100.0% 100.0% Chi-Square Tests Risk Estimate Pearson Chi-Square Continuity Correction a Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases Asymp. Sig. Value df (2-sided) b a. Computed only for a 2x2 table Exact Sig. (2-sided) Exact Sig. (1-sided) b. 0 cells (.0%) have expected count less than 5. The minimum expected count is Odds Ratio for Hepatitis B (HBsAg - / HBsAg +) For cohort grupo = control For cohort grupo = cirrosis N of Valid Cases 95% Confidence Interval Value Lower Upper
20 Odds: medida de riesgo odds P( suceso) P( suceso) = = Pno ( suceso) 1 P( suceso) Cuántas veces más probable es que ocurra un suceso respecto a que no ocurra puede tomar valores de {0,+ } odds P( y = 1) P( y = 1) = = P( y = 0) 1 P( y = 1) 20
21 Odds-ratio: medida de asociación OR OR OR OR = = = = odds( enfermedad exp uestos ) odds( enfermedad no exp uestos ) P( y = 1 x = 1)/ P( y = 0 x = 1) P( y = 1 x = 0)/ P( y = 0 x = 0) ( 1 ( α+ β) )/(1 1 ( α+ β) ) 1+ e 1+ e ( 1 ( α) )/(1 1 ( α) ) 1+ e 1+ e β e 21
22 Odds-ratio Por cuánto se multiplica el riesgo de cirrosis si se está infectado respecto a no estar infectado riesgo relativo: razón de odds puede tomar valores de {0,+ } OR P(cirr + )/P(cont + ) = = P(cirr -)/P(cont -) e β = e1.98 = /( ) OR = = /( ) 22
23 Simetria del odds-ratio OR = odds(exp osicion enfermos ) odds(exp osicion no e nfermos ) OR = P( x = 1 y = 1)/ P( x = 0 y = 1) P( x = 1 y = 0)/ P( x = 0 y = 0) OR = e β 23
24 Modelo logístico Logit{ P(cirrosis HBsAg) } = α + βhbsag Variables: Respuesta: grupo 1(cirrosis) 0(control) independiente: HBsAg 1(+) 0(-) Modelo ajustado: Variable B S.E. Wald df Sig R Exp(B) HBSAG Constant
25 25 Verificación /( ) 0.850/( ) OR -) -)/p(cont p(cirr ) )/p(cont p(cirr OR e 1 1 e 1 1 1) HBsAg p(cirrosis e 1 1 e 1 1 0) HBsAg p(cirrosis ) -(-0.25 ) ( -(-0.25) e e = = = + + = = + = + = = = + = + = = = = + + β β α α
26 Interpretación de los coeficientes Constante: α = logit{p(cirrosis HBsAg=0)} logit de P(evento en los no expuestos) En un estudio de casos y controles no tiene interés pues depende del la relación entre el número de casos y de controles, que se fija en el diseño, y de los códigos que se empleen en la variable exposición. En un estudio de cohortes es una estimación de interés Coeficientes: β = log(or) OR = e β : cuantifica la magnitud de la asociación entre la respuesta y el factor de interés El código de la exposición debe ser exp: 1 + no exp 26
27 La codificación es esencial para interpretar los coeficientes exp =1 / no exp=0 OR(evento/exp) = e β exp =0 / no exp=1 OR(evento/exp) = e -β exp =2 / no exp=1 exp =1 / no exp=-1 OR(evento/exp) = e β OR(evento/exp) = e 2β 27
28 28 Estadística en regresión logística Ajustar el modelo: estimar los parámetros Máxima verosimilitud Variable dependiente binaria: distribución binomial: ) e nlog(1 y log p) logl(x e 1 1 p x ) p (1 p L(X p) i i i i i i i i i i x i N 1 y n x y x i i y n y n η η + + = + = β α + = η = η i
29 Parámetros: (α,β) Elementos de interés Matriz de varianza-covarianza: V( α) = C( α, β C( α, β 1 1 ) ) C( α, β V( β C( β ), β 1 ) ) C( α, β1) C( β1, β2) V( β ) 2 Valor de logl cuando es máximo: Likelihood value Tiene asociados unos grados de libertad : g.l. = #observaciones - #parámetros
30 OR = e β Elementos derivados permite interpretar los coeficientes como riesgos Errores estándar de β: ee β = V(β) permite calcular intervalos de confianza y realizar tests de hipótesis Deviance = -2 * logl permite: valorar el ajuste del modelo (datos agrupados) realizar test de hipótesis (comparando modelos) 30
31 Análisis de los coeficientes {β, ee β } Test de Wald: z = β/ee β ~ N(0,1) z > > β 0 -> OR 1 asociación significativa p-valor = Φ -1 (z) Intervalo de confianza (al 95%) para β: β ± 1.96ee β : simétricos para OR: e β±1.96ee β : {e β-1.96ee β ; e β+1.96ee β } asimétricos 31
32 Prueba de asociación global Test de razón de verosimilitud (TRV) Equivale al χ 2 de Pearson Es necesario ajustar 2 modelos y comparar las deviances: Análisis de deviance : Modelo deviance g.l. deviance g.l. α D α g.l. α α + β D α+β g.l. α+β D α D α+β gl α gl α+β deviance ~ χ 2 con g.l. 32
33 Beginning Block Number 0. Initial Log Likelihood Function -2 Log Likelihood * Constant is included in the model. Beginning Block Number 1. Method: Enter Variable(s) Entered on Step Number 1.. NKCAL NTILES of TKCAL -2 Log Likelihood Chi-Square df Significance Model Block Step
34 Aproximaciones al TRV Aproximaciones cuadráticas a la función de verosimilitud: Test de Wald aproxima la función de verosimilitud coincidiendo en el valor del máximo. Test del score aproxima la función de verosimilitud coincidiendo en el valor nulo 34
35 Aproximaciones cuadráticas a LogL logl score Wald p 35
36 Ajuste del modelo Deviance residual. Diferencia con la deviance de un modelo saturado (tantos coeficientes como observaciones). Sólo es interpretable si se trabaja con datos agrupados. Criterio de información de Akaike AIC = -2*logL + 2*#β Criterio de Schwarz (SC) o BIC AIC = -2*logL + #β*log(n) penalizan el uso de parámetros no informativos. Son útiles para comparar modelos no anidados. 36
37 Caso 2. Variable categórica: Relación entre tabaco y cáncer de colon en Mallorca TABAC * GROUP Crosstabulation TABAC Total No fumador Ex-fumador Fumador Count % within GROUP Count % within GROUP Count % within GROUP Count % within GROUP GROUP caso control Total % 55.6% 54.4% % 23.1% 18.1% % 21.4% 27.5% % 100.0% 100.0% 37
38 Codificación con variables auxiliares TABACO Exfuma Fuma Categorias de la variable original No fuma 0 0 Ex fumador 1 0 Fumador 0 1 Son necesarias (k-1) variables auxiliares para el modelo pues la primera corresponde a la constante (siempre vale 0) 38
39 Modelo logístico Parameter Value Freq Coding (1) (2) TABAC No fumador Ex-fumador Fumador Variable B S.E. Wald df Sig R Exp(B) TABAC TABAC(1) TABAC(2) Constant
40 Interpretación del modelo logit(pr(cancer tabaco) = α + β 1 ExFuma + β 2 Fumador exp(β 1 ) = OR de ex-fuma vs no fuma exp(β 2 ) = OR de fuma vs no fuma α = logit(pr(cancer no fuma) ) Si se desea el OR de ex-fuma vs fuma: exp(β 2 -β 1 ) o cambiar la categoría de referencia 40
41 Precaución al analizar variables categóricas Es importante que la categoría de referencia tenga un número suficiente de casos para evitar inestabilidad en el modelo: EDAD N b e OR (IC95%) (0.003;812) (0.004;992) (0.005;1339) 41
42 Caso 3. Variable cuantitativa Estudio de la relación entre la edad y la mortalidad por cardiopatía isquémica en diabéticos: EDAD Causa de muerte N p Otra CI Total
43 P(MCI) 1.0 logit(p) Edad Edad 43
44 Ajuste del modelo logístico Logit{ P(MCI EDAD) } = α + βedad Variables: Respuesta: causa muerte 1(ci) 0(otra) independiente: edad (en años) Modelo ajustado: Variable B S.E. Wald df Sig R Exp(B) EDAD Constant
45 Interpretación de los coeficientes p(mci EDAD) = ( *EDAD) 1 + e 1 Constante: α = logit{p(mci EDAD=0)} α = > P(MCI EDAD=0) = No tiene interés en esta situación, pero puede serlo si cambiamos el 0 de la variable: ED30 = (EDAD-30) α = > P(MCI EDAD=30) =
46 P(MCI) Edad 46
47 Coeficientes: β = log(or) OR = e β : cuantifica la magnitud de la asociación entre la respuesta (mortalidad por CI) y el cambio factor de interés en una unidad (aumento de EDAD en 1 año) OR = 1.11 (para 10 años: e 10β = 2.86) El modelo supone linealidad {en escala logit(mci)} para todos los posibles valores de EDAD Se pueden emplear transformaciones de las variables cuantitativas para conseguir mejorar la linealidad (más adelante) 47
48 Detección rápidad de nolinealidad Ajustar un modelo cuadrático E(Y/X)= α + βx+ β X 2 l c El coeficiente β c permite detectar curvatura en la función de riesgo 48
49 Otras opciones con variables cuantitativas Transformaciones Log(X) potencia: X r Polinomios: logit(p) = α + β 1 X + β 2 X 2 + β 3 X β k X k No deben emplearse grados muy elevados, normalmente sólo 2 ó 3 Los coeficientes son muy difíciles de interpretar, se usan fundamentalmente para ajustar otras variables de manera fina Splines 49
50 Variables cuantitativas categorizadas Si la relación dosis-respuesta no es lineal para una variable cuantitativa, ésta se suele categorizar y modelar como categórica: Ejemplo: la relación entre la ingesta calórica total y cáncer colorrectal Las Kcal pueden categorizarse en 5 grupos según quintiles y comparar cada grupo respecto al primero 50
51 Caso 4. Energía y cancer colorrectal GROUP * NTILES of TKCAL Crosstabulation GROUP Total control caso Count % within NTILES of TKCAL Count % within NTILES of TKCAL Count % within NTILES of TKCAL NTILES of TKCAL Total % 51.7% 50.4% 48.3% 41.4% 50.8% % 48.3% 49.6% 51.7% 58.6% 49.2% % 100.0% 100.0% 100.0% 100.0% 100.0% Variable B S.E. Wald df Sig R Exp(B) TKCAL TKCAL(1) TKCAL(2) TKCAL(3) TKCAL(4) Constant
52 logit(pr(caso)) Total kcal 52
53 1 Modelo de heterogeneidad (categórico) Un coeficiente para cada dummy Test: TRV a ( deviance con k-1 g.l.) Variable B S.E. Wald df Sig R Exp(B) NTKCAL NTKCAL(1) NTKCAL(2) NTKCAL(3) NTKCAL(4) Constant Chi-cuadrado gl Sig. TKCAL
54 2. Test de tendencia para variables ordinales La variable se codifica con valores crecientes en 1 unidad de categoría en categoría (1,2,3,...) Un único coeficiente, que recoge la variación promedio Test: TRV t ( deviance con 1 g.l.) Variable B S.E. Wald df Sig R Exp(B) NTKCAL Constant Chi-cuadrado gl Sig. TKCAL
55 3. Test de desviación de la linealidad Test: diferencia del modelo de heterogeneidad y el de tendencia: TRV DL : deviance con k-2 g.l. Modelo categórico: -2 Log Likelihood Modelo tendencia: -2 Log Likelihood Desviación de la linealidad: Cambio en -2 Log Likelihood = (NS con 3 g.l.) 55
56 Estrategia de análisis multivariante 1º Análisis bivariante cada variable por separado identificar variables de interés (significativas o no) 2º Análisis combinado de las variables equivale a un análisis estratificado cada factor está ajustado por los demás del modelo 3º Análisis de interacciones modificación del efecto de una variable por otra 56
57 Caso 5. Energía y ácido fólico (densidad) en el cáncer colorrectal Tabla de contingencia GROUP * NTILES of DFOLIC GROUP Total control caso Recuento % de GROUP Recuento % de GROUP Recuento % de GROUP NTILES of DFOLIC Total ,0% 23,1% 27,1% 28,8% 100,0% ,0% 26,9% 23,1% 21,0% 100,0% ,0% 25,0% 25,1% 25,0% 100,0% Variables en la ecuación Paso 1 a NDFOLIC NDFOLIC(1) NDFOLIC(2) NDFOLIC(3) Constante B E.T. Wald gl Sig. Exp(B) Inferior Superior 9,050 3,029 -,167,236,502 1,479,846,532 1,344 -,484,236 4,197 1,040,616,388,979 -,640,238 7,236 1,007,527,331,841 a. Variable(s) introducida(s) en el paso 1: NDFOLIC.,292,168 3,020 1,082 1,339 I.C. 95,0% para EXP(B) 57
58 Tendencia Paso 1 a NDFOLIC Constante Variables en la ecuación B E.T. Wald gl Sig. Exp(B) Inferior Superior -,224,075 8,860 1,003,799,690,926,529,206 6,609 1,010 1,696 a. Variable(s) introducida(s) en el paso 1: NDFOLIC. I.C. 95,0% para EXP(B) Tendencia Heterogeneidad Pruebas omnibus sobre los coeficientes del modelo Pruebas omnibus sobre los coeficientes del modelo Paso 1 Paso Bloque Modelo Chi-cuadrado gl Sig. 8,974 1,003 8,974 1,003 8,974 1,003 Paso 1 Paso Bloque Modelo Chi-cuadrado gl Sig. 9,148 3,027 9,148 3,027 9,148 3,027 58
59 Análisis ajustado Si en un modelo se incluye más de una variable, los coeficientes de cada variable se interpretan como ajustados por las demás Ajustado equivale a un promedio ponderado en los estratos de las variables de ajuste Este análisis anula el efecto de confusión que pudiera haber 59
60 Confusión Exposición Enfermedad Variable confusora El análisis crudo de la asociación entre una exposición y una enfermedad no excluye la posibilidad de que interfiera una tercera variable (la confusora) 60
61 Exploración de la confusión 1. Análisis de la asociación en cada estrato de la confusora potencial. Comparar los coeficientes crudos con los de cada estrato. Este método permite también explorar si hay interacción. 2. Comparación del modelo crudo con el ajustado por la confusora. Cambios superiores a un 20% de los coeficientes (β) indican confusión importante 61
62 Análisis del efecto del ac. fólico ajustado por ingesta calórica total Ac. Fólico Cáncer Ingesta calórica 62
63 Análisis estratificado NTILES of TKCAL Paso NDFOLIC 1 a Constante Paso NDFOLIC 1 a Constante Paso NDFOLIC 1 a Constante Paso NDFOLIC 1 a Constante Paso NDFOLIC 1 a Constante a. Variable(s) introducida(s) en el paso 1: NDFOLIC. Variables en la ecuación B E.T. Wald gl Sig. Exp(B) -,072,183,155 1,694,930 -,274,584,221 1,638,760 -,090,161,313 1,576,914,157,444,125 1,724 1,170 -,266,176 2,264 1,132,767,659,487 1,834 1,176 1,933 -,239,172 1,937 1,164,787,638,450 2,009 1,156 1,892 -,196,189 1,078 1,299,822,754,437 2,980 1,084 2,126 En general la estimación por estratos de calorías muestra un efecto protector menor al análisis crudo 63
64 Análisis ajustado Paso 1 a Paso 1 a NDFOLIC Constante Variables en la ecuación B E.T. Wald gl Sig. Exp(B) Inferior Superior -,224,075 8,860 1,003,799,690,926,529,206 6,609 1,010 1,696 a. Variable(s) introducida(s) en el paso 1: NDFOLIC. Variables en la ecuación NDFOLIC NTKCAL NTKCAL(1) NTKCAL(2) NTKCAL(3) NTKCAL(4) Constante I.C. 95,0% para EXP(B) B E.T. Wald gl Sig. Exp(B) Inferior Superior -,171,078 4,787 1,029,842,723,982 6,191 4,185,338,271 1,557 1,212 1,402,825 2,382,397,269 2,169 1,141 1,487,877 2,521,453,272 2,774 1,096 1,573,923 2,681,680,279 5,940 1,015 1,973 1,142 3,408,023,303,006 1,940 1,023 a. Variable(s) introducida(s) en el paso 1: NTKCAL. I.C. 95,0% para EXP(B) El análisis ajustado confirma la confusión 64
65 Interacción Pruebas omnibus sobre los coeficientes del modelo Paso 1 Paso Bloque Modelo Chi-cuadrado gl Sig. 1,008 4,909 1,008 4,909 16,256 9,062 Variables en la ecuación Paso 1 a NDFOLIC NTKCAL NTKCAL(1) NTKCAL(2) NTKCAL(3) NTKCAL(4) NDFOLIC * NTKCAL NDFOLIC by NTKCAL(1) NDFOLIC by NTKCAL(2) NDFOLIC by NTKCAL(3) NDFOLIC by NTKCAL(4) Constante a. Variable(s) introducida(s) en el paso 1: NDFOLIC * NTKCAL. B E.T. Wald gl Sig. Exp(B) Inferior Superior -,072,183,155 1,694,930,649 1,333 2,815 4,589,431,734,345 1,557 1,539,365 6,486,934,760 1,508 1,219 2,543,573 11,286,912,737 1,530 1,216 2,489,587 10,559 1,029,729 1,989 1,158 2,797,670 11,684 1,005 4,909 -,018,244,005 1,942,982,609 1,585 -,193,255,576 1,448,824,500 1,358 -,167,252,442 1,506,846,517 1,385 -,124,263,222 1,638,883,527 1,481 -,274,584,221 1,638,760 I.C. 95,0% para EXP(B) 65
66 Interpretación de la interacción Modificación del efecto (riesgo) de una variable al ira acompañada de otra Cambia la referencia en la comparación: Efectos principales: riesgo promedio entre categorías de la otra variable (Riesgo del a. fólico ajustado por calorías, pero como promedio entre las diferentes categorías de calorías) Interacción: Riesgo específico respecto a una categoría de referencia combinada (consumo bajo fólico y calorías) 66
67 Caso 6. Alcohol y tabaco GRUPO * Alcohol * Tabaco Crosstabulation Count Alcohol Tabaco Fuma No fuma GRUPO Total GRUPO Total control caso control caso no bebe moderado importante Total Variable B S.E. Wald df Sig Exp(B) Lower Upper BEBE BEBE(1) BEBE(2) Constant FUMA(1) Constant
68 Variable B S.E. Wald df Sig R FUMA(1) BEBE BEBE(1) BEBE(2) Constant % CI for Exp(B) Variable Exp(B) Lower Upper FUMA(1) BEBE(1) BEBE(2) FUMA y moder * calculadora FUMA y inten * Variable B S.E. Wald df Sig FUMA(1) BEBE BEBE(1) BEBE(2) BEBE * FUMA BEBE(1) by FUMA(1) BEBE(2) by FUMA(1) Constant
69 Interpretación de modelos con interacciones 95% CI for Exp(B) Variable Exp(B) Lower Upper 1. No fuma No bebe FUMA(1) Fuma No bebe BEBE(1) No fuma Moderado BEBE(2) No fuma Intenso BEBE(1) by FUMA(1) BEBE(2) by FUMA(1) *3.7397*.5515 = Fuma Moderado *6.1154*.3481 = Fuma Intenso Ignorar la interacción supone infraestimar los riesgos respecto a no fumar y no beber 69
70 10 No fuma Fuma 1 10 No bebe moderado intenso No fuma Fuma no interaccion 1 No bebe moderado intenso 70
71 Riesgo para cada combinación Modelo efectos principales: α + β 1 F + β 2 M + β 3 I NB M I β1 β1+ β2 β F e e e β2 β NF 1 e e + β Modelo efectos principales + interacción: α + β 1 F + β 2 M + β 3 I + β 4 F M + β 5 F I NB M I β1 β + β + β β + β + β F e e e β2 β NF 1 e e 3 71
72 Es fundamental emplear modelos jerárquicos: Si hay una interacción, los efectos principales deben estar también: A + B + A.B Modelo SATURADO Tiene tantos parámetros como observaciones Todas las variables y sus interacciones No explica más que los datos Son útiles si se trabaja con datos agrupados (el SPSS no lo permite) 72
73 Intervalos de confianza con interacciones Se pueden calcular si se dispone de la matriz de varianza-covarianza de los parámetros: V(β 1 + β 2 ) = V(β 1 ) + V(β 2 ) -2C(β 1,β 2 ) Es más fácil crear una nueva variable combinación de las categorías de las que interaccionan: FUMABEBE NF-NB; NF-M; NF-I; F-NB; F-M; F-I 73
74 Variable B S.E. Wald df Sig R FUMABEBE FUMABEBE(1) FUMABEBE(2) FUMABEBE(3) FUMABEBE(4) FUMABEBE(5) Constant % CI for Exp(B) Variable Exp(B) Lower Upper 1 NF - NB FUMABEBE(1) NF - M FUMABEBE(2) NF - I FUMABEBE(3) F - NB FUMABEBE(4) F - M FUMABEBE(5) F - I 74
75 Diagnóstico en Regresión logística Verificar que el modelo es adecuado Bondad de ajuste Con datos agrupados: deviance residual Con datos individuales hace falta una referencia, que puede obtenerse a partir del modelo saturado, siempre que se trabaje con pocas variables y éste sea estimable Otros estadísticos: Σ(O-E) 2 /E sobre cada observación Hosmer y Lemeshow: Σ(O-E) 2 /E sobre 10 categorías de p 75
76 Residuales Diferencia (observado - esperado) para cada observación hay múltiples posibilidades: Estandarizados Deviance... Se pueden hacer gráficas para intentar dertectar patrones no aleatorios Son poco útiles a no ser que se trabaje con variables cuantitativas 76
77 Observaciones influyentes Individuos que modifican de manera importante el ajuste del modelo y la estimación de los parámetros Delta-betas: β Modificación de cada parámetro al eliminar una observación cada vez Si son grandes: modelo inestable (típico de N ) 77
78 Dfbeta for BEBE(1) Dfbeta for BEBE(2) -.04 Dfbeta for FUMA(1) Dfbeta for BEBE(1) b Dfbeta for BEBE(2) b NF-NB 78
79 Modelos predictivos El objetivo del modelo puede ser: generar una ecuación con capacidad predictiva, como una clasificación (análisis discriminante) buscar qué factores tienen capacidad predictiva Si la respuesta es la aparición de un evento, pueden llamarse modelos pronósticos En este tipo de estudios es típico contar con un gran número de variables a explorar 79
80 Métodos de selección automática Adelante: 1 Se inicia con un modelo vacío (sólo α) 2 Se ajusta un modelo y se calcula el p valor de incluir cada variable por separado 3 Se selecciona el modelo con la más significativa 4 Se ajusta un modelo con la(s) variable(s) seleccionada(s) y se calcula el p valor de añadir cada variable no seleccionada por separado 5 Se selecciona el modelo con la más significativa 6 Se repite 4-5 hasta que no queden variables significativas para incluir. 80
81 Atrás: 1 Se inicia con un modelo con TODAS las variables candidatas 2 Se eliminanan, una a una, cada variable y se calcula la pérdida de ajuste al eliminar 3 Se selecciona para eliminar la menos significativa 4 Se repite 2-3 hasta que todas las variables incluidas sean significativas y no pueda eliminarse ninguna sin que se pierda ajuste. 81
82 Stepwise Se combinan los métodos adelante y atrás. Puede empezarse por el modelo vacío o por el completo, pero en cada paso se exploran las variables incluidas, por si deben salir y las no seleccionadas, por si deben entrar No todos los métodos llegan a la misma solución necesariamente 82
83 Consideraciones Criterio exclusivamente estadístico: no se tienen en cuenta otros conocimientos sobre las variables más interesantes a incluir (aunque se puede forzar a que algunas variables siempre estén en el modelo) Si hay un conjunto de variables muy correlacionadas, sólo 1 será seleccionada No es fácil tener en cuenta interacciones entre variables (los modelos deben ser jerárquicos) 83
84 Valoración de la capacidad predictiva del modelo Area bajo la curva ROC construída para todos los posibles puntos de corte de η para clasificar los individuos en +/-: + Realidad + - VP FP η = β x β x > 1 1 p p Modelo - FN VN k 84
85 Cálculo de área bajo ROC Guardar los valores que predice el modelo (esperados) Calcular la U de Mann-Whitney respecto a los esperados: AUC = 1 n U + n n + y n - son el número esperado de + y - resp. 85
86 Test Statistics a GROUP Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed) Predicted Value Valid control caso Total Frequency Percent a. Grouping Variable: GROUP U AUC = 1 = 1 = n n Un AUC=0.5 corresponde a una capacidad predictiva nula. El máximo es 1. 86
87 Elección del punto de corte óptimo Debe optimizarse la sensibilidad y la especificidad, y elegir un punto según la naturaleza del modelo predictivo El cambio en el punto de corte corresponde a emplear diferentes constantes en el modelo logístico Con frecuencia la constante estimada (α) consigue una sensibilidad y especificidad máxima, pero puede no ser el caso. 87
88 Validación del modelo El cálculo de la capacidad predictiva (CP) del modelo sobre la misma muestra que lo generó siempre es optimista, y debe validarse: Diferentes estrategias: Probar el modelo en otra muestra diferente Elaborar el modelo con un 75% de la muestra y calcular la CP en el 25% restante Usar la misma muestra, pero calcular los indicadores de CP mediante técnicas de bootstrap o validación cruzada, que corrigen el optimismo 88
89 Regresión multinomial La variable dependiente es categórica con más de 2 grupos Puede analizarse con Regresión logística politómica (modelo multinomial) Se elige una categoría como referencia y se modelan varios logits simultáneamente, uno para cada una de las restantes categorías respecto a la de referencia 89
90 Ejemplo: Hábito tabáquico La variable resultado tiene 3 categorías: Fumador Ex-fumador No fumador (referencia) Se modelan 2 logits simultáneamente: logit(fumador/no fumador z) = α 1 + β 1 z logit(ex-fumador/no fumador z) = α 2 + β 2 z Las covariables (z) son comunes pero se estiman coeficientes diferentes para cada logit (incluso diferente constante) 90
91 Caso 7. Acido fólico y tabaco Resumen del procesamiento de los casos N Porcentaje marginal TABAC2 Fumador % Ex-fumador % Fumador % NTILES of TKCAL % % % % % Válidos % Perdidos 0 Total
92 Contrastes de la razón de verosimilitud Efecto -2 logl Chi-cuadrado gl Sig. Intersección (a) NTFOLIC NTKCAL Estimaciones de los parámetros TABAC2(a) B Error típ. Wald gl Sig. Exp(B) Fumador Intersección Intervalo de confianza al 95% para Exp(B) Límite Límite inferior superior NTFOLIC [NTKCAL=1] [NTKCAL=2] [NTKCAL=3] [NTKCAL=4] [NTKCAL=5] 0(b) Ex-fumador Intersección NTFOLIC [NTKCAL=1] [NTKCAL=2] [NTKCAL=3] [NTKCAL=4] [NTKCAL=5] 0(b) a La categoría de referencia es: Fumador. b Este parámetro se ha establecido a cero porque es redundante. 92
93 Regresión ordinal La variable respuesta tiene más de 2 categorías ordenadas Se modela un único logit que recoge la relación (de tendencia) entre la respuesta y las covariables Hay varios modelos posibles según interese modelar la tendencia: odds proporcionales (acumualado) categorías adyacentes (parejas) 93
94 Odds-proporcionales Se compara un promedio de los posibles logit acumulados (respecto a la 1ª categoría): Logit Muy bajo Respuesta Bajo Alto Muy alto Cada logit tiene una constante diferente pero comparten el coeficiente de las covariables 94
95 Modelo de odds proporcionales: logit k (y > y k z) = α k + β z y = 1,2,... C k = 2,3,... C Supone que el cambio entre diferentes puntos de corte de la respuesta es constante (β), pero parte de diferentes niveles (α k ) 95
96 Caso 8. Estudio de la clase funcional En pacientes operados de cirugía cardíaca la clase funcional es una variable importante. Se ha agrupado en 3 categorías ordenadas: CLASEFUN baja / media / alta Un probable determinante de la clase funcional es el hecho de haber sido intervenido previamente: REOPER: sí/no 96
97 3 categorías: 2 logits logit(baja / media-alta) = logit(baja-media / alta) = α + βreoper α βreoper Tabla de contingencia Classe funcional * Reoperació Reoperació Classe funcional Total Classe II Classe III Classe IV NO SI Total Recuento % de Classe funcional 91.6% 8.4% 100.0% Recuento % de Classe funcional 89.3% 10.7% 100.0% Recuento % de Classe funcional 86.2% 13.8% 100.0% Recuento % de Classe funcional 89.3% 10.7% 100.0% 97
98 Response Profile Ordered Total Value CLASEFUN Frequency 1 1-medio-alto bajo 368 Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept REOPER Response Profile Ordered Total Value CLASEFUN Frequency 1 1-alto bajo-medio 965 Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept <.0001 REOPER
99 Response Profile Ordered Total Value CLASEFUN Frequency 1 2-alto medio bajo 368 Score Test for the Proportional Odds Assumption Chi-Square DF Pr > ChiSq Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept <.0001 Intercept REOPER
100 ordinal Estimaciones de los parámetros Intervalo de confianza 95% Umbral Estimación Error típ. Wald gl Sig. Límite inferior Límite superior [CLASE = 2.00] [CLASE = 3.00] Ubicación [REOPER=1] [REOPER=2] 0(a) Función de vínculo: Logit. a Este parámetro se establece en cero porque es redundante. multinomial Estimaciones de los parámetros Clase funcional(a) B Error típ. Wald gl Sig. Exp(B) Intervalo de confianza al 95% para Exp(B) Alta Intersección Límite inferior Límite superior [REOPER=1] [REOPER=2] 0(b) Media Intersección [REOPER=1] [REOPER=2] 0(b) a La categoría de referencia es: baja. b Este parámetro se ha establecido a cero porque es redundante. 100
101 Modelos log-lineales Análisis de datos categóricos donde el objetivo es analizar la relaciones entre variables No hay una respuesta y otras covariables Limitaciones del método: No se pueden analizar variable cuantitativas si no se categorizan previamente 101
102 Versión log-lineal del modelo logístico Un modelo logístico en el que las covariables sean categóricas se puede formular como un modelo Poisson: logit(y) = X+Z log(f) = X*Z +Y+ (X+Z)*Y Y~Bin Multinom f~poi f: frecuencias en la tabla de clasificación entre X,Z,Y X*Z = X + Z + X Z 102
103 Ajuste mediante regresión de Poisson Respuesta (Y): la frecuencia observada en cada celda de la tabla de clasificación multidimensional Transformación: log(y) Distribución de probabilidad: Poisson Modelos jerárquicos: log( Y) = α + β X + β Z + β XZ Interesan las interacciones (X Z): valoran la asociación entre variables 103
104 Caso 9. Tablas multidimensionames Estudio de la relación entre el consumo de macronutrientes (aportan energía) Carbohidratos Lípidos Porteínas Se han categorizado según terciles 104
105 Table of NTCARB by NTLIP NTCARB NTLIP Frequency Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total NTLIP Table of NTLIP by NTPROT NTPROT NTCARB Table of NTCARB by NTPROT NTPROT Frequency Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total Frequency Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total
106 proc freq data=glm6.coloncon noprint; tables ntcarb*ntlip*ntprot/out=dieta sparse; run; * efectos principales; proc genmod data=dieta; class ntcarb ntlip ntprot; model count= ntcarb ntlip ntprot /dist=p type3; run; * modelo saturado; proc genmod data=dieta; class ntcarb ntlip ntprot; model count= ntcarb ntlip ntprot /dist=p type3;run; * interacciones de orden 2 máximo; proc genmod data=dieta; class ntcarb ntlip ntprot; model count= ntcarb ntlip ntprot@2 /dist=p type3;run; 106
107 Efectos principales: (Categorías según terciles!) LR Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq NTCARB NTLIP NTPROT Modelo saturado: LR Statistics For Type 1 Analysis Chi- Source Deviance DF Square Pr > ChiSq Intercept NTCARB NTLIP NTCARB*NTLIP <.0001 NTPROT NTCARB*NTPROT <.0001 NTLIP*NTPROT <.0001 NTCARB*NTLIP*NTPROT
108 Modelo sin la interacción de 3er nivel LR Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq NTCARB NTLIP NTCARB*NTLIP NTPROT NTCARB*NTPROT NTLIP*NTPROT <.0001 Este modelo tiene muchos parámetros (18): es difícil de interpretar 108
109 Modelo con tendencias data dietat; set dieta; carb=ntcarb; prot=ntprot; lip=ntlip; proc genmod data=dietat; class ntcarb ntlip ntprot; model count= ntcarb ntlip ntprot carb*lip carb*prot lip*prot /dist=p type3; run; tendencias DF Deviance Log Likelihood categórico Deviance Log Likelihood Apenas se pierde ajuste por la diferencia en grados de libertad 109
110 Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept <.0001 NTCARB <.0001 NTCARB <.0001 NTCARB NTLIP <.0001 NTLIP <.0001 NTLIP NTPROT <.0001 NTPROT <.0001 NTPROT carb*lip carb*prot lip*prot <.0001 Scale LR Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq NTCARB <.0001 NTLIP <.0001 NTPROT <.0001 carb*lip <.0001 carb*prot <.0001 lip*prot <
111 Análisis de conteos Cualquier variable que se derive de contar unidades individuales es susceptible de ser estudiada con modelos de regresión de Poisson Ejemplos: Casos de cáncer en un territorio en un periodo Células con anomalías cromosómicas Accidentes de tráfico 111
112 Modelos para tasas Si las unidades de observación donde se ha realizado el conteo no son comparables por corresponder a diferente tamaño de muestra diferente duración del periodo de observación Se puede realizar una estandarización interna: modelos para tasas 112
113 offset tasa casos y = = personas tiempo ariesgo Nt log y = α + βx Nt lo g( y) = log( Nt ) + α + βx Queremos que log(n t) esté en el predictor, pero sin que se le estime un coeficiente (β=1) Se puede definir como un offset en el modelo 113
114 Caso 10. Modelo para tasas Estimación de la tendencia en la incidencia del cáncer de mama en Tarragona Variables: y: número de casos edat: grupo de edad (de 0 a 35 agrupado) per: año de diagnóstico (80-96) pob: población de cada año y grupo de edad 114
115 data mama; set glm6.mama; if edat<8 then edat=8; lpob=log(pob); per2=per*per; proc genmod data=mama; class edat; model y=edat per/dist=p offset=lpob type1; run; Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept <.0001 EDAT <.0001 EDAT <.0001 EDAT <.0001 EDAT <.0001 EDAT EDAT EDAT EDAT EDAT EDAT EDAT PER <.0001 Scale
116 Análisis de la desviación de la linealidad proc genmod data=mama; class edat; model x=edat per per2/dist=p offset=lpob type1; run; LR Statistics For Type 1 Analysis Chi- Source Deviance DF Square Pr > ChiSq Intercept EDAT <.0001 PER <.0001 per
117 Estimación del riesgo relativo RR: razón de tasas Cada año el aumento en log(tasa) = RR = exp(β) Porcentage de incremento anual: (RR -1)*100 Parameter RR LCL UCL PIA LCL_PIA UCL_PIA PER
118 proc genmod data=mama; class edat; model x=edat per /dist=p offset=lpob type1; ods output ParameterEstimates=Parms; run; data Parms; set Parms; RR=exp(Estimate); LCL=exp(LowerCL); UCL=exp(UpperCL); PIA=(RR-1)*100; LCL_PIA=(LCL-1)*100; UCL_PIA=(UCL-1)*100; format RR LCL UCL PIA LCL_PIA UCL_PIA f8.3 ; run; proc print data=parms noobs; var parameter RR LCL UCL PIA LCL_PIA UCL_PIA; where parameter='per'; run; 118
119 Análisis de la supervivencia Víctor Moreno 2004
120 Esquema Diseño de estudios de seguimiento Supervivencia: tiempo hasta un evento Censuras Funciones estadísticas Estimación de la probabilidad de sobrevivir Comparación de curvas de supervivencia
121 Diseño de un estudio prospectivo Estudio de cohortes (registros) Ensayo clínico Incio del estudio Fin del Reclutamiento Fin del Estudio 0 t 1 t 2 Reclutamiento Seguimiento
122 Variable de interés Tiempo hasta que ocurre un suceso tiempo tiempo entrada suceso Eventos: muerte: supervivencia recaída/metástasis: tiempo libre de enfermedad curación transplante
123 Std. Dev = Mean = N = TIEMPO Descriptive Statistics TIEMPO Valid N (listwise) N Minimum Maximum Mean Std. Skewness Kurtosis Statistic Statistic Statistic Statistic Deviation Statistic Statistic Std. Error Statistic Std. Error
124 Std. Dev = 1.33 Mean = 4.09 N = LOGT Descriptive Statistics LOGT Valid N (listwise) N Minimum Maximum Mean Std. Skewness Kurtosis Statistic Statistic Statistic Statistic Deviation Statistic Statistic Std. Error Statistic Std. Error
125 Datos Censurados Para algunos pacientes el evento de interés puede no haber ocurrido durante el tiempo de observación (t) Información incompleta: T>t Se necesitan dos variables para caracterizar los datos de supervivencia T: tiempo de observación δ: indicador del estado (binario)
126 Causas de censuras Final programado del estudio para el análisis Pérdidas de seguimiento Abandonos Muerte por otras causas diferentes de la de interés
127 Tipos de censura Tipo I. Todos los individuos se siguen hasta una fecha fin de estudio Por la derecha: Pacientes vivos al finalizar el estudio Pacientes perdidos o abandonos En intervalo: Las visitas de control son espaciadas Por la izquierda: Se desconoce la fecha de inicio Tipo II. Los individuos se siguen hasta que han ocurrido r eventos
128 Truncamiento Los individuos entran en el estudio por un criterio determinado y los que no cumplen el criterio no son visibles al investigador. Ejemplo: Interesa estudiar la edad al morir pero sólo se estudian ancianos de un asilo Inicio: edad al ingresar al asilo (truncamiento) Final: edad al morir Los muertos anteriores a la jubilación no pueden entrar en el asilo, por tanto los datos están truncados por la izquierda
129 Escalas de tiempo Calendario: Inicio a fin del estudio Tiempo del paciente en el estudio: entrada a salida (por muerte o censura) Otras escalas pueden ser de interés: edad en el momento actual duración de una exposición
130 patient calendar time
131 patient survival time
132 sorted patient survival time
133 Descripción de la supervivencia T es cuantitativa continua Descripción: Supervivencia: Probabilidad de sobrevivir t o más: S(t) = Pr (T t) Acumulativa Percentiles: tiempo que sobrevive una proporción de la población
134 Proporción que sobrevive t o más Survival probability S(5)= Survival time
135 Tiempo mediano de supervivencia Survival probability S(t)=0.5 median Survival time
136 Tiempo medio de supervivencia Media = área bajo S(t) No estimable si S(t) no llega a 0 Sesgado (T asimétrico) No es un buen resumen Survival probability Survival time
137 Función de distribución (de la mortalidad): F(t) Pr(morir en t o antes) : acumulada Ejemplos: Pr(morir a los 65 años o antes) Pr(recidivar a los 3 años o antes) F(t) = Pr(T t) Es equivalente a S(t): eventos acumulados
138 Función de distribución: F(t) F(t) Tiempo
139 Función densidad: f(t) Tasa de mortalidad instantánea en t Tiempo en el denominador (δ) f(t) δ = Pr(morir entre t y t+δ) Ejemplos: Pr(morir a los 65 años) Pr(tener un reinfarto a los 2 meses del 1º) Estimación: f(t) = lim δ 0 Pr(t T δ t + δ)
140
141 Función de riesgo (Hazard) Tasa de mortalidad en el momento (t a t+δ) condicional a estar vivo en t h(t) = lim δ 0 Pr(t T t δ + δ t T) Es una tasa de mortalidad instantánea: Tiempo en el denominador (δ) h(t) δ = Pr(morir entre t y t+δ vivo en t) Util para modelar la supervivencia
142 Riesgo integrado Tasa de mortalidad acumulada H( t) h( u)du = t Relacionada directamente con la función de supervivencia: 0 S(t) = exp(-h(t)) H(t) = -log(s(t))
143 Densidad: f(t) vs riesgo: h(t) Las dos son probabilidades instantáneas La diferencia es el denominador: densidad: toda la población riesgo: la población viva antes de t Ejemplo: f(65): Pr(morir a los 65,00-65,99 años) h(65): Pr(morir a los 65,00-65,99 años vivo a los 65) es mayor pues el denominador es menor
144 densidad: f(t) y riesgo: h(t) f(x) Tiempo h(x) Tiempo
145 Relaciones entre funciones h(t) S(t) f(t) S' (t) = = S(t) S(t) dlns(t) = dt = exp[ h(u)du] = exp[ H(t)] t 0
146 Estimación de S(t) Si no hay censuras función de supervivencia empírica: S ~ ( t) = Número de individuos que sobreviven Número de individuos en la muestra t S(t) es una función escalonada. Se mantiene ~ constante entre los tiempos de dos muertes adyacentes
147 Estimador de Kaplan-Meier de S(t) Se divide el tiempo en k intervalos de manera que cada intervalo acaba justo cuando un paciente (o varios si hay empates) muere o queda censurado d d d n 1 n 2 n k 1 2 k Para cada intervalo i = 1 k : n i están vivos al inicio d i mueren al final. d i suele ser 1, pero varios eventos pueden registrarse en el mismo tiempo por problemas de redondeo o es 0 si censura.
148 Probabilidad de morir en el intervalo, T (t i-1,t i ], condicional a estar vivo al inicio p i = d i / n i Probabilidad de sobrevivir al final de intervalo, T>t i, condicional a estar vivo al inicio s i = 1 - p i = 1 - d i / n i Como los intervalos son independientes, la probabilidad acumulada de sobrevivir t desde el tiempo 0 S(t) = t i= 1 s i = t ( ) i i= 1 1-p = t i= 1 di 1- ni
149 Cálculos de Kaplan-Meier Time n i d i c i 1 - d i / n i = s i S(t) / 20 = / 19 = / 17 = / 15 = / 14 = / 13 = / 12 = / 9 = / 6 = / 3 = / 2 =
150 Tiempo mediano de supervivencia Survival probability median Survival time
151 Precisión de S(t) El error estándar de S(t) se puede calcular para cada tiempo mediante la fórmula de Greenwood: ^ e.e S( t) ^ S( t) El intervalo de confianza al 95% se calcula de la manera usual: S(t) ± 1.96 e.e.{s(t)} k i= 1 di n (n d) i i i 1 2
152 Bandas de confianza para S(t)
153 IC 95% para S(t) Para valores de S(t) cercanos a 1 y 0 el IC podría contener valores no válidos para una probabilidad (<0 ó >1) Se debe calcular el e.e. De una transformación de S(t) logaritmo: log(s) logit: log-log: log{s/(1-s)} log{-log(s)}
154 log(s) Var{log(S)} ~ Var(S)/{S log(s)} 2 φ = ee{log(s)} = Var{logS} 1/2 = ee(s)/{slog(s)} IC 95% = S exp(±1.96φ)
155 Estimación de S(t) para datos agrupados. Método de la tabla de vida El tiempo se divide en bandas amplias, usualmente de tamaño fijo (3m, 6m, 1a) Para cada banda i = 1 k : n i están vivos al inicio d i mueren en la banda c i son censurados en la banda Las observaciones censuradas se supone que se distribuyen de manera uniforme a lo largo de la banda
156 Las personas a riesgo se ajustan para tener en cuenta las observaciones censuradas n i = n i - c i / 2 Probabilidad de morir en la banda, condicional a estar vivo al inicio p i = d i / n i Probabilidad de sobrevivir la banda, condicional a estar vivo al inicio s i = 1 - p i = 1 - d i / n i
Estudio de casos y controles sobre factores de riesgo en el cáncer colorrectal
Estudio de casos y controles sobre factores de riesgo en el cáncer colorrectal Objetivos del estudio Estimar el riesgo de padecer cáncer colorrectal asociado a una serie de variables Población Casos Controles
Más detalles1 Ejemplo de análisis descriptivo de un conjunto de datos
1 Ejemplo de análisis descriptivo de un conjunto de datos 1.1 Introducción En este ejemplo se analiza un conjunto de datos utilizando herramientas de estadística descriptiva. El objetivo es repasar algunos
Más detallesModelos de regresión: lineal simple y regresión logística
14 Modelos de regresión: lineal simple y regresión logística Irene Moral Peláez 14.1. Introducción Cuando se quiere evaluar la relación entre una variable que suscita especial interés (variable dependiente
Más detalles1) Introducción *%+,"' -+%%.&+ '
! "#$%&'()'"&%% *%+,"' -+%%.&+ ' /#-+%%. # # % % 0 % 1"0)"2 $% 3#%"4%%+ 5# 6%%7#&&%"6 5%%8 79#1)#%+&:#% $ 5% + 1) Introducción Antes de abordar este documento es muy recomendable leer detenidamente su
Más detallesCómo obtener un Modelo de Regresión Logística Binaria con SPSS
Universitat de de Barcelona. Institut de de Ciències de de l Educació Cómo obtener un Modelo de Regresión Logística Binaria con SPSS Vanesa Berlanga-Silvente y Ruth Vilà-Baños Fecha de presentación:
Más detallesTEMA 4: Variables binarias
TEMA 4: Variables binarias Econometría I M. Angeles Carnero Departamento de Fundamentos del Análisis Económico Curso 2011-12 Econometría I (UA) Tema 4: Variables binarias Curso 2011-12 1 / 51 Variables
Más detallesCómo hacer paso a paso un Análisis de Supervivencia con SPSS para Windows.
DOCUWEB FABIS Dot. Núm 0702006 Cómo hacer paso a paso un Análisis de Supervivencia con SPSS para Windows. Aguayo Canela M, Lora Monge E Servicio de Medicina Interna. Hospital Universitario Virgen Macarena.
Más detallesAnálisis de Regresión Múltiple con Información Cualitativa: Variables Binarias o Ficticias
Análisis de Regresión Múltiple con Información Cualitativa: Variables Binarias o Ficticias Carlos Velasco 1 1 Departamento de Economía Universidad Carlos III de Madrid Econometría I Máster en Economía
Más detallesANÁLISIS DESCRIPTIVO CON SPSS
ESCUELA SUPERIOR DE INFORMÁTICA Prácticas de Estadística ANÁLISIS DESCRIPTIVO CON SPSS 1.- INTRODUCCIÓN Existen dos procedimientos básicos que permiten describir las propiedades de las distribuciones:
Más detallesESTADÍSTICA DESCRIPTIVA CON SPSS
ESTADÍSTICA DESCRIPTIVA CON SPSS (2602) Estadística Económica Joaquín Alegre y Magdalena Cladera SPSS es una aplicación para el análisis estadístico. En este material se presentan los procedimientos básicos
Más detallesParte I: Introducción
Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one
Más detalles8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión...
Tema 8 Análisis de dos variables: dependencia estadística y regresión Contenido 8.1. Introducción............................. 1 8.2. Dependencia/independencia estadística.............. 2 8.3. Representación
Más detallesUNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL
UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL Objetivo terminal: Calcular e interpretar medidas de tendencia central para un conjunto de datos estadísticos. Objetivos específicos: 1. Mencionar las características
Más detallesConceptos básicos de estadística para clínicos
Conceptos básicos de estadística para clínicos Víctor Abraira A Coruña. Noviembre 2008 Programa Valor p : qué significa? Aleatorización Pruebas de hipótesis para variables continuas Pruebas de hipótesis
Más detalles(.$263*7.5"4+%#,"8..9$ $.$ - -. 7.# "4< $ 8 $ 7 "% @
!"#$%!& ' ($ 2 ))!"#$%& '$()!& *($$+%( & * $!" "!,"($"$ -(.$!- ""& +%./$$&,-,$,". - %#,"0# $!01 "23(.4 $4$"" ($" $ -.#!/ ". " " ($ "$%$(.$2.3!- - *.5.+%$!"$,"$ (.$263*7.5"4+%#,"8..9$ $.$ - $,"768$"%$,"$%$!":7#;
Más detallesPuede considerarse un caso especial de l análisis de regresión en donde la variable dependiente es dicotómica («Sí» [1] o «No» [0])
Regresión logística Puede considerarse un caso especial de l análisis de regresión en donde la variable dependiente es dicotómica («Sí» [1] o «No» [0]) Se trata de calcular la probabilidad en la que una
Más detallesESTIMACIÓN. puntual y por intervalo
ESTIMACIÓN puntual y por intervalo ( ) Podemos conocer el comportamiento del ser humano? Podemos usar la información contenida en la muestra para tratar de adivinar algún aspecto de la población bajo estudio
Más detallesCovarianza y coeficiente de correlación
Covarianza y coeficiente de correlación Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también
Más detallesAnálisis de supervivencia
16 Análisis de supervivencia Ágata Carreño Serra 16.1. Introducción En variados estudios nuestro objetivo consiste en estimar el tiempo transcurrido hasta un suceso en concreto, dependiendo de otras variables
Más detallesEl modelo Ordinal y el modelo Multinomial
El modelo Ordinal y el modelo Multinomial Microeconomía Cuantitativa R. Mora Departmento de Economía Universidad Carlos III de Madrid Esquema Motivación 1 Motivación 2 3 Motivación Consideramos las siguientes
Más detallesRegresión Polinomial y Regresión Logística
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 1 Regresión Polinomial y Regresión Logística M.L. Gámiz Pérez Departamento Estadística e Inv. Operativa
Más detallesLos valores de las respuesta son las puntuaciones que, de cada individuo, o cluster, obtenemos semanalmente durante cinco semanas consecutivas:
Sobre los modelos lineales mixtos Ejemplo: Recuperación de infarto. Para estudiar las diferencias entre dos procedimientos diferentes de recuperación de pacientes de un infarto, se consideraron dos grupos
Más detallesESTUDIO COMPARATIVO DE MODELOS FLEXIBLES DE DISCRIMINACIÓN DE LA CIRROSIS EN PACIENTES CON AFECTACIÓN HEPÁTICA
VI Congreso Galego de Estatística e Investigación de Operacións Vigo 5-7 de Novembro de 2003 ESTUDIO COMPARATIVO DE MODELOS FLEXIBLES DE DISCRIMINACIÓN DE LA CIRROSIS EN PACIENTES CON AFECTACIÓN HEPÁTICA
Más detallesEstimación de una probabilidad
Estimación de una probabilidad Introducción En general, la probabilidad de un suceso es desconocida y debe estimarse a partir de una muestra representativa. Para ello, deberemos conocer el procedimiento
Más detallesData Mining Técnicas y herramientas
Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos
Más detallesMedidas de tendencia central o de posición: situación de los valores alrededor
Tema 10: Medidas de posición y dispersión Una vez agrupados los datos en distribuciones de frecuencias, se calculan unos valores que sintetizan la información. Estudiaremos dos grandes secciones: Medidas
Más detallesANÁLISIS DE ENCUESTAS
ANÁLISIS DE ENCUESTAS TÉCNICAS MULTIVARIANTES 1. Introducción 2. Clasificación de las técnicas 3. Etapas de análisis 4. Supuestos básicos 5. Valores perdidos y anómalos introducción Definición. i ió -
Más detallesTema 1: Test de Distribuciones de Probabilidad
Tema 1: Test de Distribuciones de Probabilidad 1.- Una compañía de seguros tiene 1000 asegurados en el ramo de accidentes. Si la el modelo mejor para el número de siniestros en un año es: a) Normal (5;,3).
Más detallesStatgraphics Centurión
Facultad de Ciencias Económicas y Empresariales. Universidad de Valladolid 1 Statgraphics Centurión I.- Nociones básicas El paquete Statgraphics Centurión es un programa para el análisis estadístico que
Más detallesREGRESIÓN LINEAL MÚLTIPLE
REGRESIÓN LINEAL MÚLTIPLE.- Planteamiento general....- Métodos para la selección de variables... 5 3.- Correlaciones parciales y semiparciales... 8 4.- Multicolinealidad en las variables explicativas...
Más detallesDATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT
DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT REACCIONES ADVERSAS DE LOS MEDICAMENTOS Los fármacos por naturaleza
Más detallesAnexo 12-a. Plantillas de lectura crítica del SIGN
Anexo 12-a. Plantillas de lectura crítica del SIGN Plantilla de Lectura crítica nº 1: Ensayo clínico aleatorizado (ECA) Identificación del estudio (Referencia bibliográfica del estudio, formato Vancouver)
Más detallesCómo hacer una Regresión Logística con SPSS paso a paso. (I)
DOCUWEB FABIS Dot. Núm 070202 Cómo hacer una Regresión Logística con SPSS paso a paso. (I) Aguayo Canela, Mariano. Servicio de Medicina Interna. Hospital Universitario Virgen Macarena. Sevilla Resumen
Más detallesEJERCICIOS PROPUESTOS - ANÁLISIS DE REGRESION MULTIPLE
EJERCICIOS PROPUESTOS - ANÁLISIS DE REGRESION MULTIPLE. En un estudio diseñado para analizar l efect de añadir avena a la dieta estadounidense tradicional, se dividieron aleatoriamente l individu en d
Más detallesAplicaciones de Estadística Descriptiva
Aplicaciones de Estadística Descriptiva Contenidos de la presentación Funciones estadísticas en Excel. Gráficos. El módulo de análisis de datos y las tablas dinámicas de Excel. Información Intentaremos
Más detallesDISEÑOS DE INVESTIGACIÓN
DISEÑOS DE INVESTIGACIÓN María a Eugenia Mackey Estadística stica Centro Rosarino de Estudios Perinatales El diseño de un estudio es la estrategia o plan utilizado para responder una pregunta, y es la
Más detallesANÁLISIS DE DATOS NO NUMERICOS
ANÁLISIS DE DATOS NO NUMERICOS ESCALAS DE MEDIDA CATEGORICAS Jorge Galbiati Riesco Los datos categóricos son datos que provienen de resultados de experimentos en que sus resultados se miden en escalas
Más detallesRegresión de Poisson
Regresión de Poisson -- Si la estructura de los errores es realmente de Poisson, entonces: devianza residual / grados de libertad residuales = 1 si el cociente es mayor que 1 estamos ante el fenómeno (incómodo)
Más detallesEstas visiones de la información, denominadas vistas, se pueden identificar de varias formas.
El primer paso en el diseño de una base de datos es la producción del esquema conceptual. Normalmente, se construyen varios esquemas conceptuales, cada uno para representar las distintas visiones que los
Más detallesEn la presente investigación, se contrastará el modelo propuesto en la. investigación de Marisa Bucheli y Carlos Casacubierta, Asistencia escolar y
Capítulo 2.- Metodología En la presente investigación, se contrastará el modelo propuesto en la investigación de Marisa Bucheli y Carlos Casacubierta, Asistencia escolar y Participación en el mercado de
Más detallesFundamentos de Biología Aplicada I Estadística Curso 2011-2012 Práctica 6: Regresión Logística I
Fundamentos de Biología Aplicada I Estadística Curso 2011-2012 Índice 1. Objetivos de la práctica 2 2. Estimación de un modelo de regresión logística con SPSS 2 2.1. Ajuste de un modelo de regresión logística.............................
Más detallesLa metodologia Cuantitativa. Encuestas y muestras
La metodologia Cuantitativa. Encuestas y muestras Técnicas «cuantitativas» y «cualitativas» «Las técnicas cuantitativas»: Recogen la información mediante cuestiones cerradas que se planteal sujeto de forma
Más detallesSe podría entender como una matriz de filas y columnas. Cada combinación de fila y columna se denomina celda. Por ejemplo la celda A1, B33, Z68.
Departamento de Economía Aplicada: UDI de Estadística. Universidad Autónoma de Madrid Notas sobre el manejo de Excel para el análisis descriptivo y exploratorio de datos. (Descriptiva) 1 1 Introducción
Más detallesCapítulo 17 Análisis de correlación lineal: Los procedimientos Correlaciones bivariadas y Correlaciones parciales
Capítulo 17 Análisis de correlación lineal: Los procedimientos Correlaciones bivariadas y Correlaciones parciales Cuando se analizan datos, el interés del analista suele centrarse en dos grandes objetivos:
Más detalles1.1. Introducción y conceptos básicos
Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................
Más detallesPráctica 5. Contrastes paramétricos en una población
Práctica 5. Contrastes paramétricos en una población 1. Contrastes sobre la media El contraste de hipótesis sobre una media sirve para tomar decisiones acerca del verdadero valor poblacional de la media
Más detallesCORRELACIONES CON SPSS
ESCUEL SUPERIOR DE INFORMÁTIC Prácticas de Estadística CORRELCIONES CON SPSS 1.- INTRODUCCIÓN El concepto de relación o correlación entre dos variables se refiere al grado de parecido o variación conjunta
Más detallesDocumento diseño de evaluación en términos de comparabilidad entre grupos de tratamiento y control
SEPTIEMBRE 2012 Tercer Informe Documento diseño de evaluación en términos de comparabilidad entre grupos de tratamiento y control ÍNDICE 1. Introducción...4 2. La base de datos del PRONABES....5 3. Selección
Más detallesTEMA 4: Introducción al Control Estadístico de Procesos
TEMA 4: Introducción al Control Estadístico de Procesos 1 Introducción 2 Base estadística del diagrama de control 3 Muestreo y agrupación de datos 4 Análisis de patrones en diagramas de control 1. Introducción
Más detallesDIPLOMADO EN RELACIONES LABORALES Estadística Asistida por Ordenador Curso 2008-2009
Índice general 6. Regresión Múltiple 3 6.1. Descomposición de la variabilidad y contrastes de hipótesis................. 4 6.2. Coeficiente de determinación.................................. 5 6.3. Hipótesis
Más detallesHay diferencias en la media del HOMA entre los diabéticos y los no diabéticos? Resumen del procesamiento de los casos
Test de hipótesis t de Student Hay diferencias en la media del HOMA entre los diabéticos y los no diabéticos? Resumen del procesamiento de los casos HOMA Casos Válidos Perdidos Total N Porcentaje N Porcentaje
Más detallesNure Investigación Nº 63 Marzo - Abril 2013. Lectura crítica de un artículo científico V: La valoración de la relevancia clínica
Nure Investigación Nº 63 Marzo - Abril 2013 Lectura crítica de un artículo científico V: La valoración de la relevancia clínica Critical reading of a scientific paper V: Assessing the clinical significance
Más detallesConfusión e interacción (1): Qué son, qué suponen y cómo manejarlas en el análisis estratificado
DocuWeb FABIS Dot. Núm 0702007 Confusión e interacción (1): Qué son, qué suponen y cómo manejarlas en el análisis estratificado Aguayo Canela, Mariano Hospital Universitario Virgen Macarena. Sevilla Resumen
Más detallesTécnicas Cuantitativas para el Management y los Negocios
Segundo cuatrimestre - 4 Técnicas Cuantitativas para el Management y los Negocios Mag. María del Carmen Romero 4 romero@econ.unicen.edu.ar Módulo III: APLICACIONES Contenidos Módulo III Unidad 9. Análisis
Más detallesCAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de
CAPITULO 4 JUSTIFICACION DEL ESTUDIO En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de estudios previos y los alcances que justifican el presente estudio. 4.1. Justificación.
Más detallesPráctica 2. Estadística Descriptiva
Práctica 2. Estadística Descriptiva Ejercicio 1 Mucha gente manifiesta reacciones de alergia sistémica a las picaduras de insectos. Estas reacciones varían de paciente a paciente, no sólo en cuanto a gravedad,
Más detallesTests de hipótesis estadísticas
Tests de hipótesis estadísticas Test de hipótesis sobre la media de una población. Introducción con un ejemplo. Los tests de hipótesis estadísticas se emplean para muchos problemas, en particular para
Más detallesTEMA 7: Análisis de la Capacidad del Proceso
TEMA 7: Análisis de la Capacidad del Proceso 1 Introducción Índices de capacidad 3 Herramientas estadísticas para el análisis de la capacidad 4 Límites de tolerancia naturales 1 Introducción La capacidad
Más detallesI1.1 Estudios observacionales IISESIÓN DISEÑO O DE ESTUDIOS EN INVESTIGACIÓN N MÉDICA DESCRIPTIVA CURSO DE. 1.2 Estudios experimentales
1 2 3 4 5 6 ESQUEMA DEL CURSO ESTADÍSTICA BÁSICA DISEÑO DE EXPERIMENTOS CURSO DE ESTADÍSTICA STICA BÁSICAB ESTADÍSTICA DESCRIPTIVA TIPOS DE VARIABLES MEDIDAS DE POSICIÓN CENTRAL Y DE DISPERSIÓN TABLAS
Más detallesDiagnosis y Crítica del modelo -Ajuste de distribuciones con Statgraphics-
Diagnosis y Crítica del modelo -Ajuste de distribuciones con Statgraphics- 1. Introducción Ficheros de datos: TiempoaccesoWeb.sf3 ; AlumnosIndustriales.sf3 El objetivo de esta práctica es asignar un modelo
Más detallesTema 1 con soluciones de los ejercicios. María Araceli Garín
Tema 1 con soluciones de los ejercicios María Araceli Garín Capítulo 1 Introducción. Probabilidad en los modelos estocásticos actuariales Se describe a continuación la Tarea 1, en la que se enumeran un
Más detallesMATEMÁTICAS ESO EVALUACIÓN: CRITERIOS E INSTRUMENTOS CURSO 2014-2015 Colegio B. V. María (Irlandesas) Castilleja de la Cuesta (Sevilla) Página 1 de 7
Página 1 de 7 1 CRITERIOS DE EVALUACIÓN 1.1 SECUENCIA POR CURSOS DE LOS CRITERIOS DE EVALUACION PRIMER CURSO 1. Utilizar números naturales y enteros y fracciones y decimales sencillos, sus operaciones
Más detallesAnálisis y cuantificación del Riesgo
Análisis y cuantificación del Riesgo 1 Qué es el análisis del Riesgo? 2. Métodos M de Análisis de riesgos 3. Método M de Montecarlo 4. Modelo de Análisis de Riesgos 5. Qué pasos de deben seguir para el
Más detallesAnálisis de Regresión y Correlación con MINITAB
Análisis de Regresión y Correlación con MINITAB Primeras definiciones y conceptos de la regresión El análisis de la regresión es una técnica estadística que se utiliza para estudiar la relación entre variables
Más detallesMODELO PREDICTIVO DE RIESGO DE MOROSIDAD PARA CRÉDITOS BANCARIOS USANDO DATOS SIMULADOS
INVESTIGACIÓN MODELO PREDICTIVO DE RIESGO DE MOROSIDAD PARA CRÉDITOS BANCARIOS USANDO DATOS SIMULADOS CLAUDIO ALFREDO LÓPEZ MIRANDA Un problema grave en las instituciones de crédito son los préstamos no
Más detallesDistribución porcentual de consumidores de alcohol por patrón de consumo de alcohol según sexo, 1998. Patrón de consumo Hombres Mujeres
CONSUMIDORES DE ALCOHOL POR PATRÓN DE CONSUMO El patrón de consumo de alcohol combina el número de copas consumidas con el lapso de tiempo durante el cual se consumen, para clasificar a la población. Distinguir
Más detallesMatemáticas 2º BTO Aplicadas a las Ciencias Sociales
Matemáticas 2º BTO Aplicadas a las Ciencias Sociales CONVOCATORIA EXTRAORDINARIA DE JUNIO 2014 MÍNIMOS: No son contenidos mínimos los señalados como de ampliación. I. PROBABILIDAD Y ESTADÍSTICA UNIDAD
Más detallesCORRELACIÓN Y PREDICIÓN
CORRELACIÓN Y PREDICIÓN 1. Introducción 2. Curvas de regresión 3. Concepto de correlación 4. Regresión lineal 5. Regresión múltiple INTRODUCCIÓN: Muy a menudo se encuentra en la práctica que existe una
Más detallesInferencia Estadística
EYP14 Estadística para Construcción Civil 1 Inferencia Estadística El campo de la inferencia estadística está formado por los métodos utilizados para tomar decisiones o para obtener conclusiones sobre
Más detalles8. Estimación puntual
8. Estimación puntual Estadística Ingeniería Informática Curso 2009-2010 Estadística (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 1 / 30 Contenidos 1 Introducción 2 Construcción de estimadores
Más detallesANEXOS. 1) Modelo Probit.
ANEXOS 1) Modelo Probit. Estos modelos pertenecen a los modelos de respuesta binaria 1, es decir, la variable dependiente es una variable dicotómica, donde toma 1 para indicar el éxito en la variable de
Más detallesTEMA 7 ANÁLISIS DE DATOS: INTRODUCCIÓN AL SPSS
TEMA 7 ANÁLISIS DE DATOS: INTRODUCCIÓN AL SPSS 1. Introducción 2. Definición de variables 3. Introducción de los datos 4. Análisis de los datos 5. Otras utilidades 1. INTRODUCCIÓN El SPSS es un paquete
Más detallesEduardo Kido 26-Mayo-2004 ANÁLISIS DE DATOS
ANÁLISIS DE DATOS Hoy día vamos a hablar de algunas medidas de resumen de datos: cómo resumir cuando tenemos una serie de datos numéricos, generalmente en variables intervalares. Cuando nosotros tenemos
Más detallesEstadística con Excel Informática 4º ESO ESTADÍSTICA CON EXCEL
1. Introducción ESTADÍSTICA CO EXCEL La estadística es la rama de las matemáticas que se dedica al análisis e interpretación de series de datos, generando unos resultados que se utilizan básicamente en
Más detallesPlan de estudios ISTQB: Nivel Fundamentos
Plan de estudios ISTQB: Nivel Fundamentos Temario 1. INTRODUCCIÓN 2. FUNDAMENTOS DE PRUEBAS 3. PRUEBAS A TRAVÉS DEL CICLO DE VIDA DEL 4. TÉCNICAS ESTÁTICAS 5. TÉCNICAS DE DISEÑO DE PRUEBAS 6. GESTIÓN DE
Más detallesAnálisis de Tablas de Contingencia:Capítulo 2 Modelos Log-lineales
Análisis de Tablas de Contingencia:Capítulo 2 Modelos Log-lineales Capítulo 2 1. Introducción Los modelos Log-lineales, también denominados modelos lineales logarítmicos y modelos log-linear, se presentan
Más detallesTest de hipótesis. Si H0 es cierta el estadístico. sigue una distribución t de Student con n grados de libertad: s n
Un diseño experimental que se utiliza muy a menudo es el de un grupo control y uno de tratamiento. En el caso de que los datos sean cuantitativos y sigan una distribución normal, la hipótesis de interés
Más detallesDeterminación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones
Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Introducción Las Compañías aseguradoras determinan sus precios basadas en modelos y en información histórica
Más detallesProcedimientos para agrupar y resumir datos
Procedimientos para agrupar y resumir datos Contenido Introducción Presentación de los primeros n valores Uso de funciones de agregado 4 Fundamentos de GROUP BY 8 Generación de valores de agregado dentro
Más detallesBASES Y DIMENSIÓN. Propiedades de las bases. Ejemplos de bases.
BASES Y DIMENSIÓN Definición: Base. Se llama base de un espacio (o subespacio) vectorial a un sistema generador de dicho espacio o subespacio, que sea a la vez linealmente independiente. β Propiedades
Más detallesDISCOS RAID. Se considera que todos los discos físicos tienen la misma capacidad, y de no ser así, en el que sea mayor se desperdicia la diferencia.
DISCOS RAID Raid: redundant array of independent disks, quiere decir conjunto redundante de discos independientes. Es un sistema de almacenamiento de datos que utiliza varias unidades físicas para guardar
Más detallesParámetros y estadísticos
Parámetros y estadísticos «Parámetro»: Es una cantidad numérica calculada sobre una población y resume los valores que esta toma en algún atributo Intenta resumir toda la información que hay en la población
Más detallesASOCIACIÓN LINEAL ENTRE VARIABLES CUANTITATIVAS: la correlación de Pearson
ASOCIACIÓN LINEAL ENTRE VARIABLES CUANTITATIVAS: la correlación de Pearson 3datos 2011 Análisis BIVARIADO de variables cuantitativas OBJETIVO DETERMINAR 1º) si existe alguna relación entre las variables;
Más detallesANÁLISIS DISCRIMINANTE
ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE 1. Introducción 2. Etapas 3. Caso práctico Análisis de dependencias introducción varias relaciones una relación 1 variable dependiente > 1 variable dependiente
Más detallesEVALUACIÓN N DE LA VALIDEZ DE PRUEBAS DIAGNÓSTICAS
EVALUACIÓN N DE LA VALIDEZ DE PRUEBAS DIAGNÓSTICAS César Gutiérrez Villafuerte Sección n de Epidemiología a y Estadística stica Facultad de Medicina UNMSM Lima, marzo de 2006 Tuberculosis pulmonar Cáncer
Más detalles6 ANÁLISIS DE INDEPENDENCIA O ASOCIACIÓN ENTRE DOS ATRIBUTOS
6 ANÁLISIS DE INDEPENDENCIA O ASOCIACIÓN ENTRE DOS ATRIBUTOS Esquema del capítulo Objetivos 6.1. 6.. 6.3. 6.4. ANÁLISIS DE INDEPENDENCIA O ASOCIACIÓN ENTRE DOS ATRIBUTOS COEFICIENTES DE CONTINGENCIA LA
Más detallesUNEDpSI: Un programa didáctico de análisis de datos en Psicología. Área Temática: Universidades virtuales y centros de educación a distancia.
UNEDpSI: Un programa didáctico de análisis de datos en Psicología. Área Temática: Universidades virtuales y centros de educación a distancia. Ángel Villarino y Pedro Rodríguez-Miñón. (avillarino@psi.uned.es
Más detallesBREVE MANUAL DE SOLVER
BREVE MANUAL DE SOLVER PROFESOR: DAVID LAHOZ ARNEDO PROGRAMACIÓN LINEAL Definición: Un problema se define de programación lineal si se busca calcular el máximo o el mínimo de una función lineal, la relación
Más detallesTEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones.
TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones. La herramienta que nos indica si el proceso está o no controlado o Estado de Control son
Más detallesTécnicas de valor presente para calcular el valor en uso
Normas Internacionales de Información Financiera NIC - NIIF Guía NIC - NIIF NIC 36 Fundación NIC-NIIF Técnicas de valor presente para calcular el valor en uso Este documento proporciona una guía para utilizar
Más detallesDesigualdades socio-económicas en la supervivencia a cáncer colorectal
Desigualdades socio-económicas en la supervivencia a cáncer colorectal Daniel Jurado, Luisa Bravo, Esther de Vries & María Clara Yépez Centro de Estudios en Salud- CESUN Universidad de Nariño INTRODUCCIÓN
Más detallesTema 3. Comparaciones de dos poblaciones
Tema 3. Comparaciones de dos poblaciones Contenidos Hipótesis para la diferencia entre las medias de dos poblaciones: muestras pareadas Hipótesis para la diferencia entre las medias de dos poblaciones:
Más detallesGrado en Ingeniería. Estadística. Tema 3
Grado en Ingeniería Asignatura: Estadística Tema 3. Control Estadístico de Procesos (SPC) Control Estadístico de Procesos (SPC) Introducción Variabilidad de un proceso de fabricación Causas asignables
Más detallesLos modelos que permite construir el ANOVA pueden ser reducidos a la siguiente forma:
Ignacio Martín Tamayo 25 Tema: ANÁLISIS DE VARIANZA CON SPSS 8.0 ÍNDICE --------------------------------------------------------- 1. Modelos de ANOVA 2. ANOVA unifactorial entregrupos 3. ANOVA multifactorial
Más detalles10. DISEÑOS EXPERIMENTALES
10. DISEÑOS EXPERIMENTALES Dr. Edgar Acuña http://math.uprm.edu/~edgar UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ Diseños Experimentales de Clasificación Simple En un diseño experimental
Más detallesTEMA 5 VALIDEZ DE LA INVESTIGACIÓN (II): Validez de conclusión estadística
TEMA 5 VALIDEZ DE LA INVESTIGACIÓN (II): Validez de conclusión estadística 1 TAMAÑO DEL EFECTO 2 TAMAÑO DEL EFECTO vel tamaño del efecto es el nombre dado a una familia de índices que miden la magnitud
Más detallesQUERCUS PRESUPUESTOS MANUAL DEL USO
QUERCUS PRESUPUESTOS MANUAL DEL USO 2 Tabla de Contenido 1 Introducción 1 1.1 General 1 1.1.1 Que es Quercus Presupuestos? 1 1.1.2 Interfaz 1 1.1.3 Árbol de Navegación 2 1.1.4 Estructura de Datos de un
Más detallesIBM SPSS Regression 20
IBM SPSS Regression 20 Nota: Antes de utilizar esta información y el producto que admite, lea la información general en Avisos el p. 46. Esta edición se aplica a IBM SPSS Statistics 20 y a todas las versiones
Más detallesESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos
Descargado desde www.medwave.cl el 13 Junio 2011 por iriabeth villanueva Medwave. Año XI, No. 2, Febrero 2011. ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos Autor:
Más detallesIntroducción. Métodos
Factor de riesgo en aumento En este estudio se analiza la relación entre la obesidad y el riesgo de cáncer de distintas localizaciones en individuos de diferentes razas, y si existen diferencias entre
Más detalles