TRABAJO FIN DE MÁSTER MÁSTER OFICIAL EN ESTADÍSTICA APLICADA UNIVERSIDAD DE GRANADA

Tamaño: px
Comenzar la demostración a partir de la página:

Download "TRABAJO FIN DE MÁSTER MÁSTER OFICIAL EN ESTADÍSTICA APLICADA UNIVERSIDAD DE GRANADA"

Transcripción

1 TRABAJO FIN DE MÁSTER MÁSTER OFICIAL EN ESTADÍSTICA APLICADA UNIVERSIDAD DE GRANADA Alumna: María Ángeles Dueñas Rodríguez

2 ÍNDICE Capítulo 1: Introducción... 1 Capítulo 2: Teoría de los modelos de regresión logística multinomial Formulación e Interpretación del modelo Formulación Interpretación del modelo Otros aspectos a tener en cuenta sobre las variables Métodos de estimación. Estimación por máxima verosimilitud Bondad de ajuste del modelo Contrastes de bondad de ajuste del modelo Test chi-cuadrado de Pearson Test chi-cuadrado de razón de verosimilitudes. Estadístico de Wilks. Devianza Calidad del ajuste Coeficiente pseudo-r 2 de Mc-Fadden Coeficiente pseudo-r 2 de Cox-Snell Coeficiente pseudo-r 2 de Nagelkerke Tasa de clasificaciones correctas Contrastes sobre los parámetros del modelo Inferencia en regresión logística multinomial. Intervalos de confianza Métodos de selección del modelo Hacia adelante Hacia atrás Stepwise Validación del modelo Residuos de Pearson o residuos estandarizados Residuos de Pearson o residuos estandarizados Capítulo 3: Funciones y comandos con R Primeros pasos con R... 31

3 3.2. Análisis unidimensional Variables cualitativas Variables cuantitativas continuas Análisis bidimensional Dos variables cualitativas Una variable cualitativa y una variable cuantitativa continua Dos variables cuantitativas continuas Modelo de regresión logística multinomial Formulación y selección del modelo Inferencia Contrastes sobre los parámetros Bondad de ajuste del modelo Validación del modelo Capítulo 4: Aplicación con datos reales Descripción de la aplicación Resultados Análisis descriptivo unidimensional Análisis bidimensional Modelo de regresión logística multinomial. Factores asociados a los tipos de depresión Selección del modelo Odds ratios e Intervalos de Confianza Contraste sobre los parámetros Interpretación del modelo Ajuste global del modelo Validación del modelo Conclusiones Anexos. Cálculos con R Bibliografía

4 CAPÍTULO 1: INTRODUCCIÓN 1

5 Este trabajo pretende dar una descripción detallada de una aplicación con datos reales de modelos de respuestas discretas realizando el análisis con el software estadístico R. Concretamente se aplicará un modelo de regresión logística multinomial. El software utilizado tal y como se ha demostrado (1-3) es un paquete muy potente que permite realizar numerosos análisis, y entre ellos la regresión logística multinomial. El objetivo principal del trabajo es describir la teoría del análisis que se llevará a cabo (regresión logística multinomial), detallar cómo se aplica esta teoría con el lenguaje de R y finalmente describir una aplicación con datos reales en la que se aplique estos modelos y se realicen los análisis con R. El trabajo se estructurará de la siguiente manera: - Este primer capítulo es una introducción al trabajo donde se especifican los objetivos del mismo y los objetivos de la aplicación, así como su relación con la literatura. - El segundo capítulo contiene toda la teoría de los modelos de regresión logística multinomial, incluyendo la formulación, bondad de ajuste del modelo, inferencia, calidad y validación de los modelos. - El tercer capítulo incluye todas las funciones de R que se utilizarán posteriormente en la aplicación para obtener los resultados deseados. Además de nombrar estas funciones se describen sus argumentos y las salidas que aportan cada una de ellas. - El cuarto capítulo está completamente dedicado a la aplicación con datos reales, en la que se describe ésta, incluyendo un análisis descriptivo y relaciones entre variables anterior a la aplicación del modelo de regresión logística multinomial. Finalmente se interpretan todos los resultados y se obtienen conclusiones. - Posteriormente, aparece un anexo en el que se incluyen todos los cálculos realizados con R, en el que se incluyen todas las funciones y comandos utilizados para obtener todos los resultados mostrados en el capítulo cuarto. - Finalmente, mostramos toda la bibliografía utilizada en todo el trabajo. La aplicación con datos reales que describimos en este trabajo procede de un estudio a nivel nacional que se realizó en España, en el cual se estudia el dolor y la depresión en pacientes atendidos en atención primaria. Para este trabajo se ha seleccionado la información necesaria de este estudio para conocer los factores asociados a la presencia de trastornos mentales infradiagnosticados en pacientes con 2

6 dolor crónico de tipo osteomuscular, atendidos en una muestra representativa de centros de Atención Primaria (AP) en España. Se ha considerado este estudio ya que se entiende que el dolor y la depresión son problemas de salud muy comunes, sobre todo en pacientes atendidos en atención primaria (4). Ambos problemas de salud aumentan el uso de los servicios sanitarios y producen un deterioro de la calidad de vida relacionada con la salud de estos individuos (5,6). El dolor crónico y la depresión son procesos comunes, mostrándose en algunos estudios que la prevalencia oscila entre 15% y 100% (7). Así mismo, la presencia y la intensidad de dolor crónico se reconoce que son predictores del grado de depresión en estos pacientes(8,9). Pacientes con dolor crónico y depresión asisten a la consulta del médico con más frecuencia y se convierten en grandes consumidores de los servicios sanitarios (10,11). Muchos estudios han demostrado que pacientes con depresión y dolor crónico son más propensos a estar más insatisfechos con su salud (12). En atención primaria, la depresión a menudo no se diagnostica, particularmente en casos de pacientes que sufren dolor crónico (13). Nos proponemos realizar esta aplicación con ese objetivo, ya que existen escasos estudios que estudian la comorbilidad de dolor crónico con otros trastornos mentales, la mayoría de los estudios estudian la relación entre el dolor y trastorno de depresión mayor, habiendo pocos que estudien otros trastornos como depresión menor, distimia o trastorno bipolar. Así mismo, no son muy comunes estudios que utilizan un cuestionario específico estructurado para evaluar estos procesos en atención primaria. Así que nuestro objetivo principal será conocer los factores asociados a los tipos de trastornos mentales en pacientes con dolor osteomuscular, y para tal fin se realizará un modelo de regresión logística multinomial, que permitirá conocer qué variables de las recogidas en el estudio afectan y de qué manera afectan a la presencia o ausencia de algunos tipos de trastornos mentales de estos pacientes. Se utilizará este modelo de regresión logística multinomial ya que la variable respuesta es categórica, con más de dos categorías, ya que contempla entre los tipos de trastornos mentales, la depresión mayor, depresión menor, trastorno bipolar, distimia, remisión parcial y trastornos causados por medicamentos o drogas, además de contemplar la posibilidad de presenciar más de un tipo de trastorno de los anteriores mencionados o incluso la ausencia de trastorno mental. 3

7 (14): Los modelos de regresión logística permiten principalmente dos finalidades - Cuantificar la importancia de la relación existente entre cada una de las covariables y la variable dependiente, lo que lleva implícito también clarificar la existencia de interacción y confusión entre covariables respecto a la variable dependiente (es decir, conocer la odds ratio para cada covariable). - Clasificar individuos dentro de las categorías de la variable dependiente, según la probabilidad que tenga de pertenecer a una de ellas dada la presencia de determinadas covariables. De hecho, la regresión logística es una de las herramientas estadísticas con mejor capacidad para el análisis de datos en investigación clínica y epidemiología, de ahí su amplia utilización (15-22). Y es la técnica más apropiada para usar en este estudio. El objetivo primordial que resuelve esta técnica es el de modelar cómo influye en la probabilidad de aparición de un suceso, habitualmente dicotómico pero en este caso es politómico, la presencia o no de diversos factores y el valor o nivel de los mismos. Es decir, estimar la probabilidad de aparición de cada una de las posibilidades de un suceso con más de dos categorías. Como se ha comentado antes, se realizará un análisis descriptivo previo de las variables recogidas en el estudio, para conocer las características principales de los pacientes estudiados. También analizaremos previamente relaciones entre distintas variables que se consideren de interés, sobre todo entre la variable de los tipos de trastornos mentales y el resto de variables, para poder elegir las posibles variables independientes candidatas a ser incluidas en el modelo de regresión logística multinomial. Una vez realizado este análisis exploratorio previo, conoceremos los factores asociados a la presencia de algún tipo de trastorno mental, mediante el modelo de regresión logística multinomial. En nuestro caso, en este modelo la variable respuesta sería los tipos de trastornos mentales, incluida la categoría de ausencia de depresión, la cual se tomaría como categoría de referencia para el modelo. Las variables predictoras que elegiremos para conocer su asociación con los tipos de trastornos mentales, seleccionadas según lo obtenido en los análisis bivariantes y según criterios clínicos, serán: sexo, edad, nivel de estudios, estado civil, trastornos del sueño, la localización del dolor (cervical, espalda, articulaciones, extremidades), intensidad del dolor general, 4

8 duración del dolor en la última semana, influencia del dolor en las actividades de la vida diaria y número de consultas al médico a causa del dolor. Así que estimaremos la probabilidad de tener un tipo de trastorno mental influenciada por otros factores. Finalmente se interpretará los resultados obtenidos llegando a alcanzar los objetivos propuestos y obteniendo conclusiones. 5

9 CAPÍTULO 2: TEORÍA DE LOS MODELOS DE REGRESIÓN LOGÍSTICA MULTINOMIAL 6

10 En este capítulo se explica toda la metodología que será utilizada para resolver nuestro problema y alcanzar el objetivo que nos planteamos sobre nuestra aplicación. Como se ha indicado anteriormente, para el propósito de ese estudio, se utilizarán modelos de respuesta discreta, concretamente el modelo de regresión logística multinomial. A continuación se describirá este modelo explicando entre otras cosas, la formulación, los métodos de estimación, interpretación de parámetros, ajustes del modelo, validación, contrastes de hipótesis asociados. Todo este desarrollo teórico que se explica a continuación, es lo que posteriormente se llevará a cabo a la práctica con nuestra aplicación. Los modelos de regresión logística son modelos estadísticos en los que se pretende conocer la relación entre una variable dependiente cualitativa, dicotómica (regresión logística binaria o binomial) o con más de dos categorías (regresión logística multinomial) y entre variables explicativas independientes, que pueden ser cualitativas o cuantitativas. Las covariables cualitativas que sean dicotómicas, es aconsejable que se codifiquen tomando valores 0, para una de las categorías o para su ausencia y 1 para la otra categoría o para su presencia (esta codificación es importante, ya que cualquier otra codificación podría provocar modificaciones en la interpretación del modelo). Pero si la covariable cualitativa tuviera más de dos categorías, se realiza una transformación, para poderla incluir en el modelo. Esta transformación consiste en crear varias variables cualitativas dicotómicas ficticias o de diseño, llamadas variables dummies, de forma que una de las variables se tomaría como categoría de referencia y cada una de las variables creadas entraría en el modelo de forma individual. En general, si la covariable cualitativa posee n categorías, habrá que realizar n 1 covariables ficticias (14,23). La regresión logística multinomial es utilizada en modelos con variable dependiente de tipo nominal con más de dos categorías (politómica) y es una extensión multivariante de la regresión logística binaria clásica. Las variables independientes pueden ser tanto continuas (covariables) como categóricas (factores). Tradicionalmente las variables dependientes politómicas han sido modeladas mediante análisis discriminante pero, gracias al creciente desarrollo de las técnicas de cálculo, cada vez es más habitual el uso de modelos de regresión logística multinomial, implementados en paquetes estadísticos, debido a la mejor interpretabilidad de los resultados que proporciona (24). Estos modelos se analizan eligiendo una categoría como referencia de la variable dependiente o de respuesta y se modelan varias ecuaciones 7

11 simultáneamente, una para cada una de las restantes categorías respecto a la de referencia (25). En general, los requisitos y etapas de la regresión logística son los que se muestran a continuación, posteriormente detallaremos esas etapas. - Recodificar las variables independientes categóricas u ordinales en variables ficticias o simuladas y la variable dependiente. - Evaluar efectos de confusión y de interacción del modelo explicativo. - Evaluar la bondad de ajuste de los modelos. - Analizar la fuerza, sentido y significación de los coeficientes, sus exponenciales y estadísticos de prueba (por ejemplo, el estadístico de Wald). A continuación, mostraremos la formulación de los modelos de regresión logística multinomial, así como los contrates aplicados sobre este modelo y la inferencia. Toda esta teoría se puede ver en el libro de Aguilera, A. (26) Formulación e Interpretación del modelo Formulación Para los modelos de regresión logística binaria, si tenemos una variable dependiente Y, que toma valores Y=1 (presencia de una característica u otra categoría de la variable) y Y=0 (ausencia de la característica o la otra categoría de la variable), la ecuación de partida del modelo viene dada por: P[Y = 1 X] = exp (b 0 + s=1 b s x s ) 1 + exp(b 0 + n b s x s n s=1 ) donde P[Y = 1 X] es la probabilidad de que Y tome el valor 1, en presencia de las covariables X, que lo denotaremos por p(x). X es un conjunto de n covariables {x 1, x 2,, x n } que forman parte del modelo; b 0 es la constante del modelo o término independiente y los b i son los coeficientes de las covariables. Esta ecuación inicial del modelo es de tipo exponencial, pero se realiza su transformación logarítmica (logit), dada por: 8

12 p(x) ln 1 p(x) = b 0 + b s x s De esta forma, se permite su uso como una función lineal y es de más fácil interpretación. Para el caso de que la variable dependiente presente más de dos categorías, como es nuestro caso, se utiliza el modelo de regresión logística multinomial que se modela, como se indicó anteriormente, mediante varios logits simultáneamente, uno para cada una de las restantes categorías respecto a la categoría de referencia que se haya considerado de la variable dependiente. Ejemplo: Tipos de depresión La variable resultado tiene cinco categorías: - Sin depresión. (Categoría de referencia). - Depresión mayor. - Depresión menor. - Otros tipos de depresión. - Más de un tipo de depresión. Se modelan cuatro logits simultáneamente: - logit (depresión mayor / sin depresión z)= a 1 + b 1 z - logit (depresión menor / sin depresión z)= a 2 + b 2 z - logit (otros tipos de depresión / sin depresión z)= a 3 + b 3 z - logit (más de un tipo de depresión / sin depresión z)= a 4 + b 4 z n s=1 La covariable z es común en cada logit, pero se estiman coeficientes b i diferentes para cada logit (incluso diferente constante, a i ). Veamos la formulación de estos modelos de forma general. Consideremos una variable de respuesta politómica Y con más de dos categorías de respuesta que denotaremos por Y 1, Y 2,, Y k. Se pretende explicar la probabilidad de cada categoría de respuesta en función de un conjunto de covariables X = {x 1, x 2,, x n } observadas. Es decir, ajustar un modelo de la forma p j (x) = P Y = Y j X = x = f j (x) j = 1,, k para cada vector x de valores observados de las variables explicativas X. En el caso de una variable de respuesta binaria, su distribución condicionada a cada combinación de valores observados de las covariables sigue una Bernouilli. 9

13 Cuando la variable de respuesta es politómica, la distribución de Bernouilli se convierte en una distribución multinomial de parámetros las probabilidades de cada una de las categorías de respuesta. Es decir, (Y/X = x) M(1; p k j=1 p j (x) = 1. 1 (x),..., p k (x)), siendo Así que para obtener un modelo lineal, obtendremos k transformaciones logit 2 para comparar cada par de categorías de la variable respuesta, que sería de este tipo: p i (x) ln p i (x) + p j (x) p j (x) p i (x) + p j (x) = ln p i(x) p j (x), i, j = 1,, k (i j) que representan el logaritmo de la ventaja de respuesta Y i frente a Y j condicionado a las observaciones de las variables independientes que caen en uno de ambos niveles. Pero para construir el modelo logit de respuesta multinomial bastaría con considerar (k 1) transformaciones logit básicas, definidas con respecto a una categoría de referencia. Tomando como categoría de referencia la última Y k. Así las transformaciones logit generalizadas se definen como L j (x) = ln p j (x) p k (x) j = 1,, k 1, siendo L j (x) el logaritmo de la ventaja de respuesta Y j dado que las observaciones de las variables independientes caen en la categoría Y j o en la Y k. El modelo lineal para cada una de las transformaciones logit generalizadas, para n variables explicativas, es de la siguiente forma: n L j (x) = b sj x s = x b j j = 1,, k 1 s=0 para cada vector de valores observados de las variables explicativas x= (x 0, x 1, x 2,, x n ) con x 0 = 1 y b j = (b 0j, b 1j,, b nj ) el vector de parámetros asociado a la categoría Y j. Para las probabilidades de respuesta, podemos escribir el modelo de la siguiente forma: exp s=0 b sj x s p j (x) = 1 + k 1 n exp b sj x s j=1 n s=0 j = 1,,. k 1 1 p k (x) = 1 + k 1 n exp ( b sj x s j=1 s=0 ) 10

14 Demostración: k 1 p j(x) = exp (x b p k (x) j ) j=1 k 1 j=1 1 p k(x) p k (x) k 1 = exp x b j j=1 Así que tenemos: p k (x) = Por tanto, también obtenemos: 1 k 1 1+ exp ( n j=1 s=0 b sj x s ) exp s=0 b sj x s p j (x) = 1 + k 1 n exp b sj x s j=1 n s=0 j = 1,,. k 1 O equivalentemente, podemos obtener de ambas expresiones, una expresión reducida del modelo: p j (x) = exp n s=0 b sjx s k n exp b sj x s j=1 s=0 j = 1,, k siendo b sk = 0 s = 0,1,, n Interpretación del modelo A continuación mostramos la interpretación de los parámetros del modelo, pero distinguiendo los casos según de qué tipo son las variables explicativas, cuantitativas o cualitativas. - Una variable predictora cuantitativa X. Si en el modelo tenemos sólo una única covariable cuantitativa X, el modelo para cada valor observado x de la variable X viene dado por: L j (x) = a j + b j x, j = 1,, k 1 A continuación mostramos la exponencial de los parámetros b j asociados a cada categoría de la variable dependiente, que se interpreta en términos de cocientes de ventajas (odds ratio): θ j ( X = 1) = p j (x + 1) p k (x + 1) = exp (a j + b j (x + 1)) = exp b p j (x) exp (a j + b j x) j j = 1,, k 1 p k (x) 11

15 θ j ( X = 1) es el cociente de ventajas de respuesta Y j frente a la última categoría, Y k cuando aumenta en una unidad la variable X. - Más de una variable predictora cuantitativa. Para el modelo logit generalizafo múltiple, los cocientes de ventajas se definen incrementando una de las variables y controlando fijas las demás. θ j ( X r = 1 / X s = x s, s r) = = 1,, k 1 P[Y = Y j / X r = x r + 1, X s = x s, s r] P[Y = Y k / X r = x r + 1, X s = x s, s r] = exp b P[Y = Y j / X r = x r, X s = x s, s r] rj j P[Y = Y k / X r = x r, X s = x s, s r] siendo θ j ( X r = 1 / X s = x s, s r) el cociente de ventajas de respuesta Y j frente a la última categoría, Y k cuando aumenta en una unidad la variable X r y las demás se controlan fijas. - Variables predictoras categóricas. Si se incluyen en el modelo variables independientes categóricas, se introducen mediante sus variables del diseño asociadas (variables dummies). Supongamos que tenemos la variable categórica A con categorías A 1,, A p. Si de esta variable realizamos la transformación a variables de diseño mediante el método parcial que asigna un uno a la variable asociada a cada categoría y un cero al resto, y tomando como categoría de referencia la primera, obtenemos p-1 variables A que las denotamos como X m (m=2,, p). Así que el modelo de regresión logística multinomial generalizado que obtenemos sigue siendo un modelo lineal, como en los casos anteriores, para cada logit generalizado en función de esas variables de diseño procedentes de la variable A y viene dado por: L j/l = ln p j l = b p 0j + τ mj k l p m=2 A X lm A l = 1,, p; j = 1,, k 1 siendo p j l = P[Y = Y j A = A l ], la probabilidad de respuesta Y j en la categoría A l. 1,, k 1 También podemos definir el modelo como: L j/l = b 0j + τ lj l = 1,, p; j = 12

16 siendo τ 1j = 0, j = 1,, k 1. Este modelo en términos de cocientes de ventajas viene dado por: θ j l1 = p j l p k l p = j 1 p k 1 exp (b 0j + τ lj ) = exp τ exp (b 0j ) lj j = 1,, k 1, l = 2,, p que es el cociente de ventajas de respuesta Y j frente a la última Y k para la categoría A l de A respecto a la primera categoría A Otros aspectos a tener en cuenta sobre las variables Para seleccionar el conjunto de variables predictoras que se incluyen en el modelo, los criterios a seguir son: Incluir todas aquellas variables que se consideren clínicamente importantes para el modelo, independientemente de si se ha demostrado o no significación estadística en un análisis univariado previo, ya que puede conducir a dejar de incluir en el modelo covariables con una débil asociación a la variable dependiente en solitario pero que podrían demostrar ser fuertes predictores de la misma al tomarlas en conjunto con el resto de covariables. Aunque se aconseja incluir toda variable que en un análisis univariado previo demostrara una relación con la variable dependiente (27). Con estos criterios debemos de conseguir obtener un modelo que sea lo más reducido posible que explique los datos (principio de parsimonia), y que además sea clínicamente congruente e interpretable. Posiblemente un mayor número de variables en el modelo implicaría mayores errores estándar. Cuando se obtienen seleccionadas todas las covariables para ser incluidas en el modelo, se debe proceder a obtener el modelo más reducido que siga explicando los datos. Para ello se puede recurrir a métodos de selección paso a paso, bien mediante inclusión, hacia adelante, o por eliminación, hacia atrás, o a la selección de variables por mejores subconjuntos de covariables. Estos métodos se encuentran implementados en la mayoría de los paquetes estadísticos y se describen posteriormente. Otro aspecto a tener en cuenta para elegir el número de covariables a incluir en un modelo de regresión logística es, el tamaño muestral. Ya que modelos excesivamente grandes para muestras con tamaños muestrales relativamente pequeños podrían provocar errores estándar grandes o coeficientes estimados 13

17 falsamente muy elevados (sobreajuste). Por lo que se suele recomendar, que por cada covariable se cuente con un mínimo de 10 individuos por cada categoría de la variable dependiente con menor representación. Por ejemplo, si la variable dependiente Y es dolor y en los datos hay 120 sujetos con dolor y 36 sujetos sin dolor, la categoría de Y menos representado es sin dolor, con 36 sujetos; de esta forma el modelo no debería contener más de 36/10 ~ 3 ó 4 covariables (27). También otra cuestión a tener en cuenta de los modelos de regresión logística, es la inclusión de factores de interacción, para estudiar cómo la asociación de dos o más covariables puede influir en la variable dependiente. Estas interacciones pueden ser de primer orden (tomadas las covariables dos a dos o de mayor orden, pero estas últimas suelen ser de difícil interpretación). Las interacciones se incluyen siempre que sean interpretables y tengan significado desde el punto de vista clínico. Si en un modelo se incluye una interacción de dos o más covariables, éstas deben de estar incluidas también en el modelo de forma aislada (principio jerárquico) (28). Por otra parte hay que tener en cuenta que la inclusión de interacciones puede generar multicolinealidad, tanto más probable cuanto mayor sea el número de interacciones (29) Métodos de estimación. Estimación por máxima verosimilitud Para la estimación de los coeficientes del modelo y de sus errores estándar se utiliza la estimación por máxima verosimilitud, es decir, estimaciones que hagan máxima la probabilidad de obtener los valores de la variable dependiente y proporcionados por los datos de la muestra. Al contrario de lo que ocurre con la estimación de los coeficientes de regresión lineal múltiple que se utiliza el método de los mínimos cuadrados, los cálculos para las estimaciones de los coeficientes de la regresión logística multinomial no son directos, hay que llevar a cabo métodos iterativos, como el método de Newton Raphson. Al aplicar estos métodos además de obtener las estimaciones de los coeficientes de regresión, se obtienen sus errores estándar y las covarianzas entre las covariables del modelo. 14

18 A continuación describimos el método de estimación de máxima verosimilitud para el cálculo de los coeficientes de nuestro modelo de regresión logística multinomial. Supongamos que disponemos de una muestra aleatoria de tamaño N con Q combinaciones diferentes de valores de las variables explicativas X 1,, X n. Denotemos a cada combinación de valores de las variables explicativas por x q = x q0, x q1,, x qn con x q0 = 1 q = 1,, Q. En cada una de estas combinaciones se tiene una muestra aleatoria de d q observaciones independientes de la variable de respuesta politómica Y, de entre las cuales denotamos por y j q al número de observaciones que caen en la categoría de respuesta Y j j = 1,..., k. k Q q=1 Así que, se verifica que j=1 y j q = d q y d q = N. Los vectores y 1 q, y k q q = 1,, Q siguen una distribución de probabilidad multinomiales independientes, M(d q ; p 1 q,, p k q ), siendo p j q = P Y = Y j X = x q y verificando que j=1 p j q = 1 k Por tanto, la función de verosimilitud de los datos viene dada por: Q V = q=1 k j=1 y j q k d q! y p j q! j q Así que el núcleo de la log-verosimilitud es: K = q=1 j=1 y j q ln ( p j q ) Normalmente, en vez de utilizar la función de verosimilitud se utiliza la siguiente función auxiliar: Λ = 2ln (V) Por lo que el problema de maximizar la verosimilitud equivale al de minimizar esta función auxiliar (26,30). Teniendo en cuenta la ecuación del modelo logit generalizado multinomial, y sustituyendo en la expresión anterior, obtenemos la siguiente expresión del núcleo de la log-verosimilitud: Q k K = y j q q=1 j=1 n b sj x qs s=0 Q k = y j q q=1 j=1 Q k y j q q=1 n j=1 j=1 k Q k ln exp b sj x qs j=1 n s=0 b sj x qs n q ln exp b sj x qs s=0 Q q=1 k j=1 n s=0 15

19 Derivando respecto de los parámetros: Q K exp s=0 b sj x qs = y b jq x qs n q x qs sj k n exp b sj x qs q=1 Q q=1 Así, obtenemos las ecuaciones de verosimilitud con forma matricial: X ((n+1) Q) j=1 n s=0 y j(q 1) = X ((n+1) Q) m j(q 1) j = 1,, k 1, siendo y j = y j 1,, y j Q y m j = m j 1,, m j Q con m j q la frecuencia esperada de respuesta Y j en la combinación x q de valores observados de las variables predictoras, estimada bajo el modelo y definida como m j q = d q p j q. Para obtener los estimadores de máxima verosimilitud hay que resolver k-1 sistemas de n+1 ecuaciones no lineales. Así que para resolverlo utilizamos el método iterativo de Newton-Raphson. Con este método obtenemos el estimador de los parámetros b, que es una matriz de dimensión (n+1)x(k-1) formado por las siguientes columnas: b = (b 1, b 2,, b k 1 ) siendo b j el estimador de máxima verosimilitud del vector de parámetros asociado a la categoría de la variable respuesta Y j. A continuación obtendremos la matriz de covarianzas de b, que es la inversa de la matriz de información de Fisher. Calculemos primero la matriz de covarianzas de cada vector de parámetros b j. Para ello hay que calcular las derivadas segundas de K con r s: Q n 2 K exp s=0 b sj x qs j=1 exp s=0 b sj x qs exp s=0 b sj x qs = n b rj b q x qs x qr sj k n exp b sj x qs q=1 Así que la matriz de covarianzas viene dada por: 2 K Cov b j = E b rj b sj 1 k n j=1 s=0 2 = X Diag d q p j q 1 p j q X 1 Calculamos ahora las matrices de covarianzas cruzadas entre cada par de estimadores b j y b i (i j). Para ello se calculan las siguientes derivadas segundas de K con r s y j i. Q 2 K exp s=0 b sj x qs exp s=0 b si x qs = n b ri b q x qs x qr sj k n exp b sj x qs q=1 n j=1 s=0 2 Dando lugar a la siguiente expresión de la matriz de covarianzas: n n 16

20 2 K Cov b j, b i = E b ri b sj 1 = X Diag d q p j q p i q X 1 Finalmente, tenemos que la matriz de covarianzas del estimador b es: Cov b 1 Cov b 1, b 2 Cov b 1, b k 1 Cov b = Cov b 1, b 2 Cov b 2 Cov b 2, b k 1 Cov b 1, b k 1 Cov b 2, b k 1 Cov b k Bondad de ajuste del modelo Contrastes de bondad de ajuste del modelo Uno de los primeros indicadores de importancia para apreciar el ajuste del modelo logístico multinomial es el doble logaritmo del estadístico de verosimilitud (likelihood), que veremos posteriormente. Se trata de un estadístico que sigue una distribución similar a χ 2 (31). Sea y j q el número de observaciones que caen en la categoría de respuesta Y j j = 1,..., k. y sean las d q observaciones correspondientes a la q-ésima combinación de valores de las variables explicativas. Denotamos por m j q la frecuencia esperada de respuesta Y j en la combinación x q de valores observados de las variables predictoras, estimada bajo el modelo y definida como m j q = d q p j q. Así que para contrastar la bondad del ajuste global del modelo cuando el número de observaciones en cada combinación de valores de las variables explicativas es grande se utiliza el estadístico chi-cuadrado de Pearson y el estadístico de Wilks de razón de verosimilitudes. El test global de bondad de ajuste del modelo de regresión logística multinomial múltiple contrasta el siguiente contraste de hipótesis: H 0 : p j q = exp n s=0 b sjx qs n 1 + exp b sj x qs s=0 q = 1,.., Q; j = 1,, k H 1 : p j q exp n s=0 b sjx qs n 1 + exp b sj x qs s=0 para algún q y j. 17

21 Test chi-cuadrado de Pearson El estadístico chi-cuadrado de Pearson de bondad de ajuste a un modelo de regresión logística multinomial, M de la forma anterior viene dado por: Q k X 2 (M) = y j q d q p j q d q p j q q=1 j=1 2 siendo p j q la estimación por máxima verosimulitud de p j q. Este estadístico tiene distribución asintótica chi-cuadrado con grados de libertad obtenidos como la diferencia entre el número de parámentros p j q y el número de parámetros independientes en el modelo, Q-(n+1)x(k-1). Es decir, X 2 (M) d 2 χ Q (n+1)x(k 1), si d q. Así que se rechaza la hipótesis nula con un nivel de significación α cuando X 2 2 (M) Obs χ Q (n+1)x(k 1);α. O equivalentemente podemos definir el p-valor del contraste como la probabilidad acumulada a la derecha del valor observado: p- valor=p[x 2 (M) X 2 (M) Obs ], se rechaza la hipótesis nula cuando p-valor α Test chi-cuadrado de razón de verosimilitudes. Estadístico de Wilks. Devianza El estadístico de Wilks de razón de verosimilitudes para el contraste de bondad de ajuste del modelo de regresión logística multinomial M se obtiene como menos dos veces el logaritmo del cociente entre el supremo de la verosimilitud bajo la hipótesis nula y el supremo de la verosimilitud en la población. A partir de esta expresión operando se obtiene la expresión de este estadístico que viene dada por: Q G 2 (M) = 2 y j q q=1 k j=1 ln y j q m j q Este estadístico tiene distribución asintótica chi-cuadrado con grados de libertad la diferencia entre la dimensión del espacio paramétrico y la dimensión de este espacio bajo la hipótesis nula. Para un modelo de regresión logística multinomial los grados de libertad es la diferencia entre el número de parámetros p j q y el número de parámetros b sj bajo el modelo, es decir, Q (n+1)x(k-1) grados de libertad G 2 (M) d 2 χ Q (n+1)x(k 1), si d q. 18

22 Así que se rechaza la hipótesis nula con un nivel de significación α cuando G 2 2 (M) Obs χ Q (n+1)x(k 1);α. O equivalentemente cuando p-valor=p[g 2 (M) G 2 (M) Obs ] α. Al estadístico de Wilk, G 2 (M), se le denomina devianza Calidad del ajuste Además de los contrastes que hemos visto anteriormente, podemos calcular otras medidas que nos dan información sobre la calidad del modelo, al igual que en la regresión lineal que se utiliza la medida de R 2. En los modelos de regresión logística binaria, la calidad del ajuste se mide mediante coeficientes de determinación conocidos como Pseudo-R 2, para la regresión logística multinomial también se utilizan estos coeficientes. De entre todos los que existen, los más usados son el de Mc-Fadden, el de Cox-Snell y el de Nagelkerke. Veamos cómo se calculan cada uno de ellos (24,26) Coeficiente pseudo-r2 de Mc-Fadden. Si tenemos Λ = 2ln (V), identificamos por Λ 0 el valor inicial de esta función, es decir el mínimo Λ bajo el modelo nulo dado sólo por un término constante y por Λ f el mínimo de Λ bajo el modelo ajustado con todos los parámetros, obtenemos la siguiente expresión del pseudo-r 2 de Mc-Fadden: 2 R MF = 1 Λ f. Λ 0 2 Siendo su rango teórico de valores 0 R MF 1, pero muy raramente su valor 2 se aproxima a 1. Suele considerarse una buena calidad del ajuste cuando 0 2 R MF 0 4 y excelente para valores superiores Coeficiente pseudo-r 2 de Cox-Snell. En este caso se utiliza directamente la función de verosimilitud V, y no la función auxiliar Λ. Por lo que si denotamos por V 0 =exp(- Λ 0 /2) el máximo de verosimilitud bajo el modelo nulo dado sólo por un término constante y por V f =exp(- Λ f /2) el máximo de verosimilitud bajo el modelo ajustado con todos los parámetros, definimos el coeficiente pseudo-r 2 de Cox-Snell como: 19

23 2 R 2 CS = 1 V N 0 Λ f Λ 0 = 1 exp V f N 2 El rango teórico de valores para el coeficiente es 0 R 2 CS 1 V N 0, lo que le hace poco interpretable al depender de V 0. Ya que puede ser próximo a cero cuando hay pocos datos. Por ello es preferible utilizar el siguiente coeficiente como medida de bondad de ajuste Coeficiente pseudo-r 2 de Nagelkerke. Viene dado por la siguiente expresión: R N 2 = R CS 2 1 V 0 2 N = 1 exp Λ f Λ 0 N 1 exp Λ 0 N Y en este caso, su rango de valores es 0 R 2 N 1, por lo que puede interpretarse del mismo modo que el coeficiente de determinación de la regresión lineal clásica, aunque es más difícil que alcance valores cercanos a 1. Por último decir que, para comparar modelos de regresión logística multinomial con diferente número de variables predictoras suelen introducirse coeficientes Pseudo- R 2 ajustados. El más conocido es el de Mc-Fadden, definido como: 2 Adj R MF = Λ f+n+1, siendo n el número de variables predictoras. 0.5 Λ Tasa de clasificaciones correctas Para cuantificar la bondad del ajuste global del modelo se dispone también de otra medida como es la tasa de clasificaciones correctas. Es decir, a partir del modelo ajustado, se clasifica cada observación en la categoría más probable, construyendo así una matriz de clasificación observados-predichos y se utiliza el porcentaje de clasificaciones correctas como una medida de la calidad de predicción, del mismo modo que se hace en el análisis discriminante (24). Se define como la proporción de individuos clasificados correctamente por el modelo y se calcula como el cociente entre el número de observaciones clasificadas correctamente y el tamaño muestral N. Un individuo es clasificado correctamente por el modelo cuando su valor observado de la variable respuesta Y (Y 1, Y 2,, Y k ) coincide con su valor estimado por el modelo. 20

24 2.4. Contrastes sobre los parámetros del modelo Además de construir el modelo y ajustarlo y habiendo obtenido las estimaciones, el siguiente paso será comprobar la significación estadística de cada uno de los coeficientes de regresión en el modelo. Para ello se pueden emplear básicamente dos métodos para los modelos de regresión logística multinomial: el estadístico de Wald y el estadístico condicional de razón de verosimilitud. Así que nos planteamos contrastar si un subconjunto de los parámetros del modelo de regresión logística multinomial, que denotaremos por b = (b 1,, b r ), es nulo. Así que nos planteamos el contraste de hipótesis: H 0 : b = 0 H 1: : b 0 Veamos los dos tipos de contrastes mencionados anteriormente que se utiliza para contrastar esta hipótesis. - Contrastes de Wald. Se basan en la normalidad asintótica de los estimadores de máxima verosimilitud. El estimador de máxima verosimilitud de b, b, tiene distribución normal asintótica de media b y matriz de covarianzas estimada Cov (b ) obtenida a partir de la matriz de covarianza Cov b. Así que el estadístico de Wald presenta la forma cuadrática: b Cov b 1 b, que tiene distribución chi-cuadrado asintótica con r grados de libertad (número de parámetros nulos bajo la hipótesis nula). Así que se rechaza la hipótesis nula al nivel de significación α cuando el valor observado de este estadístico sea mayor o igual que el cuantil de orden (1- α) de la distribución χ r 2. Su valor para un coeficiente concreto viene dado por el cociente entre el valor del coeficiente y su correspondiente error estándar. Es decir si se quiere contrastar: H 0 : b sj = 0 H 1: : b sj 0 21

25 el estadístico será: W = b 2 sj, que tiene distribución chi-cuadrado asintótica con un σ 2 b sj grado de libertad. Así que se rechaza la hipótesis nula con nivel de confianza 1-α si 2 W Obs χ 1;α Es decir, la obtención de significación indica que dicho coeficiente es diferente de 0 y merece la pena su conservación en el modelo. En modelos con errores estándar grandes, el estadístico de Wald puede proporcional falsas ausencias de significación. Tampoco es recomendable su uso si se están empleando variables de diseño. En estos casos se recomienda el uso del test de razón de verosimilitudes (27). - Contrastes condicionales de razón de verosimilitud Se trata de ir contrastando cada modelo que surge de eliminar de forma aislada cada una de las covariables frente al modelo completo. La ausencia de significación implica que el modelo sin la covariable no empeora respecto al modelo completo (es decir, da igual su presencia o su ausencia), por lo que según la estrategia de obtención del modelo más reducido (principio de parsimonia), dicha covariable debe ser eliminada del modelo ya que no aporta nada al mismo. Supongamos que tenemos un modelo de regresión logística multinomial M G que se ajusta bien y se desea contrastar si un subconjunto de parámetros, b = (b 1,, b r ), son nulos. Sea M P el modelo con ese subconjunto de parámetros ceros. Así que M P está anidado en el modelo genral M G. Así que planteamos el contraste: H 0 : b = 0 (M P se verifica) H 1: : b 0 (asumiendo cierto M G ) Si asumimos que M G se verifica, el estadístico del test de razón de verosimilitudes para contrastar si M P se verifica es: G 2 (M P M G ) = - 2(L P -L G )=G 2 (M P )- G 2 (M G ), siendo L P y L G los máximos de la log-verosimilitud bajo la suposición de que se verifican los modelos saturados, M P y M G, respectivamente. Es decir, el test de razón de verosimilitud para contrastar dos modelos anidados es la diferencia de los contrastes de razón de verosimilitudes de bondad de ajuste para cada modelo. El estadístico G 2 (M P M G ) tiene distribución chi-cuadrado con grados de libertad la diferencia entre los grados de libertad de las distribuciones chi-cuadrado asintóticas de G 2 (M P ) y G 2 (M G ), es decir, el número de parámetros que se anulan para H 0, r. 22

26 Así que se rechaza la hipótesis nula al nivel de significación α cuando G 2 obs(m P M G ) χ 2 r;α Inferencia en regresión logística multinomial Lo principal que se pretende cuando se realiza un modelo estadístico a través de los datos procedentes de una muestra, es extrapolar los resultados muestrales a la población general, es por ello que para nuestro caso particular de haber estimados los parámetros del modelo de regresión logística multinomial, pretendemos hacer inferencia. Intervalos de confianza Basándonos en la normalidad asintótica de los estimadores de máxima verosimilitud se pueden construir intervalos de confianza asintóticos para cada uno de los parámetros del modelo, utilizando la distribución normal, y mediante las transformaciones correspondientes, intervalos de confianza para las odds ratio. - Intervalos de confianza para los parámetros Construimos un intervalo de confianza con nivel de confianza 1-α para cada parámetro del modelo de regresión logística multinomial, b sj con j=1,,k. La distribución asintótica de b sj es N b sj, σ 2 b sj, donde σ b sj es el valor correspondiente al error estándar del estimador del parámentro b sj. Así que tenemos que: P[ z α 2 b sj b sj σ b z sj α 2] = 1 α. Por lo que obtenemos así el intervalo de confianza aproximado para b sj al nivel 1 α: IC b sj = b sj ± z α 2 σ b sj - Intervalos de confianza para las odds ratio Sabemos que los cocientes de ventajas vienen dados por: θ j ( X r = 1 / X s = x s, s r) = exp b rj r = 1, n; j = 1,, k 1 23

27 Por lo tanto, el intervalo de confianza para los cocientes de ventajas se calcula tomando exponenciales en el intervalo de confianza obtenido anteriormente para cada uno de los parámetros b sj. Así que el intervalo de confianza para exp b sj al nivel de confianza 1 α, viene dado por: IC exp b rj = exp b sj ± z α 2 σ b sj 2.6. Métodos de selección del modelo Una vez conocido el procedimiento de ajuste de modelos de regresión logística multinomial, el siguiente paso es el desarrollo de estrategias para seleccionar las variables que mejor explican a la variable de respuesta. Para ello se adoptará el principio de parsimonia que consiste en seleccionar el modelo que con menor número de parámetros se ajuste bien a los datos y lleve a una interpretación sencilla en términos de cocientes de ventajas. Hay que tener especial atención a las covariables cualitativas que se transforman en varias variables dummies. Siempre que se incluya o excluya una de estas variables, todas las demás categorías deben ser incluidas o excluidas en bloque. Si no se tiene en cuenta esta consideración, implicaría que se habría recodificado la variable, y por tanto la interpretación de la misma no sería la correcta. Además, hay que tener en cuenta la significación que pudiera tener cada variable dummy. No siempre todas las categorías de una covariable son significativas, o todas no significativas. Por lo que, cuando ocurra esta situación es recomendable contrastar el modelo completo frente al modelo sin la covariable mediante la prueba de razón de verosimilitud, decidiendo incluir o excluir la covariable dependiendo del resultado de la prueba y del interés clínico de la covariable. Si se obtiene significación en este contraste, la variable permanecería en el modelo, si no se obtiene significación y la covariable es de interés clínico, su inclusión en el modelo es a criterio del investigador (23,32). A continuación se describen diferentes métodos para llegar a ajustar un modelo (28,33). 24

28 Hacia adelante 1. Se inicia con un modelo vacío (sólo la constante). 2. Se ajusta un modelo y se calcula el p-valor del contraste de razón de verosimilitud que resulta de incluir cada variable por separado. 3. Se selecciona el modelo con el p-valor más significativo. 4. Se ajusta de nuevo un modelo con la(s) variable(s) seleccionada(s) y se calcula el p-valor de añadir cada variable no seleccionada anteriormente por separado. 5. Se selecciona el modelo con el más significativo. 6. Se repite 4-5 hasta que no queden variables significativas para incluir Hacia atrás 1. Se inicia con un modelo con todas las variables candidatas. 2. Se eliminan, una a una, cada variable y se calcula la pérdida de ajuste al eliminar. 3. Se selecciona para eliminar la menos significativa. 4. Se repite 2 3 hasta que todas las variables incluidas sean significativas y no pueda eliminarse ninguna sin que se pierda ajuste Stepwise En este método se combinan los métodos adelante y atrás. Puede empezarse por el modelo vacío o por el completo, pero en cada paso se exploran las variables incluidas, por si deben salir y las no seleccionadas, por si deben entrar. Pero no todos los métodos llegan a la misma solución necesariamente. El método de stepwise, está basado en contrastes condicionales de razón de verosimilitudes. Si partimos del modelo vacío, sólo con la constante, este método consiste en partir de ese modelo inicial, y en cada paso se ajustarán todos aquellos modelos que resultan de incluir cada una de las variables explicativas que no están en el modelo seleccionado en el paso anterior. Entonces se llevan a cabo contrastes condicionales de razón de verosimilitudes que tienen en la hipótesis nula el modelo seleccionado en el paso anterior y en la hipótesis alternativa el modelo resultante de la inclusión de cada variable. De este modo se seleccionarán las variables para las que el contraste sea significativo, y se incluiría en el modelo aquella variable asociada al mínimo p- valor de entre todos los menores o iguales que α 1. La inclusión de variables mediante 25

29 este método continúa hasta que ninguno de estos contrastes condicionales sea significativo. Por otra parte, a la misma vez, se considera en cada paso la posibilidad de eliminar alguno de los parámetros del modelo seleccionado en el paso anterior (método hacia atrás). Pero no se puede eliminar en un paso la variable que acaba de entrar en el paso anterior, por lo que se fijará para la eliminación de variables un nivel de significación α 2 mayor que α 1. Al igual que antes, para la eliminación de variables se realizarán contrastes condicionales de razón de verosimilitudes que tienen en la hipótesis nula el modelo que resulta de la eliminación de cada variable y en la hipótesis alternativa el modelo seleccionado en el paso anterior. Así, las variables candidatas a eliminar serán aquellas cuyo p-valor sea mayor de α 2 y se eliminará la variable con el mayor p-valor de éstos. La eliminación de variables continúa hasta que todos estos contrastes condicionales resulten significativos. Así finalmente, se llegará a un paso en el que ninguno de los contrastes condicionales de introducción de variables sean significativos y todos los de eliminación de variables sean significativos Validación del modelo Una vez utilizado el Test de chi-cuadrado de Pearso X 2, o el test de chicuadrado de razón de verosimilitudes G 2, se debe estudiar la bondad del ajuste de cada observación, para comprobar si una observación es influyente o no. Para ello una de las técnicas para estudiar esta cuestión es el estudio de los residuos que comparan el número observado de éxitos, en cada combinación de valores de las variables predictoras, con su valor ajustado por el modelo. Veamos a continuación los tipos de residuos más habituales basándose en los estadísticos X 2 y G 2, que se definen en cada combinación de valores x q de las variables explicativas Residuos de Pearson o residuos estandarizados. Vienen dado por la siguiente expresión: r j/q = y j q d q p j q 1 d q p j q 2 Con esta expresión, podemos definir el estadístico chi-cuadrado de Pearson como: Q k 2 q=1. X 2 = j=1 r j/q 26

30 contraste: Para contrastar la significación estadística de los residuos planteamos el H 0 : r j/q = 0 H 1: : r j/q 0 Bajo la hipótesis nula r j/q tiene una distribución asintótica normal con media cero y varianza estimada σ 2 (r j/q ) <1, es decir que los residuos tienen menor variabilidad que una variable aleatoria estándar, pero suelen ser tratados como normales estándar, considerándose significativos cuando sus valores absolutos son mayores que dos (falta de ajuste). Para evitar este problema se definen los residuos de Pearson ajustados que presentan distribuciones asintóticas normales estándar y vienen dados por: s r j/q = r q σ (r j/q ) También se puede tomar el cuadrado de r q s que tiene distribución chi-cuadrado con un grado de libertad. r s j/q z α 2. Así que se rechaza la hipótesis nula con un nivel de significación α cuando Residuos de la devianza o residuos estudentizados. Se definen como: m j q d j/q = 2 y j q ln y j q Con esta expresión podemos definir el estadístico de chi-cuadrado de razón de Q k 2 q=1. verosimilitudes como: G 2 = j=1 d j/q 1 2 Igual que en el caso anterior, bajo la hipótesis nula H 0 : d j/q = 0 el residuo d j/q tiene distribución asintóticamente normal con media 0 y varianza estimada σ 2 (d j/q )<1. En este caso, se consideran significativos cuando el valor absoluto es mayor que 4, y se considera que la observación correspondiente es anormal. Al igual que antes, se definen los residuos de la devianza ajustados o estandarizados 27

31 s d j/q = d q σ (d j/q ) que tiene distribución asintótica normal estándar. s d j/q z α 2. Así que rechazamos la hipótesis nula con un nivel de significación α cuando La diferencia entre los dos tipos de residuos es que los de la devianza convergen más rápidamente a la distribución normal que los de Pearson. 28

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows. TEMA 13 REGRESIÓN LOGÍSTICA Es un tipo de análisis de regresión en el que la variable dependiente no es continua, sino dicotómica, mientras que las variables independientes pueden ser cuantitativas o cualitativas.

Más detalles

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos Metodología de la Investigación en Fisioterapia Miguel González Velasco Departamento de Matemáticas. Universidad de Extremadura M.

Más detalles

UNIVERSIDAD DE EL SALVADOR FACULTAD DE CIENCIAS NATURALES Y MATEMÁTICA ESCUELA DE MATEMÁTICA TESIS:

UNIVERSIDAD DE EL SALVADOR FACULTAD DE CIENCIAS NATURALES Y MATEMÁTICA ESCUELA DE MATEMÁTICA TESIS: UNIVERSIDAD DE EL SALVADOR FACULTAD DE CIENCIAS NATURALES Y MATEMÁTICA ESCUELA DE MATEMÁTICA TESIS: MODELACIÓN LOGÍSTICA MULTINOMIAL PARA CLASIFICAR LOS HOGARES DE EL SALVADOR POR NIVEL DE POBREZA PRESENTADO

Más detalles

Inferencia en tablas de contingencia

Inferencia en tablas de contingencia GoBack Inferencia en tablas de contingencia Guillermo Ayala Gallego Universidad de Valencia 15 de octubre de 2008 1 / 36 Distribución condicionada exacta Intervalo para los odds ratio Intervalo de la diferencia

Más detalles

Modelo Lineal Generalizado GAMMA. Distribución gamma: Otra parametrización mediante el parámetro de forma y la media:

Modelo Lineal Generalizado GAMMA. Distribución gamma: Otra parametrización mediante el parámetro de forma y la media: Modelo Lineal Generalizado GAMMA Distribución gamma: Otra parametrización mediante el parámetro de forma y la media: La distribución gamma es de tipo exponencial: 1 Supongamos que se dispone de r subpoblaciones

Más detalles

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN CURSO DE BIOESTADÍSTICA BÁSICA Y SPSS ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN Amaia Bilbao González Unidad de Investigación Hospital Universitario Basurto (OSI Bilbao-Basurto)

Más detalles

UNIVERSIDAD DE ANTIOQUIA FACULTAD NACIONAL DE SALUD PÚBLICA Héctor Abad Gómez ldbello@saludpublica.udea.edu.co Facultad Nacional de Salud Pública Héctor Abad Gómez www.leondariobello.com www.ciemonline.info/moodle

Más detalles

Contrastes basados en el estadístico Ji Cuadrado

Contrastes basados en el estadístico Ji Cuadrado Capítulo 10 Contrastes basados en el estadístico Ji Cuadrado 10.1. Introducción Existen multitud de situaciones en el ámbito de la salud en el que las variables de interés, las cuales no pueden cuantificarse

Más detalles

El análisis de correspondencias. Ana María López Jiménez Dept. Psicología Experimental (USE)

El análisis de correspondencias. Ana María López Jiménez Dept. Psicología Experimental (USE) El análisis de correspondencias Ana María López Jiménez Dept. Psicología Experimental (USE) 4. El análisis de correspondencias 4.. Introducción 4.2. Tabla de correspondencias 4.3. Dependencia e independencia

Más detalles

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición... Contenidos 1 Introducción al paquete estadístico S-PLUS 19 1.1 Introducción a S-PLUS............................ 21 1.1.1 Cómo entrar, salir y consultar la ayuda en S-PLUS........ 21 1.2 Conjuntos de datos..............................

Más detalles

TEMA V ANÁLISIS DE REGRESIÓN LOGÍSTICA

TEMA V ANÁLISIS DE REGRESIÓN LOGÍSTICA TEMA V ANÁLISIS DE REGRESIÓN LOGÍSTICA LECTURA OBLIGATORIA Regresión Logística. En Rial, A. y Varela, J. (2008). Estadística Práctica para la Investigación en Ciencias de la Salud. Coruña: Netbiblo. Páginas

Más detalles

INFERENCIA PARÁMETRICA: RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS

INFERENCIA PARÁMETRICA: RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS . Metodología en Salud Pública INFERENCIA PARÁMETRICA: RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS Autor: Clara Laguna 7.1 INTRODUCCIÓN Los datos categóricos o variables cualitativas son muy frecuentes en

Más detalles

Lucila Finkel Temario

Lucila Finkel Temario Lucila Finkel Temario 1. Introducción: el análisis exploratorio de los datos. 2. Tablas de contingencia y asociación entre variables. 3. Correlación bivariada. 4. Contrastes sobre medias. 5. Regresión

Más detalles

Tema 13: Contrastes No Paramétricos

Tema 13: Contrastes No Paramétricos Tema 13: Contrastes No Paramétricos Presentación y Objetivos. La validez de los métodos paramétricos depende de la validez de las suposiciones que se hacen sobre la naturaleza de los datos recogidos. La

Más detalles

TABLAS DE CONTINGENCIA

TABLAS DE CONTINGENCIA Tablas de contingencia 1 TABLAS DE CONTINGENCIA En SPSS, el procedimiento de Tablas de Contingencia crea tablas de clasificación doble y múltiple y, además, proporciona una serie de pruebas y medidas de

Más detalles

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

Regresión múltiple. Demostraciones. Elisa Mª Molanes López Regresión múltiple Demostraciones Elisa Mª Molanes López El modelo de regresión múltiple El modelo que se plantea en regresión múltiple es el siguiente: y i = β 0 + β 1 x 1i + β 2 x 2i +...+ β k x ki +

Más detalles

Representaciones gráficas de las distribuciones bidimensionales de frecuencias... 74

Representaciones gráficas de las distribuciones bidimensionales de frecuencias... 74 Índice 1. Introducción al R 15 1.1. Introducción............................. 15 1.2. El editor de objetos R....................... 18 1.3. Datos en R............................. 19 1.3.1. Vectores...........................

Más detalles

Introducción a la regresión ordinal

Introducción a la regresión ordinal Introducción a la regresión ordinal Jose Barrera jbarrera@mat.uab.cat 20 de mayo 2009 Jose Barrera (UAB) Introducción a la regresión ordinal 20 de mayo 2009 1 / 11 Introducción a la regresión ordinal 1

Más detalles

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA MODELO DE REGRESIÓN LOGÍSTICA Introducción A grandes rasgos, el objetivo de la regresión logística se puede describir de la siguiente forma: Supongamos que los individuos de una población pueden clasificarse

Más detalles

Por ejemplo, si se desea discriminar entre créditos que se devuelven o que presentan

Por ejemplo, si se desea discriminar entre créditos que se devuelven o que presentan Regresión Logística Introducción El problema de clasificación en dos grupos puede abordarse introduciendo una variable ficticia binaria para representar la pertenencia de una observación a uno de los dos

Más detalles

Análisis de datos Categóricos

Análisis de datos Categóricos Introducción a los Modelos Lineales Generalizados Universidad Nacional Agraria La Molina 2016-1 Introducción Modelos Lineales Generalizados Introducción Componentes Estimación En los capítulos anteriores

Más detalles

Guillermo Ayala Gallego Universidad de Valencia

Guillermo Ayala Gallego Universidad de Valencia GoBack Regresión logística Guillermo Ayala Gallego Universidad de Valencia 4 de febrero de 2009 1 / 22 Puede que sea el procedimiento estadístico más utilizado. Con aplicaciones frecuentes en Medicina

Más detalles

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL OBJETIVO Analizar las Diferentes formas de Describir la Relación entre dos variables numéricas Trazar un diagrama de dispersión

Más detalles

1.2.2. Técnicas estadísticas más utilizadas en la investigación

1.2.2. Técnicas estadísticas más utilizadas en la investigación Contenido PRÓLOGO... 1. LA ESTADÍSTICA COMO HERRAMIENTA EN LA INVESTIGACIÓN TURÍSTICA 1.1. EL TURISMO Y LA ESTADÍSTICA... 2 1.1.1. El turismo... 2 1.1.2. La estadística... 4 1.2. LA ESTADÍSTICA Y LA INVESTIGACIÓN

Más detalles

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE ESCUELA UNIVERSITARIA DE ENFERMERIA DE TERUEL 1 er CURSO DE GRADO DE ENFERMERIA Estadística en Ciencias de la Salud 7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE PROFESOR Dr. Santiago

Más detalles

Estadística I Tema 5: Introducción a la inferencia estadística

Estadística I Tema 5: Introducción a la inferencia estadística Estadística I Tema 5: Introducción a la inferencia estadística Tema 5. Introducción a la inferencia estadística Contenidos Objetivos. Estimación puntual. Bondad de ajuste a una distribución. Distribución

Más detalles

Regresión Lineal Simple y Múltiple Regresión Logística

Regresión Lineal Simple y Múltiple Regresión Logística Regresión Lineal Simple y Múltiple Regresión Logística Miguel González Velasco Departamento de Matemáticas. Universidad de Extremadura MUI en Ciencias de la Salud MUI en Ciencias de la Salud (UEx) Regresión

Más detalles

DISTRIBUCIONES BIDIMENSIONALES

DISTRIBUCIONES BIDIMENSIONALES La estadística unidimensional estudia los elementos de un conjunto de datos considerando sólo una variable o característica. Si ahora incorporamos, otra variable, y se observa simultáneamente el comportamiento

Más detalles

Tema 5. Muestreo y distribuciones muestrales

Tema 5. Muestreo y distribuciones muestrales Tema 5. Muestreo y distribuciones muestrales Contenidos Muestreo y muestras aleatorias simples La distribución de la media en el muestreo La distribución de la varianza muestral Lecturas recomendadas:

Más detalles

Tema 10: Introducción a los problemas de Asociación y Correlación

Tema 10: Introducción a los problemas de Asociación y Correlación Tema 10: Introducción a los problemas de Asociación y Correlación Estadística 4 o Curso Licenciatura en Ciencias Ambientales Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación

Más detalles

ECONOMETRÍA I. Tema 4: El Modelo de Regresión Lineal Múltiple: inferencia y validación

ECONOMETRÍA I. Tema 4: El Modelo de Regresión Lineal Múltiple: inferencia y validación ECONOMETRÍA I Tema 4: El Modelo de Regresión Lineal Múltiple: inferencia y validación Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía Alexandra Soberon (UC) ECONOMETRÍA

Más detalles

Tema: Medidas de Asociación con SPSS

Tema: Medidas de Asociación con SPSS Tema: Medidas de Asociación con SPSS 1.- Introducción Una de las tareas habituales en el análisis de encuestas es la generación y análisis de tablas de contingencia, para las variables y categorías objetivo

Más detalles

Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION.

Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION. Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION. Distribuciones uni- y pluridimensionales. Hasta ahora se han estudiado los índices y representaciones de una sola variable por individuo. Son las distribuciones

Más detalles

Estadística II Examen Final 19/06/2015 Soluciones. Responda a las preguntas siguientes en los cuadernillos de la Universidad

Estadística II Examen Final 19/06/2015 Soluciones. Responda a las preguntas siguientes en los cuadernillos de la Universidad Estadística II Examen Final 19/06/2015 Soluciones Responda a las preguntas siguientes en los cuadernillos de la Universidad Utilice diferentes cuadernillos para responder a cada uno de los ejercicios Indique

Más detalles

TEMA 4 Modelo de regresión múltiple

TEMA 4 Modelo de regresión múltiple TEMA 4 Modelo de regresión múltiple José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Análisis de Datos - Grado en Biología Estructura de este tema Modelo de regresión múltiple.

Más detalles

2. ESTADÍSTICA DESCRIPTIVA 15 Estadística descriptiva.. Variables aleatorias Descripción de variables cuantitativas

2. ESTADÍSTICA DESCRIPTIVA 15 Estadística descriptiva.. Variables aleatorias Descripción de variables cuantitativas " INDICE PRÓLOGO... XXIII PREFACIO GUÍA DE LECTURA XXV XXIX 1. INTRODUCCIÓN A LA ESTADÍSTICA 1 1.1. Estadística 1 1.2. Historia 3 1.3. Población y muestra 4 1.4. Estadística aplicada 7 1.5. Aplicaciones

Más detalles

Regresión Lineal Múltiple

Regresión Lineal Múltiple Unidad 4 Regresión Lineal Múltiple Javier Santibáñez (IIMAS, UNAM) Regresión Semestre 2017-2 1 / 35 Introducción La idea de la regresión lineal múltiple es modelar el valor esperado de la variable respuesta

Más detalles

Tema 3: Análisis de datos bivariantes

Tema 3: Análisis de datos bivariantes Tema 3: Análisis de datos bivariantes 1 Contenidos 3.1 Tablas de doble entrada. Datos bivariantes. Estructura de la tabla de doble entrada. Distribuciones de frecuencias marginales. Distribución conjunta

Más detalles

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos Agro 6998 Conferencia Introducción a los modelos estadísticos mixtos Los modelos estadísticos permiten modelar la respuesta de un estudio experimental u observacional en función de factores (tratamientos,

Más detalles

Análisis de datos Categóricos

Análisis de datos Categóricos Introducción Universidad Nacional Agraria La Molina 2017-1 Variable cualitativa Variable respuesta cualitativa Variable respuesta y explicativa Variable de conteo y proporción Escalas de medición Una variable

Más detalles

Técnicas de validación estadística Bondad de ajuste

Técnicas de validación estadística Bondad de ajuste Técnicas de validación estadística Bondad de ajuste Georgina Flesia FaMAF 28 de mayo, 2013 Pruebas de bondad de ajuste Dado un conjunto de observaciones, de qué distribución provienen o cuál es la distribución

Más detalles

Practica 1. Análisis de Tablas de Contingencia

Practica 1. Análisis de Tablas de Contingencia Practica 1 A n á l i s i s d e T a b l a s d e C o n t i n g e n c i a Análisis de Tablas de Contingencia 1.- Partimos de dos variables, que suponemos relacionadas, entre las que examinaremos si existe

Más detalles

Tema 13: Regresión Logística p. 1/20 Tema 13: Regresión Logística Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del

Más detalles

Técnicas de validación estadística Bondad de ajuste

Técnicas de validación estadística Bondad de ajuste Técnicas de validación estadística Bondad de ajuste Georgina Flesia FaMAF 31 de mayo, 2011 Pruebas de bondad de ajuste Dado un conjunto de observaciones, de qué distribución provienen o cuál es la distribución

Más detalles

Práctica 10: Introducción a Modelos Lineales Generalizados.

Práctica 10: Introducción a Modelos Lineales Generalizados. Práctica : Introducción a Modelos Lineales Generalizados Esta última práctica está dedicada a estudiar brevememente algunos problemas que que se formalizan mediante un modelo similar al modelo lineal normal

Más detalles

CLASE 10: RESUMEN DEL CURSO

CLASE 10: RESUMEN DEL CURSO CLASE 10: RESUMEN DEL CURSO 10.1.-INTRODUCCIÓN Qué debemos valorar al enfrentarnos con el análisis de unos datos estadísticos? 1º TIPO DE ESTUDIO: - Datos Independientes - Datos Apareados 2º TIPO DE VARIABLES:

Más detalles

peso edad grasas Regresión lineal simple Los datos

peso edad grasas Regresión lineal simple Los datos Regresión lineal simple Los datos Los datos del fichero EdadPesoGrasas.txt corresponden a tres variables medidas en 25 individuos: edad, peso y cantidad de grasas en sangre. Para leer el fichero de datos

Más detalles

Test de Kolmogorov-Smirnov

Test de Kolmogorov-Smirnov Test de Kolmogorov-Smirnov Georgina Flesia FaMAF 2 de junio, 2011 Test de Kolmogorov-Smirnov El test chi-cuadrado en el caso continuo H 0 : Las v.a. Y 1, Y 2,..., Y n tienen distribución continua F. Particionar

Más detalles

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios. ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS Ejemplos y ejercicios de Estadística Descriptiva yanálisis de Datos Diplomatura en Estadística Curso 007/08 Descripción estadística de una variable. Ejemplos

Más detalles

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón Metodología de Investigación Tesifón Parrón Contraste de hipótesis Inferencia Estadística Medidas de asociación Error de Tipo I y Error de Tipo II α β CONTRASTE DE HIPÓTESIS Tipos de Test Chi Cuadrado

Más detalles

1. Conceptos de Regresión y Correlación. 2. Variables aleatorias bidimensionales. 3. Ajuste de una recta a una nube de puntos

1. Conceptos de Regresión y Correlación. 2. Variables aleatorias bidimensionales. 3. Ajuste de una recta a una nube de puntos TEMA 10 (curso anterior): REGRESIÓN Y CORRELACIÓN 1 Conceptos de Regresión y Correlación 2 Variables aleatorias bidimensionales 3 Ajuste de una recta a una nube de puntos 4 El modelo de la correlación

Más detalles

Tribunal de la Oposición al Cuerpo Superior de Estadísticos del Estado

Tribunal de la Oposición al Cuerpo Superior de Estadísticos del Estado Tribunal de la Oposición al Cuerpo Superior de Estadísticos del Estado Pruebas selectivas para el ingreso en el Cuerpo Superior de Estadísticos del Estado. Orden ECC/1517/2015, de 16 de Julio (BOE 27/07/2015).

Más detalles

Análisis de datos categóricos

Análisis de datos categóricos Regresión multinomial Universidad Nacional Agraria La Molina 2017-1 Distribución multinomial Distribución multinomial Considere una variable aleatoria Y con J categorías cuyas probabilidades respectivas

Más detalles

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis TODO ECONOMETRIA Bondad del ajuste Contraste de hipótesis Índice Bondad del ajuste: Coeficiente de determinación, R R ajustado Contraste de hipótesis Contrastes de hipótesis de significación individual:

Más detalles

Herramientas digitales de auto-aprendizaje para Matemáticas

Herramientas digitales de auto-aprendizaje para Matemáticas real de con Herramientas digitales de auto-aprendizaje para Matemáticas, Grupo de Innovación Didáctica Departamento de Matemáticas Universidad de Extremadura real de con Índice real de con real de con.

Más detalles

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS. Modelos Probit y Tobit aplicados al estudio de la oferta laboral de los trabajadores secundarios en el Perú

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS. Modelos Probit y Tobit aplicados al estudio de la oferta laboral de los trabajadores secundarios en el Perú UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS FACULTAD DE CIENCIAS MATEMÁTICAS E.A.P. DE. ESTADÍSTICA Modelos Probit y Tobit aplicados al estudio de la oferta laboral de los trabajadores secundarios en el Perú

Más detalles

Técnicas de Inferencia Estadística II. Tema 3. Contrastes de bondad de ajuste

Técnicas de Inferencia Estadística II. Tema 3. Contrastes de bondad de ajuste Técnicas de Inferencia Estadística II Tema 3. Contrastes de bondad de ajuste M. Concepción Ausín Universidad Carlos III de Madrid Grado en Estadística y Empresa Curso 2014/15 Contenidos 1. Introducción

Más detalles

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 4)

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 4) OBJETIVOS DE APRENDIZAJE: TEMA Nº ANÁLISIS CONJUNTO DE DOS VARIABLES Distinguir entre variables cualitativas y cuantitativas, y saber elegir los métodos en cada caso. Conocer métodos gráficos y cuantitativos

Más detalles

Pérdida Esperada. Pérdida Esperada (PE): Valor esperado de pérdida por riesgo crediticio en un horizonte de tiempo determinado.

Pérdida Esperada. Pérdida Esperada (PE): Valor esperado de pérdida por riesgo crediticio en un horizonte de tiempo determinado. Pérdida Esperada Uno de los objetivos de este estudio es construir una función de pérdidas para el portafolio de la cartera de préstamos que ofrece la entidad G&T Continental, basados en el comportamiento

Más detalles

Distribuciones de probabilidad bidimensionales o conjuntas

Distribuciones de probabilidad bidimensionales o conjuntas Distribuciones de probabilidad bidimensionales o conjuntas Si disponemos de dos variables aleatorias podemos definir distribuciones bidimensionales de forma semejante al caso unidimensional. Para el caso

Más detalles

Bioestadística. Curso Práctica: La recta de regresión

Bioestadística. Curso Práctica: La recta de regresión Bioestadística. Curso 2012-2013 Carmen M a Cadarso, M a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Índice 1. Introducción 2 2. El diagrama de dispersión 2 3. Covarianza 4 4. Coeciente de correlación

Más detalles

Qué es? Primer paso Representación en un sistema de coordenadas. numéricos Cada punto muestra el valor de cada pareja de datos (X e Y)

Qué es? Primer paso Representación en un sistema de coordenadas. numéricos Cada punto muestra el valor de cada pareja de datos (X e Y) Gráfico de dispersión Qué es? Primer paso Representación en un sistema de coordenadas cartesianas de los datos numéricos Cada punto muestra el valor de cada pareja de datos (X e Y) Gráfico de dispersión

Más detalles

Odds = = e. UD1: El modelo de regresión logística 1. 1 e

Odds = = e. UD1: El modelo de regresión logística 1. 1 e RE2. Regresión logística binaria, multinomial, de Poisson y binomial negativa Curso 204/5 Solución resumida de la prueba de evaluación Unidad didáctica (D) La regresión logística puede utilizarse en cualquiera

Más detalles

Tema 9: Estadística descriptiva

Tema 9: Estadística descriptiva Tema 9: Estadística descriptiva Matemáticas específicas para maestros Grado en Educación Primaria Matemáticas específicas para maestros Tema 9: Estadística descriptiva Grado en Educación Primaria 1 / 47

Más detalles

Estadística. Para el caso de dos variables aleatorias X e Y, se puede mostrar que. Pero y son desconocidos. Entonces. covarianza muestral

Estadística. Para el caso de dos variables aleatorias X e Y, se puede mostrar que. Pero y son desconocidos. Entonces. covarianza muestral Para el caso de dos variables aleatorias X e Y, se puede mostrar que Pero y son desconocidos. Entonces donde covarianza muestral Estimación de intervalos de confianza Cuál es el intervalo (de confianza)

Más detalles

Tema 9. Análisis factorial discriminante

Tema 9. Análisis factorial discriminante Máster en Técnicas Estadísticas Análisis Multivariante. Año 2008 2009. Profesor: César Sánchez Sellero. 9.1. Introducción. Tema 9. Análisis factorial discriminante Supongamos que están denidos I grupos,

Más detalles

TEMA 4 Regresión logística

TEMA 4 Regresión logística TEMA 4 Regresión logística José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Análisis de Datos - Grado en Biología Esquema del tema Variable respuesta dicotómica. Ejemplo. El

Más detalles

Introducción al modelo de regresión logística

Introducción al modelo de regresión logística Introducción al modelo de regresión logística JOSÉ R BERRENDERO DEPARTAMENTO DE MATEMÁTICAS UNIVERSIDAD AUTÓNOMA DE MADRID INTRODUCCIÓN Y MOTIVACIÓN El modelo de regresión logística se utiliza para investigar

Más detalles

Tema 6. Análisis Factorial.

Tema 6. Análisis Factorial. Tema 6 Análisis Factorial El modelo Sea Y = (Y,, Y p ) t un vector aleatorio con vector de medias µ y matriz de covarianzas Σ Supondremos que existe un número entero m < p, una matriz L de orden p m de

Más detalles

Clasificación Supervisada

Clasificación Supervisada Clasificación Supervisada Ricardo Fraiman 26 de abril de 2010 Resumen Reglas de Clasificación Resumen Reglas de Clasificación Descripción del problema Muestra de entrenamiento (X 1, Y 1 ),..., (X n, Y

Más detalles

Análisis Estadístico. Dra. Adela Del Carpio Rivera Doctor En Medicina

Análisis Estadístico. Dra. Adela Del Carpio Rivera Doctor En Medicina Análisis Estadístico Dra. Adela Del Carpio Rivera Doctor En Medicina ANTE LA GRAN CANTIDAD DE INFORMACIÓN Debemos saber discernir entre: Cuál es la información que necesitamos Si el estudio tiene real

Más detalles

Escuela de Economía Universidad de Carabobo Profesor: Exaú Navarro Pérez.

Escuela de Economía Universidad de Carabobo Profesor: Exaú Navarro Pérez. Escuela de Economía Universidad de Carabobo Profesor: Exaú Navarro Pérez. Econometría Regresión Múltiple: Municipio Ocupados Población Analfabeta Mayor de 10 años Total de Viviendas Bejuma 18.874 1.835

Más detalles

Estadís5ca. María Dolores Frías Domínguez Jesús Fernández Fernández Carmen María Sordo. Tema 2. Modelos de regresión

Estadís5ca. María Dolores Frías Domínguez Jesús Fernández Fernández Carmen María Sordo. Tema 2. Modelos de regresión Estadís5ca Tema 2. Modelos de regresión María Dolores Frías Domínguez Jesús Fernández Fernández Carmen María Sordo Departamento de Matemá.ca Aplicada y Ciencias de la Computación Este tema se publica bajo

Más detalles

6 Vectores. Dependencia e independencia lineal.

6 Vectores. Dependencia e independencia lineal. 6 Vectores. Dependencia e independencia lineal. Introducción Hay fenómenos reales que se pueden representar adecuadamente mediante un número con su adecuada unidad de medida. Sin embargo para representar

Más detalles

Conceptos básicos de inferencia estadística (III): Inferencia no paramétrica: Contrastes de bondad de ajuste.

Conceptos básicos de inferencia estadística (III): Inferencia no paramétrica: Contrastes de bondad de ajuste. Conceptos básicos de inferencia estadística (III): Inferencia no paramétrica: Contrastes de bondad de ajuste. Tema 1 (III) Estadística 2 Curso 08/09 Tema 1 (III) (Estadística 2) Contrastes de bondad de

Más detalles

Tests de hipótesis. Técnicas de validación estadística Bondad de ajuste. Pruebas de bondad de ajuste. Procedimiento en una prueba de hipótesis

Tests de hipótesis. Técnicas de validación estadística Bondad de ajuste. Pruebas de bondad de ajuste. Procedimiento en una prueba de hipótesis Tests de hipótesis Técnicas de validación estadística Bondad de ajuste Patricia Kisbye FaMAF 27 de mayo, 2008 Test - Prueba - Contraste. Se utilizan para contrastar el valor de un parámetro. Ejemplo: la

Más detalles

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows. TEMA 9 DESCRIPTIVOS El submenú Estadísticos descriptivos está en el menú Analizar, y ofrece una serie de opciones para analizar datos de una forma sencilla. En este capítulo serán descritos estos procedimientos.

Más detalles

a. Poisson: los totales marginales y el total muestral varían libremente.

a. Poisson: los totales marginales y el total muestral varían libremente. TEMA 2º: TABLAS DE CONTINGENCIA BIDIMENSIONALES 1º Distribución de frecuencias observadas El único aspecto cuantificable en el análisis cualitativo es el número de individuos que presenta una combinación

Más detalles

GUÍA DE STATGRAPHICS 5.1

GUÍA DE STATGRAPHICS 5.1 UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA UNIVERSITARIA DE ARQUITECTURA TÉCNICA DEPARTAMENTO DE MATEMÁTICA APLICADA A LA ARQUITECTURA TÉCNICA GUÍA DE STATGRAPHICS 5.1 (Versión castellana) GUÍA DE STATGRAPHICS

Más detalles

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia Estudio de Caso: Estudio Morfología Coeficiente de Correlación Considere el archivo Estudio Morfología.sav.

Más detalles

Julio Deride Silva. 4 de junio de 2010

Julio Deride Silva. 4 de junio de 2010 Curvas ROC y Regresión Lineal Julio Deride Silva Área de Matemática Facultad de Ciencias Químicas y Farmcéuticas Universidad de Chile 4 de junio de 2010 Tabla de Contenidos Curvas ROC y Regresión Lineal

Más detalles

Diplomatura en Ciencias Empresariales X Y 10 10000 100 1000 1000 100 10000 10

Diplomatura en Ciencias Empresariales X Y 10 10000 100 1000 1000 100 10000 10 DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Diplomatura en Ciencias Empresariales ESTADÍSTICA II Relación Tema 10: Regresión y correlación simple. 1. Ajustar una función potencial a los siguientes

Más detalles

Descripción de tablas de contingencia

Descripción de tablas de contingencia GoBack Descripción de Guillermo Ayala Gallego Universidad de Valencia 15 de octubre de 2008 1 / 40 Un ejemplo Distribución conjunta y tabla de Distribución condicional Independencia y homogeneidad Tablas

Más detalles

ANÁLISIS DE REGRESIÓN

ANÁLISIS DE REGRESIÓN ANÁLISIS DE REGRESIÓN INTRODUCCIÓN Francis Galtón DEFINICIÓN Análisis de Regresión Es una técnica estadística que se usa para investigar y modelar la relación entre variables. Respuesta Independiente Y

Más detalles

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r) Correlación El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r) El coeficiente de correlación lineal de Pearson (r) permite medir el grado de asociación entre

Más detalles

Método de cuadrados mínimos

Método de cuadrados mínimos REGRESIÓN LINEAL Gran parte del pronóstico estadístico del tiempo está basado en el procedimiento conocido como regresión lineal. Regresión lineal simple (RLS) Describe la relación lineal entre dos variables,

Más detalles

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD Contrastes de hipótesis paramétricos para una y varias muestras: contrastes sobre la media, varianza y una proporción. Contrastes sobre la diferencia

Más detalles

TEMA 5 Estadística descriptiva. Análisis de datos

TEMA 5 Estadística descriptiva. Análisis de datos TEMA 5 Estadística descriptiva. Análisis de datos Florence Nightingale (1820-1910) 1. Introducción. Modelos matemáticos 2. Métodos numéricos. Resolución de sistemas lineales y ecuaciones no lineales 3.

Más detalles

TEMA 1 INTRODUCCIÓN AL MODELADO Y LA SIMULACIÓN

TEMA 1 INTRODUCCIÓN AL MODELADO Y LA SIMULACIÓN TEMA 1 INTRODUCCIÓN AL MODELADO Y LA SIMULACIÓN 1.1. Introducción 1.2. Conceptos fundamentales 1.3. Modelado y simulación de tiempo discreto 1.4. Modelado y simulación de eventos discretos 1.5. Pasos en

Más detalles

CALIFICACION: 287,33 218, sí 1 sí 1. Se especifica el siguiente modelo de regresión para el precio de las viviendas: G i =

CALIFICACION: 287,33 218, sí 1 sí 1. Se especifica el siguiente modelo de regresión para el precio de las viviendas: G i = 6 + 5 = 11 CALIFICACION: PARTE 1 (6 puntos) Una empresa inmobiliaria desea conocer los determinantes del precio de la vivienda en una ciudad de tamaño medio Para ello recoge información sobre las siguientes

Más detalles

1) Características del diseño en un estudio de cohortes.

1) Características del diseño en un estudio de cohortes. Departamento de Estadística Universidad Carlos III de Madrid BIOESTADISTICA (55-10536) Estudios de cohortes CONCEPTOS CLAVE 1) Características del diseño en un estudio de cohortes. ) Elección del tamaño

Más detalles

REGRESIÓN LINEAL SIMPLE

REGRESIÓN LINEAL SIMPLE REGRESIÓN LINEAL SIMPLE 1. El problema de la regresión lineal simple. Método de mínimos cuadrados 3. Coeficiente de regresión 4. Coeficiente de correlación lineal 5. El contraste de regresión 6. Inferencias

Más detalles

Estadística II Examen final junio 27/6/17 Curso 2016/17 Soluciones

Estadística II Examen final junio 27/6/17 Curso 2016/17 Soluciones Estadística II Examen final junio 27/6/7 Curso 206/7 Soluciones Duración del examen: 2 h y 5 min. (3 puntos) Los responsables de un aeropuerto afirman que el retraso medido en minutos en el tiempo de salida

Más detalles

CUESTIONES Y PROBLEMAS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES PROPUESTOS EN EXÁMENES

CUESTIONES Y PROBLEMAS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES PROPUESTOS EN EXÁMENES TUTORÍA DE INTRODUCCIÓN A LA ESTADÍSTICA (º A.D.E.) CUESTIONES Y PROBLEMAS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES PROPUESTOS EN EXÁMENES 1º) Qué ocurre cuando r = 1: a) Los valores teóricos no

Más detalles

EXAMEN FINAL DE ECONOMETRÍA SOLUCIONES Conteste cada pregunta en un cuadernillo diferente en dos horas y media

EXAMEN FINAL DE ECONOMETRÍA SOLUCIONES Conteste cada pregunta en un cuadernillo diferente en dos horas y media EXAMEN FINAL DE ECONOMETRÍA SOLUCIONES Conteste cada pregunta en un cuadernillo diferente en dos horas y media 1. Sean (Y; X; W ) tres variables aleatorias relacionadas por el siguiente modelo de regresión

Más detalles

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA www.jmontenegro.wordpress.com UNI ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA PROF. JOHNNY MONTENEGRO MOLINA Objetivos Desarrollar el concepto de estimación de parámetros Explicar qué es una

Más detalles

Estimación de regresión multivariante insesgada

Estimación de regresión multivariante insesgada Estadística Española Volumen 58, número 190 / 2016, pp. 123-131 Estimación de regresión multivariante insesgada Mariano Ruiz Espejo Universidad Católica San Antonio de Murcia Resumen Proponemos un estimador

Más detalles

Part I. Descripción estadística de dos variables. Estadística I. Mario Francisco. Variable. bidimensional. Distribuciones de frecuencias

Part I. Descripción estadística de dos variables. Estadística I. Mario Francisco. Variable. bidimensional. Distribuciones de frecuencias Part I Descripción de dos variables Introducción Si para un mismo individuo observamos simultáneamente k obtendremos como resultado una variable k-dimensional. Nos ocuparemos del estudio de las variables

Más detalles

Modelos de suavizado, aditivos y mixtos

Modelos de suavizado, aditivos y mixtos Carmen Armero 1 de junio de 2011 Introducción Introducción Modelos lineales, LM Modelos aditivos, AM Modelos lineales generalizados, GLM GAM I Un modelo lineal generalizado (GAM) es un modelo lineal generalizado

Más detalles