Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Documentos relacionados
Regresión con variables independientes cualitativas

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

Introducción a la regresión ordinal

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Cómo obtener un Modelo de Regresión Logística Binaria con SPSS

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Tercera práctica de REGRESIÓN.

ESTADÍSTICA CON EXCEL

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

Análisis de datos Categóricos

Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0

Operadores aritméticos: suma (+), resta (-), producto (*), cociente (/) y potencia (**).

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Pruebas de Hipótesis-ANOVA. Curso de Seminario de Tesis Profesor QF Jose Avila Parco Año 2016

ENUNCIADOS DE PROBLEMAS

INFERENCIA ESTADISTICA

El Análisis de Correspondencias tiene dos objetivos básicos:

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

Exactitud y Linearidad del Calibrador

Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION.

Contrastes de hipótesis paramétricos

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

Pronósticos Automáticos

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

Multicolinealidad. Universidad de Granada. RSG Incumplimiento de las hipótesis básicas en el modelo lineal uniecuacional múltiple 1 / 17

Open Office Calc. Elaboración de una tabla de valores de las áreas de la distribución normal

ESTADÍSTICA. Tema 4 Regresión lineal simple

Tema 5: Introducción a la inferencia estadística

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

OTRAS HERRAMIETAS ESTADISTICAS UTILES. Dra. ALBA CECILIA GARZON

Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24

UNIVERSIDAD CARLOS III DE MADRID MASTER EN CALIDAD TOTAL MANUAL DE SPSS

TRABAJO FIN DE MÁSTER MÁSTER OFICIAL EN ESTADÍSTICA APLICADA UNIVERSIDAD DE GRANADA

IES DIONISIO AGUADO LA FUNCION LOGARITMO

ANÁLISIS DISCRIMINANTE

FÓRMULAS Y FUNCIONES

Fundamentos de Biología Aplicada I Estadística Curso Práctica 6: Regresión Logística I

Reporte de Pobreza por Ingresos JUNIO 2015

Esquema (1) Análisis de la Varianza y de la Covarianza. ANOVA y ANCOVA. ANOVA y ANCOVA 1. Análisis de la Varianza de 1 Factor

Cómo hacer una Regresión Logística con SPSS paso a paso. (I)

ANALISIS DE FRECUENCIA EN HIDROLOGIA JULIAN DAVID ROJO HERNANDEZ

Indicaciones para el lector... xv Prólogo... xvii

CURSO: Métodos estadísticos de uso frecuente en salud

DESEMPEÑO ACADEMICO DE ESTUDIANTES DE INGENIERIA: ANALISIS DE FACTORES INCIDENTES

Introducción a la Econometría (LE y LADE, mañana) Prof. Magdalena Cladera ANÁLISIS DE REGRESIÓN CON EXCEL Y SPSS

Regresión Polinomial y Regresión Logística

Histogramas. Para crear un histograma. Para crear un histograma podemos utilizar el procedimiento Generador de gráficos en el Menú: o Gráficos:

Programa de estudios. 1) Muestra y población. Parámetros estimadores y estadísticos. Distribución de Gauss. Intervalo de confianza

En la pestaña "Actividad" encontramos: ZONA 1. En este recuadro podemos (opcional) poner un título al gráfico en. Gráficos estadísticos 1

EJERCICIOS RESUELTOS DE INECUACIONES

CAPÍTULO IV TRABAJO DE CAMPO Y PROCESO DE CONTRASTE DE LAS HIPÓTESIS

Tipo de punta (factor) (bloques)

Elaboración de un modelo econométrico.

Tema 2. Descripción Conjunta de Varias Variables

GUÍA DOCENTE DE LA ASIGNATURA ESTADÍSTICA APLICADA

PROPORCIONADA POR LA MATRONA HOSPITALARIA EN LA ASISTENCIA A. Mª. Esperanza; Sebastián Viana Tomás.

Simbolización en ArcGis 10

MODULO VIII. Semana 1 ASPECTOS DE EVALUACIÓN FINANCIERA, ECONÓMICA, SOCIAL Y AMBIENTAL.

Estadística para investigadores: todo lo que siempre quiso saber y nunca se atrevió a preguntar

Práctica 2: Análisis de sensibilidad e Interpretación Gráfica

Funciones de Regresión No Lineales (SW Cap. 6)

UNIDAD 6. Estadística

Reporte de Pobreza y Desigualdad DICIEMBRE 2015

CAPITULO V CONCLUSIONES. a) El índice de Gini, Theil y el Coeficiente de Variación la Distribución Salarial se

Travelplan.es expertos en viajes felices

Análisis y síntesis de sistemas digitales combinacionales

MÓDULO 1: GESTIÓN DE CARTERAS

4. NÚMEROS PSEUDOALEATORIOS.

1º CURSO BIOESTADÍSTICA

La prueba extraordinaria de septiembre está descrita en los criterios y procedimientos de evaluación.

ESTADÍSTICA DESCRIPTIVA

TEMA 3: Contrastes de Hipótesis en el MRL

PROGRAMA DE ESTUDIOS. - Nombre de la asignatura : Taller de herramientas Estadísticas. - Pre requisitos : LCP 219 Estadística

9.1. Insertar filas en una hoja

PROGRAMACIÓN DE FUNDAMENTOS DE ADMINISTRACIÓN Y GESTIÓN DE EMPRESAS. SEGUNDO DE BACHILLER.

ANÁLISIS CUANTITATIVO DE DATOS EN CIENCIAS SOCIALES CON EL SPSS (I) Tablas de contingencia y pruebas de asociación

Introducción a la Programación Lineal

Teorema Central del Límite (1)

MODELO PREDICTIVO DE RIESGO DE MOROSIDAD PARA CRÉDITOS BANCARIOS USANDO DATOS SIMULADOS

Tema: Funciones en Excel (III) Funciones de fecha y hora Las fechas son a menudo una parte crítica de análisis de datos

Ya sabes cómo introducir datos en listas y hacer operaciones

CAPÍTULO 10 ESTIMACIÓN POR PUNTO Y POR INTERVALO 1.- ESTIMACIÓN PUNTUAL DE LA MEDIA Y DE LA VARIANZA 2.- INTERVALO DE CONFIANZA PARA LA MEDIA

Elaboración de Documentos en Procesadores de Textos

TEMA 1.- POLINOMIOS Y FRACCIONES ALGEBRAICAS

PATH ANALYSIS. Luis M. Carrascal Depto. Biodiversidad y Biología Evolutiva MUSEO NACIONAL DE CIENCIAS NATURALES

Este programa estadístico está organizado en dos bloques: el editor de datos y el visor de resultados.

Presentación de la tercera edición Autores

de Operaciones Área Académica: Sistemas Computacionales Tema: Tipos de Modelos en Investigación Profesor: I.S.C. Guadalupe Hernández Coca

Sistem as de ecuaciones lineales

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

Conceptos básicos estadísticos

Para ello hacemos lo siguiente: Analizar. o Comparar medias. García Bellido, R.; González Such, J. y Jornet Meliá, J.M.

MEDIDAS ESTADÍSTICAS Medidas de Tendencia Central y de Variabilidad

DEFINICIONES Y CONCEPTOS (SISTEMAS DE PERCEPCIÓN - DTE) Curso

Contraste de hipótesis Tema Pasos del contraste de hipótesis. 1.1 Hipótesis estadísticas: nula y alternativa. 1.3 Estadístico de contraste

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2011

Examen de Selectividad Matemáticas JUNIO Andalucía OPCIÓN A

PROBLEMAS DE OPTIMIZACIÓN

CAUSALIDAD Y RIESGO Causalidad en Medicina

Transcripción:

TEMA 13 REGRESIÓN LOGÍSTICA Es un tipo de análisis de regresión en el que la variable dependiente no es continua, sino dicotómica, mientras que las variables independientes pueden ser cuantitativas o cualitativas. Consigue soslayar las limitaciones de la regresión lineal cuando la variable resultado es dicotómica. Una de sus principales ventajas es que sus parámetros pueden interpretarse de forma sencilla en términos de odds ratios. Se usa principalmente para medir la probabilidad de un suceso, como por ejemplo padecer o no una enfermedad (variable dependiente o resultado, codificada como 0 y 1) en función de una series de factores o variables independientes o eplicativas. Si usásemos un modelo de regresión lineal para describir el comportamiento de una variable dicotómica nos encontraríamos con limitaciones: Podría suceder que la probabilidad del suceso fuese mayor que 1 o menor que 0 para determinados valores de variable independiente, lo cual no tendría ningún sentido. Para un modelo de regresión lineal un incremento constante en la variable independiente produce una variación también constante de la variable resultado, y sin embargo esto no se cumple cuando la variable dependiente es dicotómica. El modelo de regresión lineal es aditivo, es decir, el efecto de dos variables es igual a la suma de sus efectos, pero eisten muchas situaciones que se adaptan mejor a Napoleón Pérez Farinós y David Martínez Hernández Página 1 de 7

modelos multiplicativos, es decir, en los que efectos conjuntos multiplican, y no suman, sus efectos. Por todo ello es necesario desarrollar otro tipo de modelos que se adapten mejor a estas limitaciones. Por lo tanto, no podemos asumir la relación lineal directa entre la probabilidad de un suceso (variable dependiente) y unos determinados factores = + X 1 0 1. Así, la regresión logística propone una transformación previa para relacionar esa probabilidad con la función lineal, es la transformación logit. Si definimos esa probabilidad como, por ejemplo, la probabilidad de tener la enfermedad para un valor de la variable independiente, el logit se define como el logaritmo neperiano del odds de ser caso: log it( ) ln = 0 + 1 X 1 1 Por tanto, la regresión logística asume que el logit puede epresarse como una combinación lineal de las variables independientes. Así, la probabilidad puede epresarse como: = log it e 1+ e log it = 0 e 1+ e + 0 1 + 1 De esta forma, la probabilidad de padecer la enfermedad siempre estará entre 0 y 1, y quedaría representada mediante una relación sigmoidea, que le da un mayor ajuste a la realidad biológica. Analizando mediante regresión logística una tabla 22 puede demostrarse que el odds ratio (producto cruzado de las celdas de la tabla) es igual a la eponencial del coeficiente de regresión asociado a la variable eplicativa: OR = e 1. Esto quiere decir que los coeficientes asociados a las variables independientes se interpretan como el odds ratio de padecer esa enfermedad (o de que ocurra el suceso) para cada incremento de la variable independiente, manteniendo constante o ajustando por el resto de variables independientes. Lo verdaderamente importante del modelo de regresión logística es que pueden analizarse conjuntamente varios factores o variables para ver cómo afectan a la variable dependiente dicotómica. Para estimar los coeficientes de regresión lineal se usaba el método de los mínimos cuadrados, es decir, seleccionar los valores de los parámetros que minimizaban las desviaciones al cuadrado de los valores observados respecto a los predichos por el modelo. En regresión logística se utiliza el método de máima verosimilitud (maimum likelihood), que consiste en hallar los valores de que hacen más verosímil la probabilidad de tener la enfermedad en los que la tienen, y la probabilidad de no tener la enfermedad en los que no la tienen. Estos valores se definen mediante una función de verosimilitud, que nos interesa que sea lo más grande posible; habitualmente se trabaja con el logaritmo neperiano de la verosimilitud (log likelihood), que es la función que hay que maimizar. Napoleón Pérez Farinós y David Martínez Hernández Página 2 de 7

Mediante SPSS pueden construirse modelos de regresión logística que estiman los coeficientes asociados a las variables independientes junto con sus intervalos de confianza, así como un test de hipótesis para una hipótesis nula que dice H 0 : =0, es decir, que OR=1, o lo que es lo mismo, que la variable independiente no tiene ningún efecto sobre la variable dependiente. Para ello elegiremos en los menús Analizar y Regresión Logística binaria, mostrándose el cuadro de diálogo correspondiente. Hemos de seleccionar la variable dependiente (dicotómica) y las covariables, o variables independientes. Al igual que en el caso de la regresión lineal pueden realizarse análisis diversos en el mismo procedimiento mediante distintos bloques de covariables. Puede realizarse el análisis sólo para un grupo de casos seleccionados mediante una condición impuesta a una variable de selección elegida por nosotros. Para ello pulsaremos el botón Seleccionar y escogemos dicha variable; después pulsaremos el botón aparecido Regla, y se mostrará un nuevo subcuadro. En él estableceremos la condición de selección de casos. Para la introducción de variables podremos igualmente usar distintos métodos, como la introducción en bloque (método Introducir) o la introducción o salida de variables por pasos en función de determinadas condiciones basadas en parámetros estadísticos. La información básica que la ventana de resultados nos muestra es la siguiente: Napoleón Pérez Farinós y David Martínez Hernández Página 3 de 7

Tabla resumen de los casos seleccionados y Tabla con la codificación de Napoleón Pérez Farinós y David Martínez Hernández Página 4 de 7

La Tabla de clasificación nos muestra los porcentajes de individuos que han sido correctamente predichos por nuestro modelo con respecto a los valores observados. La tabla Variables en la ecuación nos muestra lo siguiente: En la primera columna, cada una de las variables independientes. B: cada unos de los coeficientes asociados a las variables independientes. E.T.: error estándar de cada estimación de los coeficientes. Wald: valor obtenido para el estadístico de contraste de hipótesis H 0 : =0. Esta prueba se llama test de Wald, y su valor se halla mediante el cociente del coeficiente y su error estándar. Este estadístico sigue una distribución 2 con 1 grado de libertad. gl: grados de libertad para el test de Wald. Sig.: valor p de significación estadística asociado a cada coeficiente de regresión. Ep(B): es el parámetro fundamental, es e, que se interpreta como el odds ratio de que se produzca el suceso en función de la variable independiente. I.C. 95,0% para EXP(B): límites inferior y superior de e con un nivel de confianza del 95%. VARIABLES CATEGÓRICAS. VARIABLES INDICADORAS En ocasiones alguna de las variables independientes puede tener más de dos categorías (politómica), y su manejo es diferente. En general, una variable independiente politómica ha de ser descompuesta en variables dicotómicas que representen las diferentes categorías. Estas variables se conocen como variables indicadoras u dummy. Habitualmente se utiliza el método de la codificación de la categoría de referencia, en el que hay que construir n-1 variables indicadoras para una variable con n categorías; se elige una de las categorías como de referencia y se le asigna el valor 0 en todas las variables indicadoras. Cada una de las variables indicadoras dará lugar a un coeficiente de regresión, pero además tendremos una significación estadística global para la variable de origen. Napoleón Pérez Farinós y David Martínez Hernández Página 5 de 7

No es necesario crear manualmente las variables indicadoras, sino simplemente pulsar en el cuadro de diálogo el botón Categorías. En el cuadro de diálogo pasaremos la variable en cuestión al campo de la derecha y elegiremos qué categoría queremos que sea la de referencia. En este caso, la ventana de resultados nos mostrará nuevos datos: Aparece una tabla con la codificación para las variables indicadoras. El test de Wald para la variable politómica es una prueba de heterogeneidad que nos dice si hay o no diferencias entre las diferentes categorías de la variable politómica. Los coeficientes asociados a cada una de las variables indicadoras nos dan el odds ratio de cada categoría de la variable politómica con respecto a la categoría de referencia. CONFUSIÓN E INTERACCIÓN Los modelos de regresión logística permiten evaluar la eistencia de confusión o modificación de efecto por parte de una variable sobre otra. Para evaluar la confusión basta con construir dos modelos, uno que incluya el posible confusor y otro que no lo incluya, y se observa la diferencia entre los odds ratio en un modelo y otro. La confusión, por tanto, no puede valorarse de forma estadística. Para evaluar si eiste una modificación de efecto o interacción de una variable sobre otra lo más sencillo es incluir en el modelo una nueva variable producto de las dos variables implicadas. Así obtendremos un nuevo coeficiente asociado a esta nueva variable, de tal Napoleón Pérez Farinós y David Martínez Hernández Página 6 de 7

manera que si el contraste parcial de este coeficiente es estadísticamente significativo, consideraremos que sí eiste interacción. Para crear la variable de interacción hay que seleccionar las dos variables independientes y pulsar el botón, de forma que la nueva variable quedará incluida en el análisis. Napoleón Pérez Farinós y David Martínez Hernández Página 7 de 7