CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS



Documentos relacionados
De factores fijos. Mixto. Con interacción Sin interacción. No equilibrado. Jerarquizado

Pruebas Estadísticas de Números Pseudoaleatorios

MODELOS DE ELECCIÓN BINARIA

EXPERIMENTACIÓN COMERCIAL(I)

Tema 3. Estadísticos univariados: tendencia central, variabilidad, asimetría y curtosis

Análisis de Regresión y Correlación

Guía de ejercicios #1

Estadística con R. Modelo Probabilístico Lineal

Relaciones entre variables

CAPÍTULO 4 MARCO TEÓRICO

Histogramas: Es un diagrama de barras pero los datos son siempre cuantitativos agrupados en clases o intervalos.

OPERACIONES ARMONIZACION DE CRITERIOS EN CALCULO DE PRECIOS Y RENDIMIENTOS

Capitalización y descuento simple

Tema 7: Regresión Logística p. 1/1

Ejemplo: Consumo - Ingreso. Ingreso. Consumo. Población 60 familias

CURSO INTERNACIONAL: CONSTRUCCIÓN DE ESCENARIOS ECONÓMICOS Y ECONOMETRÍA AVANZADA. Instructor: Horacio Catalán Alonso

Aspectos fundamentales en el análisis de asociación

REGRESION Y CORRELACION

Inferencia en Regresión Lineal Simple

12-16 de Noviembre de Francisco Javier Burgos Fernández

UNIVERSIDAD CARLOS III DE MADRID Ingeniería Informática Examen de Investigación Operativa 21 de enero de 2009

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 6 de Junio de :00 horas. Pregunta 19 A B C En Blanco. Pregunta 18 A B C En Blanco

TEMA 4 Variables aleatorias discretas Esperanza y varianza

Tema 1: Estadística Descriptiva Unidimensional Unidad 2: Medidas de Posición, Dispersión y de Forma

Econometría. Ayudantía # 01, Conceptos Generales, Modelo de Regresión. Profesor: Carlos R. Pitta 1

Riesgos Proporcionales de Cox

Especialista en Estadística y Docencia Universitaria REGRESION LINEAL MULTIPLE

Instituto Tecnológico Superior del Sur del Estado de Yucatán EGRESIÓN LINEAL REGRESI. 10 kg. 10 cm

Probabilidad Grupo 23 Semestre Segundo examen parcial

Diseño y Análisis de Experimentos en el SPSS 1

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

Unidad Central del Valle del Cauca Facultad de Ciencias Administrativas, Económicas y Contables Programa de Contaduría Pública

SEMANA 13. CLASE 14. MARTES 20/09/16

DEFINICIÓN DE INDICADORES

Algoritmo para la ubicación de un nodo por su representación binaria

ACTIVIDADES INICIALES

Problemas donde intervienen dos o más variables numéricas

TERMODINÁMICA AVANZADA

Correlación y regresión lineal simple

1 EY ( ) o de E( Y u ) que hace que g E ( Y ) sea lineal. Por ejemplo,

Economía de la Empresa: Financiación

AJUSTE DE LA CURVA DE PROBABILIDAD DEL ESCURRIMIENTO MEDIO HIPERANUAL ANUAL SEGÚN LA TEORÍA S B JOHNSON.

TODO ECONOMETRIA. Variables cualitativas

( ) MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO ( mas ) y Y. N n. S y. MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO ( mas )

BASES Y DIMENSIÓN. Propiedades de las bases. Ejemplos de bases.

Módulo 3. OPTIMIZACION MULTIOBJETIVO DIFUSA (Fuzzy Multiobjective Optimization)

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 20 DE JUNIO DE horas

Figura 1

Investigación y Técnicas de Mercado. Previsión de Ventas TÉCNICAS CUANTITATIVAS ELEMENTALES DE PREVISIÓN UNIVARIANTE. (IV): Ajustes de Tendencia

Muestra: son datos de corte transversal correspondientes a 120 familias españolas.

Análisis del caso promedio. Técnicas Avanzadas de Programación - Javier Campos 70

COMPARADOR CON AMPLIFICADOR OPERACIONAL

EJERCICIO 1 1. VERDADERO 2. VERDADERO (Esta afirmación no es cierta en el caso del modelo general). 3. En el modelo lineal general

) para toda permutación (p p 1 p

Regresión y Correlación Métodos numéricos

REGRESION LINEAL SIMPLE

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 19 de Septiembre de :30 horas. Pregunta 19 A B C En Blanco

Examen Final de Econometría Grado

Modelos lineales Regresión simple y múl3ple

Tema 1:Descripción de una variable. Tema 1:Descripción de una variable. 1.1 El método estadístico. 1.1 El método estadístico. Describir el problema

Regresión Logística. StatFolio Muestra: logistic.sgp

Clase 25. Macroeconomía, Sexta Parte

Problema: Existe relación entre el estado nutricional y el rendimiento académico de estudiantes de enseñanza básica?

Mª Dolores del Campo Maldonado. Tel: :

Tema 1: Estadística Descriptiva Unidimensional

Modelo Lineal Múltiple. Clase 03. Profesor: Carlos R. Pitta. ICPM050, Econometría. Universidad Austral de Chile Escuela de Ingeniería Comercial

TEMA 4: Variables binarias

Capítulo 2: ANALISIS EXPLORATORIO de DATOS Estadística Computacional 1º Semestre 2003

MÉTODOS PARA PROBAR NUMEROS

Estadísticos muéstrales

Trabajo y Energía Cinética

Regresión de Datos de Vida

Prueba de Evaluación Continua

Variables Dummy (parte I)

Comparación entre distintos Criterios de decisión (VAN, TIR y PRI) Por: Pablo Lledó

TERMODINÁMICA AVANZADA

2.2 TASA INTERNA DE RETORNO (TIR). Flujo de Caja Netos en el Tiempo

17/02/2015. Ángel Serrano Sánchez de León

MATERIAL Y MÉTODOS. Se utilizó el listado de códigos que Caminal estableció para España, a los cuales se

INTRODUCCIÓN. Técnicas estadísticas

LECTURA 03: DISTRIBUCIONES DE FRECUENCIAS (PARTE II)

PUBLICACIONES DE 4º CURSO

Modelos de elección simple y múltiple. Regresión logit y probit. Modelos multilogit y multiprobit.

PROBABILIDAD Y ESTADÍSTICA

, x es un suceso de S. Es decir, si :

1.1 Ejercicios Resueltos Tema 1

TEMA 5: MODELOS DE REPARTO MODAL - LOGIT BINARIO

truncación inferior en el punto a=25 es igual a El grado de truncación es del

REGRESIÓN LOGISTICA Índice

Equilibrio termodinámico entre fases fluidas

1.Variables ficticias en el modelo de regresión: ejemplos.

Tema 4: Variables aleatorias

Relación 2: Regresión Lineal.

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 17 de Mayo de :00 horas

MATEMÁTICA DE LAS OPERACIONES FINANCIERAS I

1. Variable aleatoria. Clasificación

MODELOS DE ÁRBOL DE REGRESIÓN BAYESIANO: UN ESTUDIO DE CASO.

EJERCICIOS DE MATEMÁTICAS I HOJA 4. Ejercicio 1. Se consideran los vectores

GUIAS DE ACTIVIDADES Y TRABAJO PRACTICO Nº 22

Transcripción:

CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS Edgar Acuña Fernández Departamento de Matemátcas Unversdad de Puerto Rco Recnto Unverstaro de Mayagüez Edgar Acuña Analss de Regreson

Regresón con varables predctoras cualtatvas A veces algunas de las varables predctoras a consderar son cuanttatvas y otras cualtatvas. Ejemplos de varables cuanttatvas son: años de experenca, años de educacón, edad, etc. Ejemplos de varables cualtatvas son: sexo del empleado, estado cvl, jerarquía del empleado, etc. Edgar Acuña Analss de Regreson 2

Tpos de Varables cualtatvas Varable dummy o varable bnara Varables nomnales Varables ordnales Edgar Acuña Analss de Regreson 3

Nota: En un problema de regresón debe haber por lo menos una varable predctora cuanttatva. S todas las varables predctoras fueran cualtatvas entonces el problema se converte en uno de dseños expermentales. Edgar Acuña Analss de Regreson 4

Regresón con una sola varable Dummy Consderemos un modelo de regresón con una sola varable cualtatva A y una varable cuanttatva X. Es decr, Yβ 0 +β X+β 2 A + ε (* Consderemos los casos: S A0, Y β 0 + β X + ε S A, Y (β 0 + β 2 + β X + ε Es decr que el modelo (* consdera que las pendentes de ambas lneas son guales. El valor estmado de β 2 representa el cambo promedo en la varable de respuesta al cambar el valor de la varable dummy. Edgar Acuña Analss de Regreson 5

S se desea comparar las pendentes de las línea de regresón de los dos grupos se puede usar una prueba de t smlar a la prueba de comparacón de dos medas y asumendo que hay homogenedad de varanza. Tambén se puede usar una prueba de F parcal o probando la hpótess Ho: β30 en el sguente modelo Yβ0+βA+β2X+β3AX +e Cuando la hpótess nula no es rechazada se concluye que la pendente de regreson de ambos grupos son guales. S no hubera gualdad de varanza de los dos grupos, habra que usar una prueba de t aproxmada smlar al problema de Behrens-Fsher. Aquí se usa una t con grados de lbertad aproxmados Edgar Acuña Analss de Regreson 6

Comparar Lneas de Regresón para Varos Grupos Supongamos que se tene una varable predctora contnua X para explcar el comportamento de Y en tres grupos. Surgen tres modelos de regresón: Y β 0 +β X+ ε Yβ 02 +β 2 X+ ε Yβ 03 +β 3 X+ ε Para relaconar las lneas de regresón hay que ntroducr 3 varables dummy para dentfcar los grupos G, G2, y G3 y 3 varables adconales ZGX, Z2G2X, y Z3G3X. Edgar Acuña Analss de Regreson 7

Posbles modelos a Las lneas se ntersecten en un punto cualquera, ya que tendrían dferente ntersecto y pendente. b Las lneas sean paralelas (homogenedad de pendentes. c Las lneas tengan el msmo ntercepto pero dstnta pendentes (homogenedad de nterceptos. d Las tres lneas concdan. Edgar Acuña Analss de Regreson 8

Prueba de hpótess H o : el modelo satsface b o c o d versus H a : el modelo satsface a Se usa una prueba de F parcal dada por F m [(SSE m -SSE a /(gl m -gl a ]/[SSE a /gl a ] Donde m, representa los modelos b,c, o d. grados de lbertad. La F parcal se dstrbuye como una F con (gl m -gl a, gl a Edgar Acuña Analss de Regreson 9

Regresón Logístca La varable de respuesta Y es una del tpo bnaro y que se tene p varables predctoras x s (aleatoras Se tene una muestra de tamaño nn +n 2, con n observacones de la clase C y n 2 observacones de la clase C 2. La varable predctora Y se defne como 0 y para cada clase. Edgar Acuña Analss de Regreson 0

La Curva Logístca Funcon de dstrbucón logístca F ( x ( + e x Edgar Acuña Analss de Regreson

Suposcón en el Modelo Logístco Sea f(x/c (,2 la funcón de densdad del vector aleatoro p-dmensonal x en la clase C, en el modelo logístco se asume que: log( f ( x / C f ( x / C 2 α + β'x Donde, β es un vector de p parámetros y α representa el ntercepto. Edgar Acuña Analss de Regreson 2

Edgar Acuña Analss de Regreson 3 Odds Rato Sea pp(y/x la probabldad a posteror de que Y sea gual a para un valor observado de x Se defne la razón de apuestas (odds rato como: Donde: π representa la probabldad a pror de que Y pertenezca a la clase C. / ( / ( ( 0 / ( 0} { ( / ( } { 2 2 C f C f f y f Y P f y f Y P p p x x x x x x π π

Transformacón logt Tomando logartmos se tene log( p p π log( π + log Luego con la suposcon se tene que: log( Equvalentemente, 2 p p f ( x / C f ( x / C Edgar Acuña Analss de Regreson 4 2 α + β ' x exp( α + β' x p + exp( α + β' x

Cumplmento de la suposcon del modelo S las varables x en cada clase se dstrbuyen normalmente con medas u, u 2 y matríz de covaranza Σ entonces se satsface la suposcón dado que: log( Donde f ( x / C f ( x / C 2 α (u u 2 ' Σ (u + u 2 / 2 (u -u 2 ' Σ - (x-/2(u +u 2 β (u ' u2 Σ La suposcón tambén para otros tpos de dstrbucones dstntas de la normal multvarada tales como dstrbucones de Bernoull, y mezclas de éstas. Edgar Acuña Analss de Regreson 5

Estmacón del modelo logístco Método de Máxma Verosmltud Dada una observacón x, las probabldades de que ésta pertenezca a las clases C y C2 son : exp( α + β ' x P( C / x + exp( α + β ' x P( C2 / x P( C / x + exp( α + β ' x Consderando una muestra de tamaño nn +n 2 y un parámetro bnomal p gual a exp( α + β' x /( + exp( α + β' x la funcón de verosmltud es de la forma L( α, β n exp( a + x 'β + exp( α + x 'β Edgar Acuña Analss de Regreson 6 j n + n + exp( α + x j 'β La solucon de la equacon de verosmltud es solo numerca

Otra forma de estmar los parámetros α y β Consderamos la regresón lneal múltple de logt( pˆ versus x,x 2,,x p luego su varanza será aproxmadamente: pˆ Var[ln( ] [ pˆ p ( ] p p( n As se llega a un problema donde la varanza no es constante y se puede usar mínmos cuadrados ponderados con pesos w (x n pˆ (x(- pˆ (x para estmar los parámetros α y β del modelo logístco. 2 Edgar Acuña Analss de Regreson 7 p n p ( p

Meddas de Confabldad del Modelo Cuantfcan el nvel de ajuste del modelo al conjunto de datos: La Devanza El Pseudo-R 2 El Crtero de Informacón de Akake (AIC La Prueba de Bondad de Ajuste de Hosmer- Lemeshov. Edgar Acuña Analss de Regreson 8

La Devanza Es smlar a la suma de cuadrados del error de la regresón lneal. S la varable de respuesta Y no está grupada se tene que: n n D 2{ log( pˆ + log( p } y : y : 0 D tene una dstrbucón J-Cuadrado con (n-p-gl. S D es mayor que una J-Cuadrado con (n-p-gl para un nvel de sgnfcacón dado entonces el modelo logístco no es confable. Edgar Acuña Analss de Regreson 9

El Pseudo-R 2 Es smlar al R 2 de la regresón lneal se defne por: Pseudo R 2 ( Devanza 00% Devanza. Nula Donde la DevanzaNula es la devanza consderando solamente el ntercepto y se dstrbuye como una J-Cuadrado con (n-gl. Para hallar la DevanzaNula se hace una regresón logístca consderando que hay una sola varable predctora cuyos valores son todos unos. Edgar Acuña Analss de Regreson 20

El Crtero de Informacón de Akake (AIC Determna s un modelo es mejor que otro. Esta dado por: AICD+2(p+ Donde, p es el número de varables predctoras. Un modelo es mejor que otro s su AIC es más pequeño. Edgar Acuña Analss de Regreson 2

La Prueba de Bondad de Ajuste de Hosmer-Lemeshov. Se aplca cuando los datos son dados en forma agrupada y se defne por g 2 ( O n' p C n' p ( p Donde g es el número de grupos, n' es el número de observacones en el -ésmo grupo O es la suma de las y s en el -ésmo grupo y p es el promedo de las p en el -ésmo grupo. Edgar Acuña Analss de Regreson 22

Estadstcas Influencales para regresón logístca Resduales de Pearson es smlar al resdual estudentzado usado en regresón lneal r ( y representa el número de veces que y entre las m repetcones de X, de lo contraro m para todo. Resduales de Devanza Esta dado por: s y 0 y s y Una D observacón log( pˆ será anormal D s el resdual ˆ 2 log( p de devanza es 2 mayor que 2 en valor absoluto, entonces la observacón correspondente es anormal. y m m pˆ Edgar Acuña Analss de Regreson 23 pˆ pˆ

Uso de la regresón logístca en Clasfcacón: La forma mas facl de dscrmnar es consderar que s p>0.5 la obervacón pertenece a la clase que uno está nteresado. Otros metodos son: Plotear el porcentaje de obervacones que poseen el evento que han sdo correctamente clasfcadas (Senstvdad versus dstntos nveles de probabldad y el porcentajes de observacones de la otra clase que han sdo correctamente clasfcadas (especfdad versus los msmos nveles de probabldad anterormente usados, en la msma gráfca. La probabldad que se usará para clasfcar las observacones se obtenen ntersectando las dos curvas. Edgar Acuña Analss de Regreson 24

Ejemplo Interseccon de las curvas de senstvdad y de especfcdad para hallar el p-optmo 00 Senstvdad 50 Este es el p-optmo 0 0.0 0. 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Especfcdad Las gráfcas de los dos métodos aparecen en la sguente fguras y embos caso el p-óptmo a usarse es p0.3 Edgar Acuña Analss de Regreson 25

La curva ROC Usar la curva ROC (Recever Operatng Characterstc Curva. En este caso se grafca la senstvdad versus (-especfdad00%, y se coge como el p deal aquel que está más cerca a la esquna superor zquerda, osea al punto (00,0. Edgar Acuña Analss de Regreson 26

Ejemplo de curva ROC Edgar Acuña Analss de Regreson 27