3. Algunos modelos estadísticos

Documentos relacionados
Figura 1

Inferencia en Regresión Lineal Simple

1 EY ( ) o de E( Y u ) que hace que g E ( Y ) sea lineal. Por ejemplo,

CURSO INTERNACIONAL: CONSTRUCCIÓN DE ESCENARIOS ECONÓMICOS Y ECONOMETRÍA AVANZADA. Instructor: Horacio Catalán Alonso

es un vector de p covariables correspondientes al mismo individuo i, i 1,,n.

Ejemplo: Consumo - Ingreso. Ingreso. Consumo. Población 60 familias

Tema 3: Procedimientos de Constrastación y Selección de Modelos

CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS

Especialista en Estadística y Docencia Universitaria REGRESION LINEAL MULTIPLE

EJERCICIO 1 1. VERDADERO 2. VERDADERO (Esta afirmación no es cierta en el caso del modelo general). 3. En el modelo lineal general

Nos interesa asignar probabilidades a valores numéricos obtenidos a partir de fenómenos aleatorios, es decir a variables aleatorias.

FE DE ERRATAS Y AÑADIDOS AL LIBRO FUNDAMENTOS DE LAS TÉCNICAS MULTIVARIANTES (Ximénez & San Martín, 2004)

MODELOS DE ELECCIÓN BINARIA

Problemas donde intervienen dos o más variables numéricas

Variables Aleatorias

Riesgos Proporcionales de Cox

Análisis de Weibull. StatFolio de Muestra: Weibull analysis.sgp

PRÁCTICA 16: MODELO DE REGRESIÓN MÚLTIPLE SOLUCIÓN

Medidas de Variabilidad

Variable aleatoria: definiciones básicas

Econometría de corte transversal. Pablo Lavado Centro de Investigación de la Universidad del Pacífico

Estadística con R. Modelo Probabilístico Lineal

CyRCE: Un modelo de Riesgo de Crédito para Mercados Emergentes.

Reconciliación de datos experimentales. MI5022 Análisis y simulación de procesos mineralúgicos

Tema 6. Estadística descriptiva bivariable con variables numéricas

Reconocimiento de Locutor basado en Procesamiento de Voz. ProDiVoz Reconocimiento de Locutor 1

Relaciones entre variables

para cualquier a y b, entonces f(x) es la función de densidad de probabilidad de la variable aleatoria continua X.

( ) MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO ( mas ) y Y. N n. S y. MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO ( mas )

Tema 4 MODELOS CON DATOS DE RECUENTO

Guía para el Trabajo Práctico N 5. Métodos Estadísticos en Hidrología

Problema: Existe relación entre el estado nutricional y el rendimiento académico de estudiantes de enseñanza básica?

Análisis cuantitativo aplicado al Comercio Internacional y el Transporte

6 Impacto en el bienestar de los beneficiarios del PAAM

Introducción. Escuela Técnica Superior de Ingeniería Informática. Universidad de La Laguna. Fernando Pérez Nava

H 0 : La distribución poblacional es uniforme H 1 : La distribución poblacional no es uniforme

Vida Util, características de la Fiabilidad e Inviabilidad y distribuciones teóricas en el terreno de la fiabilidad

EXPERIMENTACIÓN COMERCIAL(I)

Regresión Lineal Simple y Correlación

Regresión Binomial Negativa

NOMBRE Apellido Paterno Apellido Materno Nombre(s) Porcentaje de defectos producidos Máquina Porcentaje de producción

EJERCICIOS. Ejercicio 1.- Para el modelo de regresión simple siguiente: Y i = βx i + ε i i =1,..., 100. se tienen las siguientes medias muestrales:

Tema 1: Estadística Descriptiva Unidimensional

Análisis del caso promedio. Técnicas Avanzadas de Programación - Javier Campos 70

Variables Aleatorias. Variables Aleatorias. Variables Aleatorias. Objetivos del tema: Al final del tema el alumno será capaz de:

Muestra: son datos de corte transversal correspondientes a 120 familias españolas.

Tema 4: Variables aleatorias

Mª Dolores del Campo Maldonado. Tel: :

REGRESION LINEAL SIMPLE

TEMA III EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Relación 2: Regresión Lineal.

Tema 2: El modelo clásico de regresión

REGRESION LINEAL SIMPLE

Algunas aplicaciones del test del signo

DISTRIBUCIONES BIDIMENSIONALES

Métodos específicos de generación de diversas distribuciones discretas

Efectos fijos o aleatorios: test de especificación

INTRODUCCIÓN. Técnicas estadísticas

3. VARIABLES ALEATORIAS.

1. Variable aleatoria. Clasificación

Población 1. Población 1. Población 2. Población 2. Población 1. Población 1. Población 2. Población 2. Frecuencia. Frecuencia

Lo que nos interesa en el análisis de varianza de una vía es extender el test t para dos muestras independientes, para comparar más de dos muestras.

10. VIBRACIONES EN SISTEMAS CON N GRADOS DE LIBERTAD

ESTADÍSTICA. Definiciones

SEMANA 5 MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN

Economía Aplicada. Estimador de diferencias en diferencias. Ver Wooldridge cap.13. Departamento de Economía Universidad Carlos III de Madrid 1 / 19

Apéndice A: Metodología para la evaluación del modelo de pronóstico meteorológico

REGRESION Y CORRELACION

Para dos variables x1 y x2, se tiene el espacio B 2 el que puede considerarse definido por: {0, 1}X{0, 1} = {(00), (01), (10), (11)}

MUESTREO EN POBLACIONES FINITAS

Teoría de Modelos y Simulación Enrique Eduardo Tarifa Facultad de Ingeniería - Universidad Nacional de Jujuy. Generación de Números Aleatorios

Modelos unifactoriales de efectos aleatorizados

Estadísticos muéstrales

CAPÍTULO X ESTADÍSTICA APLICADA A LA HIDROLOGIA

1.Variables ficticias en el modelo de regresión: ejemplos.

Investigación y Técnicas de Mercado. Previsión de Ventas TÉCNICAS CUANTITATIVAS ELEMENTALES DE PREVISIÓN UNIVARIANTE. (IV): Ajustes de Tendencia

2. EL TENSOR DE TENSIONES. Supongamos un cuerpo sometido a fuerzas externas en equilibrio y un punto P en su interior.

Operadores por Regiones

A. Una pregunta muy particular que se puede hacer a una distribución de datos es de qué magnitud es es la heterogeneidad que se observa.

LECTURA 06: MEDIDAS DE TENDENCIA CENTRAL (PARTE I) LA MEDIA ARITMÉTICA TEMA 15: MEDIDAS ESTADISTICAS: DEFINICION Y CLASIFICACION

Medidas de centralización

EXPERIMENTOS ANIDADOS O JERARQUICOS NESTED

Modelos triangular y parabólico

CAPÍTULO 1: VARIABLES ALEATORIAS Y SUS DISTRIBUCIONES

Análisis de supervivencia

TEMA 3. VARIABLE ALEATORIA

Regresión Logística. StatFolio Muestra: logistic.sgp

ESTADÍSTICA UNIDIMENSIONAL

USOS Y EXTENSIONES DEL MODELO LINEAL CON K VARIABLES

Universidad Diego Portales Facultad de Economía y Empresa

EVALUACIÓN DEL COMPORTAMIENTO DE LOS ESTIMADORES DE LOS PARÁMETROS DE UN MODELO NO LINEAL MIXTO. UNA COMPARACIÓN DE MÉTODOS DE ESTIMACIÓN

Oferta de Trabajo Parte 2. Economía Laboral Julio J. Elías LIE - UCEMA

Regresión y correlación simple 113

T. 9 El modelo de regresión lineal

SEGUNDA PARTE RENTAS FINANCIERAS

Histogramas: Es un diagrama de barras pero los datos son siempre cuantitativos agrupados en clases o intervalos.

Tema 8: Heteroscedasticidad

Capítulo 4 Probabilidades Estadística Computacional II Semestre 2006

Tema 5: Incumplimiento de las Hipótesis sobre el Término de Perturbación

Transcripción:

3. Algunos modelos estadístcos Con las herramentas computaconales a nuestra dsposcón, en las sguentes seccones se revsarán algunos de los modelos estadístcos más usados en la práctca y la forma de hacer nferenca. 3. Modelos de regresón lneal Los modelos de regresón lneal es una de las herramentas estadístcas más usadas y estuda la relacón entre dos o más varables observables y y x. En general estamos nteresados en la dstrbucón condconal de y dado x, parametrzada por f(y β,x), en donde se tenen acceso a n observacones (x,y ) condconalmente ndependentes. Exsten muchas formas de parametrzar la relacón entre y y x (modelos lneales generalzados, regresón lneal y no lneal). En partcular en esta seccón nos concentraremos en el caso lneal normal. La varable de nterés y se conoce como varable respuesta y se supone que es contnua, mentras que las varables x =(x,x,...,x p ) son llamadas varables explcatvas o predctoras y pueden ser dscretas o contnuas. MODELO: Sean Y, x = (,x,x,...,x,p ), =,,..,n un conjunto de varables aleatoras tal que Y = β0 + βx + βx + L + βpxp + ε 59 Curso: Métodos Bayesanos

= x' β + ε, donde, ' = ( β, β, β ) β K en un vector de p parámetros, 0, p ε,ε,...,ε n son v.a...d. tal que ε N( 0, τ) con ( ) Var Esto mplca que E ε τ = σ. = / ( Y β, σ,x ) = x' β ( Y β, σ,x ) = τ = σ Var / para =,,..,n, Alternatvamente, el modelo se puede escrbr como: ( ' β τ) Y β, τ,x N x,, =,...,n En notacón matrcal, el modelo se puede expresar como: donde, Y' ( Y, K, ) Y n Y β, τ,x N X =, ' = ( β, β, β ) β K, 0, ( β, τi) p X = x x x M n L L O L x x x p p M np. OBJETIVOs: ) Estmar el valor de los parámetros y determnar s el efecto partcular de una varable explcatva es sgnfcatvo o no. ) Predccón de observacones futuras Y F, basados en un valor x F ya sea conocdo o hpotétco,.e., ( ' β τ) YF β, τ,xf N xf,. 60 Curso: Métodos Bayesanos

ANÁLISIS DEL MODELO: El análss del modelo desde un punto de vsta Bayesano requere de especfcar una dstrbucón ncal sobre los parámetros (β,τ). Recordemos que τ=/σ es la precsón de los errores. Consderemos la funcón de verosmltud, f n/ ' ( y β, τ,x) τ exp ( y Xβ)( y Xβ) τ Escrbendo y Xβ = y Xˆ β + X( βˆ β) f., la verosmltud toma la forma, { } n/ τ ' ( y β, τ,x) τ exp ( n p) s + ( β βˆ ) X'X( β βˆ ) ˆ donde = ( X'X) X' y s β, ' ( y Xˆ β)( y Xβ) = ˆ. n p A contnuacón consderaremos dos opcones de dstrbucones ncales y sus correspondentes dstrbucones fnales:, o Análss de referenca: Incal: π ( β, τ) τ Fnal: ( β, τ y,x) = N ββˆ, ( X'X) ( τ) Ga( τ(n p)/,(n p)s /) π, Margnalmente: ( ) y,x = St ββˆ, ( X'X)( s ),n p π β π ( τ y,x) = Ga( τ(n p)/,(n p)s /) Predctva fnal: Dado un vector de covarables x F, π ( y y) = St y x 'ˆ, β + x '( X'X) ( x ) ( s ),n p F F F F F. 6 Curso: Métodos Bayesanos

o Análss conjugado: Incal: ( β, τ) = N( βb,t τ) Ga( a /,c /) f 0 0 τ 0 0 Fnal: ( β, τ y,x) = N( βb,t τ) Ga( a /,c /) f τ donde, b = ( X'X + T ) ( X'Xˆ β + T ) 0 0b0 T = X'X + T 0 a = a0 c + n ' ' ( y Xb )( y Xb ) + ( b b ) T ( b ) = c0 + 0 0 b0 Nota: T 0 puede ser usada para romper multcolnealdad. Margnalmente: f ( β y,x) = St( βb,t, ) a ( τ y,x) = Ga( τ a /,c /) f Predctva fnal: Dado un vector de covarables x F, f a ( ) y y = St y x 'b, ( + x 'T x ),n p F F F F c F. INFERENCIA: Recordemos que la nferenca se realza utlzando la dstrbucón fnal de los parámetros y la predctva fnal. o Estmacón / Predccón puntual. La estmacón o predccón puntual puede realzarse utlzando alguna de las funcones de pérdda menconadas anterormente (cuadrátca, absoluta o vecndad), obtenéndose la meda, medana o moda como estmadores o predctores puntuales. 6 Curso: Métodos Bayesanos

o Pruebas de hpótess. La prueba de hpótess más utlzada en regresón es sobre la sgnfcanca de las varables explcatvas del modelo,.e., H 0 : β j =0 vs. H : β j 0 La forma común de tomar la decsón es obtenendo un ntervalo de credbldad de β j al ( α) de probabldad, y s el ntervalo contene al cero se dce que la varable explcatva x j no es sgnfcatva para al modelo, en caso contraro se dce que sí es sgnfcatva al nvel α. AJUSTE DEL MODELO. En estadístca frecuentsta, una forma de medr el ajuste del modelo es medante el coefcente de determnacón. Este se construye de la sguente manera: Sea ŷ = x ' βˆ el predctor puntual máxmo verosíml de y. Se defnen = n YY = ( y y) S la varabldad total de las observacones ( ŷ y) = n = SCR la varabldad explcada por la regresón ( ŷ y ) = n = SCE la varabldad no explcada por la regresón Se puede demostrar que S YY = SCR + SCE. Entonces, una medda de la varabldad explcada por el modelo es: SCR R = (coefcente de determnacón). S YY 63 Curso: Métodos Bayesanos

Nota. La partcón anteror de suma de cuadrados no es válda s en lugar del predctor máxmo verosíml se usa algún otro predctor Bayesano para y. Sn embargo es posble calcular { ( y, )} Corr como medda de ajuste, que en el caso de que ŷ sea el predctor máxmo verosíml, concdrá con R. ŷ Nota. Para determnar el ajuste del modelo es mejor usar meddas de comparacón de modelos como: LPML, medda L y DIC. RESIDUOS. Dado y,x,β,τ el error ε se vuelve una constante,.e., ε = y x ' β. Este valor puede ser estmado s consderamos a βˆ como un estmador puntual del β, entonces, e = ε ˆ = y x ' βˆ es llamado resduo. Más aún, s τˆ es un estmador puntual de τ, entonces, ( y x ' β) d = τ ˆ ˆ es llamado resduo estandarzado. Los resduos son usados para verfcar los supuestos del modelo. ADECUACIÓN DEL MODELO: Una vez realzado el ajuste del modelo a los datos, es necesaro verfcar la bondad del ajuste y verfcar que se cumplan los supuestos del modelo. Para ello, es necesaro realzar un análss de resduos: ) Vsualzacón nformal del ajuste del modelo. Grafcar ŷ vs. y. 64 Curso: Métodos Bayesanos

) Verfcacón de la meda cero de los errores. Grafcar e vs. ŷ o e vs.. El patrón de los resduos debe de ser alrededor del cero. 3) Verfcacón de la varanza (precsón) constante de los errores. Grafcar e vs. ŷ o e vs.. El patrón debe de ser constante. 4) Verfcacón de la no correlacón (ndependenca) de los errores. Grafcar e vs. o e vs. e. No se debe de aprecar nngún patrón lneal. 5) Verfcacón de la normaldad de los errores. Realzar una gráfca de probabldad normal de los resduos e. Las gráfcas anterores puedes realzarse alternatvamente con d en lugar de e. MULTICOLINEALIDAD. El problema de multcolnealdad es un problema común en análss de regresón y ocurre cuando exsten dos o más varables explcatvas altamente correlaconadas. Las consecuencas de esto se presentan en el cálculo de la matrz ( X'X) que aparece en algunas de las dstrbucones posterores. Al estar los renglones y columnas de X X lnealmente relaconados el determnante de X X es muy cercano a cero, lo que ndcaría que la matrz X X es cas sngular, complcando el cálculo de la nversa. Una forma de soluconar el problema es qutando del análss aquellas varables que se encuentren altamente correlaconadas con otras varables. Alternatvamente y aprovechando que podemos ncorporar nformacón ncal, es posble proponer una matrz de precsón T 0 con valores grandes en la dagonal para romper la posble sngulardad de la matrz X X. 65 Curso: Métodos Bayesanos

AUTOCORRELACIÓN DE LOS ERRORES. Uno de los supuestos más mportante del modelo de regresón es que los errores ε son ndependentes (no correlaconados), lo que mplca que las observacones Y condconal en (β,τ,x ) sean ndependentes. S este supuesto no se satsface es posble ncorporar un patrón de autocorrelacón en el modelo, por ejemplo defnr, donde ω N( 0, τ) ndependentes. ε = ρε + ω, GENERALIZACIONES DEL MODELO DE REGRESIÓN (A LA MEDIA). Como se menconó al prncpo de la seccón, la dea de un modelo de regresón es establecer la relacón condconal entre una varable respuesta Y y un vector de varables explcatvas X. En lugar de establecer la relacón entre X y Y a través de la meda condconal de Y, es posble tambén establecer una relacón entre la varanza condconal de Y y X (regresón de escala),.e., para =,...,n. Y β, γ,x τ N ( µ ( x ), τ( x )) ( x ) = x β µ ', y ( x ) = exp( x ' γ), con EJERCICIO 3. A contnuacón se presenta una base de datos de calfcacones de 0 empresas fnanceras hechas por las dos compañías calfcadores más mportantes S&P y Moody s. Realza un análss Bayesano completo de los datos, ajustando un modelo de regresón lneal, tomando como 66 Curso: Métodos Bayesanos

varable respuesta las calfcacones de S&P y como varable explcatva las calfcacones de Moody s. EJERCICIO 4. Un nvestgador desea evaluar la relacón entre el salaro anual de trabajadores de una compañía de nvel medo y alto (Y, en mles de dólares) y el índce de caldad de trabajo (X ), número de años de experenca (X ) y el índce de éxto en publcacones (X 3 ). La muestra consste de 4 trabajadores. Realza un análss Bayesano completo de los datos y obtén las predccones de salaros para 3 nuevos empleados con varables explcatvas: = ( 5.4,7,6.0), x F ' = ( 6.,,5.8) y x F ' ( 6.4,,6.) x F ' =. 3. Modelos lneales generalzados Recordemos que el modelo de regresón lneal es una forma de descrbr la relacón entre una varable respuesta y y un conjunto de varables explcatvas x' ( x, K, ) =. Una forma más general de descrbr la x p dstrbucón condconal de Y dado X, f(y β,x), es medante la clase de modelos lneales generalzados. La dea general de los modelos lneales generalzados consste en modelar el valor esperado de Y, dgamos ( x ) = E( Y x) µ, a través de una funcón paramétrca smple de las varables explcatvas, dgamos ϕ ( β,x),.e., ( x) = ϕ( β,x) µ. 67 Curso: Métodos Bayesanos

Al consderar dstntas dstrbucones para la varable respuesta Y y dstntas formas para la funcón ϕ( ), este modelo produce una clase muy ampla de modelos de regresón generalzados. Los modelos lneales generalzados suponen que la funcón de densdad de la varable respuesta Y (dscreta o contnua) es un membro de la famla exponencal,.e., f ( y θ, φ) = b( y, φ) exp[ φ{ yθ a( θ) }] donde a( ) y b( ) son funcones monótonas. El parámetro φ es un parámetro de dspersón y cuando es conocdo descrbe una famla exponencal natural. La meda y la varanza de Y están dadas por: E ( Y θ) = a ( θ) y ( Y θ) µ = ' ( θ) a'' Var =. φ MODELO: Los modelos lneales generalzados se descrben a través de una componente aleatora, una componente sstemátca y una funcón lga: o Componente aleatora: Sean Y,Y,...,Y n v.a.. de la funcón de densdad f ( y θ, φ ) = b( y, φ ) exp[ φ { y θ a( θ )}] o Componente sstemátca: Para cada respuesta Y se tene un vector de covarables o varables explcatvas x ' (,x, x ) producen el predctor lneal = K las cuales p η = β0 + βx + L β p x p = x ' β 68 Curso: Métodos Bayesanos

o Funcón lga: Las componentes aleatora y sstemátca se relaconan a través de una funcón lga g( ), tal que ( ) η = g µ. Un caso partcular mportante se obtene cuando g () = a' (). En este caso, η = θ y g( ) es llamada lga canónca. CASOS PARTICULARES: Algunos de los modelos lneales generalzados más usados en la práctca son el Normal, el Posson y el Bernoull. Sean Y,Y,...,Y n v.a.. de la funcón de densdad o Normal: Y N( µ τ ) f µ, µ R, / ( y, τ ) = ( π τ ) exp ( y µ ) I ( y ) τ µ (, ), donde φ = τ b θ = µ a ( y, φ ) = ( π φ ) θ / ( θ ) = a' ( θ ) = θ g µ = µ Lga canónca: ( ) φ exp y µ = η = x ' β (modelo lneal) o Posson: Y Po( µ ) f µ, µ R + µ ( y µ ) = e I{ }( y ) y µ y! 0,, K, donde 69 Curso: Métodos Bayesanos

φ = b θ = logµ a y! ( y, φ ) = b( y ) = I{ }( y ) θ ( θ ) = e a' ( θ ) = e 0,, K Lga canónca: ( ) θ g µ = logµ logµ = η = x' β (modelo log lneal) o Bernoull: Y Ber( µ ) f µ, µ (0,) y y ( y ) = µ ( µ ) I{ }( y ) φ b θ a µ, donde = 0, ( y, φ ) = b( y ) = I{ }( y ) µ = log µ θ θ θ ( θ ) = log( + e ) a' ( θ ) = e ( + e ) 0, Lga canónca: g ( µ ) = µ log µ log = η = x' β (modelo logístco) µ Otras lgas: g ( µ ) = Φ ( µ ) normal estándar µ = Φ( η ) = Φ( ' β) µ, donde Φ( ) es la funcón de dstrbucón x (modelo probt) ANÁLISIS DEL MODELO: Consderemos la forma general del modelo lneal generalzado, en donde las observacones Y,Y,...,Y n son un conjunto de v.a.. de la funcón de densdad 70 Curso: Métodos Bayesanos

f ( y θ, φ ) = b( y, φ ) exp[ φ { y θ a( θ )}], =,...,n. Por smplcdad supongamos que φ es conocdo y que las componentes aleatora y sstemátca se relaconan a través de la lga canónca,.e., θ = η = x ' β. En este caso, la funcón de verosmltud es de la forma, Incal: f ( β ) = N ( βb, ) n ( y β) exp φ { y( x' β) a( x' β) } f. = 0 T 0 n Fnal: f ( β y,x) exp φ{ y( x' β) a( x' β) } ( β b0 )'T0 ( β b0 ) = Predctva fnal: Dado un vector de covarables x F y un valor φ F, f ( y y) f( y x ' β, φ ) f( β y,x) dβ = E { f( y x ' β φ )} F = F F F β y,x F F, F. AJUSTE DEL MODELO. Exsten varas formas de medr la bondad del ajuste de un modelo. En modelos lneales generalzados la medda más común es la devanza, la cual se defne como dos veces el logartmo del cocente de verosmltudes, es decr, L( ~ θ y) Dev = log, L θˆ y ( ) donde θˆ y ~ θ son los valores maxmzados de θ en dos modelos dferentes. En el caso de modelos lneales generalzados la devanza toma la forma: = n = { y ( ~ θ θˆ ) a( ~ θ ) + a( θˆ )} Dev φ. 7 Curso: Métodos Bayesanos

Para los tres casos partculares de modelos lneales generalzados vstos anterormente, la devanza es de la forma: MODELO Normal Posson Bernoull n DEVIANZA ( y µ ˆ ) = n y y log ( y µ ˆ ) = µ ˆ n y + y y log ( y ) log = µ µ ˆ ˆ donde ˆµ es el predctor puntual de y. NOTA. La Devanza es la medda de ajuste frecuentsta usada para los modelos lneales generalzados, son embargo en el caso Bayesano es posble usar la medda equvalente DIC defnda anterormente. EJERCICIO 5. Tasas de mortaldad (Congdon, 00). Una compañía de seguros quere lanzar un nuevo seguro médco para mneros. Para ello desea estmar la probabldad de muerte (π ), con base en el tempo de exposcón al mneral (x en horas). Se cuenta con nformacón de las muertes regstradas entre 950 y 959, junto con el tempo de exposcón al mneral y el número de mneros expuestos. Realza un análss Bayesano de los datos y obtén la dstrbucón predctva del número de muertes suponendo que hay 00 mneros con un tempo de exposcón de 00 horas. El modelo es el sguente: Para =,...,N 7 Curso: Métodos Bayesanos

Y ( π ) π Bn n, logt( π ) = β0 + βx con β 0 N( 0,0.00) y β N( 0,0.00). EJERCICIO 6. En el msmo contexto del problema anteror, supongamos ahora que la compañía de seguros está nteresada en modelar el número total de desastres (Y t ) que ocurren en la mna. Se cuenta con N= observacones durante los años 85 a 96. Se proponen tres modelos: a) Modelo con tasa varable en funcón del tempo: t t ( ) Y µ Po µ ( µ ) = β + β t log t 0 con β 0 N( 0,0.00) y N( 0,0.00) β. b) Modelo con tasa constante en dos períodos: Se cree que la tasa promedo de desastres es constante, pero que en el sglo XX la tasa ha dsmnudo. Esto se traduce en el sguente modelo: t t t ( ) Y µ Po µ log( µ t ) = β0 + βi( t τ) con β 0 N( 0,0.00), β N( 0,0.00) y U{, K,N} t τ. 73 Curso: Métodos Bayesanos

3.3 Análss de clasfcacón y modelos de mezcla En estadístca exsten dos problemas relaconados: análss de clasfcacón (o análss dscrmnante) y análss de agrupacón (o cluster analyss). El análss de clasfcacón consste en proponer una regla de decsón con la cual se asgnará un nuevo ndvduo a una de varas clases prevamente defndas. En la construccón de esta regla de clasfcacón será necesaro estudar las característcas que hacen dferentes a los dstntos grupos (dscrmnar). El análss de agrupacón, o tambén conocdo como análss de cúmulos, consste en formar (encontrar) grupos naturales en un conjunto de datos. Una forma de ver el problema es consderar que el conjunto de datos es una muestra de una poblacón que está formada por una mezcla de subpoblacones o clases de ndvduos. Algunos autores consderan al problema de agrupacón como un problema de clasfcacón en donde el dentfcador de clase de cada ndvduo está perddo. 74 Curso: Métodos Bayesanos

En la Fgura sguente el panel zquerdo representa un problema de clasfcacón en donde se conoce la clase. El panel derecho corresponde a un problema en donde la clase se ha perddo (mezcla). ANÁLISIS DE CLASIFICACIÓN: El problema consste en clasfcar ndvduos en una o más categorías de la característca Y (el ndcador de clase) con base en la nformacón de varables explcatvas x' (,x, ) = K que x p caracterzan a cada una de las clases. A partr de una muestra de entrenamento de ndvduos prevamente clasfcados. En el caso más smple la característca Y es bnara (ej: el ndvduo es sujeto de crédto o no, el ndvduo tene certa enfermedad o no). Consderemos que Y= s el ndvduo posee la característca de nterés y Y=0 s no la posee. En este caso una regla de decsón (D) dará como 75 Curso: Métodos Bayesanos

resultado D= ó D=0 s se decde que el ndvduo tene o no la característca de nterés. Una regla de decsón se caracterza por su sensbldad y su especfcdad. Sensbldad: η = P ( D = Y = ) Especfcdad: θ = P ( D = 0 Y = 0) En este caso, D Y = Ber( η) y D Y = 0 Ber( θ) Denotemos por = P ( Y = ) en la poblacón. π la prevalenca de la característca de nterés Otras característcas de nterés son las probabldades predctvas de que la regla de decsón se ajuste a la realdad,.e., Prob. predct. de una decsón postva: Ψ = P ( Y = D = ) Prob. predct. de una decsón negatva: Λ = P ( Y = 0 D = 0) = ηπ + = θ ηπ ( θ)( π) θ( π) ( π) + ( η)π Cómo obtener una regla de decsón? S Y es bnara, una opcón es a través de un modelo de regresón logístca. 76 Curso: Métodos Bayesanos

Sea Y Ber( µ ) x ' β µ e µ, tal que log = x ' β,.e., µ = ; junto con x ' β µ + e dstrbucones ncales vagas β j N( 0,0.00) para j=0,,p. En este caso ( ) D x, = 0, µ ˆ µ ˆ q < q con ˆµ un estmador puntual de µ y q=0.5 por ejemplo. S Y tene más de dos categorías, dgamos k, una opcón es a través de un modelo de regresón multnomal. Sea Y µ Mult(, µ, µ, K µ ), con { 0, } k, k Y tal que Y k j= j = y k µ j µ j =, donde log = x ' β j, j=,,k o equvalentemente j= µ k x ' β j e µ j = k x ' βh + e h= para j=,,k, y µ k = k + h= e x ' β h ; junto con dstrbucones ncales vagas β r N( 0,0.00) para r=0,,p. En este caso la regla de decsón sería D * ( x ) { j : µ ˆ * µ ˆ j, j =,...,k} =, j con ˆµ j un estmador puntual de µ j. EJERCICIO 7: Asgnacón de crédto (Internet). Certo banco desea generar una regla de clasfcacón para determnar qué clentes son sujetos de crédto. El banco cuenta con la nformacón hstórca de n=3 solctudes de crédto de los cuales el 56% sí fueron sujetos de crédto (Y=) y el 77 Curso: Métodos Bayesanos

restante 44% no lo fueron (Y=0). Además, para cada solctante el banco cuenta con la nformacón de Sexo (X ), Edad (X ), Antgüedad en el trabajo (X 3 ), Estado Cvl (X 4 ), Ingreso mensual (X 5 ), Deuda total (X 6 ) y Pago mensual que hace el clente para cubrr sus deudas (X 7 ). Con base en esta nformacón genera una regla de clasfcacón y estuda sus propedades. Consdera el sguente modelo: ( ) Y µ Ber µ, µ log µ = x ' β ; con β j N( 0,0.00) para j=0,,7. Consdere la sguente regla de clasfcacón: con q { 0.4,0.5,0.6}. ( ) D x, = 0, µ ˆ q, µ ˆ < q MODELOS DE MEZCLA: Recordemos que los modelos de mezcla surgen en problemas de clasfcacón en donde no se cuenta con el ndcador de clase. Supongamos que los ndvduos se caracterzan por una varable, o un vector de varables, X, =,,n. Cada ndvduo provene de una de M subpoblacones ( ) f θ, m=,,m, pero no sabemos de cual. Sea Z una m x m varable latente que me ndca de cuál subpoblacón provene la observacón X, es decr, {, K,M} Z. Entonces, condconal en Z =m, 78 Curso: Métodos Bayesanos

X Z m ( x θ ) = m f. m S además suponemos que P( Z m) = πm =, m=,,m tal que π m =. Entonces la dstrbucón margnal de cada X es una mezcla (fnta) de la forma, M m= Para cada =,,n. f ( x ) = M mfm ( x θm ) π m= Una forma alternatva de descrbr el modelo anteror es consderando un vector latente multnomal de la forma ' = ( ζ, ζ ) ζ K tal que, s el esmo ndvduo provene de la subpoblacón m ζm =. 0 e.o.c. En este caso, la dstrbucón del vector latente es (, π, π ) Mult, ζ K y la dstrbucón conjunta de (Y,Z) para todos los ndvduos dados los vectores de parámetros (θ,π) es: ( x,z θ, π) = f ( x θ,z) f ( z π) = { πmf ( x θm )} m f. n M = m= M M ζ El modelo se complementa con dstrbucones ncales para (θ,π). Dependendo de la naturaleza de las componentes de θ se usan dstrbucones paramétrcas estándar, Normal, Gamma o Beta, dependendo s el espaco parametral con los reales, reales postvos o el 79 Curso: Métodos Bayesanos

ntervalo cero uno, respectvamente. Para π por lo general se usa una dstrbucón ncal Drchlet(α). Hasta el momento se ha consderado que el número de componentes de la mezcla, M, es conocdo. Sn embargo, es posble consderarlo un parámetro desconocdo del modelo, en cuyo caso se le asgnaría una dstrbucón ncal f(m) con soporte los enteros postvos. Esto mplcaría que la dmensón del espaco parametral cambe aleatoramente. Inferenca posteror de estos modelos requerría una cadena de Markov con salto reversble. EJERCICIO 8. Consdere un conjunto de n=00 ndvduos cuyos ngresos provenen de una de dos subpoblacones (M=) (ngresos bajos o ngresos altos). Utlce un modelos de mezcla para clasfcar a los ndvduos en alguna de estas dos subpoblacones. Use el sguente modelo: con m m m α = µ σ y β m ( X Z = z, α, β) Ga( α β ) = µ z, z m σ m µ ( 0.0,0.0), Ga( 0.,0.) m Ga m=, tal que ( µ ) =,,n. P = µ, σ, m Z U{,}, 80 Curso: Métodos Bayesanos

3.4 Modelos de supervvenca El análss de supervvenca trata del estudo de tempos a la ocurrenca de un evento. En otras palabras, es el estudo de la duracón entre un evento de nco y un evento de fn. El análss de supervvenca no necesaramente tene que ver con tempos de vda (supervvenca propamente). Cuando se estuda los tempos de duracón de máqunas o procesos ndustrales, el análss de estos datos es llamada análss de confabldad. Ejemplos de datos de supervvenca son: o Tempo a la muerte después del dagnóstco de una enfermedad. o El tempo en el que se enferma un pacente después de haber sdo nfectado con un vrus (VIH). o El tempo en el que una máquna se descompone después de haber sdo nstalada. o El tempo en el que una empresa se vuelve nsolvente desde su fundacón. o Tempo en el que un asegurado deja de pagar su pólza de seguros desde que la contrata. o Tempo de vda de un bllete desde que sale a crculacón. Las característcas prncpales de los datos de supervvenca son: 8 Curso: Métodos Bayesanos

. Son varables no negatvas,.e., T 0. Están por lo general censurados,.e., los tempo no se observan de manera exacta, solamente se observa una cota nferor (censura por la derecha) o superor (censura por la zquerda) del tempo real. Ejemplos: o Censura por la derecha: Cuando se tene regstrado el tempo de nco pero no el tempo de fn (una persona sale del estudo por otra razón dstnta al evento de fn). O cuando se tene regstrado el tempo de fn pero no el de nco (el evento de nco ocurre antes de que la persona entrara al estudo). o Censura por la zquerda: El tempo de fn ocurre antes de que se realce la medcón, o el tempo de nco ocurre después de que se realza la medcón. 3. El énfass no es en la caracterzacón de la funcón de densdad f(t), sno en otras dos funcones: Funcón de supervvenca y funcón de resgo. Sea T una v.a. contnua con funcón de densdad f(t) y funcón de dstrbucón F(t), entonces: o Funcón de supervvenca: S(t) = P ( T > t) = F( t) 8 Curso: Métodos Bayesanos

o Funcón de resgo: h () t P lm = ε 0 ( t < T t + ε T > t) f ( t) ε = S() t Las famlas paramétrcas más usadas para el análss de datos de supervvenca son: Exponencal, Webull, Gamma y Lognormal. La complcacón de los modelos de supervvenca con respecto a cualquer otro modelo de probabldad radca en el manejo de las observacones censuradas. Consderemos el caso de censura por la derecha. Sea C el tempo de censura, entonces lo que observamos es realmente T = mn( X,C) donde X es el tempo real. Adconalmente contamos con la nformacón de s T es el tempo real o un tempo de censura. Defnmos entonces el ndcador de no censura como, δ = 0 T C T > C FUNCIÓN DE VEROSIMILITUD: Sean (T,δ ), =,,n un conjunto de observacones ndependentes. Es posble que para cada observacón se tenga tambén nformacón de covarables o factores de resgo x. En este caso, defnmos f (t θ ) = f ( t x, θ), S (t θ ) = S( t x, θ) y h (t θ ) = h( t x, θ) la funcón de densdad, supervvenca y resgo del ndvduo, respectvamente. Entonces, la funcón de verosmltud toma la forma, 83 Curso: Métodos Bayesanos

L n δ δ δ ( θ datos) { f ( t θ) } { S ( t θ) } = { h ( t θ) } S ( t θ) = n = Inferenca Bayesana de los modelos paramétrcos de supervvenca requere además de la construccón de la funcón de verosmltud, la especfcacón de las dstrbucones ncales para los parámetros del modelo, θ. MODELOS DE REGRESIÓN en el análss de supervvenca. Exsten formas comunes de ncorporar la nformacón de los factores de resgo x en el análss: el modelo de resgos proporconales (Cox, 97) y el modelo de vda acelerada. o Modelo de resgos proporconales: x ' ( t x, β ) = e β h ( t) h 0 donde h 0 () t es una funcón de resgo base común a todos los ndvduos, y β es un vector de coefcentes que determnan el efecto de las covarables sobre el resgo base, β>0 aumento, y β<0 dsmnucón. o Modelo de vda acelerada: ( T ) x ' β log( T ) log = +, donde β es un vector de coefcentes y T 0 es un tempo de supervvenca (base) para un ndvduo con β=0. S 0 84 Curso: Métodos Bayesanos

W 0 ( T ) N( µ τ) 0 = log, entonces el modelo de vda acelerada se converte en un modelo de regresón lneal normal. En general, h x ' β x ' β ( t x, β ) = e h ( e t) donde h 0 es la funcón de resgo de la v.a. T 0. 0 EJERCICIO 9. Tras de alumno (Congdon, 00). 0 tras de alumno fueron sometdas a cargas peródcas hasta que todas fallaron. Se regstró el tempo de falla. Consdera el sguente modelo: T ( γ λ) Gamma, con γ Ga(, ) y log( λ ) N( 0,0.000) supervvenca empírca con la estmada por el modelo.. Compara las funcones de EJERCICIO 0. Remsón en pacentes con leucema (Congdon, 00). Consdera dos muestras de pacentes cada una. La prmer muestra de pacentes fue tratada con una droga expermental (X=) y la segunda muestra con placebo (X=). Evalúa el efecto de la droga expermental consderando dos posble modelos: a) Modelo exponencal: (resgos prop.) T x Exp ( λ ) b) Modelo Webull: (resgos prop. y vda acelerada) En ambos casos, T Webull( γ λ ), con γ Ga( 0.0,0.0) x, log( λ ) = α + βx con α N( 0,0.00) y β N( 0,0.00). 85 Curso: Métodos Bayesanos