UNIVERSIDAD NACIONAL DE SAN AGUSTÍN FACULTAD DE CIENCIAS NATURALES Y FORMALES ESCUELA PROFESIONAL DE MATEMÁTICA

Transcripción

1 UNIVERSIDAD NACIONAL DE SAN AGUSTÍN FACULTAD DE CIENCIAS NATURALES Y FORMALES ESCUELA PROFESIONAL DE MATEMÁTICA MODELOS LINEALES GENERALIZADOS Tesis presentada por: Bachiller Bisset Marilyn Gonzales Loayza. Para optar el Título Profesional de: Licenciada en Matemáticas. AREQUIPA PERÚ 2017

2 Índice general Agradecimientos 1 Resumen 2 Introducción 3 1. ESTADÍSTICO SUFICIENTE MINIMAL Y FAMILIAS EXPO- NENCIALES Introducción Propiedades de un Buen Estimador Puntual Estimador Insesgado Estimador Consistente Estimador Eficiente Estimador Suficiente Estadístico Minimal Suficiente Familias Exponenciales de Distribuciones MODELOS LINEALES GENERALIZADOS Introducción Regresión Lineal Múltiple Estimación de los Parámetros del Modelo Lineal Múltiple Modelo Lineal Generalizado Componente Aleatorio

3 Componente Sistemática Función de Link Modelos Lineales Generalizados para Datos Binarios Estimación de Parámetros en un modelo de Regresión Logística APLICACIÓN DEL MODELO LOGÍSTICO Introducción Dos Aplicaciones de Modelos Lineales Generalizados Producción de Cobb-Douglas El Problema de los Ronquidos Bibliografía 58 2

4

5 AGRADECIMIENTOS A Dios, por bendecirme en todo momento de mi vida. Quiero agradecer de manera muy especial a toda mi familia, por todo el apoyo y la con anza que depositan en mí, pues son el pilar de mi vida, gracias por estar conmigo en los momentos felices y difíciles, gracias por sus enseñanzas que son invaluables para mí, gracias por el ejemplo que han contribuido positivamente a mi vida profesional y por los ánimos para salir adelante, mis agradecimientos a mis padres Rocío, Jesús y mi hermano Anthony por estar siempre conmigo, gracias por todo. A mi Asesor que me orientó, dándome consejos e instrucciones necesarias para poder desarrollar mi tesis. 1

6 RESUMEN En modelos lineales se estudia que el error del modelo tenga media 0 y sea homocedástica, además que cumpla con la normalidad a fin de que el modelo sea utilizable, pero en muchos casos esta hipótesis no es satisfecha, porque el modelo puede ser heterocedástica. Para resolver este inconveniente, se puede aplicar lo que se llama la transformación de la variable respuesta o utilizar la técnica de mínimos cuadrados ponderados. Sin embargo, existe en la teoría estadística denominado Modelos Lineales Generalizados que uni ca modelos de regresión lineal y no lineal, que también permite incorporar distribuciones de respuesta no normales, con la condición que la variable respuesta sea miembro de la familia exponencial. 2

7 INTRODUCCIÓN Los Modelos de Regresión Lineal Simple o Múltiple, estudian la relación estocástica cuantitativa entre una variable de interés y un conjunto de variables explicativas. Estos modelos son muy utilizados para analizar datos multifactoriales y su estudio conforma un área de investigación clásica dentro de la disciplina de la Estadística desde hace muchos años. Su atractivo y utilidad general son el resultado del proceso conceptualmente lógico de usar una ecuación de interés (la respuesta) y un conjunto de variables predictivas relacionadas. El análisis de regresión tiene también interés teórico, por los conceptos matemáticos que se usa y por una teoría estadística bien desarrollada. Para usar bien el modelo de regresión lineal se requiere apreciar tanto la teoría como los problemas prácticos que se suelen presentar cuando se emplea esta técnica con datos del mundo real. Los modelos lineales (regresión ANOVA, ANCOVA), se basan en los siguientes supuestos: 1. Los errores se distribuyen normalmente 2. La varianza es constante 3. La variable respuesta se relaciona linealmente con la(s) variable(s) independiente(s). Sin embargo, en muchas ocasiones nos encontramos con que uno o varios de estos supuestos no se cumplen. Por ejemplo, es muy común en ecología que a medida que aumenta la media de la muestra, aumenta también su varianza, o en todo caso, hay problemas que pueden ser tratados mediante modelo binomiales y su varianza depende de la probabilidad de ocurrencia, o sea, la población ya no es homocedástica, en esos casos, una alternativa a la transformación de la variable respuesta y a la 3

8 falta de normalidad es el uso de los modelos lineales generalizados (GLM) de las siglas en inglés Generalized Linear Models que son una extensión de los modelos lineales que permiten utilizar distribuciones no normales de los errores (binomiales, Poisson, gamma, etc.) y varianza no constante. Por lo que, el objetivo principal del presente trabajo de tesis, es estudiar el modelo lineal generalizado con sus componentes de aleatoriedad, sistematicidad y función de enlace, estimación respectiva de parámetros y su aplicación. Teniendo como hipótesis: que la falta de normalidad, homocedasticidad y la no linealidad de los datos, para esos casos es el uso de los modelos lineales generalizados. Para tal fin, el trabajo se ha estructurado de la siguiente manera: En el Capítulo I se desarrolla las propiedades de un buen estimador puntual, estimador minimal suficiente y familias exponenciales de distribuciones. En el capítulo II se estudia regresión lineal múltiple, estimación de los parámetros del modelo lineal múltiple, modelo lineal generalizado: componente aleatorio, componente sistemático y función de enlace o link, continuado con modelos lineales generalizados para datos binarios, finalmente se estudia estimación de parámetros en un modelo de regresión logística. En el Capítulo III se incluye dos aplicaciones del modelo logístico sobre: Producción de Cobb-Douglas y el problema de ronquidos. Dichas aplicaciones son asistidas con soporte informático del lenguaje R en su versión

9 Capítulo 1 ESTADÍSTICO SUFICIENTE MINIMAL Y FAMILIAS EXPONENCIALES 1.1. Introducción En la Estadística Inferencial se estudia que un buen estimador puntual goza de las propiedades tales como: insesgado, consistente, eficiente y suficiente. Un estimador es un estadístico, que se define como una función de las observaciones que conforman la muestra. Por lo que, la idea principal de buscar un estimador a partir de la muestra de tamaño, es para representar al parámetro poblacional Propiedades de un Buen Estimador Puntual La estimación de un parámetro puede adoptar la forma de un sólo punto, es decir, la estimación del único valor del parámetro de la población, o en la forma de un intervalo, esto es, la estimación que incluye un intervalo de valores posibles en la que se considera que está comprendido el valor verdadero del parámetro de la población. El primero se denomina estimación puntual y el segundo estimación por intervalos. 5

10 Para definir un estimador puntual, tomamos una variable aleatoria con función de distribución (θ), donde θ denota al parámetro desconocido de la población. Sea 1 2 una muestra aleatoria de tamaño extraída de esta población, la función definida por se llama estimador puntual. θ = t( 1 2 ) Supongamos que tenemos dos estimadores θ 1 y θ 2 del mismo parámetro poblacional θ, por lo que nos preguntamos cuál de los estimadores será mejor. En realidad, el verdadero valor de θ, nunca se conoce, lo único que podemos hacer es; tratar de encontrar algún criterio para decidir cuál de ellos es mejor estimador de tal manera que cumpla con: insesgabilidad, consistencia, eficiencia y suficiencia Estimador Insesgado Sea 1 2 una muestra aleatoria extraída de una población con función de densidad (θ). Decimos que θ = t( 1 2 ) es un estimador insesgado si Ejemplo 1.1 Sea 1 2 h θ i =θ 8 θ población normal (μ σ 2 ). El estadístico X es un estimador insesgado. En efecto: Sabemos que una muestra aleatoria extraída de una 6

11 Estimador Consistente En general, un estimador puntual no es idéntico al parámetro que se estima; esto es debido a la presencia del error de muestreo que es dado por =θ θ Sin embargo, esperemos que un buen estimador tenga su valor muy cercano al valor verdadero del parámetro o por lo menos tenga una alta probabilidad de acercarse. O sea, si dado una sucesión de estimadores de un parámetro θ es consistente si: Ejemplo 1.2 Sea 1 2 población (μ σ 2 ). El estadístico una muestra aleatoria extraída de una 7

12 es un estimador consistente de σ 2. En efecto: i) Sabemos que luego por lo que de modo que ii) Tomamos varianza en ambos lado 8

13 2 = 0 sabemos que luego por lo tanto Estimador Eficiente Para definir lo que es estimador eficiente, tomemos una muestra aleatoria de tamaño con 1 2 de una población con función de densidad (θ). Sean θ 1 y θ 2 dos estimadores insesgados del mismo parámetro θ. Diremos que θ 1 es más eficiente que θ 2 si [^θ 1 ] [^θ 2] 9

14 Ejemplo 1.3 Sea 1 2 una muestra aleatoria de tamaño de una población (μ σ 2 ), donde θ 1 = X ^θ 2 = demostraremos que En efecto: Sabemos que ^θ 1 es más eficiente que θ 2. porque la población es normal. Por otro lado, se sabe que de modo que se concluye que X es el estimador más eficiente que Estimador Suficiente Sea 1 2 una muestra aleatoria de una población con función de densidad ( θ) y sea un estadístico definido por : R! R = ( 1 2 ) Esta estadística condensa la muestra aleatoria 1 2 en una variable aleatoria simple. Se recurre a tal condensación desde que podemos trabajar 10 10

15 mejor con cantidades unidimensionales que con cantidades dimensionales. Para tal efecto; supongamos que: Φ= f( 1 2 ) es una variable aleatoria 8 = 1 2 g un espacio muestral de observaciones, esto es, Φ es el conjunto de vectores dimensionales cuyas componentes son variables aleatorias. Entonces : Φ R! R definida por = ( 1 2 ) = 0 2 R Esta de nición induce una partición del espacio Φ por la propia definición del estadístico, como veremos en el siguiente ejemplo: Ejemplo 1.4 Sea una muestra aleatoria extraída de una población Bernoulli (1 ). Hallamos la partición inducida por la estadística En efecto: Como ~ (1 ), entonces tenemos 11 11

16 Luego el espacio muestral de observaciones correspondiente a la muestra aleatoria esta dado por Φ = f(0 0 0) (0 0 1) (0 1 0) (1 0 0) (0 1 1) (1 0 1) (1 1 0) (1 1 1)g La estadística definida en Φ toma los valores respectivamente. Entonces la partición inducida por la aplicación está formada por los siguientes sub-conjuntos y tenemos también sus respectivos valores de la aplicación: Gráficamente

17 Así, si usamos la estadística = ( ) = tenemos solamente 4 valores diferentes de los que debemos preocuparnos en lugar de 8 puntos diferentes de Φ. Definición 1.1 Sea 1 2 una muestra aleatoria extraída de una población con función de densidad ( θ), el = ( 1 2 ) es una estadística suficiente para Φ si la distribución condicional de [( 1 2 ) = ( 1 2 ) = ( 1 2 )] es independiente de θ, 8 θ 2 Θ, donde Θ es el espacio de parámetros

18 Ejemplo 1.5 Sea 1 2 una muestra aleatoria extraída de una población de Poisson ( ). Definimos es una estadística suficiente para. En efecto: Tenemos la distribución condicional [( 1 2 ) = ] = [( 1 2 ) = ] = [ 1 = 1 2 = 2 = = ] [ = ] [ 1 = 1 2 = 2 = ] [ = ] siempre que = [ 1 = 1 ] [ 2 = 2 ] [ = ] [ = ] por cálculo de probabilidades sabemos que entonces luego 14 14

19 por tanto es una estadística suficiente para. El siguiente teorema es conocido como teorema de factorización, propuesto por Fischer y Nyman. Teorema 1.1 Sea 1 2 una muestra aleatoria extraída de una población con función de densidad de probabilidad ( θ). La estadística = ( 1 2 ) 2 R es suficiente para θ si y sólo si, existen funciones y tal que la función de cuantía conjunta de 1 2 se puede factorizar como sigue: ( 1 2 ;θ) = (( 1 2 )θ)( 1 2 ) donde ( θ) es una función que depende solamente de θ y de la muestra a través del estadístico ( 1 2 ) y ( 1 2 ) es no negativa y no depende de θ. Demostración. )) Supongamos que el estadístico = ( 1 2 ) = es suficiente para θ. Entonces [( 1 2 ) = ( 1 2 ) = ( 1 2 )] = ( 1 2 ; ) es independiente de θ. Luego por la ley de la multiplicidad de probabilidades tenemos ( 1 2 ;θ) = [( 1 2 ) = ( 1 2 ) = ( 1 2 )] [ = ] = ( 1 2 ; ) [ = ;θ] = (( 1 2 )θ)( 1 2 ) () Ahora, supongamos que existen funciones y tal que ( 1 2 ;θ) = (( 1 2 )θ)( 1 2 ) 15 15

20 por la ley de la distribución total 2 ) = ; ] = por hipótesis luego simplificando el factor común es independiente de θ. Por tanto = ( 1 2 ) es una estadística suficiente para θ. Ejemplo 1.6 Sea una muestra aleatoria 1 2 extraída de la población Bernoulli (1 ). Utilizando el teorema de factorización que el estadístico es suficiente para el parámetro

21 En efecto: La función de cuantía conjunta de la muestra y por muestreo independiente será donde para es un estadístico suficiente para. Por tanto, el número de éxitos es un estadístico suficiente para el parámetro (probabilidad de éxito en una prueba de Bernoulli). Ejemplo 1.7 Sea 1 2 una muestra aleatoria de una población (μ 1). Hallamos una estadística suficiente para μ. En efecto: La función de densidad de probabilidad de la distribución (μ 1) es luego la densidad conjunto de la muestra aleatoria 1 2 es 17 17

22 donde con que es una estadística suficiente para μ Estadístico Minimal Suficiente Una vez obtenido el estimador ^θ = = ( 1 2 ) de un parámetro poblacional θ podemos estar interesados en el parámetro de posición del estimador ^θ. Una medida natural sería considerar el error muestral dado por pero esta medida es insatisfactoria, por las siguientes razones: i) La medida depende de los valores desconocidos de θ

23 ii) La medida es aleatoria y por tanto, no puede ser tratado como una función de θ. Sin embargo, podemos aprovechar la definición de para definir el error cuadrático medio (ECM). En general, si = ( 1 2 ) es un estimador de la función (θ), entonces ECM de es dado por por otro lado pues ( ) - θ es constante y [ ( )] = 0. Por tanto ( ) = ( ) + (( )) 2 (1) Ejemplo 1.8 Sea 1 2 una muestra aleatoria de una población (μσ 2 ). Consideremos los estimadores de máximo verosimilitud de μ y σ 2 a) Hallamos ( 1 ) ( 1 ) b) Hallamos ( 2 ) y ( 2 ) En efecto: a) Sabemos que 19 19

24 luego b) Sabemos que luego para hallar ECM calculamos 20 20

25 Definición 1.2 Un estimador = ( 1 2 ) de θ es mejor que un estimador = ( 1 2 ) de θ si: Definición 1.3 Sea 1 2 una muestra aleatoria de tamaño. Un estimador * =t* ( 1 2 ) de θ es un estimador no sesgado (insesgado) uniformemente de mínima varianza (ENSUMV) o estimador óptimo si: En la asignatura de Inferencia Estadística se estudia que, la propiedad de insesgamiento no es invariante bajo transformaciones funcionales, es decir, θ puede ser una estimador insesgado de θ, pero (^θ ) puede ser un estimador sesgado de (θ). La esperanza condicional definida por se observa, conforme varía sobre todos los posibles valores de, se obtiene una función de por eso, [ ] es una variable aleatoria. El siguiente teorema se necesita para demostrar el teorema de Rao-Blackwell. Teorema 1.2 i) Sean y variables aleatorias tal que [j j] 1. Entonces [[ ]] [ ]. La igualdad se cumple cuando = [ ] con probabilidad 1. ii) Sean y variables aleatorias tal que [ ] 1. Entonces [[ ]] [ ]. Teorema 1.3 (Rao-Blackwell) Sea 1 2 una muestra aleatoria extraída de una población con función de distribución (θ)

26 Supongamos que = ( 1 2 ) es una estadística su ciente para θ y = ( 1 2 ) un estimador cualquiera de θ tal que [jj] 1. Sea además * = [ ]. Entonces [( * θ) 2 ; θ] [( θ) 2 ; θ] 8 θ 2 Θ. Demostración. Por (1) de la página 19 sabemos que: [] = [( θ) 2 ; θ] = [] + [()] 2 pero () = [] θ = [[ ]] θ = [ *] θ = [ *] por el teorema 1.2 parte i), se tiene [( θ) 2 ;θ] = [; θ] + [( *)] 2 [ *; θ] + [( *)] 2 por tanto [( * θ) 2 θ] = [ *] + [( *)] 2 [( θ) 2 ; θ] 8 θ 2 Θ. Y la igualdad se cumple cuando * =. El teorema de Rao-Blackwell nos dice que un estimador * de mínima varianza es aquel que es función de la estadística su ciente = ( 1 2 ); esto es = [ ] = ( ). Definición 1.4 Sea 1 2 una muestra aleatoria extraída de una población con función de distribución (;θ), donde θ 2 Θ ; y sea = ( 1 2 ) una estadística. La estadística es completa si [( ); θ] = 0 8 θ 2 Θ, implica que ( ) = 0, 8 θ 2 Θ y para toda función definida en el rango de. Ejemplo 1.9 Sea 1 2 una muestra aleatoria extraída de una población Poisson (;θ), θ 0. Probamos que la estadística = P es suficiente y completa

27 En efecto: La función de densidad de la distribución de Poisson es luego donde por tanto es una estadística suficiente para θ, según el teorema de factorización de la página 15. Ahora supongamos que existe una función que depende solamente de 23 23

28 tal que [(); θ] = 0 8 θ 0 como entonces 1 Así, tenemos una serie de potencias en θ es idénticamente cero, si solo si todos sus coeficientes son cero. Entonces () = 0, para = 1 2. Ejemplo 1.10 Sea 1 2 población uniforme (0 θ). una muestra aleatoria extraída de una Probamos que la estadística = = ( 1 2 ) es completa. En efecto: La función de distribución de probabilidad del estadístico = es 24 24

29 luego supongamos que existe una función tal que de donde derivando ambos lados con respecto a θ, tenemos Así logramos tener que = es un estadística completa. Definición 1.5 Sean dos muestras aleatorias 1 2 y 1 2 extraídas de una población con función de distribución (;θ) y (;θ). = ( 1 2 ) es un estadístico suficiente minimal si dado otro estadístico = ( 1 2 ), tal que el cociente de su verosimilitud 25 25

30 Ejemplo 1.11 Consideremos dos muestra aleatorias 1 2 de la población de Bernoulli ( 1). Que el estadístico de nido por P es un estadístico minimal suficiente. En efecto: Sea =1 ~ ( 1) ) () = (1 ) 1 - = 0 1 Supongamos que tenemos dos muestras aleatorias 1 2 y 1 2 de modo que el cociente de sus funciones de verosimilitud es siempre que en lo cual se observa que el resultado es 1, y no depende del parámetroθ =. Luego P =1 es un estadístico minimal suficiente Familias Exponenciales de Distribuciones Existe una clase o familia de distribuciones en la que todos los parámetros de las distribuciones que la integran tienen estadísticas suficientes. Este grupo de distribuciones recibe el nombre de familia exponencial de distribuciones y como veremos 26 26

31 será bastante fácil de obtener estadísticos su cientes del parámetro con familia exponencial. Definición 1.6 Sea (;θ) una función de distribución dependiendo de un único parámetro. pertenece a la familia exponencial si su función de densidad (o función de cuantía) puede expresarse así: (;θ) = f( θ)() + ( θ) +()g donde: ( θ) ( θ) son funciones reales de θ y () () son funciones reales de. Ejemplo 1.12 En la población de Poisson encontramos las funciones ( θ) ( θ) () (). En efecto: Sea ~ (;θ) θ 0, entonces esto es equivalente a de modo que ( θ) = ln θ ( θ) = θ () = () = ln! Esto nos permite afirmar que las distribuciones de Poisson son una familia exponencial de distribuciones. Ahora, si consideremos una muestra aleatoria 1 2 extraída de una población con función de distribución dada (), un conjunto de funciones de cuantía o funciones de densidades según sea el caso, discreto o continuo, es una 27 27

32 familia exponencial uniparamétrica si la función de cuantía o densidad conjunta es de la forma ( 1 2 ; θ) = f( θ)( 1 2 ) + ( θ) + ( 1 2 )g Ejemplo 1.13 En la población Exponencial encontramos las funciones ( θ) ( θ) () (). En efecto: Sea ~ ( θ) θ 0, entonces esto es equivalente a de modo que (θ) = θ ( θ) = ln θ () = () = 0 Esto nos permite afirmar que las distribuciones Exponenciales son una familia exponencial de distribuciones. Ejemplo 1.14 En la población Binomial encontramos las funciones (θ) ( θ) () () En efecto: Sabemos que la distribución Binomial tiene dos parámetros. Para lo cual, ~ ( θ), donde θ= es probabilidad de éxito en un ensayo de Bernoulli 28 28

33 y representa el número de ensayos. Entonces esto es equivalente a de modo que Esto nos permite afirmar que las distribuciones Binomiales son una familia exponencial de distribuciones. Ejemplo 1.15 En la población Normal con σ 2 = 1 encontramos las funciones (θ) (θ) () (). En efecto: Para σ 2 = 1, o sea ~ (μ 1) y de modo que 29 29

34 Esto nos permite afirmar que la distribución (μ, 1) es una familia exponencial de distribuciones. Para visualizar mejor la familia exponencial de distribuciones uniparamétricas, presentaremos en una tabla las funciones (θ) ( θ) () (). Tabla 11 : Parámetros de la Familia Exponencial En el caso de distribuciones de parámetros θ, la definición 1.6 se generaliza de la manera siguiente: Ejemplo 1.16 En la población Normal con parámetros μ y σ 2, encontramos las funciones (θ 1 θ 2 ) (θ 1 θ 2 )( 1 2 ),( 1 2 ). En efecto: Sabemos que la distribución Normal tiene dos parámetros μ y σ 2, para lo cual, ~ (μ σ 2 ), donde μ es la media poblacional y σ 2 es la varianza poblacional. Entonces 30 30

35 esto es equivalente a de donde se observa que como podemos notar la distribución normal (μσ 2 ) es una familia exponencial. Ahora, supongamos que tenemos una muestra aleatoria 1 2 extraída de la población (μ σ 2 ). Entonces luego 31 31

36 por lo tanto es una estadística suficiente para θ= (θ 1 θ 2 ) = (μσ 2 )

37 Capítulo 2 MODELOS LINEALES GENERALIZADOS 2.1. Introducción Los modelos lineales (regresión, ANOVA o ANCOVA), se basan en los siguientes supuestos: los errores se distribuyen normalmente, la varianza es constante y la variable respuesta se relaciona linealmente con las variables independientes. Pero, existen muchas ocasiones en la cual encontramos con que uno o varios de estos supuestos no se cumplen, en estos casos, el problema se puede llegar a resolver mediante la transformación de la variable respuesta, por ejemplo tomando logaritmos. Sin embargo, estas transformaciones no siempre consiguen corregir la falta de normalidad, la heterocedasticidad o la no linealidad de los datos, en esos casos, una alternativa a la transformación de la variable respuesta y a la falta de normalidad es el uso de los modelos lineales generalizados (MLG) que son una extensión de los modelos lineales que permiten utilizar distribuciones no normales de los errores (binomiales, Poisson, gamma, etc.)

38 2.2. Regresión Lineal Múltiple Los Modelos de Regresión estudian la relación estocástica cuantitativa entre una variable de interés y un conjunto de variables explicativas. Sea la variable de interés, variable repuesta o dependiente y sean 1 2 las variables explicativas o regresoras. La formulación matemática de este modelo es la siguiente: = [ 1 2 ] + donde es el error de observación debido a las variables no controladas. En el modelo de regresión lineal general se supone que la función de regresión [ 1 2 ] es lineal. Por tanto, la expresión matemática del modelo de regresión lineal general es mismo = El primer objetivo en el estudio de este modelo es el estimar los parámetros del 0 1 ya que, los parámetros miden la intensidad media de los efectos de las variables explicativas sobre la variable a explicar y se obtienen al tomar las derivadas parciales de la variable explicada respecto a cada una de las variables explicativas: y el objetivo es encontrar la función de distribución del error muestra de observaciones, que tendrá la forma a partir de una ; 1 2 =

39 de modo que: = = 1 2 donde es error aleatorio o perturbación de la observación i-ésima. El tratamiento más adecuado del modelo de regresión lineal múltiple es mediante el análisis matricial, para lo cual primero se tiene esto es equivalente a: si donde = + = [ ] + En el modelo lineal múltiple se supone las siguientes hipótesis: 1. La función de regresión es lineal, [ 1 2 ] = ; =

40 o, equivalentemente, [ ] = 0 = La varianza es constante (homocedasticidad), ya que [ 1 2 ] = σ 2 = 1 2 [ 1 2 ] = [ ] + [ ] σ2 = 0 + [ ] σ2 = [ ] o, equivalentemente, 3. La distribución es normal, [ ] = σ 2 = ~ ( σ 2 ) = 1 2 o, equivalentemente, ~ (0 σ 2 ) = Las observaciones son independientes (bajo normalidad, esto equivale a que la ( ) = 0 esta hipótesis implica que los errores bajo normalidad, equivale a son independientes dos a dos lo que, ( ) =

41 5. Debemos tener + 1. En caso contrario no se dispondría de información 37 37

42 suficiente para estimar los parámetros del modelo. 6. Las variables regresoras 1 2 son linealmente independientes. Estos resultados de hipótesis de modelos lineales múltiples se pueden resumir en una tabla. Tabla 21: Resumen de Condiciones de Linealidad En base a la variable de error " [ ] = 0 [ ] = σ 2 Homocedasticidad con i = 1 2 n Independencia: ( ) = 0 Los ~ (0 σ 2 ) Normalidad son independientes En base a la variable respuesta Y con i = 1 2 n [ 1 2 ] es igual a [ 1 2 ] = σ 2 Homocedasticidad Independencia de las observaciones. Los son independientes 1 2 con distribución ( σ 2 ) Normalidad Las variables regresoras son linealmente Las variables regresoras son linealmente independientes independientes 2.3. Estimación de los Parámetros del Modelo Lineal Múltiple Sea ^ un estimador del vector de parámetros. El vector de predicciones es el vector de residuos se obtiene como ^ = ^ = ^ 38 38

43 el estimador por mínimos cuadrados ^ se obtiene minimizando la suma de los residuos al cuadrado. Esto es, se minimiza la siguiente función de + 1 variables: derivando respecto a ^ e igualando a cero, se obtienen las ecuaciones de regresión (^ ) = 0 () ^ = 0 () = ^ de donde se deduce el siguiente estimador por mínimos cuadrados debe tenerse en cuenta que para calcular este estimador es necesario que la matriz sea invertible. Esto está garantizado por la hipótesis 6 del modelo. La matriz es una matriz ( + 1) ( + 1) cuya expresión es la siguiente: y es una matriz ( + 1) 1 que viene dado por: 39 39

44 Ejemplo 2.1 Consideremos el modelo lineal múltiple [ ] = donde = ( 1 2 ) es un vector de variables aleatorias, con ( ) = σ 2 = 1 2 ; ( ) = 0 es una matriz de contantes fijos y es un vector de parámetros desconocidos. Asumiendo que es una variable normal. Que ^ y ( ^ ) ( ^ ) son pares de estadísticos minimales suficientes. En efecto: Tenemos que tiene la distribución normal. Entonces su función de verosimilitud es ahora 40 40

45 pero ( ) (1 ) + (1 ) ( ) = 0 si y sólo si ( ) ( ) (1 ) + (1 ) ( ) = 0 [ ( )] (1 ) + (1 ) ( ) = 0 ya que, utilizando ( ) 1 se tiene: donde es la matriz identidad y el estimador ^ es obtenido mediante el método de mínimos cuadrados. Teniendo presente que ^ = y retomando el ( ) se tiene: si son dos realizaciones del vector variables aleatorias, entonces esta proporción no depende de, ya que los dos últimos sumando en el exponente es igual cero y si ^ () = ^ () así ^ es un estadístico suficiente minimal para y de la misma forma también es un estadístico minimal para σ 2. Por lo tanto, el par de estadísticos 40 40

46 es suficiente minimal para (σ 2 )

47 2.4. Modelo Lineal Generalizado En primer lugar vamos a presentar que existen poblaciones heterocedásticas, o sea, poblaciones de varianzas no constantes. Por ejemplo, en una población Binomial, donde la variable respuesta se define por: asumamos que la [ = 1] = 2 [0 1] = 1 2 entonces [ = 0] = 1 para esta población, la esperanza matemática y la varianza se define como sigue [ ] = 1 + 0(1 ) = y Tanto la media y la varianza depende de, esto sugiere que la varianza no es constante en la población binomial (o sea, no es homocedástica), lo que significa que el modelo lineal múltiple no es aplicable para este caso, así aparecen otros modelos, específicamente los modelos lineales generalizados (MLG). Definición 2.1 Los modelos lineales generalizados son una extensión de los modelos lineales, que permiten modelar en poblaciones heterocedásticas mediante tres componentes básicos: Componente aleatorio, componente sistemático y función de link (función de enlace)

48 Componente Aleatorio Identifica la variable respuesta y su distribución de probabilidad, para lo cual consiste en tomar observaciones 1 2. En muchos casos, estas observaciones son binarias y se identi can como éxito o fracaso. De modo más general podemos decir, que cada indicaría el número de éxitos entre todos los ensayos y se modelaría como una distribución binomial. En otros casos cada observación es un recuento, lo que se puede asignar a este tipo de observaciones la distribución de Poisson o una distribución binomial negativa. Si las observaciones son continuas se puede asumir para una distribución normal. Todos estos modelos se pueden incluir dentro de la llamada familia exponencial de distribuciones de modo que (θ) recibe el nombre de parámetro natural. Ejemplo 2.2 Sea el número de observaciones del grupo y denota el número de éxitos, entonces ~ ( ) = 1 2 luego y se demuestra que: [ ] = [ ] = (1 ) por lo que se observa que la población de donde se extrajo es heterocedástica

49 La función de cuantía si pertenece a la familia exponencial de distribuciones, porque Componente Sistemática Especifica las variables explicativas (independientes o predictoras) utilizadas en la función predictora lineal. En la componente sistemática de un MLG especifica las variables explicativas, que entran en forma de efectos fijos en un modelo lineal, es decir, las variables se relacionan como esta combinación lineal de variables explicativas se denomina predictor lineal. Al- ternativamente, se puede expresar como un vector ( 1 2 ) tal que donde es el valor del ésimo predictor en el ésimo individuo, e = 1 2. El término independiente se obtendría con esta notación haciendo que todos los sean iguales a 1 8 los. Ejemplo 2.3 El modelo más sencillo podría expresar a combinación lineal de las variables independientes como una siendo parámetros a estimar

50 Función de Link Es una función del valor esperado de, [ ] como una combinación lineal de las variables predictoras. Se denota el valor esperado de como μ = [ ], entonces, la función link especifica una función () que relaciona μ con el predictor lineal como (μ) = así, la función link () relaciona las componentes aleatorias y sistemática. De este modo, para = 1 2 Ejemplo 2.4 La función más simple es (μ) = μ, esto es, la identidad (μ) = μ = [ ] = que da lugar al modelo de regresión lineal clásico = μ+ donde, es el vector de dimensión 1 de la variable respuesta el componente sistemático. μ =[ ] = es una matriz de dimensión ( + 1) del modelo = ( ) = ( 1 2 ) que también representa al componente aleatorio con 45 45

51 2.5. Modelos Lineales Generalizados para Datos Binarios En muchos casos las respuestas tienen solo dos categorías del tipo si/no de modo que se de ne una variable aleatoria que tome dos posibles variables 1 (éxito) y 0 (fracaso), es decir, de modo que, para = 0 1 tendremos ~ (1 ) luego, según la familia exponencial, el parámetro natural es y se define como donde = ( = 1) 1 = ( = 0) y la razón se llama razón de probabilidades. Utilizando función link se tiene: 46 46

52 el modelo lineal generalizado. Explícitamente desarrollado se tiene. de donde se deduce que esto se define por [ ] = = exp( ) 1 + exp( ) ( ) = exp( ) 1 + exp( ) y se denomina la función logística de la que se derivan los modelos de regresión logística Estimación de Parámetros en un modelo de Regresión Logística Sabemos que la forma general del modelo de regresión logística es = [ ] + ; = 1 2 donde las observaciones son variables aleatorias independientes de Bernoulli, cuyos valores esperados son 47 47

53 Usaremos el método de máxima verosimilitud para estimar los parámetros del predictor lineal β. Sea 1 2 una muestra aleatoria de tamaño y para cada valor de la variable la función de cuantía es naturalmente, cada observación son independientes, la función de verosimilitud es toma el valor 0 ó 1. Como las observaciones por la razones ya explicadas en el Capítulo 1, es más cómodo trabajar con el logaritmo de la función de verosimilitud Ahora bien, para por tanto derivando se tiene por tanto derivando se tiene 48 48

54 para aplicar este algoritmo es necesario partir de unas estimaciones iniciales β 0. Se podría usar métodos numéricos, para calcular los estimadores de los β 0β 1 β k 49 49

55 Capítulo 3 APLICACIÓN DEL MODELO LOGÍSTICO 3.1. Introducción Sabemos que la función logística es entonces a partir de esta expresión se estima la matriz. En el presente trabajo de tesis, como soporte informático para el análisis de datos utilizaremos el lenguaje R en su versión Como sabemos que el software R es 50 50

56 un conjunto de programas integrados para el manejo de datos, para simulación de datos, cálculos y realización de grá cos. Es además un lenguaje de programación orientado a objetos y de libre implementación en cualquier PC. La forma más fácil de usar R es en forma interactiva mediante la línea de comandos. Una vez instalado hay hacer doble clik en el ícono de R, para que aparezca la ventana del programa Gui (grafhical user interface) con un mensaje de apertura. Debajo de este mensaje de apertura en la consola de R se encuentra el prompt que es el símbolo ( mayor ) Dos Aplicaciones de Modelos Lineales Generalizados Producción de Cobb-Douglas Una empresa de investigación de mercados está interesada en realizar un estudio para el gobierno sobre la industria aeronáutica de los Estados Unidos. Para ello, va a estimar la función de producción Cobb-Douglas estocástica aumentada por la variable el avance tecnológico, ya que aplicando logaritmos tendremos (^) = log( ) + 3 log( ) + 4 log( ) donde es la producción (en millones de dólares), es el nivel de empleo ( que representaremos a través del agregado de las nóminas en millones de dólares), es el nivel de capital utilizado (en millones de dólares) y es el avance tecnológico, representado por la proporción del PIB de las empresas tecnológicas en el PIB total en la economía americana (en tanto por ciento).suponemos que esta relación de factores satisfacen las hipótesis de RLM con normalidad en el término de error. Consideramos datos anuales correspondientes a , que se muestran en la siguiente tabla. 50

57 Tabla 3.1: Inversión real en la economía de EE. UU. Observación Año Log(Y) Log(L) Log(K) Log(A)

58 Fuente: Proyecto e-math: Según la tabla anterior estimar el modelo de regresión lineal múltiple. Solución: Para estimar el modelo de regresión lineal múltiple, primero se debe estima los parámetros ; = Para tal propósito, se utiliza el lenguaje R. Para tal efecto vamos a considerar las siguientes denominaciones: Log(Y) = PROD (producción valorizados en millones de dólares). Log(L) = EMP (empleo de la nóminas en millones de dólares) Log(K) = CAP (nivel de capital utilizado en millones de dólares) Log(A) = TECN (es el avance tenológico según PIB en %) Los datos son ingresados al lenguaje R

59 53 53

60 Finalmente, el modelo de regresión lineal múltiple estimada estará dada por: PROD = EMP CAP TECN donde 2 = 09931, lo cual significa que el 9931 % de producción están explicadas por las variables EMP, CAP y TECN y un 069 % se explicarían por las variables no incluidas El Problema de los Ronquidos En muchos casos las respuestas tienen solo dos categorías del tipo si/no de modo que se puede definir una variable que tome dos posibles valores 1 (éxito) y 0 (fracaso), es decir en este caso ~ (1 ) con = 0 1. El parámetro natural es en este caso sabemos que [ ] = ( = 1) = () dependiente de variables explicativas = ( 1 2 ) y 54 54

61 [ ] = ()(1 ()) en respuestas binarias, un modelo análogo al de regresión lineal es () = que se denomina modelo de linealidad probabilidad lineal, ya que la probabilidad de éxito cambia linealmente con respecto a. El parámetro 1 representa el cambio de probabilidad por unidad de. Este modelo es un Modelo Lineal Generalizado con un componente aleatorio binomial y con función de enlace igual a la identidad. Tal como se aprecia en la aplicación siguiente. Se tiene la siguiente tabla donde se eligen varios niveles de ronquidos y se ponen en relación con una enfermedad cardíaca. Se toma como puntuaciones relativas de ronquidos los valores: Nunca! 0 Ocasional! 1 Casi cada noche! 2 Cada noche! 3 Tabla 3.2: Enfermedad cardiaca versus ronquidos Ronquido Enfermedad cardiaca SI NO PROPORCION SI Nunca Ocasional Casi cada noche Cada noche Fuente: Categor/Tema3Cate.pdf Encontramos la probabilidad para la gente que no ronca

62 Para estimar el modelo lineal generalizado binomial correspondiente, utilizaremos el lenguaje R. #Fijemos los valores de manera ordinal roncas ( ) prop.si (24( ) 35( ) 21( ) 30( )) modelo glm(prop.si ~ roncas) summary(modelo). Luego los parámetros estimados son: 0 = de donde se tiene que 1 = () = () para gente que no ronca ( = roncas = 0) la probabilidad estimada de enfermedad cardíaca sería ^ = En resumen, la gente que no ronca que es el 2 %, tienen enfermedad cardíaca y la probabilidad de ataque cardíaco aumenta cuando los niveles de ronquidos se incrementan

63 Conclusiones 1. El Modelo Lineal Generalizado es un método que se utiliza cuando la variable de repuesta Y no cumple con el supuesto de normalidad y homocedasticidad, para lo cual sólo se exige que la variable Y sea miembro de la familia exponencial. 2. En el presente trabajo de tesis se estudia como una aplicación del modelo lineal generalizado el modelo binario y el modelo logístico

64 Bibliografía [1] A.J.Dobson. (1996). An Introduction to Generalized Linear Models: Chapman & Hall. [2] J.A.Nelder&R.W.M.Wedderburn. (1992). Generalized Linear Models. J,R. Statist. Soc.A,135, [3] Francesc Carmona. (2003). Modelos Lineales. Universidad de Barcelona. [4] Sergio Martinez Valenzuela. (2000). Proyecciones Estadísticas. Lima-Perú. [5] A.G.Nogales. (1998). Estadística Matemática: Servicio de Publicaciones Uex. [6] Franklin A. Graybill. (1976). Teoría y Aplicación de Modelo Lineal. Colorado State University. [7] Maximo Mitacc Meza. (1999). Tópicos de Inferencia Estadística. Lima-Perú. [8] Anónimo. Google. [9] Clarice Garcia Borges Demetrio. (2002). Modelos Lineares Generalizados em Experimentação Agronômica. Piracicaba, SP. [10] Proyecto e-math: Google