Estadística para las Ciencias del Trabajo

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Estadística para las Ciencias del Trabajo"

Transcripción

1 Estadística para las Ciencias del Trabajo M. Vargas Jiménez 2012/02/11

2

3 Índice general 3. Regresión lineal múltiple y con variables cualitativas. Regresión logística Regresión y correlación lineal Nociones teóricas Estimación del modelo Descomposición de la variación Ajuste de la recta Inferencia Contrastes de hipótesis Predicción Regresión múltiple Estimación del modelo Descomposición de la variación Inferencia Contraste de hipótesis Regresión con variables cualitativas Interacción Análisis de regresión lineal con Representación gráfica de los Análisis de regresión lineal Análisis de regresión lineal Representación gráfica de Regresión logística Nociones teóricas Contrastes de hipótesis Implementación con R de un análisis de regresión logística Ejemplo de regresión logística con R Ejemplo con varias formas de respuesta

4 4 ÍNDICE GENERAL

5 Capítulo 3 Regresión lineal múltiple y con variables cualitativas. Regresión logística 3.1. Regresión y correlación lineal Nociones teóricas Queremos explicar el comportamiento de una variable que juega el papel de dependiente a partir del conocimiento de una o más variables independientes. En regresión el objetivo es encontrar una función que exprese la forma en que una o más variables (denominadas independientes) afectan a otra variable (considerada dependiente o respuesta). La correlación tiene como objetivo medir la covariación entre dos variables, señalando el grado o la fuerza con que se relacionan. El modelo de regresión lineal simple presenta la forma: Y = β 0 + β 1 X + ɛ donde a y b son constantes que se estiman a partir de los datos y definen la relación entre las variables X e Y. ɛ es el término de error o perturbación aleatoria. Se considera que representa un conjunto grande de efectos de factores, cada uno de los cuales tiene poca importancia por sí solo, así como errores de medida y, en general, efectos no controlables. 5

6 6CAPÍTULO 3. REGRESIÓN LINEAL MÚLTIPLE Y CON VARIABLES CUALITATIVAS. La relación entre X e Y es estocástica, o sea, para cada valor de X existe una distribución de probabilidad de Y. Asunciones del modelo Para cada observación i esima, se verifica que la variable aleatoria ɛ i tiene media cero y varianza constante: E(ɛ i ) = 0 V (ɛ i ) = σ 2 Dadas ɛ i, ɛ j, con i j, están incorreladas ɛ j están normalmente distribuidas. Cov(ɛ i, ɛ j ) = Estimación del modelo Los datos muestrales (x i, y i ) permitirán la obtención de las estimaciones b 0, b 1 de los parámetros β 0, β 1 desconocidos, haciendo mínima la suma de los residuos al cuadrado: S = ɛ 2 i = (y i β 0 β 1 x i ) 2 El resultado del análisis será la recta de regresión estimada, que notaremos: ŷ i = b 0 + b 1 x i Los residuos observados vienen dados por las diferencias entre los valores observados y sus correspondientes estimaciones o valores ajustados e i = y i ŷ i = y i b 0 b 1 x i Representan las cantidades que la regresión no pudo explicar. Un análisis detallado de su comportamiento será de gran utilidad para juzgar el ajuste Descomposición de la variación de Y. El coeficiente de determinación.

7 3.1. REGRESIÓN Y CORRELACIÓN LINEAL 7 Se puede descomponer la variación que refleja Y en la muestra en dos componentes. Pero antes es preciso aclarar que, en este contexto, por variación total de Y se entiende el total de cambios registrados en sus valores, producidos tanto por los distintos cambios que sufre X en el rango muestral, como por los inherentes a la perturbación aleatoria. Es conceptualmente distinto de lo que se entiende por varianza de Y (σ 2 ), que refleja la dispersión de la distribución concreta de Y, para un valor específico x i de X. Puede comprobarse que la variación total de Y se descompone en una componente denominada variación explicada por la regresión, que refleja las variaciones que sufre Y, debidas a los cambios registrados en X, y otra componente, denominada variación no explicada o residual, debida a la perturbación aleatoria. (yi Y ) 2 = (y i ŷ i ) 2 + e 2 i = SCT = SCE + SCNE SCT = suma de cuadrados total SCE = suma de cuadrados explicada SCNE = suma de cuadrados no explicada Esta descomposición tiene interés, entre otras cosas, porque permite definir un estadístico descriptivo (relativo a la muestra) que mide la bondad del ajuste: el coeficiente de determinación R2 R 2 = SCE SCT = 1 SCNE SCT que representa la proporción de variación explicada por la regresión. 0 R 2 1 Un valor de R 2 cercano a 0 indica la baja capacidad explicativa de la recta. La traducción gráfica mostraría los puntos del diagrama de dispersión alejados de la recta. El coeficiente de correlación lineal de Pearson viene dado por la expresión r XY = Cov(X, Y ) σ X σ Y Mide el grado de asociación lineal entre las variables.

8 8CAPÍTULO 3. REGRESIÓN LINEAL MÚLTIPLE Y CON VARIABLES CUALITATIVAS Ajuste de la recta El criterio de mínimos cuadrados permite plantear un sistema de ecuaciones lineales, sencillo, cuya solución viene dada por los coeficientes b 0 y b 1. Los coeficientes b 0 y b 1 de la recta se obtienen mediante b 1 = Cov(X, Y ) σ 2 X b 0 = Y b 1 X donde la covarianza se obtiene mediante xi y i Cov(X, Y ) = N y la varianza de una variable X es X Y σ 2 X = x 2 i N X Inferencia Partiendo de unos supuestos dados, el método de mínimos cuadrados (MCO) permite estimar los parámetros, pero la siguiente cuestión que nos planteamos es la valoración de dichas estimaciones. El modelo estimado puede merecer un cierto nivel de confianza de ser el verdadero. Nos interesa conocer el nivel de confianza que tenemos en que el efecto de la variable independiente sea realmente verdadero o, por el contrario, se deba al azar. Planteamos el problema de si su valor es o no, significativamente distinto de cero, es decir, si la variabilidad de Y puede ser atribuida a X. Está claro que muestras distintas pueden producir estimaciones diferentes de b 0 y b 1, pero nos planteamos la cuestión de si una estimación, b, estará o no cerca del verdadero parámetro, β. Con absoluta certeza no se puede responder a esta cuestión, ya que β es desconocido, pero sí podremos expresar la confianza que merece nuestra respuesta, expresándola en términos probabilísticos. Una estimación de σ 2 viene dada por s 2, definida como: s 2 = e 2 i N 2 = SCNE N 2

9 3.1. REGRESIÓN Y CORRELACIÓN LINEAL 9 Donde N es el tamaño de la muestra. SCNE es la suma de cuadrados no explicada obtenida en la tabla de descomposición de la variación y MCNE se denomina media de cuadrados no explicada. Nos indica la magnitud de la variabilidad existente en los términos de error. A la raíz cuadrada de su valor se denomina error típico de la estimación. El error estándar, e.e.(b), es una medida de la cantidad de variabilidad que habría en diferentes coeficientes, b s, estimados de muestras extraídas de la misma población. En esencia mide la capacidad de cambiar, ante cambios en las observaciones de la muestra Contrastes de hipótesis Un método para hacer conjeturas acerca de los valores que tendrán los verdaderos parámetros β, basándose en el conocimiento de la muestra, es el contraste de hipótesis. La hipótesis de mayor interés en la regresión, es la consideración de si el efecto de X es o no significativo. Es decir, si se puede o no, asumir que la pendiente de la recta es nula: β 1 = 0 La hipótesis nula planteada se nota con H 0 : β 1 = 0 Equivale a admitir que no existe relación lineal entre X e Y. Los cambios en X no producen cambios en Y de forma lineal. Frente a la alternativa H 1 : β 1 = 0 (Se pueden considerar también alternativas como β 1 > 0, o β 1 < 0) Si H 0 es cierta, se comprueba que el estadístico t definido como t = b 1 e.e.(b 1 ) t de Student El cociente entre el parámetro estimado y su error estándar, sigue un modelo t de Student. Esta distribución depende de los grados de libertad g.l.= tamaño de la muestra nº de coeficientes estimados. Basándose en el conocimiento del comportamiento probabilístico del estadístico t, se tomará la siguiente decisión: La mayoría de los paquetes estadísticos suelen calcular el valor concreto de t en la muestra (denominado t value o t valor)

10 10CAPÍTULO 3. REGRESIÓN LINEAL MÚLTIPLE Y CON VARIABLES CUALITATIVAS t valor = b e.e.(b) y su correspondiente p-valor, que representa el nivel más bajo al cual puede ser rechazada una hipótesis nula. p valor = P ( t > t valor) DECISIÓN: si el p-valor es menor que el nivel α elegido, se rechaza la hipótesis nula. En caso contrario, no puede rechazarse Predicción El ajuste de un modelo puede no resultar útil para predecir, aún cuando los coeficientes de regresión sean significativos. Un valor de R bajo indica que sólo una parte pequeña de la variabilidad de Y puede ser explicada por la variable independiente. Esto sugiere que otras causas, aleatorias o no, influyen en Y. En este caso es arriesgado predecir valores para la variable dependiente. De igual modo, si los coeficientes estimados presentan una significatividad dudosa, las predicciones carecen de confianza. El valor medio predicho para un X = x 0 es el valor ajustado en el modelo, y 0, obtenido al sustituir x 0 en la ecuación: y 0 = b 0 + b 1 x Regresión múltiple En regresión múltiple se pretende explicar el comportamiento de una variable dependiente (Y) en función de dos o más variables independientes (X s). El objetivo es descubrir qué variables independientes están relacionadas con la variable Y, y describir esta relación, midiendo los efectos que producen sobre la variable dependiente. El análisis de regresión múltiple permite calcular un modelo que relaciona la variable dependiente y las variables independientes en la forma: Y = β 0 + β 1 X 1 + β 2 X β k X k + ɛ Los parámetros β 0, β 1, β 2,..., β k se estiman por el procedimiento de mínimos cuadrados. Cada parámetro β i que acompaña a la variable independiente,x i, expresa el incremento medio que se produce en la variable dependiente, Y,

11 3.2. REGRESIÓN MÚLTIPLE 11 por cada unidad en que se incrementa X i, supuestas constantes las otras variables Estimación del modelo Haciendo mínima la suma de los residuos al cuadrado: S = ɛ 2 i = (y i β 0 β 1 x i1 β 2 x i2... β k x ik ) 2 Los valores ajustados para cada individuo i-ésimo se obtienen por la ecuación estimada, resultante de la solución de un sistema de k+1 ecuaciones lineales derivadas del criterio de ajuste mínimo cuadrático de la ecuación lineal de regresión: Ŷ = b 0 + b 1 X 1 + b 2 X b k X k Los residuos observados vienen dados por las diferencias entre los valores observados y sus correspondientes estimaciones o valores ajustados: e i = y i ŷ i Representan las cantidades que la regresión no pudo explicar Descomposición de la variación de Y. Tabla de Análisis de la varianza. Tal como vimos en regresión simple, se puede descomponer la variación que refleja Y en la muestra, en dos componentes: variación explicada por la regresión, que refleja las variaciones que sufre Y, debidas a los cambios registrados en X, y la variación no explicada o residual debida a la perturbación aleatoria. (yi Y ) 2 = (y i ŷ i ) 2 + e 2 i = SCT = SCE + SCNE SCT = suma de cuadrados total SCE = suma de cuadrados explicada SCNE = suma de cuadrados no explicada La media de cuadrados no explicada viene dada por MCNE = SCNE n k 1

12 12CAPÍTULO 3. REGRESIÓN LINEAL MÚLTIPLE Y CON VARIABLES CUALITATIVAS La media de cuadrados explicada se obtiene por el cociente MCE = SCE k El coeficiente R 2, de correlación múltiple muestral al cuadrado, es un índice del ajuste total R 2 = SCE SCT = 1 SCNE SCT representa la proporción de variación de la variable dependiente que puede ser explicada por la combinación lineal de las variables independientes, o modelo de regresión propuesto. 0 R 2 1 En regresión múltiple tiene interés conocer un coeficiente derivado del R 2, denominado coeficiente de determinación ajustado. El R-cuadrado ajustado, corrige el R-cuadrado estándar basándose en el número de coeficientes del modelo. Este estadístico es útil para comparar modelos de regresión con diferentes números de variables independientes. Sabemos que, tanto si la variable tiene o no capacidad explicativa, el R-cuadrado estándar siempre se incrementará al incluir una nueva variable independiente en el modelo. El R-cuadrado ajustado penaliza la inclusión de nuevas variables, de tal modo, que si éstas no son suficientemente explicativas, el coeficiente puede incluso disminuir al añadirlas. R 2 ajustado = 1 SCNE SCT Inferencia n 1 n k 1 = 1 MCNE MCT El objetivo fundamental en regresión es el de conocer el nivel de confianza que tenemos en que el efecto de la variable independiente sea realmente verdadero o, por el contrario, se deba al azar. Se plantea el problema de si su valor es o no, significativamente distinto de cero. El error estándar de estimación es la raíz cuadrada del error cuadrático medio, desviación estándar estimada de los residuos (mide la variabilidad no explicada en la variable respuesta). Su valor proporciona una interpretación de la magnitud de la dispersión de los términos de error Contraste de hipótesis

13 3.2. REGRESIÓN MÚLTIPLE 13 Un método para hacer conjeturas acerca de los valores que tendrán los verdaderos parámetros β, basándose en el conocimiento de la muestra, es el contraste de hipótesis. Destacamos los tests de hipótesis más usados en regresión: Test individual para conocer la significatividad de la variable X j La hipótesis nula H 0 : β j = 0 Equivale a admitir que, en principio 1, no existe relación entre X j e Y. Los cambios en X j no producen cambios en Y. Frente a la alternativa H 1 : β j 0 Si H 0 es cierta, se comprueba que el estadístico t definido como t = b j e.e.(b j ) el cociente entre el parámetro estimado y su error estándar, sigue un modelo t de Student. Esta distribución depende de los grados de libertad: g.l. = tamaño de la muestra - nº de coeficientes estimados. El conocimiento del modelo nos permite calcular p valor = P ( t > t valor) DECISIÓN: si el p valor es menor que el nivel α elegido, se rechaza la hipótesis. En caso contrario, no puede rechazarse. Incumplimiento de las asunciones del modelo En el modelo de regresión lineal se han hecho asunciones sobre los errores, tales como: los errores son independientes varianza constante siguen una normal 1 Debe tenerse en cuenta que la significatividad de una variable depende del contexto en que se efectúe el contraste. Por ejemplo, una variable puede ser significativa si aparece sola en el modelo y dejar de serlo cuando se incluye con otras.

14 14CAPÍTULO 3. REGRESIÓN LINEAL MÚLTIPLE Y CON VARIABLES CUALITATIVAS La inspección de los gráficos de los residuos ayuda a valorar el resultado del ajuste. Para que las conclusiones derivadas del ajuste se tomen con cierta confianza debe comprobarse el cumplimiento de dichas asunciones Regresión con variables cualitativas Las variables cualitativas pueden también, al igual que las cuantitativas, explicar el comportamiento de una variable dependiente en el modelo de regresión. Pero antes es preciso cuantificarlas, definiendo nuevas variables ficticias capaces de reflejar en el modelo los efectos de sus distintas modalidades. Se llama variable ficticia a la creada para detectar la presencia/ausencia de un atributo o modalidad de la variable cualitativa. El método usual es asignar a las variables ficticias los valores 1 y 0 según presente o no el individuo una determinada modalidad. Dada una variable cualitativa con k modalidades, es suficiente tomar k-1 variables ficticias (de valores 1 y 0) para presentar todas las posibilidades de presencia ausencia de las distintas modalidades. Es decir, asignar una variable ficticia a cada modalidad de la variable cualitativa salvo a una, que se deja como referencia. Por ejemplo, para una variable cualitativa con 3 modalidades A, B, C, se toma una modalidad como referencia o base, por ejemplo, la primera categoría A. Se pueden definir dos variables ficticias (una para cada modalidad de la variable cualitativa B y C, dejando la modalidad A, sin ficticia), FB y FC, del siguiente modo: FB = 1 si el individuo presenta B; en otro caso valdrá 0. FC = 1 si el individuo presenta C; en otro caso valdrá 0. De este modo, cada elemento que presente la modalidad A tendrá en FB y FC los valores 0 y 0, respectivamente (FB=0 y FC=0). Un individuo que presenta la modalidad B, tendrá en las ficticias los valores: FB=1 y FC=0 y, por último, un individuo que presenta la modalidad C tendrá en las ficticias los valores: FB=0 y FC=1. Este tipo de codificación se denomina de referencia a primera categoría (A). Permite medir los efectos producidos en la variable dependiente cuando se pasa de la categoría referencia, A, a otra cualquiera (B o C)

15 3.3. REGRESIÓN CON VARIABLES CUALITATIVAS 15 X FB FC A 0 0 B 1 0 C 0 1 Para definir los efectos de la variable cualitativa X sobre Y, se define el modelo que presenta los siguientes términos: Y = β 0 + β 1 F B + β 2 F C + ɛ Con las variables ficticias (FB y FC) definidas según la tabla anterior, la constante β 0 representa el valor promedio o esperado en Y cuando FA = FB = 0 (equivalente a modalidad de X=A). β 1 representa el cambio medio que se produce en Y cuando se pasa de A a B. β 2 representa el cambio medio que se produce en Y cuando se pasa de A a C. La modalidad A es la referencia Interacción Un término que incluya el producto de dos o más variables independientes se denomina término de interacción. Por ejemplo, βx 1 X 2 indica que el efecto de una de las variables independientes depende del nivel de la otra. Pueden interaccionar dos o más variables, lo que da lugar a distintos órdenes de interacción. Puede deberse a una mezcla de variables continuas variables cualitativas variables continuas y cualitativas

16 16CAPÍTULO 3. REGRESIÓN LINEAL MÚLTIPLE Y CON VARIABLES CUALITATIVAS 3.4. Análisis de regresión lineal con R: un ejemplo de regresión simple Las tasas de paro en 2005 y 2011 de 12 colectivos de personas del conjunto nacional, son las siguientes: X2005 X Modelo teórico propuesto X2011 = β 0 + β 1 X ɛ Función R que realiza el ajuste La función R que permite realizar un ajuste lineal es lm() Se determinará la recta de regresión simple que expresa la tasa de paro en 2011 respecto a la del Los argumentos de lm() son la fórmula que expresa la variable dependiente e independiente (obligatorio) y el data.frame que contiene los datos (optativo). lm(f ormula = X2011~X2005, data = Regs1) > Rs1=lm(X2011~X2005,data=Regs1) > summary(rs1)

17 3.4. ANÁLISIS DE REGRESIÓN LINEAL CON Call: lm(formula = X2011 ~ X2005, data = Regs1) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) X * --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 10 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 10 DF, p-value: El resultado se puede resumir mediante la función summary() Ecuación del modelo ajustada Es muy importante todo el contenido de este resultado. Por un lado aparece la tabla de coeficientes estimados, lo que va a permitir escribir la ecuación ajustada del modelo. La pendiente estimada es b 1 = 1,424 La ordenada en el origen o intercept es b 0 = 11,332 Y la ecuación ajustada: X2011 = 11, ,424 X2005 Test de hipótesis de nulidad de la pendiente al nivel α = 0,01 Uno de los objetivos más importantes de un ajuste de regresión es comprobar si la variable (o variables independientes) sirven para explicar la variable dependiente. La respuesta científica a este interrogante se realiza mediante un contraste de hipótesis de nulidad del coeficiente que acompaña a la variable independiente en el modelo. La tabla de coeficientes es importante porque, además de permitir construir la ecuación ajustada, permite contrastar la hipótesis de nulidad de la pendiente:

18 18CAPÍTULO 3. REGRESIÓN LINEAL MÚLTIPLE Y CON VARIABLES CUALITATIVAS frente a la alternativa H 0 : β 1 = 0 H 1 : β 1 0 Observe que al nivel de significación α = 0,01 no puede rechazarse H 0, por lo que entendemos que, cambios en la variable X2005 no parece que provoquen cambios significativos en la variable X2011. Diríamos que (para este nivel de significación α elegido) la variable X2005 no explica la variable X2011. p valor = 0,0135 > α = 0,01 DECISION: A este nivel de significación de 0.01, NO puede rechazarse que β 1 = 0 Cuando las pendientes son significativamente distintas de cero, decimos que las variables sirven para explicar. Si la variable independiente es cuantitativa el coeficiente, β 1, se interpreta como el incremento esperado en la variable dependiente cuando se aumenta una unidad la variable independiente. Bondad de ajuste del modelo El coeficiente de correlación R 2 permite valorar la bondad del modelo ajustado y, por tanto, su capacidad para hacer predicciones. Valores altos indican buen ajuste. Representa la proporción de variación de la variable dependiente que es explicada por el modelo. El valor R 2 = 0,4722 no está cercano a 1. Por lo que se entiende que la recta no se ajusta bien a los datos. Error estándar de la estimación Y por último, el error estándar residual, presenta un valor igual a, 6.99, este valor en sí mismo no es muy explítico en lo que se refiere a interpretación. Sin embargo, es muy útil para comparar modelos propuestos para los mismos datos. (Lo veremos en el próximo ejemplo (pag. 24), cuando se proponga un modelo más completo). Este estadístico es un indicador de la variabilidad que deja sin explicar el modelo (error o dispersión aleatoria o no explicada). Un modelo que presente un valor bajo será preferible a otro con valor alto.

19 3.4. ANÁLISIS DE REGRESIÓN LINEAL CON Representación gráfica de los datos y la recta El gráfico muestra la nube de puntos, donde se ha incluido la recta de regresión: null device 1 Tasa de Paro en 2011 sobre 2005 Tasa Paro TP2011 = TP Tasa Paro 2005 Funciones R usadas en el gráfico > #Regs1 es el data.frame con los datos > Rs=lm(X2011~X2005,data=Regs1) > plot(regs1$x2005,regs1$x2011,col="red",ylab="tasa Paro 2011", + xlab="tasa Paro 2005",main="Tasa de Paro en 2011 sobre 2005", + col.main="red",xlim=c(0,25), ylim=c(0,40)) > abline(coef = coef(rs),col="blue",lty=2,lwd=3) > text(10,5,"tp2011 = TP2005",col="blue",cex=1)

20 20CAPÍTULO 3. REGRESIÓN LINEAL MÚLTIPLE Y CON VARIABLES CUALITATIVAS Tabla de Variación Explicada (ANOVA) La función R anova() permite ver la variación total, la explicada y no explicada por el modelo. La tabla siguiente muestra los resultados anova(rs) #Rs es el objeto que contiene los resultados del análisis Analysis of Variance Table Response: X2011 Df Sum Sq Mean Sq F value Pr(>F) X * Residuals Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 La tabla presenta la variación explicada y no explicada o residual así como las medias (obtenidas dividiendo por los g.l.) El test F permite constrastar la significatividad de los explicado por el modelo. Recta de regresión de X2005 sobre X2011 De modo similar puede obtenerse la recta de regresión de la tasa en 2005 sobre la de El gráfico siguiente muestra la representación simultánea de las dos rectas. Observe que se cortan en el punto medio de cada variable. windows 2

21 3.5. ANÁLISIS DE REGRESIÓN LINEAL Rectas de Regresión Tasa Paro TP2005 = TP2011 TP2011 = TP Tasa Paro Análisis de regresión lineal con R: regresión simple con variable cualitativa Las tasas de paro en 2005 y 2011 de 12 colectivos de personas de España, clasificados por Nacionalidad, son las siguientes:

22 22CAPÍTULO 3. REGRESIÓN LINEAL MÚLTIPLE Y CON VARIABLES CUALITATIVAS Nacionalidad X2005 X2011 Español Español Español Español Español Español Extranjero Extranjero Extranjero Extranjero Extranjero Extranjero Modelo teórico propuesto Variable dependiente = X2011 Variable independiente cualitativa = Nacionalidad (2 categorías) Variable ficticia asociada: FNaciExtranjero (segunda modalidad de variable Nacionalidad) Base=Español Modelo propuesto: X2011 = β 0 + β 1 F Naci Extranj + ɛ Ajuste con R Se determinará la ecuación lineal de regresión que expresa la tasa de paro en 2011 respecto a la Nacionalidad del grupo. El paquete R detecta automáticamente una variable cualitativa declarada como factor y genera internamente la ficticia (o ficticias, si hay más de 2 modalidades) necesarias para el ajuste. Por defecto R toma como categoría base la primera modalidad.

23 3.5. ANÁLISIS DE REGRESIÓN LINEAL Los argumentos de lm() son la fórmula que expresa la variable dependiente e independientes (obligatorio) y el data.frame que contiene los datos (optativo). No es necesario expresar explícitamente que la variable es cualitativa. Basta tenerla declarada como factor. lm(f ormula = X2011~N acionalidad, data = Regs2) > Re2=lm(X2011~Nacionalidad,data=Regs2) > summary(re2) Call: lm(formula = X2011 ~ Nacionalidad, data = Regs2) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-05 *** NacionalidadExtranjero * --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 10 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 10 DF, p-value: Ecuación del modelo ajustado La tabla de coeficientes estimados muestra sus valores estimados con los que podemos escribir la ecuación del modelo ajustado. La ordenada en el origen o intercept es b 0 = 21,712 La pendiente estimada de la variable ficticia F Extranjero = Nacional Extranj es b 1 = 10,478 Y la ecuación ajustada es: X2011 = 21, ,478 Nacional Extranj Test de hipótesis de nulidad de la pendiente al nivel α = 0,05

24 24CAPÍTULO 3. REGRESIÓN LINEAL MÚLTIPLE Y CON VARIABLES CUALITATIVAS Vemos si la variable propuesta sirve para explicar la variable dependiente. Para ello se realiza un contraste de hipótesis de nulidad del coeficiente que acompaña a la variable independiente ficticia (asociada a Nacionalidad). La tabla de coeficientes permitir construir la ecuación ajustada y contrastar la hipótesis de nulidad de las pendientes: frente a la alternativa H 0 : β 1 = 0 H 1 : β 1 0 Observe que al nivel de significación α = 0,05 se rechaza H 0, por lo que entendemos que, cambios en la variable Nacionalidad provocan cambios significativos en la variable X2011. Diríamos que (para este nivel de significación elegido) la variable Nacionalidad explica la variable X2011. p valor = 0,0409 < α = 0,05 DECISION: A este nivel de significación de 0.05, se rechaza que β 1 = 0 Se concluye que la variable Nacionalidad sirve para explicar. En concreto, esperamos un incremento en la tasa de paro del 2011 de aproximadamente 10.5 unidades cuando pasamos del grupo de nacionalidad española al grupo de nacionalidad extranjera. Bondad de ajuste del modelo El coeficiente de correlación R 2 representa la proporción de variación de la variable dependiente que es explicada por el modelo. El valor del R 2 = 0,355 no está cercano a 1. Por lo que se entiende que el modelo no se ajusta bien a los datos. Error estándar de la estimación El error estándar residual, presenta un valor igual a (El modelo anterior tenía un valor igual a 6.99 y su coeficiente R-cuadrado era mayor). Si tuviésemos que elegir entre el modelo simple anterior y éste, basándonos en estos criterios: error estandar y coeficente R 2, elegiríamos el primero, ya que presenta menor error estándar residual y mejor ajuste.

25 3.6. ANÁLISIS DE REGRESIÓN LINEAL Análisis de regresión lineal con R: un ejemplo de regresión múltiple Las tasas de paro en 2005 y 2011 de 32 colectivos de personas de España, clasificados por edad y sexo, son las siguientes: Sexo Edad TP2005 TP2011 Hombre < Mujer < Hombre > Mujer > Hombre < Mujer < Hombre > Mujer > Hombre < Mujer < Hombre > Mujer > Hombre < Mujer < Hombre > Mujer > Hombre < Mujer < Hombre > Mujer > Hombre < Mujer < Hombre > Mujer > Hombre < Mujer < Hombre > Mujer > Hombre < Mujer < Hombre > Mujer > Representación gráfica de los datos

26 26CAPÍTULO 3. REGRESIÓN LINEAL MÚLTIPLE Y CON VARIABLES CUALITATIVAS El gráfico siguente puede orientar sobre la estructura que tienen los datos windows 2 Tasas de Paro Tasa de Paro en hombre mujer <30 > Tasa Paro en 2005 Relación entre Tasa de paro en 2005 y Respuesta (Tasa de paro en 2011): Si no distinguimos por sexo ni edad, la relación entre Tasa de paro en 2011 y 2005 muestra una trayectoria, reflejada por la nube de puntos, aproximadamente de una recta con pendiente positiva. Relación entre Sexo y Respuesta (Tasa de paro en 2011): Los datos aparecen mezclados sin una trayectoria o agrupamiento claro en relación al eje Y del gráfico. Relación entre Edad y Respuesta (Tasa de paro en 2011): Si distinguimos entre los puntos correspondientes a edad <30 y >30, parece que existe relación. Aparecen 2 grupos distanciados verticalmente (eje de Tasas de Paro en 2011). Se aprecia visualmente un cambio importante en los valores de las tasas del 2011 al pasar del grupo joven al grupo mayor.

27 3.6. ANÁLISIS DE REGRESIÓN LINEAL Relación entre tasa de paro en 2005 y Respuesta (distinguiendo por edad) Si distinguimos entre los puntos correspondientes a edad <30 y >30, no parece que exista relación entre las Tasas de Paro en 2005 y Podemos dibujar dos rectas con pendientes próximas a cero. Relación entre tasa de paro en 2005 y Respuesta (distinguiendo por sexo) Dividiendo la nube de puntos por Sexo, parece que la relación entre las Tasas de Paro es similar a la global (independientemente del sexo la relación entre Tasas es similar). Si ajustamos por pasos modelos simples podemos confirmar lo comentado sobre el gráfico. Por ejemplo, el modelo que solo incluye a Tasa en 2005 como independiente presenta esta tabla de coeficientes: > summary(lm(tp2011~tp2005,data=regm)) Call: lm(formula = TP2011 ~ TP2005, data = Regm) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-07 *** TP *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 30 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 30 DF, p-value: Donde se aprecia que la variable independiente TP2005 es signficativa, con pendiente 0,74. Si consideramos como independiente solo a la variable Sexo, obtenemos el resultado siguiente > summary(lm(tp2011~sexo,data=regm)) Call: lm(formula = TP2011 ~ Sexo, data = Regm)

28 28CAPÍTULO 3. REGRESIÓN LINEAL MÚLTIPLE Y CON VARIABLES CUALITATIVAS Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-15 *** SexoMujer Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 30 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 30 DF, p-value: Donde se observa que la variable Sexo no es significativa. Con p valor = 0,58. Por último, introducimos la variable Edad, que es la que muestra en el gráfico mayor relación con la variable tasa de paro en > summary(lm(tp2011~edad,data=regm)) Call: lm(formula = TP2011 ~ Edad, data = Regm) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** Edad> e-14 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 30 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 30 DF, p-value: 1.797e-14

29 3.6. ANÁLISIS DE REGRESIÓN LINEAL Donde se aprecia que la variable independiente Edad es signficativa, con pendiente 16,6. Con p valor = 0,000, altamente significativo. Con esta variable ha descendido claramente el error estándar y ha aumentado de forma importante el coeficiente de correlación R 2 = 0,86 Propuestas de Modelos de regresión Múltiple Si añadimos la variable Sexo, al modelo que incluye la Tasa en 2005 obtenemos el modelo de regresión múltiple que presenta esta tabla de coeficientes: > summary(lm(tp2011~tp2005+sexo,data=regm)) Call: lm(formula = TP2011 ~ TP Sexo, data = Regm) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-07 *** TP e-05 *** SexoMujer ** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 29 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 29 DF, p-value: 4.281e-05 Esto es coherente con el gráfico mostrado anteriormente y corrobora el hecho de que el contexto en que aparece las variables independientes afecta a los resultados. Una variable,que en principio no se muestra significativa, puede llegar a serlo cuando aparece junto a otra u otras (tal como ha ocurrido con la variable sexo). Del mismo modo, una variable que es significativa, podría dejar de serlo al cambiar el conjunto de variables independientes en que se inserta. Este modelo mejora con respecto al modelo simple que incluye solo la variable TP2005. Y cláramente mejora al compararlo con el modelo que sólo incluye la variable sexo. Modelo teórico propuesto Variable dependiente = TP2011 (Tasa de paro en 2011)

30 30CAPÍTULO 3. REGRESIÓN LINEAL MÚLTIPLE Y CON VARIABLES CUALITATIVAS Variables independientes Variable independiente continua = TP2005 (Tasa de paro en 2005) Variable independiente cualitativa = Edad (2 categorías o grupos de edad) Variable ficticia asociada: F>30 (segunda categoría de edad) Base (primera categoría de edad: menor de 30 años ) Variable independiente cualitativa = Sexo (2 categorías) Variable ficticia asociada: FMujer (segunda modalidad de variable Sexo) Base= Hombre Modelo propuesto: T P 2011 = β 0 + β 1 T P β 2 F Mujer + β 3 F > 30 + ɛ Ajuste con R La función R que permite realizar un ajuste lineal es lm() Se determinará la ecuación lineal de regresión múltiple que expresa la tasa de paro en 2011 respecto a la del 2005 y las variables Sexo y Edad del grupo. La fórmula para R es: lm(formula = T P 2011~T P Sexo + Edad, data = Regm) > Rs2=lm(TP2011~TP2005+Sexo+Edad,data=Regm) > summary(rs2) Call: lm(formula = TP2011 ~ TP Sexo + Edad, data = Regm) Residuals: Min 1Q Median 3Q Max

31 3.6. ANÁLISIS DE REGRESIÓN LINEAL Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-14 *** TP SexoMujer Edad> e-10 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 28 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 3 and 28 DF, p-value: 8.796e-13 El resultado se puede resumir mediante la función summary() Ecuación del modelo ajustada La tabla de coeficientes estimados, lo que va a permitir escribir la ecuación ajustada del modelo. La ordenada en el origen o intercept es b 0 = 44,694 La pendiente estimada de la tasa de paro X2005 es b 1 = 0,13 La pendiente estimada de la ficticia FMujer= SexoMujer es b 2 = 3,032 La pendiente estimada de la ficticia F>30=Edad>30 es b 3 = 17,705 Y la ecuación ajustada es: X2011 = 44, ,13 T P SexoMujer + 17,705 Edad > 30 Test de hipótesis de nulidad de las pendientes al nivel 0.05 Vemos si las variables propuestas sirven para explicar la variable dependiente. Para ello se realiza un contraste de hipótesis de nulidad del coeficiente que acompaña a cada una de las variables independientes en cuestión en el modelo. La tabla de coeficientes muestra los coeficientes estimados de la ecuación ajustada y los correspondientes estadísticos t con sus p-valores asociados para contrastar la hipótesis de nulidad de las pendientes: H 0 : β 1 = 0

32 32CAPÍTULO 3. REGRESIÓN LINEAL MÚLTIPLE Y CON VARIABLES CUALITATIVAS frente a la alternativa H 1 : β 1 0 Observe que al nivel de significación = 0,05 no se rechaza H 0, por lo que entendemos que, cambios en la variable TP2005 no provocan cambios significativos en la variable TP2011. Diríamos que (para este nivel de significación elegido) la variable TP2005 no explica la variable TP2011. p valor = 0,467 >= 0,05 DECISION: A este nivel de significación de 0.05, no se rechaza que β 1 = 0 Por tanto se tendrá que eliminar del modelo. Cuando las pendientes son significativamente distintas de cero, decimos que las variables sirven para explicar. Si la variable independiente es cuantitativa, el coeficiente se interpreta como el incremento esperado en la variable dependiente cuando se aumenta una unidad la variable independiente. En concreto, por cada unidad de incremento en la tasa de paro en 2005 (si la variable fuese significativa) esperamos encontrar un descenso de aproximadamente 0.12 unidades en la del año En este caso concreto no tiene sentido interpretarla puesto que no es significativa. La inclusióh de la variable altamente significativa Edad, es capaz de explicar parte de la variabilidad que en el modelo más simple (solo TP2005 y SexoMujer) era explicada por TP2005 y SexoMujer. Contraste para la variable Sexo frente a la alternativa H 0 : β 2 = 0 H 1 : β 2 0 Observe que al nivel de significación = 0,05 no se rechaza H 0, por lo que entendemos que, cambios en la variable SexoMujer (y por tanto en la variable Sexo) no provoca cambios significativos en la variable TP2011. Diríamos que (para este nivel de significación elegido) la variable Sexo no explica la variable TP2011. p valor = 0,148 >= 0,05

33 3.6. ANÁLISIS DE REGRESIÓN LINEAL DECISION: A este nivel de significación de 0.05, no se rechaza que β 2 = 0 Se concluye que la variable Sexo no sirve para explicar. Contraste para la variable Edad frente a la alternativa H 0 : β 3 = 0 H 1 : β 3 0 Observe que al nivel de significación = 0,05 se rechaza H 0, por lo que entendemos que, cambios en la variable ficticia de Grupo de Edad>30 (y por tanto en la variable Edad) provocan cambios significativos en la variable TP2011. El coeficiente es aproxiamadamente igual a -17.7, por lo que se espera un descenso de 17.7 unidades en la respuesta (Tasa de Paro en 2011) al pasar de un joven (con menos de 30 años) a uno mayor (con 30 ó más años). p valor = 0,000 <= 0,05 DECISION: A este nivel de significación de 0.05, se rechaza que β 3 = 0 Se concluye que la variable Edad sirve para explicar y es además altamente significativa. Debemos eliminar del modelo aquellas variables que no explican, paso a paso, de una en una, comenzando por la que tenga el mayor p-valor (es decir, la menos significativa). Hay que tener en cuenta que el contexto en que aparece la variable independiente modifica o puede modificar su importancia en el conjunto. El modelo anterior, con 3 varibles explicativas, presenta en principio, 2 variables no significativas. Si se elimina del modelo la variable independiente TP2005, el modelo ajustado es Call: lm(formula = TP2011 ~ Sexo + Edad, data = Regm) Residuals: Min 1Q Median 3Q Max

34 34CAPÍTULO 3. REGRESIÓN LINEAL MÚLTIPLE Y CON VARIABLES CUALITATIVAS Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** SexoMujer Edad> e-14 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 29 degrees of freedom Multiple R-squared: 0.873, Adjusted R-squared: F-statistic: on 2 and 29 DF, p-value: 1.006e-13 Lo que nos llevaría a elegir el modelo más simple, con sólo la variable Edad. Call: lm(formula = TP2011 ~ Edad, data = Regm) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** Edad> e-14 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 30 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 30 DF, p-value: 1.797e-14 El coeficiente que acompaña a la ficticia Edad>30 vale aprosimadamente -16.6, es significativo al nivel 0.05 (de hecho su p-valor está próximo a 0) Se concluye que la variable Edad sirve para explicar. Se espera un descenso de 16.6 unidades en la tasa de Paro en cuando se pasa del grupo joven al grupo mayor. Otra Representación gráfica de los datos: windows 2

35 3.6. ANÁLISIS DE REGRESIÓN LINEAL Año 2011 Año <30 >30 Hombre Mujer Edad Sexo Año 2005 Año Hombre Mujer <30 >30 Sexo Edad Modelo con interacción Podemos ver si el efecto de la variable TP2005 parece que difiere según sea el grupo de hombres o de mujeres, añadiendo términos de interacción al modelo. > Rs3=lm(TP2011~TP2005+Sexo+Edad+Sexo*TP2005,data=Regm) > summary(rs3) Call: lm(formula = TP2011 ~ TP Sexo + Edad + Sexo * TP2005, data = Regm) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-12 *** TP

36 36CAPÍTULO 3. REGRESIÓN LINEAL MÚLTIPLE Y CON VARIABLES CUALITATIVAS SexoMujer * Edad> e-10 *** TP2005:SexoMujer Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 27 degrees of freedom Multiple R-squared: 0.892, Adjusted R-squared: F-statistic: on 4 and 27 DF, p-value: 1.16e-12 Este modelo está más próximo a la estructura que muestran los datos, inspeccionada gráficamente. Mejora la bondad de ajuste (R 2 ajustado = 0,876) y el error estándar residual disminuye ligeramente (3.2). Los p-valores asociados a los coeficientes estimados, que no son significativos, están, no obstante, cercanos al límite del nivel de significación (0.0517). Nota: El principio jerárquico establece que si se admite en el modelo un término de interacción, automáticamente quedan incluidos los efectos principales (al margen de los valores p-valores asociados a ellos). Bondad de ajuste del modelo Representa la proporción de variación de la variable dependiente que es explicada por el modelo. El valor del R 2 = 0,892 está cercano a 1. Por lo que se entiende que la ecuación estimada del modelo se ajusta bien a los datos Representación gráfica de los datos y la ecuación ajustada El gráfico muestra la nube de puntos, donde se ha incluido la recta de regresión ajustada para cada grupo de Edad y Sexo: windows 2

37 3.6. ANÁLISIS DE REGRESIÓN LINEAL Valores observados y ajustados TP hombre mujer <30 > TP2005 Con los datos de la tabla 3.1 ajuste el modelo que mejor se adapte a los datos, para explicar la Tasa de paro en Se han ajustado los modelos siguientes: lm1=lm(x2011~., data=regm) lm2=lm(x2011~.+nacional*x2005, data=regm) lm3=lm(x2011~.+nacional*x2005+edad*x2005, data=regm) lm4=lm(x2011~.+nacional*x2005+edad*x2005+nacional*edad, data=regm) Edad nacional X2005 X2011 Edad.1 nacional.1 X X <30 Español <30 Español >30 Español >30 Español <30 Extranjero <30 Extranjero >30 Extranjero >30 Extranjero

38 38CAPÍTULO 3. REGRESIÓN LINEAL MÚLTIPLE Y CON VARIABLES CUALITATIVAS <30 Español <30 Español >30 Español >30 Español <30 Extranjero <30 Extranjero >30 Extranjero >30 Extranjero <30 Español <30 Español >30 Español >30 Español <30 Extranjero <30 Extranjero >30 Extranjero >30 Extranjero <30 Español <30 Español >30 Español >30 Español <30 Extranjero <30 Extranjero >30 Extranjero >30 Extranjero <30 Español <30 Español >30 Español >30 Español <30 Extranjero <30 Extranjero >30 Extranjero >30 Extranjero <30 Español <30 Español >30 Español >30 Español <30 Extranjero <30 Extranjero >30 Extranjero >30 Extranjero <30 Español <30 Español >30 Español >30 Español <30 Extranjero <30 Extranjero >30 Extranjero >30 Extranjero <30 Español <30 Español >30 Español >30 Español <30 Extranjero <30 Extranjero >30 Extranjero >30 Extranjero <30 Español <30 Español >30 Español >30 Español <30 Extranjero <30 Extranjero >30 Extranjero >30 Extranjero <30 Español <30 Español >30 Español >30 Español <30 Extranjero <30 Extranjero >30 Extranjero >30 Extranjero <30 Español <30 Español >30 Español >30 Español <30 Extranjero <30 Extranjero >30 Extranjero >30 Extranjero <30 Español <30 Español

39 3.6. ANÁLISIS DE REGRESIÓN LINEAL >30 Español >30 Español <30 Extranjero <30 Extranjero >30 Extranjero >30 Extranjero <30 Español <30 Español >30 Español >30 Español <30 Extranjero <30 Extranjero >30 Extranjero >30 Extranjero <30 Español <30 Español >30 Español >30 Español <30 Extranjero <30 Extranjero >30 Extranjero >30 Extranjero <30 Español <30 Español >30 Español >30 Español <30 Extranjero <30 Extranjero >30 Extranjero >30 Extranjero <30 Español <30 Español >30 Español >30 Español <30 Extranjero <30 Extranjero >30 Extranjero >30 Extranjero <30 Español <30 Español >30 Español >30 Español <30 Extranjero <30 Extranjero >30 Extranjero >30 Extranjero <30 Español <30 Español >30 Español >30 Español <30 Extranjero <30 Extranjero >30 Extranjero >30 Extranjero <30 Español <30 Español >30 Español >30 Español <30 Extranjero <30 Extranjero >30 Extranjero >30 Extranjero Cuadro 3.1: Tasas de paro según nacionalidad y sexo [1]. Ed adnacionalx2005x2011 La tabla anora de de los 4 ajustes propuestos es la siguiente:

40 40CAPÍTULO 3. REGRESIÓN LINEAL MÚLTIPLE Y CON VARIABLES CUALITATIVAS Res.Df RSS Df Sum of Sq F Pr(>F) > anova(lm1,lm2,lm3,lm4) Analysis of Variance Table Model 1: X2011 ~ Edad + nacional + X2005 Model 2: X2011 ~ Edad + nacional + X nacional * X2005 Model 3: X2011 ~ Edad + nacional + X nacional * X Edad * X2005 Model 4: X2011 ~ Edad + nacional + X nacional * X Edad * X nacional * Edad Res.Df RSS Df Sum of Sq F Pr(>F) e-10 *** e-05 *** NA El resultado del ajuste del modelo lm3 es el siguiente: Estimate Std. Error t value Pr(> t ) (Intercept) Edad> nacionalextranjero X nacionalextranjero:x Edad>30:X Regresión logística

peso edad grasas Regresión lineal simple Los datos

peso edad grasas Regresión lineal simple Los datos Regresión lineal simple Los datos Los datos del fichero EdadPesoGrasas.txt corresponden a tres variables medidas en 25 individuos: edad, peso y cantidad de grasas en sangre. Para leer el fichero de datos

Más detalles

Estadística I Solución Examen Final- 19 de junio de Nombre y Apellido:... Grupo:...

Estadística I Solución Examen Final- 19 de junio de Nombre y Apellido:... Grupo:... Estadística I Examen Final- 19 de junio de 2009 Nombre y Apellido:... Grupo:... (1) La siguiente tabla muestra las distribuciones de frecuencias absolutas de la variable altura (en metros) de n = 500 estudiantes

Más detalles

Ejemplo de Análisis de la Covarianza

Ejemplo de Análisis de la Covarianza Ejemplo de Análisis de la Covarianza Utilizando los datos del archivo sargos.csv representamos la itud desde el morro hasta la aleta dorsal frente a la itud total del pez: > sargos = read.table(file =

Más detalles

Estadística I Solución Examen Final - 28 Mayo de 2009

Estadística I Solución Examen Final - 28 Mayo de 2009 Estadística I Examen Final - 28 Mayo de 2009 (1 (10 puntos A 16 estudiantes de Filosofía se les preguntó cuántas clases de esta asignatura habían perdido durante el cuatrimestre. Las respuestas obtenidas

Más detalles

Regresión Múltiple b=read.table("datoempleado.dat",header=t,sep="\t")

Regresión Múltiple b=read.table(datoempleado.dat,header=t,sep=\t) Regresión Múltiple b=read.table("datoempleado.dat",header=t,sep="\t") Ejemplo: (archivo datoempleado.dat) Fh (Referencia=Mujer) variables en el archivo names(b) [1] "id" "sexo" "fechnac" "educ" "catlab"

Más detalles

Práctica 3: Regresión simple con R

Práctica 3: Regresión simple con R Estadística II Curso 2010/2011 Licenciatura en Matemáticas Práctica 3: Regresión simple con R 1. El fichero de datos Vamos a trabajar con el fichero salinity que se encuentra en el paquete boot. Para cargar

Más detalles

Javier Roca Pardiñas Prof. Titular de Universidade Dpto. Estatística e I.O. Universidade de Vigo

Javier Roca Pardiñas Prof. Titular de Universidade Dpto. Estatística e I.O. Universidade de Vigo Javier Roca Pardiñas Prof. Titular de Universidade Dpto. Estatística e I.O. Universidade de Vigo 30/10/2013 Modelos Lineales de Regresión Índice 1. Planteamiento de modelo Caso práctico 2. Estimación y

Más detalles

Estadística I Examen Final - 28 Mayo de 2009 Tiempo: 2.5h - Total: 40 puntos. Nombre:... Grupo:...

Estadística I Examen Final - 28 Mayo de 2009 Tiempo: 2.5h - Total: 40 puntos. Nombre:... Grupo:... Estadística I Examen Final - 28 Mayo de 2009 Tiempo: 2.5h - Total: 40 puntos Nombre:... Grupo:... Realizar los cálculos intermedios con 4 decimales y redondear el resultado final a 2 decimales. 1. (10

Más detalles

Ejemplo de Regresión Lineal Simple

Ejemplo de Regresión Lineal Simple Ejemplo de Regresión Lineal Simple Países Porcentaje de Inmunización (x) Tasa de mortalidad (y) Bolivia 77 8 Brazil 69 65 Cambodia 3 84 Canada 85 8 China 94 43 Czech_Republic 99 Egypt 89 55 Ethiopia 3

Más detalles

Método de cuadrados mínimos

Método de cuadrados mínimos REGRESIÓN LINEAL Gran parte del pronóstico estadístico del tiempo está basado en el procedimiento conocido como regresión lineal. Regresión lineal simple (RLS) Describe la relación lineal entre dos variables,

Más detalles

Ejemplo de Regresión Lineal Simple.

Ejemplo de Regresión Lineal Simple. Ejemplo de Regresión Lineal Simple. El archivo sargos.csv contiene datos morfométricos de una muestra de 200 sargos. Estos datos pueden leerse en R mediante la sintaxis: sargos=read.table(file="http://dl.dropbox.com/u/7610774/sargos.csv",

Más detalles

Estadística I Examen Final - 19 de junio de Nombre:... Grupo:...

Estadística I Examen Final - 19 de junio de Nombre:... Grupo:... Estadística I Examen Final - 19 de junio de 2009 Nombre:... Grupo:... Realizar los cálculos intermedios con 4 decimales y redondear el resultado final a 2 decimales. 1. La siguiente tabla muestra las distribuciones

Más detalles

Relación 3 de problemas

Relación 3 de problemas ESTADÍSTICA II Curso 2016/2017 Grado en Matemáticas Relación 3 de problemas 1. La Comunidad de Madrid evalúa anualmente a los alumnos de sexto de primaria de todos los colegios sobre varias materias. Con

Más detalles

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10 Estadística II Tema 4. Regresión lineal simple Curso 009/10 Tema 4. Regresión lineal simple Contenidos El objeto del análisis de regresión La especificación de un modelo de regresión lineal simple Estimadores

Más detalles

Tema 4. Regresión lineal simple

Tema 4. Regresión lineal simple Tema 4. Regresión lineal simple Contenidos El objeto del análisis de regresión La especificación de un modelo de regresión lineal simple Estimadores de mínimos cuadrados: construcción y propiedades Inferencias

Más detalles

Tema 2: Estadística Bivariante Unidad 1: Correlación y Regresión

Tema 2: Estadística Bivariante Unidad 1: Correlación y Regresión Estadística Tema 2: Estadística Bivariante Unidad 1: Correlación y Regresión Área de Estadística e Investigación Operativa Licesio J. Rodríguez-Aragón Octubre 2010 Contenidos...............................................................

Más detalles

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE Jorge Fallas jfallas56@gmail.com 2010 1 Temario Introducción: correlación y regresión Supuestos del análisis Variación total de Y y variación explicada por

Más detalles

Qué es? Primer paso Representación en un sistema de coordenadas. numéricos Cada punto muestra el valor de cada pareja de datos (X e Y)

Qué es? Primer paso Representación en un sistema de coordenadas. numéricos Cada punto muestra el valor de cada pareja de datos (X e Y) Gráfico de dispersión Qué es? Primer paso Representación en un sistema de coordenadas cartesianas de los datos numéricos Cada punto muestra el valor de cada pareja de datos (X e Y) Gráfico de dispersión

Más detalles

ASIGNATURA: ESTADISTICA II (II-055) Ing. César Torrez https://torrezcesar.wordpress.com

ASIGNATURA: ESTADISTICA II (II-055) Ing. César Torrez https://torrezcesar.wordpress.com ASIGNATURA: ESTADISTICA II (II-055) Ing. César Torrez torrezcat@gmail.com https://torrezcesar.wordpress.com 0416-2299743 Programa de Estadística II UNIDAD IV: REGRESIÓN Y CORRELACIÓN MÚLTIPLE LINEAL TANTO

Más detalles

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL OBJETIVO Analizar las Diferentes formas de Describir la Relación entre dos variables numéricas Trazar un diagrama de dispersión

Más detalles

Estadística II Ejercicios Tema 5

Estadística II Ejercicios Tema 5 Estadística II Ejercicios Tema 5 1. Considera los cuatro conjuntos de datos dados en las transparencias del Tema 5 (sección 5.1) (a) Comprueba que los cuatro conjuntos de datos dan lugar a la misma recta

Más detalles

Regresión Lineal Simple y Múltiple Regresión Logística

Regresión Lineal Simple y Múltiple Regresión Logística Regresión Lineal Simple y Múltiple Regresión Logística Miguel González Velasco Departamento de Matemáticas. Universidad de Extremadura MUI en Ciencias de la Salud MUI en Ciencias de la Salud (UEx) Regresión

Más detalles

ANÁLISIS DE REGRESIÓN

ANÁLISIS DE REGRESIÓN ANÁLISIS DE REGRESIÓN INTRODUCCIÓN Francis Galtón DEFINICIÓN Análisis de Regresión Es una técnica estadística que se usa para investigar y modelar la relación entre variables. Respuesta Independiente Y

Más detalles

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r) Correlación El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r) El coeficiente de correlación lineal de Pearson (r) permite medir el grado de asociación entre

Más detalles

TEMA 4 Modelo de regresión múltiple

TEMA 4 Modelo de regresión múltiple TEMA 4 Modelo de regresión múltiple José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Análisis de Datos - Grado en Biología Estructura de este tema Modelo de regresión múltiple.

Más detalles

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN CURSO DE BIOESTADÍSTICA BÁSICA Y SPSS ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN Amaia Bilbao González Unidad de Investigación Hospital Universitario Basurto (OSI Bilbao-Basurto)

Más detalles

EXTENSIÓN DEL MODELO DE REGRESIÓN LINEAL DE DOS VARIABLES

EXTENSIÓN DEL MODELO DE REGRESIÓN LINEAL DE DOS VARIABLES EXTENSIÓN DEL MODELO DE REGRESIÓN LINEAL DE DOS VARIABLES REGRESIÓN A TRAVÉS DEL ORIGEN Y Y i = β 1 + β 2X i + ε i Y i = β 2X i + ε i X A MENOS QUE EXISTA UNA EXPECTATIVA A PRIORI MUY FUERTE ES ACONSEJABLE

Más detalles

Tema 2: Análisis de datos bivariantes

Tema 2: Análisis de datos bivariantes 1 Tema 2: Análisis de datos bivariantes En este tema: Tabla de contingencia, tabla de doble entrada, distribución conjunta. Frecuencias relativas, marginales, condicionadas. Diagrama de dispersión. Tipos

Más detalles

1. Conceptos de Regresión y Correlación. 2. Variables aleatorias bidimensionales. 3. Ajuste de una recta a una nube de puntos

1. Conceptos de Regresión y Correlación. 2. Variables aleatorias bidimensionales. 3. Ajuste de una recta a una nube de puntos TEMA 10 (curso anterior): REGRESIÓN Y CORRELACIÓN 1 Conceptos de Regresión y Correlación 2 Variables aleatorias bidimensionales 3 Ajuste de una recta a una nube de puntos 4 El modelo de la correlación

Más detalles

Ajuste de Regresión Lineal Simple

Ajuste de Regresión Lineal Simple Ajuste de Regresión Lineal Simple Hugo Alberto Brango García 1 1 Universidad de Córdoba Estadística II Mayo de 2014 Análisis de Regresión Mayo de 2014 1 / 33 Supuestos sobre los residuales del modelo Normalidad

Más detalles

Unidad Temática 3: Estadística Analítica. Unidad 9 Regresión Lineal Simple Tema 15

Unidad Temática 3: Estadística Analítica. Unidad 9 Regresión Lineal Simple Tema 15 Unidad Temática 3: Estadística Analítica Unidad 9 Regresión Lineal Simple Tema 15 Estadística Analítica CORRELACIÓN LINEAL SIMPLE Indica la fuerza y la dirección de una relación lineal proporcional entre

Más detalles

Regresión Lineal. 15 de noviembre de Felipe Bravo Márquez

Regresión Lineal. 15 de noviembre de Felipe Bravo Márquez Felipe José Bravo Márquez 15 de noviembre de 2013 Introducción Un modelo de regresión se usa para modelar la relación de una variable dependiente y numérica con n variables independientes x 1, x 2,...,

Más detalles

Regresión lineal SIMPLE MÚLTIPLE N A Z IRA C A L L E J A

Regresión lineal SIMPLE MÚLTIPLE N A Z IRA C A L L E J A Regresión lineal REGRESIÓN LINEAL SIMPLE REGRESIÓN LINEAL MÚLTIPLE N A Z IRA C A L L E J A Qué es la regresión? El análisis de regresión: Se utiliza para examinar el efecto de diferentes variables (VIs

Más detalles

Tema 10: Introducción a los problemas de Asociación y Correlación

Tema 10: Introducción a los problemas de Asociación y Correlación Tema 10: Introducción a los problemas de Asociación y Correlación Estadística 4 o Curso Licenciatura en Ciencias Ambientales Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación

Más detalles

Modelo de Regresión Lineal

Modelo de Regresión Lineal Modelo de Regresión Lineal Álvaro José Flórez 1 Escuela de Ingeniería Industrial y Estadística Facultad de Ingenierías Febrero - Junio 2012 Introducción Un ingeniero, empleado por un embotellador de gaseosas,

Más detalles

Lección 3. Análisis conjunto de dos variables

Lección 3. Análisis conjunto de dos variables Lección 3. Análisis conjunto de dos variables Estadística Descriptiva Parcialmente financiado a través del PIE13-04 (UMA) GARCÍA TEMA 3. ANÁLII CONJUNTO DE DO VARIABLE 3.1 COVARIANZA COEFICIENTE DE CORRELACIÓN

Más detalles

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

Regresión múltiple. Demostraciones. Elisa Mª Molanes López Regresión múltiple Demostraciones Elisa Mª Molanes López El modelo de regresión múltiple El modelo que se plantea en regresión múltiple es el siguiente: y i = β 0 + β 1 x 1i + β 2 x 2i +...+ β k x ki +

Más detalles

Tema 3: Análisis de datos bivariantes

Tema 3: Análisis de datos bivariantes Tema 3: Análisis de datos bivariantes 1 Contenidos 3.1 Tablas de doble entrada. Datos bivariantes. Estructura de la tabla de doble entrada. Distribuciones de frecuencias marginales. Distribución conjunta

Más detalles

La distribucio n normal multivariante. Estadı stica II Tema 4: Regresio n mu ltiple. Ejemplos de densidades normales en dimensio n 2

La distribucio n normal multivariante. Estadı stica II Tema 4: Regresio n mu ltiple. Ejemplos de densidades normales en dimensio n 2 La distribucio n normal multivariante El vector aleatorio X es normal (p-dimensional) con vector de medias µ y matriz de covarianzas Σ (notacio n: X N(µ, Σ)) si tiene densidad dada por: f (x) = Σ / (π)

Más detalles

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple ESTDÍSTIC PLICD Grado en Nutrición Humana y Dietética Planteamiento del problema Tema 4: Regresión lineal simple Recta de regresión de mínimos cuadrados El modelo de regresión lineal simple IC y contrastes

Más detalles

REGRESIÓN Y ESTIMACIÓN TEMA 1: REGRESIÓN LINEAL SIMPLE

REGRESIÓN Y ESTIMACIÓN TEMA 1: REGRESIÓN LINEAL SIMPLE UNIDAD 3 REGRESIÓN Y ESTIMACIÓN TEMA 1: REGRESIÓN LINEAL SIMPLE Relación entre variables de interés 1 Relación entre variables de interés Muchas decisiones gerenciales se basan en la relación entre 2 o

Más detalles

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows. TEMA 12 REGRESIÓN LINEAL Mediante la regresión lineal se busca hallar la línea recta que mejor explica la relación entre unas variables independientes o variables de exposición y una variable dependiente

Más detalles

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 4)

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 4) OBJETIVOS DE APRENDIZAJE: TEMA Nº ANÁLISIS CONJUNTO DE DOS VARIABLES Distinguir entre variables cualitativas y cuantitativas, y saber elegir los métodos en cada caso. Conocer métodos gráficos y cuantitativos

Más detalles

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento.

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento. UNIVERSIDAD DE ATACAMA FACULTAD DE CIENCIAS JURÍDICAS / CARRERA DE TRABAJO SOCIAL TECNOLOGÍA INFORMÁTICA I (SPSS) ESTADÍSTICA DESCRIPTIVA CON MÁS DE UNA VARIABLE Profesor: Hugo S. Salinas. Primer Semestre

Más detalles

Análisis de regresión y correlación lineal

Análisis de regresión y correlación lineal Análisis de regresión y correlación lineal En las unidades anteriores hemos aplicado metodologías estadísticas para analizar la información de una variable desde una o más muestras utilizando las herramientas

Más detalles

Modelación estadística: La regresión lineal simple

Modelación estadística: La regresión lineal simple Modelación estadística: La regresión lineal simple Gabriel Cavada Ch. 1 1 División de Bioestadística, Escuela de Salud Pública, Universidad de Chile. Statistical modeling: Simple linear regression Cuando

Más detalles

Bioestadística. Curso Práctica: La recta de regresión

Bioestadística. Curso Práctica: La recta de regresión Bioestadística. Curso 2012-2013 Carmen M a Cadarso, M a del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Índice 1. Introducción 2 2. El diagrama de dispersión 2 3. Covarianza 4 4. Coeciente de correlación

Más detalles

Tema 2: Análisis de datos bivariantes

Tema 2: Análisis de datos bivariantes Tema 2: Análisis de datos bivariantes Los contenidos a desarrollar en este tema son los siguientes: 1. Tablas de doble entrada. 2. Diagramas de dispersión. 3. Covarianza y Correlación. 4. Regresión lineal.

Más detalles

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE ESCUELA UNIVERSITARIA DE ENFERMERIA DE TERUEL 1 er CURSO DE GRADO DE ENFERMERIA Estadística en Ciencias de la Salud 7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE PROFESOR Dr. Santiago

Más detalles

Estadística II Examen Final 19/06/2015 Soluciones. Responda a las preguntas siguientes en los cuadernillos de la Universidad

Estadística II Examen Final 19/06/2015 Soluciones. Responda a las preguntas siguientes en los cuadernillos de la Universidad Estadística II Examen Final 19/06/2015 Soluciones Responda a las preguntas siguientes en los cuadernillos de la Universidad Utilice diferentes cuadernillos para responder a cada uno de los ejercicios Indique

Más detalles

TEMA 10 Correlación y regresión. El modelo de regresión simple

TEMA 10 Correlación y regresión. El modelo de regresión simple TEMA 10 Correlación y regresión. El modelo de regresión simple Karl Pearson (1857-1936) 1. Introducción. Modelos matemáticos 2. Métodos numéricos. Resolución de sistemas lineales y ecuaciones no lineales

Más detalles

Unidad Temática 3: Estadística Analítica. Unidad 9 Correlación y Regresión Lineal Simple

Unidad Temática 3: Estadística Analítica. Unidad 9 Correlación y Regresión Lineal Simple Unidad Temática 3: Estadística Analítica Unidad 9 Correlación y Regresión Lineal Simple Análisis de Correlación Creado por Karl Pearson en 1920. Tiene el propósito de medir el grado de asociación observado

Más detalles

Tema 8: Regresión y Correlación

Tema 8: Regresión y Correlación Tema 8: Regresión y Correlación Estadística. 4 o Curso. Licenciatura en Ciencias Ambientales Licenciatura en Ciencias Ambientales (4 o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 1 / 12 Índice

Más detalles

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias Estructura de este tema Tema 4 Regresión lineal simple José R. Berrendero Departamento de Matemáticas Universidad utónoma de Madrid Planteamiento del problema. Ejemplos Recta de regresión de mínimos cuadrados

Más detalles

TEMA 2 Diseño de experimentos: modelos con varios factores

TEMA 2 Diseño de experimentos: modelos con varios factores TEMA 2 Diseño de experimentos: modelos con varios factores José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Análisis de Datos - Grado en Biología Esquema del tema Modelo bifactorial

Más detalles

TEMA 4 CUESTIONARIO DE AUTOEVALUACIÓN

TEMA 4 CUESTIONARIO DE AUTOEVALUACIÓN 4.5.- En cuál de los siguientes casos se podría utilizar la varianza residual en lugar del coeficiente de determinación para medir la calidad del ajuste? Con el mismo conjunto de datos y dos ajustes distintos.

Más detalles

Estadística aplicada al medio ambiente

Estadística aplicada al medio ambiente Estadística aplicada al medio ambiente III. Regresión lineal 3 o de CC. AA. Departamento de Matemáticas Universidad Autónoma de Madrid 2011/12 Planteamiento Modelo Estimación de parámetros Intervalos de

Más detalles

ANEXO 3-A LA LECTURA DE UNA ESPECIE DE COMPUTADORA

ANEXO 3-A LA LECTURA DE UNA ESPECIE DE COMPUTADORA ANEXO 3-A LA LECTURA DE UNA ESPECIE DE COMPUTADORA La presente sección busca echar un vistazo en el mundo del análisis de regresión. Presentamos, pues, tres extractos de salidas de computadora que provienen

Más detalles

INTRODUCCIÓN A REGRESIÓN LINEAL. Simple y Múltiple

INTRODUCCIÓN A REGRESIÓN LINEAL. Simple y Múltiple 1 INTRODUCCIÓN A REGRESIÓN LINEAL Simple y Múltiple 2 Introducción Aprendizaje Supervisado Predicción: estimar una función f(x) de forma que y = f(x) Donde Y puede ser: Número real: Regresión Categorías:

Más detalles

Folleto de Estadísticas. Teoría del 2do Parcial

Folleto de Estadísticas. Teoría del 2do Parcial Folleto de Estadísticas Teoría del 2do Parcial 2012 Variables aleatorias conjuntas continuas: Sean X y Y dos variables aleatorias continuas con ellas se asocia una función denominada función de densidad

Más detalles

Regresión ponderada y falta de ajuste

Regresión ponderada y falta de ajuste Capítulo 4 Regresión ponderada y falta de ajuste 4.1. Introducción En este capítulo se presentan la regresión ponderada y la prueba de falta de ajuste como un conjunto adicional de herramientas usadas

Más detalles

UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE CIENCIAS NATURALES Y MUSEO CÁTEDRA DE ESTADÍSTICA CLASE ESPECIAL. Tema:

UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE CIENCIAS NATURALES Y MUSEO CÁTEDRA DE ESTADÍSTICA CLASE ESPECIAL. Tema: UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE CIENCIAS NATURALES Y MUSEO CÁTEDRA DE ESTADÍSTICA CLASE ESPECIAL Tema: Correlación múltiple y parcial. Ecuaciones y planos de regresión La Plata, septiembre

Más detalles

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística Regresión lineal Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística Universidad Católica del Maule Facultad de Ciencias Básicas Pedagogía en Matemática Estadística I 01 de enero de 2012

Más detalles

Estadística II Examen final junio 27/6/17 Curso 2016/17 Soluciones

Estadística II Examen final junio 27/6/17 Curso 2016/17 Soluciones Estadística II Examen final junio 27/6/7 Curso 206/7 Soluciones Duración del examen: 2 h y 5 min. (3 puntos) Los responsables de un aeropuerto afirman que el retraso medido en minutos en el tiempo de salida

Más detalles

Multiple Linear Regression

Multiple Linear Regression Multiple Linear Regression Aniel Nieves-González Aniel Nieves-González () LSP 1 / 16 Considere el ejemplo en cual queremos modelar las ventas en una cadena de tiendas por departamento. La v.a. dependiente

Más detalles

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia Estudio de Caso: Estudio Morfología Coeficiente de Correlación Considere el archivo Estudio Morfología.sav.

Más detalles

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis TODO ECONOMETRIA Bondad del ajuste Contraste de hipótesis Índice Bondad del ajuste: Coeficiente de determinación, R R ajustado Contraste de hipótesis Contrastes de hipótesis de significación individual:

Más detalles

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple Pronósticos, Series de Tiempo y Regresión Capítulo 4: Regresión Lineal Múltiple Temas Modelo de regresión lineal múltiple Estimaciones de Mínimos Cuadrados Ordinarios (MCO); estimación puntual y predicción

Más detalles

ESTADÍSTICA. Tema 4 Regresión lineal simple

ESTADÍSTICA. Tema 4 Regresión lineal simple ESTADÍSTICA Grado en CC. de la Alimentación Tema 4 Regresión lineal simple Estadística (Alimentación). Profesora: Amparo Baíllo Tema 4: Regresión lineal simple 1 Estructura de este tema Planteamiento del

Más detalles

Prácticas Tema 4: Modelo con variables cualitativas

Prácticas Tema 4: Modelo con variables cualitativas Prácticas Tema 4: Modelo con variables cualitativas Ana J. López y Rigoberto Pérez Departamento de Economía Aplicada. Universidad de Oviedo PRACTICA 4.1- Se dispone de información sobre 16 familias sobre

Más detalles

CAPÍTULO 5. Proyecciones de las Fuentes de Empleo Características Generales del Modelo de Regresión Lineal Múltiple de las Fuentes

CAPÍTULO 5. Proyecciones de las Fuentes de Empleo Características Generales del Modelo de Regresión Lineal Múltiple de las Fuentes CAPÍTULO 5 Proyecciones de las Fuentes de Empleo 5.1. Características Generales del Modelo de Regresión Lineal Múltiple de las Fuentes de Empleo a Nivel Nacional. Para la proyección de las fuentes de empleo

Más detalles

REGRESIÓN LINEAL SIMPLE

REGRESIÓN LINEAL SIMPLE REGRESIÓN LINEAL SIMPLE 1. El problema de la regresión lineal simple. Método de mínimos cuadrados 3. Coeficiente de regresión 4. Coeficiente de correlación lineal 5. El contraste de regresión 6. Inferencias

Más detalles

Regresión Lineal Múltiple. Dr. Víctor Aguirre Torres, ITAM. Guión 12.

Regresión Lineal Múltiple. Dr. Víctor Aguirre Torres, ITAM. Guión 12. Regresión Lineal Múltiple 1 Propósito Cuantificar el cambio en el valor esperado de una variable (y) en función del cambio simultáneo otras variables (x 1, x 2,..., x p ). y=variable dependiente (cuantitativa)

Más detalles

T2. El modelo lineal simple

T2. El modelo lineal simple T2. El modelo lineal simple Ana J. López y Rigoberto Pérez Dpto Economía Aplicada. Universidad de Oviedo Curso 2010-2011 Curso 2010-2011 1 / 40 Índice 1 Planteamiento e hipótesis básicas 2 Estimación de

Más detalles

Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de Peso sobre Altura Datos en Encuesta.sgd a) Estudio descriptivo de ambas variables

Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de Peso sobre Altura Datos en Encuesta.sgd a) Estudio descriptivo de ambas variables EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de Peso sobre Altura Datos en Encuesta.sgd a) Estudio descriptivo de ambas variables Marco elementos atípicos: b) Obtener la recta de regresión y comprobar

Más detalles

Universidad Nacional Abierta Estadística Aplicada (Cód. 746) Vicerrectorado Académico Cód. Carrera: Área de Matemática Fecha:

Universidad Nacional Abierta Estadística Aplicada (Cód. 746) Vicerrectorado Académico Cód. Carrera: Área de Matemática Fecha: Segunda Prueba Parcial Lapso 7-746 /6 Universidad Nacional Abierta Estadística Aplicada (Cód. 746) Vicerrectorado Académico Cód. Carrera: 6-6 - 6 Fecha: --8 MODELO DE RESPUESTAS Objetivos 5 al 8 OBJ 5

Más detalles

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión INTERPRETACIÓN DE LA REGRESIÓN Este gráfico muestra el salario por hora de 570 individuos. 1 Interpretación de la regresión. regresión Salario-Estudios Source SS df MS Number of obs = 570 ---------+------------------------------

Más detalles

Capítulo 8. Autocorrelación Serial Roldán Andrés Rosales. Econometría Aplicada Utilizando R

Capítulo 8. Autocorrelación Serial Roldán Andrés Rosales. Econometría Aplicada Utilizando R Capítulo 8. Autocorrelación Serial Roldán Andrés Rosales Objetivo El propósito de este capítulo es que el usuario conozca y aprenda a resolver el problema de la autocorrelación serial en un modelo de estimación

Más detalles

Escuela de Economía Universidad de Carabobo Profesor: Exaú Navarro Pérez.

Escuela de Economía Universidad de Carabobo Profesor: Exaú Navarro Pérez. Escuela de Economía Universidad de Carabobo Profesor: Exaú Navarro Pérez. Econometría Regresión Múltiple: Municipio Ocupados Población Analfabeta Mayor de 10 años Total de Viviendas Bejuma 18.874 1.835

Más detalles

Estadística Inferencial

Estadística Inferencial Estadística Inferencial 1 Sesión No. 9 Nombre: Regresión y correlación lineal Contextualización En la administración, las decisiones suelen basarse en la relación entre dos o más variables. En esta sesión

Más detalles

Modelo de Análisis de la Covarianza. Introducción al modelo de Medidas Repetidas

Modelo de Análisis de la Covarianza. Introducción al modelo de Medidas Repetidas Modelo de Análisis de la Covariza. Introducción al modelo de Medidas Repetidas Modelo de Análisis de la Covariza Introducción El diseño por bloques se considera para eliminar el efecto de los factores

Más detalles

PRÁCTICA 3. REGRESIÓN LINEAL SIMPLE CON SPSS Ajuste de un modelo de regresión lineal simple Porcentaje de variabilidad explicado

PRÁCTICA 3. REGRESIÓN LINEAL SIMPLE CON SPSS Ajuste de un modelo de regresión lineal simple Porcentaje de variabilidad explicado PÁCTICA 3. EGESIÓN LINEAL SIMPLE CON SPSS 3.1. Gráfico de dispersión 3.2. Ajuste de un modelo de regresión lineal simple 3.3. Porcentaje de variabilidad explicado 3.4 Es adecuado este modelo para ajustar

Más detalles

Ejemplo simple de regresión lineal simple y múltiple (para realizar en el aula)

Ejemplo simple de regresión lineal simple y múltiple (para realizar en el aula) Ejemplo simple de regresión lineal simple y múltiple (para realizar en el aula) OBJETIVOS: 1. Familiarización con la terminología y funciones ligadas a un análisis de regresión lineal 2. Establecer las

Más detalles

TALLER DE INTRODUCCIÓN A LOS NEGOCIOS

TALLER DE INTRODUCCIÓN A LOS NEGOCIOS REGRESIÓN LINEAL SIMPLE INTRODUCCIÓN Si sabemos que existe una relación entre una variable denominada dependiente y otras denominadas independientes (como por ejemplo las existentes entre: la experiencia

Más detalles

Estadística II Examen final enero 19/1/17 Curso 2016/17 Soluciones Duración del examen: 2 h y 15 min

Estadística II Examen final enero 19/1/17 Curso 2016/17 Soluciones Duración del examen: 2 h y 15 min Estadística II Examen final enero 19/1/17 Curso 016/17 Soluciones Duración del examen: h y 15 min 1. 3 puntos El Instituto para la Diversificación y Ahorro de la Energía IDAE ha publicado un estudio sobre

Más detalles

Aplicación del Análisis de la Varianza para estudiar el tiempo de acceso en las aulas informáticas

Aplicación del Análisis de la Varianza para estudiar el tiempo de acceso en las aulas informáticas Aplicación del Análisis de la Varianza para estudiar el tiempo de acceso en las aulas informáticas Apellidos, nombre Capilla Romá, Carmen 1 (ccapilla@eio.upv.es) Departamento Centro 1 Estadística e Investigación

Más detalles

Estadística Inferencial. Sesión No. 9 Regresión y correlación lineal

Estadística Inferencial. Sesión No. 9 Regresión y correlación lineal Estadística Inferencial Sesión No. 9 Regresión y correlación lineal Contextualización En la administración, las decisiones suelen basarse en la relación entre dos o más variables. En esta sesión se estudia

Más detalles

Cálculos de Regresión Logística en R, Caso de una covariable.

Cálculos de Regresión Logística en R, Caso de una covariable. Cálculos de Regresión Logística en R, Caso de una covariable. Carga de datos (Tabla 1.1, Hosmer-Lemeshow): CH=read.table( CHDAGE.txt,header = T) attach(ch) Gráfico de Dispersión: plot(age,chd,xlab= Edad,

Más detalles

ANÁLISIS DE DATOS II

ANÁLISIS DE DATOS II ANÁLISIS DE DATOS II Febrero 1998 Problema 1.- En una determinada prueba de razonamiento mecánico aplicada a 20 personas (10 mujeres y 10 varones), la media ha sido de 5 puntos y la desviación tipo de

Más detalles

Distribución bidimensional. Marginales. Correlación lineal. Rectas de regresión.

Distribución bidimensional. Marginales. Correlación lineal. Rectas de regresión. REGRESIÓN LINEAL. Distribución bidimensional. Marginales. Correlación lineal. Rectas de regresión. Dada una población, hasta ahora hemos estudiado cómo a partir de una muestra extraída de ella podemos

Más detalles

Taller I Econometría I

Taller I Econometría I Taller I Econometría I 1. Considere el modelo Y i β 1 + ɛ i, i 1,..., n donde ɛ i i.i.d. N (0, σ 2 ). a) Halle el estimador de β 1 por el método de mínimos cuadrados ordinarios. Para realizar el procedimiento

Más detalles

Teoría de la decisión

Teoría de la decisión 1.- Un problema estadístico típico es reflejar la relación entre dos variables, a partir de una serie de Observaciones: Por ejemplo: * peso adulto altura / peso adulto k*altura * relación de la circunferencia

Más detalles

Ing. MSc. Luis Fernando Restrepo Gómez

Ing. MSc. Luis Fernando Restrepo Gómez Ing. MSc. Luis Fernando Restrepo Gómez Introducción a la Valuación Masiva METODOLOGÍA VALUATORIA Sigue los pasos de la metodología científica, y se apoya en el análisis estadístico de datos comparables.

Más detalles

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada. ANEXO 1. CONCEPTOS BÁSICOS Este anexo contiene información que complementa el entendimiento de la tesis presentada. Aquí se exponen técnicas de cálculo que son utilizados en los procedimientos de los modelos

Más detalles

Elaboró: Luis Casas Vilchis

Elaboró: Luis Casas Vilchis Correlación de Pearson (r P, r) Una correlación se define como la coincidencia en el patrón de valores altos de una variable con los valores altos en la otra variable, y bajos con bajos y moderados con

Más detalles

Matemática Aplicada y Estadística - Farmacia Soluciones del Primer Examen Parcial - Grupo 3

Matemática Aplicada y Estadística - Farmacia Soluciones del Primer Examen Parcial - Grupo 3 1. Se está haciendo un estudio de medicamentos diferentes que contienen un principio activo común La distribución de frecuencias se indica en la tabla que sigue: Cantidad de sustancia mg [10,20 [20,30

Más detalles

TEMA 3 Modelo de regresión simple

TEMA 3 Modelo de regresión simple TEMA 3 Modelo de regresión simple José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Análisis de Datos - Grado en Biología Estructura de este tema Planteamiento del problema.

Más detalles

ECONOMETRÍA I. Tema 4: El Modelo de Regresión Lineal Múltiple: inferencia y validación

ECONOMETRÍA I. Tema 4: El Modelo de Regresión Lineal Múltiple: inferencia y validación ECONOMETRÍA I Tema 4: El Modelo de Regresión Lineal Múltiple: inferencia y validación Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía Alexandra Soberon (UC) ECONOMETRÍA

Más detalles