UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE CIENCIAS NATURALES Y MUSEO CÁTEDRA DE ESTADÍSTICA CLASE ESPECIAL. Tema:

Documentos relacionados
ESTADÍSTICA. Tema 4 Regresión lineal simple

Medidas de dispersión

Tercera práctica de REGRESIÓN.

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

Tema 2. Descripción Conjunta de Varias Variables

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

REGRESIÓN LINEAL SIMPLE, COEFICIENTE DE DETERMINACIÓN Y CORRELACIONES (EJERCICIOS RESUELTOS)

Estadística y sus aplicaciones en Ciencias Sociales 7. El modelo de regresión simple. Facultad de Ciencias Sociales - UdelaR

Calculamos la covarianza. (La covarianza indica el sentido de la correlación entre las variables):

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Tema 1.- Correlación Lineal

LA CIRCUNFERENCIA. La circunferencia es la sección producida por un plano perpendicular al eje.

Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION.

Y = ßo + ß1X + ε. La función de regresión lineal simple es expresado como:

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

Teorema Central del Límite (1)

Diplomatura en Ciencias Empresariales X Y

UNIVERSIDAD CENTROAMERICANA JOSE SIMEON CAÑAS FACULTAD DE CIENCIAS ECONOMICAS Y SOCIALES DEPARTAMENTO DE ADMINISTRACIÓN DE EMPRESAS

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

478 Índice alfabético

TRABAJO PRÁCTICO ESTADISTICA APLICADA (746)

Análisis de Regresión Lineal Simple para Predicción. (Simple Linear Regression Analysis for Prediction)

SESIÓN PRÁCTICA 7: REGRESION LINEAL SIMPLE PROBABILIDAD Y ESTADÍSTICA. PROF. Esther González Sánchez. Departamento de Informática y Sistemas

RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO

4,2 + 0,67 Y c) R 2 = 0, En la estimación de un modelo de regresión lineal se ha obtenido:

TEMA 4 ELABORACIÓN Y COMPROBACIÓN DE LAS HIPÓTESIS DE INVESTIGACIÓN

Universidad de Sonora Departamento de Matemáticas Área Económico Administrativa

Preparación para Álgebra 1 de Escuela Superior

Estadística Inferencial. Estadística Descriptiva

Capítulo 6. Análisis bivariante de variables

Econometría de series de tiempo aplicada a macroeconomía y finanzas

Scientia Et Technica ISSN: Universidad Tecnológica de Pereira Colombia

Regresión Polinomial. StatFolio de Ejemplo: polynomial reg.sgp

APÉNDICE I. Calibración de la señal cromatográfica como función de la concentración: Sistema Ternario

v = V max[s] K m +[S]

Hoja de Ejercicios 4 Análisis de regresión con información cualitativa

CONTENIDOS MÍNIMOS SEPTIEMBRE. DEPARTAMENTO DE MATEMÁTICAS

3.1 Proyección de la Demanda. Fundación Bariloche. Noviembre de Documento PDF.

MODELO DE REGRESIÓN LINEAL Y MÚLTIPLE ESTADÍSTICA APLICADA AL MEDIO AMBIENTE Grado en Ciencias Ambientales

MATEMÁTICAS APLICADAS A LAS CC. SOCIALES I. Examen de la tercera evaluación. Nombre y apellidos Fecha: 10 de junio de 2010

2. Análisis de varianza

Facultad de Ciencias Sociales - Universidad de la República

Juan Carlos Colonia INTERVALOS DE CONFIANZA

1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN MÚLTIPLE Julián de la Horra Departamento de Matemáticas U.A.M.

CDEE. Cuestiones 3er Ejercicio. 0 si x 1. k(x + 1) + x2 1. k(x + 1) x si x > 1

Estadística Espacial en Ecología del Paisaje

ENUNCIADOS DE PROBLEMAS

Multicolinealidad. Universidad de Granada. RSG Incumplimiento de las hipótesis básicas en el modelo lineal uniecuacional múltiple 1 / 17

Pruebas de Hipótesis-ANOVA. Curso de Seminario de Tesis Profesor QF Jose Avila Parco Año 2016

2.- Tablas de frecuencias

El Modelo de Regresión Simple

Tema 2: Estadística Descriptiva Bivariante.

REGRESIÓN LINEAL CON SPSS

Módulo de Estadística

En la notación C(3) se indica el valor de la cuenta para 3 kilowatts-hora: C(3) = 60 (3) = 1.253

Curso de Estadística Básica

Métodos Estadísticos de la Ingeniería Tema 7: Momentos de Variables Aleatorias Grupo B

Tema 2 Datos multivariantes

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO. Facultad de Medicina Veterinaria y Zootecnia. Licenciatura en Medicina Veterinaria y Zootecnia

Esquema (1) Análisis de la Varianza y de la Covarianza. ANOVA y ANCOVA. ANOVA y ANCOVA 1. Análisis de la Varianza de 1 Factor

Cointegración El caso bivariado

Exactitud y Linearidad del Calibrador

Tema 8. Análisis de dos variables Ejercicios resueltos 1

Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24

Se usa para encontrar un numero relativamente pequeño de variables nuevas que contengan la mayor cantidad de info posible del conjunto de datos

Proyecto. Tema 6 sesión 2: Generación de Rectas, Circunferencias y Curvas. Geometría Analítica. Isidro Huesca Zavaleta

Distribución Chi (o Ji) cuadrada (χ( 2 )

OTRAS HERRAMIETAS ESTADISTICAS UTILES. Dra. ALBA CECILIA GARZON

TEMA 3: Contrastes de Hipótesis en el MRL

3. RESULTADOS. Los resultados de la descapsulación de quistes fueron los siguientes : Eficiencia de eclosión (EE) : 382.

13. Utilizar la fórmula del término general y de la suma de n términos consecutivos

INFERENCIA ESTADISTICA

Tema 13. Los caracteres cuantitativos. Genética CC.MM.

ESTADÍSTICA DESCRIPTIVA

FACTORIAL DE CORRESPONDENCIAS SIMPLES Y MÚLTIPLES CRIVISQ

Dispone de 1 hora para resolver las siguientes cuestiones planteadas.

Transformaciones de Box-Cox

MÓDULO 1: GESTIÓN DE CARTERAS

OPTIMIZACIÓN EXPERIMENTAL. Ing. José Luis Zamorano E.

a) La ecuación del plano que pasa por el punto ( 1, 1, 0 ). (3 puntos) b) La ecuación del plano que es paralelo a la recta r.

Estadística. Análisis de datos.

La representación gráfica de una función cuadrática es una parábola.

ESTADÍSTICA CON EXCEL

DISTANCIA ENTRE DOS PUNTOS EN EL PLANO CARTESIANO.

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL

UNIDAD 6. Estadística

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2012

EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I.

CAPÍTULO VI RESULTADOS PESO (50 COMPRIMIDOS) INICIAL PESO (50 COMPRIMIDOS) FINAL PESO (50 COMPRIMIDOS) INICIAL PESO DEL PLATO

Regresión con variables independientes cualitativas

1. Caso no lineal: ajuste de una función potencial

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

Distribuciones bidimensionales. Regresión.

Fundamentos de Estadística descriptiva

Transcripción:

UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE CIENCIAS NATURALES Y MUSEO CÁTEDRA DE ESTADÍSTICA CLASE ESPECIAL Tema: Correlación múltiple y parcial. Ecuaciones y planos de regresión La Plata, septiembre de 2014 Correlación múltiple y parcial. Ecuaciones y planos de regresión Contenido: Correlación y regresión simple Introducción al análisis multivariado Correlación múltiple y parcial Ecuaciones y planos de regresión 1

Correlación y regresión simple. El análisis bivariado analiza la relación entre 2 variables. (Correlación y regresión) Correlación lineal: Mide el grado de relación entre 2 variables (X e Y). Coeficiente de correlación lineal (r), o del producto momento de Pearson (varía entre ± 1 y 0) rxy = Sxy /SxSy Donde: Sxy es la covarianza de x e y; Sx y Sy son los desvíos estándar de x e y (raíz cuadrara de las varianzas). Ecuación de la regresión lineal simple (ecuación de la recta): Y i = α + βx i Donde: Y: var dependiente X: var. Independiente α: ordenada al origen (intersección) β: pendiente (coeficiente de regresión) (α y β con parámetros poblacionales) Como en una población es improbable que los datos se ubiquen en una recta: Y i = α + βx i + ε i (donde ε i : error o residuo) Ecuación de regresión muestral: Ŷ i = a + bx i Los estadísticos a y b son estimadores de α y β (parámetros poblacionales). 2

ANOVA de la regresión: Evalúa la significancia del modelo de regresión. F = Var Explicada Var Residual (no explicada) (Y Y) 2 = (Ŷ Y) 2 + (Y Ŷ) 2 Variación total = Variación explicada + Variación no explicada Y: valor observado o real Y: media aritmética de X Ŷ: valor estimado de X con la ecuación de la recta de regresión r = ± Var Expl/Var Total Coeficiente de determinación (R 2 ): Porcentaje de variación explicado por el modelo de regresión Ejemplo 1: Análisis de regresión lineal simple x y ŷ 2 5 5,9 4 7 8,3 6 14 10,8 8 12 13,2 10 18 15,7 12 16 18,2 7 12 a = 3,40 b = 1,23 r = 0,90 R 2 = 0,81 y = 3,4 + 1,23 x 3

Análisis multivariado Cuando tenemos más de 3 variables y queremos analizar su relación podemos realizar un análisis de la correlación y regresión múltiple. Ejemplos: Crecimiento de una planta en función de variables climáticas y edáficas. Contenido de materia orgánica de una laguna en función de la temperatura del agua, ph, vientos, etc. Tasa de reproducción de un insecto en función del alimento, la humedad, el tiempo de desarrollo, etc. Nivel de contaminación de un área en función de características climáticas, urbanísticas e industriales. Tenor extraíble de un oligoelemento en función de las características del sustrato (materia orgánica, ph, arcillas). Correlación múltiple y parcial: La correlación múltiple mide el grado de correlación que existe entre 3 o más variables. Se asume distribución normal multivariada. Coeficiente de Correlación Múltiple (R y.1 k ): mide la covariación conjunta de una variable (Y) con otras variables (X1, X2). R = 1 S2 1.23 S²1 Donde S 1 es la desviación típica de la variable dependiente (Y). S 1.23 es el error típico de la estimaciones de Y a partir de las dos variables independientes (X 1 y X 2 ) utilizando la ecuación de regresión múltiple. 4

Correlación múltiple y parcial: En el análisis de regresión múltiple R mide el grado de ajuste entre los valores reales y los valores estimados (0 y +1). El coeficiente de correlación múltiple (R) es la raíz cuadrada positiva (+) del Coeficiente de Determinación Múltiple (R²). Debido a que R² no está ajustado al número de grados de libertad, tiende a sobreestimar al parámetro poblacional ρ² y.1 k. Puede mejorarse si se calcula: R²aj = 1 (1 - R²)(n-1/n-k-1) Donde: R²aj: Coeficiente de Determinación ajustado. n: número de observaciones; k: número de variables independientes en el modelo. Correlación múltiple y parcial: Coeficiente de correlación parcial: Mide la correlación entre un par de variables (1 y 2) manteniendo las demás variables (3) constantes. r 12.3 = r 12 - r 13 r 2 (1 - r 2 13) (1 - r 2 23) Donde: r 12.3 es el coeficiente de correlación parcial entre las variables 1 y 2, manteniendo la variable 3 constante; y r 12, r 13, r 23 son los coeficientes de correlación simple entre cada par de variables. 5

Ejemplo de cálculo de la correlación parcial: X1: longitud de antena X2: longitud de Ala X3: longitud de tórax r 12 = 0,85 r 13 = 0,75 r 23 = 0,86 r A12 - r 13 r 23 0,85 (0,75)(0,86) r 12.3 = = = 0,61 (1 - r 2 13) (1 - r 2 23) (1 0,75 2 )(1 0,86 2 ) La correlación parcial entre la variable longitud de la antena (X1) y longitud del ala (X2), manteniendo constante la variable longitud de tórax (X3) es de 0,61. A pesar de que la longitud del tórax podría explicar el tamaño general, no es suficiente para explicar la correlación entre la antena y el ala. Interpretación de la correlación parcial: La correlación entre Y1 y Y2 (r 12 ) se debe a una causa común (Y4), pero como otras variables (Y3, Y5) también determinan su valor, la correlación entre estas variables no será perfecta. La correlación parcial r 12.4, debiera dar un valor de r cercano a 0 (cero), ya que no existe covariación entre las variables Y1 y Y2 cuando Y4 no varía. Ejemplo: puede ser interesante analiza la relación entre distintas partes de un organismo (cabeza, tórax, alas, brazos, piernas), manteniendo el tamaño total del mismo constante. 6

Ecuaciones y planos de regresión: El análisis de estimación de una variable dependiente (Y) en función de varias variables independientes (X 1, X 2,, X n ), se denomina regresión múltiple. Permite analizar de qué modo una variable depende de las variaciones en otras variables. Ecuación de regresión lineal múltiple para estimar una variable dependiente (Y) a partir de dos variables independientes (X 1 ; X 2 ): Y j = α + β 1 X 1j + β 2 X 2j Donde: Yj es la variable dependiente X 1 y X 2 : son las variables independientes. α : constante, intersección, valor de Y cuando X 1, y X 2 son igual a cero. β 1 y β 2 : coeficientes de regresión parcial. Expresan cuanto cambia Y en respuesta a un cambio en X 1 o X 2 manteniendo las otras constantes o invariantes. Ecuaciones y planos de regresión: Podemos definir la ecuación en su forma muestral: Ŷ j = a + b 1 X 1j + b 2 X 2j Donde : a es estimador de α; y b 1 y b 2 son estimadores de β 1 y β 2 respectivamente. Este modelo se denomina regresión lineal múltiple debido a la naturaleza lineal (aditiva) de los parámetros de la ecuación (α y β). 7

Ecuaciones y planos de regresión: Un modelo de regresión múltiple (Y; X1 y X2) en un sistema de coordenadas rectangulares tridimensional, se representa con un plano de regresión de Y sobre X 1 y X 2. Con n variables independientes, se define un espacio multidimensional ( superficie de respuesta o hiperplano ). Ecuaciones y planos de regresión: Del mismo que en el caso de la regresión simple, no todos los datos poblacionales se ubicarán sobre el plano, por lo que incluimos un error (ε i ). Y j = α + β 1 X 1j + β 2 X 2j + ε i ε i : es una medida del error o diferencia entre el valor real y el valor estimado por la ecuación (su suma también es cero). 8

Análisis de regresión múltiple (ARM): Analiza la relación entre una variable dependiente (Y) respecto a o en función de un conjunto de variables independientes (X 1 a Xn) en forma simultánea, computando la función lineal que mejor ajuste a los datos (por mínimos cuadrados). Los objetivos del ARM son: i) Establecer una ecuación lineal que permita predecir una porción significativa de la varianza de una variable dependiente (Y) en función de un conjunto reducido de variables independientes (X1,, Xn). ii) Estimar y ajustar un modelo estructural que explique las variaciones observadas en la variable dependiente (Y) en función de las variables independientes consideradas. Ejemplo: Análisis de regresión múltiple (Y; X 1; X 2 ) Y: concentración media anual de SO 2 (ug/m 3 ) 4 variables climáticas: X1: temperatura media anual (º F) X4: velocidad media anual del viento (millas/hora). X5: precipitación media anual (pulgadas) X6: número de días con precipitación al año 2 variables antrópicas: X2: número de fábricas con más de 20 empleados. X3: tamaño poblacional humana (en miles) Datos de Sokal & Rohlf (1995). Procesados con Statistica (7.1) 9

Ejemplo 2: Análisis de regresión múltiple (Y; X 1; X 2 ). Ejemplo 2: Análisis de regresión múltiple (Y; X 1; X 2 ). Ŷ = 77,24 1,05 X 1 + 0,02 X 2 R² = 11,374,09 / 22,037,90 = 0,516 R = R² = 0,5161 = 0,7184 R²aj = 1 (1 - R²)(n-1/n-k-1) = 1 (1 0,516)(41-1/41-2-1) = 0,4906 10

Ejemplo 3: Análisis de regresión múltiple (Y; X 1; X 2; X 3 ). Ŷ = 58,20 0,59 X 1 + 0,07 X 2 0,05 X 3 R² = 13,499,25 / 22,037,90 = 0,613 R = R² = 0,613 = 0,783 Ejemplo 3: Análisis de regresión múltiple (Y; X 1; X 2; X 3 ) Estimación de Y a partir del modelo: Ŷ = 58,20 0,59 X 1 + 0,07 X 2 0,05 X 3 Ciudad 1: X 1 (Temperatura media anual): 70,3 º F X 2 (Número de fábricas con más de 20 empleados): 213 X 3 (Tamaño poblacional humana, en miles): 582.00 0 hab. Ŷ = 58,183 (0,5868)(70,3) + (0,07128)(213) (0,04670)(582) = Y = 4,9 ug SO2/m3 Ŷ (estimado) = 4,9 ug SO2/m3 Y (observado) = 10 ug SO2/m3 11

Resultados Análisis de Regresión Múltiple Ejemplo 2: ARM (Y; X 1; X 2 ) Y = 77,24 1,05 X 1 + 0,02 X 2 R² = 11,374,09 / 22,037,90 = 0,516 R = R² = 0,7184 Ejemplo 3: ARM (Y; X 1; X 2; X 3 ) Y = 58,20 0,59 X 1 + 0,07 X 2 0,05 X 3 R² = 13,499,25 / 22,037,90 = 0,613 R = R² = 0,613 = 0,783 A medida que incremento el número de variables mejora el ajuste del modelo, lo que significa que las nuevas variables independientes muestran una correlación parcial con la variable dependiente. Análisis de regresión múltiple paso a paso A medida que aumentamos el número de variables independientes en un modelo se espera que se incremente el valor del coeficiente de correlación múltiple ( R), salvo que las nuevas variables no estén asociadas con la variable dependiente. Todas las variables aportan por igual al modelo? Cómo seleccionar aquellas que tienen mayor peso relativo? Análisis de regresión múltiple paso a paso: Forward (agregando) or Backward (eliminando) progresivamente. 12

Análisis de regresión múltiple paso a paso Los criterios de selección de variables pueden ser (Forward): i) Aquellas que producen un incremento significativo en el valor de R² (Coeficiente de determinación múltiple). A tal fin, se puede seleccionar aquella variable que tiene el mayor valor de correlación parcial (r y.1 k ). ii) Calcular el valor de F correspondiente al test de significancia del incremento de R² debido a la inclusión de la nueva variable ( valor de F para entrar ). Se incorpora aquella variable que tenga el mayor valor, sólo si es significativo a un nivel especificado. Ambos criterios son coincidentes. El proceso se detiene cuando el valor de F es no significativo en relación a un nivel nominal de P ( valor de P para entrar ). Ejemplo 4: Análisis de regresión múltiple paso a paso (Stepwise: Forward) (Y; X n ). 13

Ejemplo 4: Análisis de regresión múltiple paso a paso (Stepwise: Forward) (Y; X n ). Ejemplo 4: Análisis de regresión múltiple paso a paso (Stepwise: Forward) (Y; X n ). 14

Ejemplo 4: Análisis de regresión múltiple paso a paso (Stepwise: Forward) (Y; X n ). Ejemplo 4: Análisis de regresión múltiple paso a paso A medida que aumentamos el número de variables independientes en un modelo se incrementa el valor del coeficiente de correlación múltiple ( R), salvo que las nuevas variables no estén asociadas con la variable dependiente. Podemos observar el incremento de la varianza explicada y la reducción progresiva de la varianza NO explicada a medida que incluimos nuevas variables independientes (Forward). Del mismo modo podemos ver el efecto de eliminar progresivamente variables independientes del análisis sobre la varianza No explicada (errores o residual), eliminando del modelo aquellas variables que no aporten significativamente al modelo (Backward). De este modo podemos definir aquel modelo de regresión múltiple que tenga el mejor ajuste con el menor número de variables independientes. 15

UNLP FCNYM CLASE ESPECIAL MUCHAS GRACIAS La Plata, septiembre de 2014 Interpretación geométrica de la correlación parcial. Se observa un elipsoide tridimensional con sus respectivas proyecciones bidimensionales (sombreadas). El elipsoide se corta para Y2 = C, generando una elipse que representa la covariación de las variables Y1 y Y3 cuando la variable Y2 se mantiene constante (e igual a C), a medida que esa elipse sea más alargada, mayor será la correlación parcial entre Y1 y Y3. 16