Análisis de Regresión y Correlación Lineal

Documentos relacionados
Teoría de la decisión

3. RELACION ENTRE DOS CONJUNTOS DE DATOS.

Lección 3. Análisis conjunto de dos variables

Dos variables x e y están relacionadas funcionalmente cuando conocida la primera se puede saber con exactitud el valor de la segunda.

ESTADÍSTICA. DISTRIBUCIÓN BIDIMENSIONAL

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

2. ESTADÍSTICAS BIDIMENSIONALES

ANÁLISIS DE DATOS EXPERIMENTALES POR MÍNIMOS CUADRADOS

Distribuciones Bidimensionales.

Unidad IV Introducción a la Regresión y Correlación

Relación funcional Dos variables x e y están relacionadas funcionalmente cuando conocida la primera se

Estadística de dos variables

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

Tema 2: Análisis de datos bivariantes

TEMA 4 CUESTIONARIO DE AUTOEVALUACIÓN

1 JESTADIS\REGRES.DOC

Estadística para el análisis de los Mercados S3_A1.1_LECV1. Estadística Descriptiva Bivariada

ANÁLISIS DE REGRESIÓN N LINEAL

1, 2, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 2, 1, 1, 4, 1

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

ANALISIS DE REGRESIÓN Y CORRELACIÓN LINEAL

CORRELACIÓN Y REGRESIÓN. Raúl David Katz

Definición de Correlación

Regresión: implica la obtención de una ecuación mediante la que podamos estimar el valor medio de una variable.

Problemas donde intervienen dos o más variables numéricas

PROBABILIDAD Y ESTADÍSTICA. Sesión 4 4. REGRESIÓN Y CORRELACIÓN SIMPLE

TEMA 2: DISTRIBUCIONES BIDIMENSIONALES

AJUSTE PLANTEAMIENTO DEL PROBLEMA

2.3.1 Métodos cuantitativos para los pronósticos. MÉTODOS CUANTITATIVOS

Estadís5ca. María Dolores Frías Domínguez Jesús Fernández Fernández Carmen María Sordo. Tema 2. Modelos de regresión

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

PROBLEMAS SOBRE V. ESTAD. BIDIMENSIONALES. PROFESOR: ANTONIO PIZARRO.

Estadís6ca y Métodos Numéricos Tema 6. Modelos de Regresión

La línea recta: Serie1

5. Regresión Lineal Múltiple

Tema 2: Análisis de datos bivariantes

Tema 2: Análisis de datos bidimensionales

CORRELACIÓN LINEAL SIMPLE

UNIDAD Nº4. Ejemplo.- Dados los Gastos de publicidad en los meses enero a julio, los cuales generan los sgts. Ingresos:

MÉTODOS DE INVESTIGACIÓN EN EDUCACIÓN. Tema 9

REGRESIÓN LINEAL SIMPLE

Tema 3. Relación entre dos variables cuantitativas

Elaboró: Luis Casas Vilchis

ANÁLISIS DE REGRESIÓN

3 Regresión y correlación lineales

Tema 2. Descripción Conjunta de Varias Variables

CUESTIONES Y PROBLEMAS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES PROPUESTOS EN EXÁMENES

Práctica 5. Modelos empíricos a partir de datos experimentales

CORRELACIÓN Y REGRESIÓN. Juan José Hernández Ocaña

UN PROBLEMA DE OPTIMIZACIÓN CON CABRI: LA REGRESIÓN LINEAL.

CORRELACION Y REGRESIÓN LINEAL

Tema 8: Regresión y Correlación

X Y

Matemáticas. Bioestadística. Correlación y Regresión Lineales

Tema 3: Análisis de datos bivariantes

Regresión lineal simple y correlación

Ajuste por mínimos cuadrados

Estadística Descriptiva Bivariante con STATGRAPHICS -Dependencia lineal y Regresión-

Estadística Inferencial. Sesión No. 9 Regresión y correlación lineal

Tema 9: Estadística en dos variables (bidimensional)

El ejemplo: Una encuesta de opinión

REGRESIÓN LINEAL SIMPLE

Variables estadísticas bidimensionales: problemas resueltos

Método de cuadrados mínimos

3. Correlación. Introducción. Diagrama de dispersión

peso edad grasas Regresión lineal simple Los datos

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento.

Coeficiente de Correlación

Análisis de regresión lineal simple

Unidad Temática 3: Estadística Analítica. Unidad 9 Correlación y Regresión Lineal Simple

Julio Deride Silva. 4 de junio de 2010

Preliminares Métodos de Ajuste de Curvas AJUSTE DE CURVAS AJUSTE DE CURVAS

Tema 10: Introducción a los problemas de Asociación y Correlación

Universidad de Salamanca - Escuela de Educación y Turismo

Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION.

Tema 1.- Correlación Lineal

FUNCIÓN DE PRODUCCIÓN LINEAL. La función lineal se caracteriza porque las variables están elevadas a la primera potencia.

GRÁFICOS Y FUNCIONES.

Relación entre la altura y la distancia del suelo al ombligo

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

Cuaderno de actividades 1º

Probabilidad y Estadística - Clase 3

Tema 8. Análisis de dos variables Ejercicios resueltos 1

Un modelo para representar una relación aproximadamente

DOCUMENTO 8: ESTADÍSTICA BIDIMENSIONAL

Funciones de varias variables

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Técnicas de Investigación Social

Capitulo. Describir la relación entre dos variables Pearson Prentice Hall. All rights reserved

Regresión y Correlación

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

Syllabus. Curso:SEXTO. Materia:ESTUDIOS MATEMÁTICOS

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:

Ejercicios de Funciones: derivadas y derivabilidad

INTRODUCCIÓN AL ANÁLISIS DE DATOS FEBRERO Código asignatura: EXAMEN MODELO B DURACION: 2 HORAS

4. Regresión Lineal Simple

Bioestadística. En una distribución bidimensional puede ocurrir que las dos variables guarden algún tipo de relación entre si.

Jesús Eduardo Pulido Guatire, marzo Diagrama de Dispersión y Correlación Lineal Simple

Transcripción:

Análisis de Regresión y Correlación Lineal

Análisis de dos ó más variables aleatorias Veamos que en los siguientes estudios hay situaciones donde intervienen más de una variable aleatoria

Ejemplos: La presión de una masa de gas depende de su volumen y de su temperatura. En un proceso químico, el rendimiento del producto se relaciona con la temperatura de operación del proceso. El peso y la presión arterial se relacionan.

Estudiaremos : El tipo de relaciones que existen entre ellas y de que forma se asocian es decir analizaremos dos técnicas : la de regresión y la de correlación

Análisis de Regresión Uno de los objetivos de muchas investigaciones en Ingeniería es hacer predicciones, preferentemente usando ecuaciones matemáticas. El análisis de regresión se utiliza principalmente con éste propósito Para ello se debe determinar un modelo matemático que ajuste a los datos de la muestra Una vez determinado dicho modelo, éste permite predecir los valores de una variable dependiente basados en los valores de al menos una variable independiente La distinción entre variables dependientes e independientes debe fundamentarse con conceptos teóricos, por experiencia y estudios anteriores.

Tipos de Regresión Solo nos ocuparemos del caso de un modelo de regresión simple; usa una sola variable independiente x para predecir el valor de la variable dependiente y.

El análisis de correlación Se utiliza para medir la intensidad de la asociación entre las variables numéricas. En otras palabras el análisis de correlación estima la fuerza de la dependencia de una variable respecto de la otra.

Diagrama de Dispersión La forma más intuitiva de formarse una primera impresión sobre el tipo de relación que existe entre dos variables es a través del Diagrama de Dispersión. Un diagrama de dispersión es un gráfico en el que una de las variables (Xi) se coloca en el eje de las abscisas y la otra (Yi) en el eje de las ordenadas y los pares de puntuaciones de cada sujeto (xi,yi) se representan como una Nube de puntos

FORMAS TÍPICAS DE LOS DIAGRAMAS DE DISPERSIÓN ESTADÍSTICA

A partir del diagrama de dispersión es posible, con frecuencia, visualizar una curva suave que aproxima a los datos. En algunos casos vemos que existe una relación lineal y en otros puede existir una relación no lineal. Solo nos ocuparemos del caso lineal.

Tipos de relación entre variables Dos variables pueden estar relacionadas por una dependencia funcional, por una dependencia estadística o pueden ser independientes. Raramente se determina una dependencia funcional rigurosa ya que ambas variables o una de ellas, están expuestas a factores aleatorios, surge entonces una dependencia estadística. La dependencia se llama estadística cuando la variación de una de las variables da lugar a la alteración de la distribución de la otra. La dependencia estadística se manifiesta en que, al variar una de las variables se altera el valor medio de la otra, en este caso se llama dependencia de correlación

Dependencia de correlación Dijimos que se da cuando al variar una de las variables se altera el valor medio de la otra. Ejemplo : Supongamos que estamos analizando las alturas de diferentes ciudades y las temperaturas. Puede darse el caso de que a iguales alturas en diferentes ciudades, se obtienen distintas temperaturas. Es decir, y no es función de x. Esto se debe a factores aleatorios como vientos, lluvias, etc.

Supongamos que en tres ciudades que están a 200 m de altura sobre el nivel del mar las temperaturas son 5 C; 7 C; y 12 C respectivamente. Para estudiar el enlace entre las variables aleatorias X e Y, admitamos que a cada valor de x, le corresponden varios valores de y. Pero se puede demostrar que la temperatura media es función de la altura. Es decir Y está vinculada con X por una dependencia de correlación. Para precisar esto necesitamos el concepto de media condicion

Media condicional x 200toma los valores y 5; y 7 ;y 12 1 1 2 3 5 7 12 entonces y1 8 3 Se llama media condicional (la variable aleatoria Y depende de X correlativamente) Se llama media condicional y x a la media aritmética de los valores de y correspondientes al valor de X = x

Dependencia de correlación Se llama dependencia de correlación de Y respecto de X, a la dependencia funcional de la media condicional respecto de x: yx f ( x) Ecuación de regresión de Y en X Función de regresión de Y en X Análogamente se determina x g( y) y

Determinación de las rectas de regresión Las gráficas de f(x) y g(y) son rectas llamadas rectas de regresión Y= ax+b a = pendiente de la recta de regresión, también llamado coeficiente de regresión muestral de y en x

DIAGRAMA DE DISPERSIÓN RECTA DE REGRESIÓN y = a + bx

GRÁFICOS DE DISPERSIÓN / RECTA DE REGRESIÓN Para el cálculo de la recta de regresión se aplica el método de mínimos cuadrados entre dos variables. Esta línea es la que hace mínima la suma de los cuadrados de los residuos, es decir, es aquella recta en la que las diferencias elevadas al cuadrado entre los valores calculados por la ecuación de la recta y los valores reales de la serie, son las menores posibles. y = a + bx

Cálculo de la Recta de Regresión de Y en X Se eligen los parámetros a y b de manera tal que los puntos del plano (los valores observados) se encuentren lo más cerca posible a la recta de regresión. Para el cálculo de la recta de regresión se aplica el método de mínimos cuadrados entre dos variables. Y ax b donde a yx

Y y Notación :desviación, donde Y es una ordenada calculada por la ecuación i i i correspondiente al valor observado y Como no podemos hacer mínima cada desviación, haremos mínima su suma: i n i 1 Y i y i Tan cercana a cero como sea posible. Pero esta suma se puede hacer cero de muchas maneras y los errores compensarse, por lo que elegiremos para minimizar i 1 2 F(, b) Y y n i i n 2 2 i i yx i i F(, b) Y y x b y i 1 i 1 n

Para minimizar F(, b) Y 2 i yi n F F 2 0 2 yxxi b yi. xi 0 i 1 y n i bn xi F F 2 0 2 x b y 0 b b x y b x x Resolviendo el sistema obtenemos yx n yx i i 2 i 1 i i i i 2 i 2 i n x y x y i i i i n x x b i 1 y i n n x i Ecuación muestral de regresión de Y en X y x b x yx Ecuación muestral de regresión de X en Y xy xy y c

Ejemplo Para ajustar una recta a un conjunto de datos apareados, veamos en este caso, X: representa el tiempo de recalentamiento e Y los espesores de óxido de cierta pieza: X (en min) Y (en Angst rom) 20 30 40 60 70 90 100 120 150 180 3,5 7,4 7,1 15,6 11,1 14,9 23,5 27,1 22,1 32,9 xy i i 18469 x i 860 yi 165,2 2 xi 98800 yx 0,17 b 1,9 y x 0,17 x 1,9

Cómo usar y 0,17 x 1,9? x Por ejemplo, para predecir que el espesor de óxido de hierro de una pieza calentada durante 80 minutos: y 0,17.80 1,9 15,5 Angstrom x

Coeficiente de correlación de la población La medida del grado de relación entre dos variables, se llama coeficiente de correlación (r) Supuestos para aplicar este modelo: a) X e Y son variables aleatorias. b) La población bivariable debe ser normal. (X e Y distribuidas normalmente) c) La relación entre X e Y es, en cierto sentido, lineal. Este supuesto implica que todas las medias de Y asociadas con valores de X, caen sobre una recta que es la recta de regresión de Y en X. Análogamente, todas las medias de X asociadas con valores de Y, caen sobre la recta de regresión de X en Y.

Coeficiente de Correlación Es la medida de la intensidad de la relación lineal entre dos variables. El valor del coeficiente de correlación puede tomar valores desde menos uno hasta uno, indicando que mientras más cercano a uno sea el valor del coeficiente de correlación, en cualquier dirección, más fuerte será la asociación lineal entre las dos variables. Mientras más cercano a cero sea el coeficiente de correlación indicará que más débil es la asociación entre ambas variables.

Si es igual a cero se concluirá que no existe relación lineal alguna entre ambas variables. Si el valor del coeficiente de correlación muestral es mayor de 0,93 se considera buena la estimación que se realiza con la recta de regresión.

Cuando la recta es creciente la correlación es positiva o directa: al aumentar una variable, la otra tiene también tendencia a aumentar, como en el ejemplo anterior. Cuando la recta es decreciente la correlación es negativa o inversa: al aumentar una variable, la otra tiene tendencia a disminuir.

Hablaremos de correlación lineal fuerte cuando la nube se parezca mucho a una recta y será cada vez más débil (o menos fuerte) cuando la nube vaya desparramándose con respecto a la recta. En el gráfico observamos que en nuestro ejemplo la correlación es bastante fuerte, ya que la recta que hemos dibujado está próxima a los puntos de la nube.