CORRELACION Y REGRESIÓN LINEAL

LECCION Nº 5 CORRELACION Y REGRESIÓN LINEAL OBJETIVOS ESPECIFICOS Diferenciar los conceptos de correlación lineal, y regresión lineal. Determinar el índice o coeficiente de correlación en una distribución de frecuencias de datos agrupados y no agrupados. Establecer diferencias entre coeficiente de regresión positivo, negativo y nulo. Hallar el valor del coeficiente de regresión. 1. CORRELACION Y REGRESION LINEAL 1. CORRELACION LINEAL Concepto. Es una parte de la Estadística Descriptiva que tiene por objetivo, investigar la relación que hay entre dos o más variables estadísticas, determinar el sentido de relación y cuantificar el grado de nivel de correlación entre las variables con respecto a sus coeficientes. 1.1. Coeficiente de correlación Es el valor numérico que da a conocer el grado de relación que existe entre dos o más variables. Se le representa por la letra r. El índice o coeficiente de correlación tiene un valor numérico que oscila entre menos uno (-1) Y más uno (+1). Este valor numérico no puede ser menor que menos uno (-1) ni mayor que más uno (+1). Por ejemplo, analicemos el siguiente esquema: Como se puede apreciar, el límite del índice o coeficiente de correlación se encuentra, entre los valores menos uno (-1) Y más uno (+1). 1.2. Clases de correlación Teniendo en cuenta el signo y el valor o grado que posee la correlación se clasifica de la siguiente manera: 87

Correlación positiva. Es cuando las dos variables (X e Y) están correlacionadas positivamente o su variación está en razón directa. Es decir, el aumento de la medida de la variable X (independiente) implica, el aumento de la medida de la variable Y (dependiente) o la disminución de la variable X implica, la disminución de la variable Y. Por ejemplo, observemos la siguiente correlación: Como se puede observar, cuando aumenta el valor de la variable X también aumenta el valor de la variable Y. La representación gráfica de esta correlación es: 88

Correlación negativa. Se dice que la correlación entre dos variables (X e Y) es inversa o negativa, cuando si la medida de una de las variables aumenta, la otra disminuye. Por ejemplo, analicemos la siguiente correlación: Como se puede apreciar, frente al aumento de la medida de la variable (X) disminuye la medida de la variable, (Y); entonces la correlación es negativa o inversa. La representación gráfica de esta correlación negativa es: Correlación nula. La correlación es nula, cuando las variables no están correlacionadas entre sí: Por ejemplo, observemos: Como se puede apreciar, no existe correlación entre las variables X e Y; por tanto la correlación es nula. Su representación gráfica es: 89

La correlación de acuerdo a su valor o grado se rige por la siguiente escala: El presente cuadro, sirve para interpretar el valor o grado de correlación que existe entre las variables (X e Y). 1.3. Cálculo del índice o coeficiente de correlación en una distribución de frecuencias de datos no agrupados. Se utilizan los siguientes métodos o procedimientos: A base de la fórmula de Pearson Donde: Σ XY = Suma del producto de los valores de las variables X e Y. N = Número de sujetos. Mx = Media aritmética de la variable X. My = Media aritmética de la variable Y. Σ X 2 = Suma de los valores de la variable X al cuadrado. Σ Y 2 = Suma de los valores de la variable Y al cuadrado. 90

Para calcular el valor del índice o coeficiente de correlación a través de esta fórmula, se constituye previamente una tabla en la que se consignan los valores de las variables X e Y. Por ejemplo, la siguiente tabla presenta los puntajes de quince sujetos, correspondientes a una prueba de evaluación de las líneas de acción educativa de formación laboral (variable X) y Educación Psicomotriz (variable Y). En seguida, se calculan los valores de la media aritmética de las variables X e Y veamos: De X = 195 = 13 15 De Y = 225 = 15 15 Luego, se aplica la fórmula: Reemplazando los valores se tiene: 91

Luego, el valor de la correlación de esta distribución es -0.2559, que de acuerdo a la escala de valores, la correlación es baja y negativa. Por los desvíos o métodos de Pearson Para lo cual se utiliza la siguiente fórmula: Donde: N = Número de sujetos. Σ dx. dy = Suma del producto de los desvíos reales de las variables X e Y. DSx = Desviación estándar de la variable X. DSy = Desviación estándar de la variable Y. Por ejemplo, tomemos los datos de la tabla del cuadro No. 26 y calculemos las desviaciones (d) de las variables X e Y como aparece en el siguiente cuadro: 92

Ahora bien, con estos datos de la tabla calculemos las desviaciones estándar (DS) de las variables X e Y. Enseguida, reemplacemos con estos valores los datos de la fórmula: r = -32. 15 (3.48) ( 2.39) r = -0,25 Luego, el índice o coeficiente de correlación para las variables X e Y es -0.25 De acuerdo a la escala de valores de la tabla, la correlación, -0.25 es baja y negativa. Por el procedimiento de Spearman o método de las diferencias Para hallar el índice o coeficiente de correlación por este método se procede de la siguiente manera: Se determina el orden de mérito (OM) de los valores de cada una de las variables (X e Y). Para lo cual, se le asigna el primer lugar al mayor de la variable, el segundo lugar al valor inmediato inferior y, así sucesivamente hasta llegar al último valor de la variable. Cuando en una variable existen dos o más valores iguales, el orden de mérito (OM) de éstos, es el mismo para todos, teniendo en cuenta que al valor inmediato inferior le corresponde el orden que indique la presencia de los valores iguales. Por ejemplo, observemos el siguiente cuadro: Se observa que los valores más altos son 17 y 16, a estos valores, de acuerdo al orden de mérito, les corresponde el primer y segundo lugar respectivamente; 13 es el valor más bajo, entonces le corresponde el séptimo lugar, 15 es el valor que se repite tres veces, luego le corresponde a cada uno de ellos el tercer lugar, al valor 14 le corresponde el sexto lugar, y así sucesivamente. 93

Se halla el valor de la diferencia absoluta (/D/) del orden de mérito de las variables X e Y. Esta diferencia se determina restando al valor del orden de mérito de: la variable X el valor del orden de mérito de la variable Y. Es decir: /D/ = OMx - OMy Se determina la diferencia al cuadrado (D 2 ) del orden de mérito. Observemos el siguiente cuadro: Finalmente, se aplica la fórmula: Cuadro N 31 Reemplazando en la fórmula con los valores obtenidos se tiene: 94

Luego, el grado de correlación de las variables X e Y es -0.41, que de acuerdo a la escala de valores la correlación es moderada y negativa. 1.4. Cálculo del índice o coeficiente de correlación en una distribución de frecuencias de datos agrupados Para ello se utiliza el procedimiento: Producto-momento o Pearson-Brown a través de la siguiente fórmula: Por ejemplo, sean los siguientes puntajes correspondientes a la variable X (prueba de rendimiento) y a la variable Y (prueba de habilidad) de 50 alumnos. A partir de estos datos se procede de la siguiente manera: Se agrupan los puntajes de la variable X en once (11) intervalos de clase, en forma ascendente (de menor a mayor puntaje). Se elabora la tabla de distribución de frecuencias de la variable X, como aparece en el siguiente cuadro: 95

Cuadro Nº 32 Se agrupan los puntajes de la variable Y en doce (12) intervalos de clase. Se elabora la tabla de distribución de frecuencias de la variable Y, como aparece a continuación: Se elabora el diagrama rectangular con los datos de las tablas (cuadros Nos. 29 y 30) correspondientes a las variables X e Y. Observemos: 96

En la elaboración del diagrama rectangular se sigue el procedimiento siguiente: Se ubica en la parte superior del diagrama, los intervalos de clase de la variable X y, al lado izquierdo del mismo diagrama, los intervalos de clase de la variable Y. Se ubica en la parte inferior del diagrama, las frecuencias (f), las desviaciones (d) y el producto de las frecuencias por las desviaciones al cuadrado ( fd 2 ) de la variable XV, aliado derecho del mismo diagrama los de la variable Y. Se localiza en la última columna del lado derecho del diagrama, los productos de las desviaciones de las variables XV. Para determinar estos productos se multiplica la desviación de la variable V (dy) por cada una de las sumas de las marcas de conteo (mc) de ambas variables, y finalmente, este producto se multiplica por la desviación de la variable X (dx). Es decir: Por ejemplo: XY = (dy) (mc) (dx) Para el intervalo de clase 78-81 se tiene: 8 x 2 x 0 = 0 8 x 1 x 1 = 8 8 x 1 x 5 = 40 48 Entonces: XY = 48 Para el intervalo de clase 74-77 se tiene: 7 x 0 x 0 = 0 97

Luego: XY = 0 Para el intervalo de clase 70-73 6 x 1x (-3)= -18 Por tanto: XY = - 18 Siguiendo el mismo procedimiento se determinan los valores de la columna XY. Luego, se afectúa la suma algebraica de estos valores. Finalmente, se reemplaza en la fórmula con los valores hallados en el diagrama rectangular. Veamos: De acuerdo a la escala de valores es una correlación moderada y positiva 98

2. REGRESION LINEAL Concepto. Es un procedimiento mediante el cual se determina la dependencia de una variable con respecto a otra. Es decir, conociendo los valores de una variable independiente (Vi) llamada predictor, trata de estimar los valores de una variable dependiente (Vd) llamada predictante. La regresión en forma gráfica, trata de lograr que una dispersión de las marcas de conteo sea ajustada a una línea recta o curva. 2.1. Clases de regresión Se clasifica en: Lineal Curvilínea Simple Múltiple Simple Múltiple La regresión es simple, cuando una variable independiente (Vi) ejerce influencia sobre otra variable dependiente (Vd). La regresión es múltiple, cuando dos o más variables independientes influyen sobre una variable dependiente. Por ejemplo, si el ingreso económico es la variable independiente (Vi) y los gastos en alimentación es la variable dependiente (Vd), se dice que la regresión es simple. Por otro lado, si se consideran como variables independientes (Vi) a la edad, a la alimentación y al cociente intelectual, que influyen en forma diferente sobre la variable dependiente (Vd), rendimiento académico; entonces se puede afirmar que la variable rendimiento académico es una función lineal múltiple de las variables independientes. Luego, se dice que la regresión es múltiple. 2.2. Funciones de la regresión lineal simple Las principales funciones que ejerce la regresión lineal simple son: Determinar la dependencia que tiene una variable respecto de otra, Ajustar la dispersión de las marcas de conteo de una línea, es decir determinar la forma de la línea de regresión. Predecir un dato desconocido de una variable partiendo de los datos conocidos de otra variable. 99

2.3. El coeficiente de regresión (b) Indica el número de unidades en que se modifica, la variable dependiente Y por efecto del cambio de la variable independiente X o viceversa, en una unidad de medida. EI coeficiente de regresión positivo. Cuando las variaciones de la variable independiente X son directamente proporcionales a las variaciones de la variable dependiente Y, sé dice que el valor del coeficiente de regresión (b) es positivo. Es decir, la relación es directa y su recta es creciente, donde al aumentar o disminuir la variable X, aumenta o disminuye la variable Y. Por ejemplo, sean los siguientes puntajes en atención y habilidad de 24 alumnos de un determinado centro educativo. Con estos datos se construye el siguiente gráfico, teniendo en cuenta que: EI menor valor de las dos variables (X, Y) coincidan con el punto de origen de las coordenadas. En el eje de las X se escriben los puntajes de atención y en el eje de las Y los de habilidad. La dependencia de la variable y respecto a la variable X, se determina de la siguiente manera: Para el primer valor (50) de la variable X, se marca el número de frecuencias (1) del primer valor (10) de la variable Y. Para el segundo valor (55) de la variable X, se marca el número de frecuencias (3) del segundo valor (11) de la variable Y, así, sucesivamente hasta concluir con los valores de ambas variables. Veamos: 100

Como se puede apreciar la relación es directa y ascendente. Luego, el coeficiente de regresión es positivo. El coeficiente de regresión negativo. Cuando las variaciones de la variable independiente X son inversamente proporcionales a las variaciones de la variable dependiente Y, decimos que el valor del coeficiente de regresión es negativo. Es decir, la relación es inversa y su recta es decreciente o descendente, porque al aumentar el valor de la variable X disminuye el valor de la variable Y o viceversa. Por ejemplo, en el siguiente gráfico la variable Y representa la facilidad con que recuerda una persona sobre los hechos de un determinado acontecimiento y la variable X el tiempo transcurrido en meses de dicho acontecimiento. Observemos: Como se podrá apreciar la relación es inversa y descendiente. Luego, el coeficiente de regresión es negativo. EI coeficiente de regresión nulo. Es nula o cero el coeficiente de regresión cuando las variables dependientes (Y) e independiente (X) no existe relación. Por ejemplo, en el siguiente gráfico la recta que origina su relación puede ser (A) horizontal o (B) vertical. 101

2.3.1. Procedimiento para hallar el coeficiente de regresión (b) EI método que permite encontrar el valor del coeficiente de regresión con mayor facilidad y exactitud es el de los mínimos cuadrados en sus dos formas: directa e indirecta. Método de los mínimos cuadrados: forma directa o ecuación de la recta Utiliza Ias ecuaciones: Y = bx + c o X = ky + p Para hallar el valor del coeficiente de regresión de la variable dependiente Y sobre la variable independiente X se aplica la siguiente ecuación de la recta: Y = bx + c Donde: Y = Valor estimado de un punto cualquiera de la variable Y. b = Coeficiente de regresión a encontrarse. c = Valor desconocido. A esta ecuación de la recta corresponden las siguientes ecuaciones normales. ΣY = bσx + Nc ΣXY = bσx 2 + cσx Donde: ΣY = Suma de los valores de la variable dependiente Y. b = Coeficiente de regresión a encontrar. Σx = Suma de los valores de la variable independiente X. N = Número del par de valores. c = Valor desconocido a encontrarse. ΣXY = Suma del producto de todos los pares de valores de las variables tratadas. ΣX 2 = Suma del cuadrado de los valores de la variable X. Por ejemplo, los siguientes puntajes son los resultados de evaluación de 10 alumnos, correspondientes a las pruebas de atención (variable X) y de rendimiento (variable Y). 102

Con estos datos, se elabora la siguiente tabla de los mínimos cuadrados: Ahora bien, con estos valores reemplacemos los datos de las ecuaciones normales: Σ Y = bσx + Nc Σ XY = bσx 2 + cσx Ordenando datos se tiene: -132b =10c - 134-1854b = 132c - 1820 Para eliminar e en ambas ecuaciones, se multiplica por 132 la primera, y por 10, la segunda ecuación. Veamos: - 17424b = 1320c - 17688-18540b = 1320c - 18200 ( + ) ( - ) ( + ) + 1116b = 0 + 512 1116b = 512 b = 512 1116 b = 0.459 Luego, el valor del coeficiente de regresión es 0.459 lo cual indica que la relación existente entre la variable dependiente Y y la variable independiente X es directa y positiva. Asimismo, la pendiente de la línea de regresión es moderada y la dependencia entre las variables es relativa. Para calcular el valor del coeficiente de regresión de regresión de la variable independiente X sobre la variable dependiente Y, se utiliza la siguiente ecuación: X = ky + p 103

Donde: X = Valor estimado en un punto cualquiera de la variable X. K = Coeficiente de regresión a encontrarse. p = Valor desconocido a encontrarse. Las ecuaciones norma les que corresponden a esta ecuación de la recta son: Σx = kσy + Np Σxy = kσy 2 + Py Reemplazando con los valores del cuadro No. 33 se tiene: 132 = 134k + 10 1820 = 1825k + 134p Ordenando estos datos se obtiene: -134k = 10p - 132-1825k = 134p - 1820 Ahora bien, para eliminar el valor p se multiplica la primera ecuación por 134 y la segunda por 10. Es decir: - 17956k = 1340p - 17688-18250k = 1340p 18200 (+) (-) ( +) 294k = 0 + 512 294 k = 512 k = 1.741 Entonces, el valor del coeficiente de: regresión es 1.741 lo cual indica que: la relación existente entre las variables X e Y es directa y positiva, y la dependencia entre dichas variables es relativa. Método de los mínimos cuadrados: forma indirecta o de las desviaciones Para calcular el valor del coeficiente de regresión mediante esta según la forma, tomemos como ejemplo los datos del cuadro N 32. A partir de estos datos, elaboremos la siguiente tabla de los mínimos cuadrados con los desvíos correspondientes a cada variable (X, Yi) 104

Donde: dx = Desvíos de la variable X o (X - Mx) dy = Desvíos de la variable Y o (Y - My) dx 2 = Cuadrado de los desvíos de la variable X. dy 2 = Cuadrado de los desvíos de la variable Y. dx.dy = Producto de los desvíos de las variables X e Y. Para encontrar el coeficiente de regresión (b) de la variable dependiente Y sobre la variable independiente X, se utiliza la siguiente igualdad. d = Σdx. Σdy Σdx 2 Reemplazando se tiene: b = 52 b = 0.464 112 Luego 0.464 es el valor del coeficiente de regresión, lo cual indica que la relación existente entre las variables X e Y es directa y positiva. Para hallar el valor del coeficiente de regresión de la variable independiente X sobre la variable dependiente Y, se utiliza la igualdad: k = Σdx. dy Σdy 2 Reemplazando valores se tiene: k = 52 58 k = 0,896 Luego 0.896 es el valor del coeficiente de regresión, indica que la relación existente entre las variables X e Y es directa y positiva. 2.3.2. Ajustamiento de la curva de regresión Para realizar el ajuste de la curva de regresión se utiliza el método de los mínimos cuadrados, cuyo procedimiento es el siguiente: Por ejemplo, tomemos los datos del cuadro No. 32. 105

Se determine en el eje de las coordenadas la disposición de las marcas de conteo de las variables X e Y. Observemos: Se determina la ecuación correspondiente. En este caso se calcula el coeficiente de regresión de la variable dependiente Y sobre la variable independiente X. para lo cual se utiliza la ecuación de la recta: Y = bx + c y sus correspondientes ecuaciones normales ΣY = bσx + Nc ΣXY = bσx 2 + cσx Se elabora la tabla de los mínimos cuadrados tal como figura en el cuadro No, 33: 106

Se reemplaza los datos de las ecuaciones normales con los valores de la tabla: 134 = 132b + 10c 1820 = 1854b + 132c Ordenando tenemos: 132b = 10c - 134 1854b =132c - 1820 Para despejar c en ambas ecuaciones, se multiplica por 132 la primera y, por 10 la segunda ecuación. Veamos: -17424b = 1320c 17688 18540b = 1320c 18200 (+) (-) (+) 1116b = 0 +512 1116b = 512 b = 512 1116 Se determina el valor del término independiente (c) de la ecuación de la recta; para lo cual se reemplaza el valor de b (0.459) en la primera ecuación. Es decir: 134 = (132)b + 10c Ordenando se tiene: -10c = (132)b - 134 Reemplazando el valor de b se tiene: - 10c = (132) (0.459) - 134-10c = 60.558-134 Luego, se multiplica por (-1) 10c = 60588 + 134 c = 134-60.588 10 c = 7.34 c = 73.412 10 Se estiman los valores extremos dé la línea de regresión. En el caso de nuestro ejemplo, los valores extremos de la variable independiente X son 8 y 9. Para encontrar los estimados de la variable dependiente y se reemplaza sus valores en la ecuación de la recta: 107

Y = bx + c Donde para: b = 0.459 c = 7.34 Reemplazando valores en la ecuación se tiene: Para el menor valor: X = 8 Y = (0,459) (8) t- 7.34 Y = 3.672 r 7.34 Y = 11 Para el mayor valor: X = 19 Y = (0.459) (19) + 7.34 Y = 16 Luego, los valores estimados son: Cuando X es igual a 8; entonces Y es igual a 11. Cuando X es igual a 19, entonces Y es' igual a 16 Se determinan la intersección de la media aritmética de ambas variables (X, Y). La intersección de la media aritmética de la variable independiente X (13.2) y de la variable dependiente Y (13,4) se produce en el punto P(13.2, 13.4), como aparece en el siguiente gráfico: 108

Finalmente, se grafica la línea de regresión con los tres puntos de referencia: Si X es 8, entonces Y es 11 Si X es 19, entonces Y es 16. La intersección de la media aritmética de ambas variables se efectúa en el punto P (13.2, 13.4). Observemos el siguiente gráfico: 109

EJERCICIOS En base a la siguiente distribución de frecuencias de datos no agrupa dos: 1. Determina el índice o coeficiente de correlación: a) Por los desvíos o método de Pearson: b) Por el procedimiento de Spearman o método de las frecuencias: 2. Hallar el coeficiente de regresión por el método de los mínimos cuadrados en sus dos formas. a) Directa o ecuación de la recta: b) Indirecta o de las desviaciones: 3. Utilizando la distribución de frecuencias de datos agrupados del ejerci. cio No. 2 de la tercera unidad, calcula el valor del índice o coeficiente de correlación, aplicando el procedimiento de: Producto - Momento o Pearson - Brown; 110

4. En bases a los resultados que obtienes interpreta dichos valores. 111