REGRESIÓN LINEAL El Análisis de Regresión, en una versión simple, es una metodología estadística que permite analizar la relación entre una variable Y (dependiente, explicada, respuesta ó endógena) y otra variable X (independiente, explicativa, factor ó exógena). El objetivo del análisis es obtener un modelo apropiado para pronosticar la variable Y a partir del valor que toma la variable X o simplemente demostrar una relación propuesta entre ellas. Así es posible hacer un: Análisis confirmatorio. Demostrar la validez de una relación previamente estipulada y, eventualmente, estimar algunas constantes involucradas en la relación -los parámetros del modelo-. Análisis exploratorio. Encontrar entre las muchas relaciones posibles que pueden vincular a las variables la que resulte satisfactoria para el problema en estudio. La razón que lleva a explicar una variable mediante otra es que una de ellas puede ser de fácil observación o controlable, por lo que resultaría sencillo obtener alguno de sus valores, en tanto que para la otra la obtención de observaciones puede ser una tarea más compleja o económicamente desventajosa. Los siguientes ejemplos ilustran estas ideas. Variable dependiente Y Variable independiente X Días de ausentismo por año de un empleado Edad en años del empleado Ventas mensuales de un producto Precio del producto cada mes Nivel de estrés de un gerente Cantidad de empleados que supervisa Demanda diaria de gas en una ciudad Pronóstico de la temperatura Precio valor En la mayoría de los casos la relación entre las variables es mutua y es difícil saber qué variable influye sobre la otra. Por ejemplo a un viaje poco valorado le supondremos menor precio y a uno de mayor precio lo supondremos más valorado. Es decir, se puede admitir que cada variable influye sobre la otra de forma natural y por igual.un ejemplo más claro donde distinguir entre variable explicativa y explicada es aquel donde se sabe cuál es la variable Causa y cuál es la variable Efecto. Por ejemplo, el gasto en publicidad que hace una red hotelera autónoma en promoción turística y la demanda turística que finalmente tiene. En este caso, un pequeño gasto en publicidad tenderá a obtener una demanda más baja, y una demanda más alta nos indicará que tal vez la red hotelera, de la cual hablamos, ha gastado mucho. Para este tipo de análisis la información disponible es un conjunto de pares de valores. La primera componente de cada par es un valor de la variable independiente y la segunda es la correspondiente observación de la variable dependiente. El siguiente ejemplo es susceptible de ser tratado con esta metodología. Ejemplo. La adquisición de un determinado conocimiento se logra por la realización de una tarea especialmente diseñada a ese efecto. Un alumno puede repetir la tarea una o más veces. Cada repetición constituye un ensayo. Luego del período de aprendizaje el alumno es evaluado por medio de una prueba estándar. Un investigador sostiene que el rendimiento mejora con la repetición de la tarea. Para verificarlo solicitó a cada uno de cinco alumnos que hiciera un número dado de ensayos. Los resultados se muestran en la
tabla que sigue. X es el número de ensayos e Y, la respuesta, es la puntuación obtenida en la prueba, cuyos valores no necesariamente son enteros. X 3 4 5 6 Y 3 3 4 6 6 Siempre es conveniente graficar la información disponible. Cada par de valores se considera que son las coordenadas de un punto en un sistema de ejes cartesianos ortogonales. Los puntos así determinados conforman una nube denominada diagrama de dispersión. Con los datos del ejemplo se obtiene el siguiente diagrama: Evaluación del aprendizaje 7 6 Rendimiento 5 4 3 1 0 0 4 6 8 Número de ensayos Si hubiera razones previas para suponer que la relación entre las variable es lineal, los puntos del diagrama aparecerían cerca de una recta. Si se trata de explorar para encontrar un tipo de relación el diagrama de dispersión hace un primer aporte a la búsqueda. En ambos casos habrá que determinar la ecuación de una curva Y = f(x) que describa de la mejor manera posible la relación entre las variables. El gráfico siguiente, que corresponde a los datos del ejemplo, muestra los puntos próximos a una recta.
Evaluación del aprendizaje Rendimiento 7 6 5 4 3 1 0 0 4 6 8 Número de ensayos El hecho de que los puntos no estén alineados indica que la relación lineal no es perfecta. Pero esto no es un inconveniente; la relación que buscamos no es determinista, es decir, el valor de X no determina unívocamente a Y sino que habrá una componente aleatoria, llamada perturbación y designada por la letra griega ε. La expresión del modelo, en el caso de elegir una recta para describir la relación, será entonces: Y = A + BX + ε La naturaleza de ambas variables involucradas no es la misma. En muchos casos la variable X no es aleatoria, sus valores son seleccionados ex profeso. En otros ocasiones, si bien X puede ser aleatoria, el valor de Y se considera dado X. Esto significa que como el valor observado de X se conoce, se lo trata como un parámetro y se pronostica Y como variable aleatoria con distribución condicional al valor de X observado. Se denomina a X variable controlada. La variable Y es aleatoria, este carácter se reconoce en el modelo dado por la perturbación ε. La relación entre las variables se describe con dos componentes, una de ellas expresada por la relación funcional (en el caso del ejemplo la ecuación de la recta) y otra es la componente aleatoria llamada perturbación. Relación funcional :Y = A + BX Componente aleatoria: ε La recta de ecuación Y = A + BX se denomina recta de regresión poblacional. Forma parte del modelo que pretende describir a la totalidad de los pares de valores de las variables (X;Y). Se interpreta que esta relación funcional provee la media de la variable Y para cada valor de X o esperanza de Y dado X que se designa también E(Y/X). En el ejemplo la esperanza de Y dado X es la puntuación media que obtendrían
en la prueba todos alumnos si realizaran la misma cantidad X de ensayos. El modelo supone que la esperanza de Y dado X es una función lineal de la variable X, o sea E(Y/X) = A + BX Se designa con a al estimador de A y con b al de B. Estos estimadores intervienen en la formulación de la función predictora Ŷ = a + bx La expresión anterior es la ecuación de una recta. Como se indicará los coeficientes se obtienen a partir de los valores observados de ambas variables, es decir a partir de la muestra. Esta recta se denomina recta de regresión muestral. Sobre un punto muestral de coordenadas (x;y) se tiene ŷ = a + bx La diferencia εˆ = y - ŷ se denomina residuo y es la estimación de la perturbación ε correspondiente al valor x. Para calcular la ordenada al origen a y la pendiente b de la recta de regresión muestral se pueden utilizar las fórmulas siguientes: ( ) n. x. y x. y b = a = y - b x n. x x donde x es el promedio de los valores de X utilizados e y es la media de las observaciones de Y El siguiente cuadro facilita los cálculos e ilustra el uso de las fórmulas: X Y X XY Y² 3 4 6 9 3 3 9 9 9 4 4 16 16 16 5 6 5 30 36 6 6 36 36 36 0 90 97 106 Es x 0 = = 4, y = = 4, 4 luego 5 5
b = ( ) n. x. y x. y n. x x = 5 * 97-0 * 5 * 90-0 = 0,9 a = y - b x = 4,4-0,9*4 =0,8 La ecuación de la recta de regresión muestral es entonces Ŷ = 0,8 + 0,9X. Los valores de Ŷ calculados con esta ecuación para cada valor de X dado aparecen en el cuadro siguiente. Rendimiento Predicción Residuo Residuo cuadrático X Y Ŷ εˆ = Y - Ŷ ˆε ² 3 0,8+0.9* =,6 3 -,6 = 0,4 0,16 3 3 0,8+0.9*3 = 3,5 3-3,5 = - 0,5 0,5 4 4 0,8+0.9*4 = 4,4 4-4,4 = - 0,4 0,16 5 6 0,8+0.9*5 = 5,3 6-5,3 = 0,7 0,49 6 6 0,8+0.9*6 = 6, 6-6, = - 0, 0,04 0 0 1,10 N de ensayos Cabe preguntarse sobre el criterio usado para obtener las fórmulas de cálculo de los coeficientes de la recta de regresión muestral. El criterio utilizado es el de los mínimos cuadrados. De acuerdo con este criterio la suma de los residuos cuadráticos respecto de la recta de regresión muestral es menor que la suma de los residuos cuadráticos respecto de cualquier otra recta. Ese mínimo para el ejemplo desarrollado es 1,10 como se puede apreciar en el cuadro anterior. Esta suma mínima de residuos cuadráticos tiene cierta importancia en el análisis por lo que se la destaca con un nombre propio. Es la suma de cuadrados residual y se nota SC res. SC res = ( Y Y ˆ ) ² La SC res refleja la dispersión de los valores observados de la variable Y respecto de la recta de regresión. En cambio la suma de cuadrados total, denotada por SC tot, refleja la dispersión de los valores observados de la variable Y respecto de su media Y.. SC tot = ( Y Y ) ² La suma de cuadrados explicada por la regresión, simbolizada con SC exp, se obtiene reemplazando en la SC tot los valores observados de Y por los valores de Ŷ producidos por la ecuación de regresión. Luego esta suma de cuadrados da cuenta de la dispersión de los valores de Ŷ respecto de la media Y. SC exp = ( Y ˆ Y ) ²
Con alguna habilidad algebraica es posible llegar a la siguiente igualdad: SC tot = SC exp + SC res Así se tiene que la dispersión total de los valores de Y alrededor de su media es la suma de dos componentes. La fracción de la dispersión total explicada por el modelo está dada por el cociente SC r ² = exp SCtot El coeficiente r² se denomina coeficiente de determinación y su valor siempre estará comprendido entre 0 y 1. Cuanto más cercano a 1 esté r² mejor será el ajuste del modelo a los datos. Un valor alto de r² implica la existencia de una relación entre X e Y, pero no demuestra que haya una relación causa-efecto. Este análisis sólo prueba que hay una relación entre las variables que incluso puede obedecer a razones ajenas a ellas pero no puede asegurar que X es causa de Y o que Y es causa de X. El coeficiente de determinación del ejemplo es: r = 0.88 Preguntar por qué los alumnos evaluados muestran diferentes rendimientos? es preguntar sobre la dispersión de los valores observados de la variable Y. El 88 % de esa dispersión se explica por la relación con X. Hay diferentes valores de Y porque se corresponden con diferentes valores de X (número de ensayos). Pero esto no explica todo, el 1 % de la dispersión que la regresión no alcanza a explicar es debido a la componente aleatoria. Una medida de dispersión que puede interesar para el análisis es el desvío estándar residual. Se define como: SCres S res = n Esta medida se interpreta como una suerte de promedio de las diferencias Y - Ŷ en valor absoluto. Un buen ajuste del modelo a los datos producirá diferencias pequeñas y por lo tanto un S res pequeño que indicará poca dispersión de los valores observados de Y respecto de la recta de regresión. Realizando los cálculos matemáticos del álgebra, se llega a la siguiente fórmula: S res = i Y i a i Y i n b i X Y i i En el ejemplo tratado resulta: 1.10 3 S res = = 0. 606
El coeficiente r de correlación es una medida de la asociación lineal entre las dos variables. Su cálculo se hace mediante la fórmula: r = ( ) ( ) ( ) ( ).. ( ) n. x. y x. y n x x n y y Su valor está comprendido entre -1 y 1 (-1 r 1). El signo de r coincide con el signo de b y el cuadrado de r es el coeficiente de determinación. Los valores extremos indican asociación perfecta. Un r positivo (r>0) es signo de asociación directa, esto es que valores bajos de X se asocian con valores bajos de Y y valores altos de X se asocian con valores altos de Y. Un r negativo (r<0) es signo de asociación inversa, esto es que valores bajos de X se asocian con valores altos de Y y valores altos de X se asocian con valores bajos de Y. Un r = 0 indica ausencia de asociación lineal entre las variables. Cuanto más cerca este r de los valores extremos (-1 y 1) más intensa es la asociación. En el ejemplo desarrollado el coeficiente de correlación es r = 5*9 0 5*97 0*. 5*106 = 0,938. Este r = 0,938 indica que hay una fuerte asociación lineal directa entre el número de ensayos y el rendimiento en la prueba. Obtenida la ecuación de la recta de regresión muestral se puede proceder a hacer predicciones. Si con los datos del ejemplo quisiéramos predecir el rendimiento en la prueba de un alumno que hizo 7 ensayos calcularíamos el valor de Ŷ haciendo X = 7 en la ecuación. ŷ = 0,8 + 0,9*7 = 7,1 Esperamos de este alumno un rendimiento de 7,1 puntos. Otros modelos pueden ser útiles para predecir el valor de una variable Y a partir de una variable controlada X. Se deja constancia de dos de ellos. En uno de ellos la relación funcional es una función exponencial, Y = K A X En el otro es una función cuadrática, Y = AX + BX + C El lector podrá imaginar algunos más.
Análisis de Regresión y Correlación con Excel. Paso 1: Ingrese los datos de las variables en la planilla de cálculo excel, por ejemplo X: (supongamos en el rango:a.: A15) Y: (supongamos en el rango:b.: B15 Paso : Seleccione del menú desplegable Herramientas Paso 3: Seleccione la opción Análisis de datos Paso 4:Cuando aparezca el cuadro de diálogo Regresión: Teclee B : B15 en el cuadro Rango Y de entrada Teclee A : A15 en el cuadro Rango X de entrada Teclee A18 en el cuadro Rango de salida (También se puede aceptar cualquier celda que vaya a ser la superior izquierda donde comiencen los resultados) Seleccione Aceptar para obtener el análisis de regresión. A B 1 Nro de latas Tiempo de entrega 9.95 3 8 4. 4 11 31.75 5 10 30 6 8 5.0 7 4 16.86 8 14.38 9 9.6 10 9 4.35 11 7 1 8 18 13 9 0 14 11 30 15 10 5 Ejemplo:
Un ingeniero investiga la distribución de latas de cerveza y las operaciones del servicio de ruta para máquinas expendedoras. Se supone que el tiempo requerido para cargar una máquina expendedora se relaciona con el número de latas entregadas del producto. Se selecciona una muestra aleatoria de 14 entregas y se dispone de los datos de tiempo de entrega en minutos (Y) y el número de latas entregadas (X) X 8 11 10 8 4 9 7 8 9 11 10 Y 9.95 4. 31.7 5 35 5.0 16.8 6 14.3 8 9.6 4.3 5 18 0 30 5 a)dibuje un diagrama de dispersión apropiado a este modelo. b)estime el coeficiente de correlación muestral c) Qué porcentaje de la variabilidad total del tiempo de entrega está explicado por el número de latas. d)realice un pequeño informe con los resultados obtenidos.
TRABAJO PRÁCTICO Nº REGRESIÓN LINEAL 1.A partir de los siguientes datos que hacen referencia al precio del billete de ida y vuelta y la valoración del vuelo que han realizado un conjunto de pasajeros que tomaron el vuelo a Bariloche Buenos aires un mismo día, calcular : a) La recta de regresión. B) el coeficiente de correlación. c) Interpretar los resultados obtenidos. Precio 175 180 16 157 180 173 171 168 165 165 Valor 80 8 57 63 78 65 66 67 6 58 Rta;a) Y=-10,71+1,005x b)r=0,8456; r =0,715. Supongamos que la siguiente tabla indica el precio por noche de una habitación individual y la puntuación recibida por seis hoteles de Córdoba durante el mes de enero de 006: Precio 36 48 51 54 57 60 Puntuación 86 90 91 93 94 95 a)encontrar la recta de regresión. b)calcular el coeficiente de determinación e interpretar el resultado.c) Interpretar los resultados obtenidos. Rta:a)Y=71,95 +0,383 x b)r =0,99 3- Una importante agencia de viajes quiere realizar un estudio entre el aumento en sus gastos de publicidad y el incremento en sus ventas, La siguiente tabla muestra los resultados obtenidos mediante una muestra: %Aumento en publicidad 0 11 9 8 6 7 10 %Aumento en ventas 8 7 9 3 5 11 a)dibuje la nube de puntos ó diagrama de dispersión.. b) Encuentre el coeficiente de correlación lineal e interprete el resultado. c)calcule la recta de regresión lineal. Interprete el resultado. d)haga una previsión sobre el aumento de las ventas en el caso de que la publicidad se aumente un 15%. e)encuentre el coeficiente de determinación e interprete el resultado obtenido.
Rta: b)r=0,817; r =0,668; c)y=1,095+0,73x ;e) y ˆ = 1,075% 4- Los siguientes datos reflejan la relación entre el precio de la habitación diaria en euros y el número de estrellas de varios hoteles de una determinada cadena hotelera en el verano: Y=Precio 10 90 40 0 X=Número de estrellas 5 4 1 a) Determine la recata de regresión lineal. b)encuentre el coeficiente de correlación lineal. c)estime el valor del precio para un hotel de 3 estrellas.d)interprete los resultados obtenidos. Rta. a) yˆ = 7,5 + 5x ;b) r = 0,998; r = 0, 996 ;c) y ˆ = 67, 5 5-Las calificaciones obtenidas por nueve alumnos de Administración Hotelera, en la primera (X) y en la segunda (Y) evaluación de Empleo aparecen en la siguiente tabla. X 4 6 8 5 6 5 7 6 Y 5 4 6 7 5 3 7 8 7 a)represente gráficamente estos datos. b)halle la ecuación de la recta de regresión muestral de Y sobre X. c)exprese el grado de correlación entre las notas de las dos evaluaciones con un coeficiente adecuado. d) Cuál será la calificación. en la segunda evaluación de los alumnos que obtuvieron en la primera las notas 7.8 6.3 4.0 5.5 8.1? 6- Para determinar la relación entre las horas de estudio y el rendimiento en un examen se llevó a cabo un experimento con los siguientes resultados: Cantidad de horas de estudio 3 5 8 10 11 Nota obtenida en el examen 1 3 4 6 7 8 a)halle la ecuación de la recta de regresión muestral y dibuje la recta sobre el diagrama de dispersión. En el mismo gráfico muestre la ecuación de regresión lineal. Encuentre el coeficiente de determinación, e interprete los resultados obtenidos. b) Qué calificaciones predice el modelo para alumnos que estudian 4, 6, 7, 9 y 10 horas? c) Qué el sugiere el valor de r² obtenido? 7-.Las cifras siguientes son datos sobre el porcentaje de las llantas radiales producidas por cierto fabricante que aún pueden usarse después de recorrer cierto número de kilómetros. Kilómetros recorridos (miles) 1.6 3. 8.0 16.0 3.0 48.0 64.0 80.0 Porcentaje útil 98. 91.7 81.3 64.0 36.4 3.6 17.1 11.3
a)obtenga el diagrama de dispersión b)suponga que el porcentaje útil decrece exponencialmente con el aumento del kilometraje recorrido y obtenga la expresión de la función que expresa esa relación. c)estime, para los valores que se indican a continuación, qué porcentaje de las llantas radiales durarán al menos esa cantidad de kilómetros. 11, 40,0 51, 73,6 8. Una aplicación importante del análisis de regresión en contabilidad es para estimar los costos. Se tienen los datos sobre el volumen de producción y el costo total para una operación de manufactura. Volumen de producción (unidades) 400 450 550 600 700 750 Costo total (dólares) 4000 5000 5400 5900 6400 7000 a) Utilice estos datos para obtener una ecuación de regresión lineal con la que se pueda predecir el costo total para determinado volumen de producción. b) Realice el diagrama de dispersión correspondiente. c) Cuál es el costo variable, o costo adicional, por una unidad producida? d) Calcule el coeficiente de determinación. Qué porcentaje de la variación en el costo total puede explicar la variación en el volumen de producción? e) Cuál es el valor del costo estimado para un volumen de producción de 500 unidades? f) Analice los resultados obtenidos en los ítems anteriores para explicar el tipo de relación que hay entre las variables consideradas. 9. Los siguientes datos corresponden a los sueldos mensuales en dólares, Y, y promedios de calificaciones, X para estudiantes que obtuvieron su licenciatura en administración, con especializaciones en Sistemas de Información: Nota: La nota máxima es 5(cinco). Calificación,6 3,4 3,6 3, 3,5,9 Sueldo mensual 3300 3600 4000 3500 3900 3600 a) Obtenga la recta de regresión y exprese el significado de sus parámetros. b) Realice el diagrama de dispersión correspondiente. c) Estime el sueldo correspondiente a una calificación de 3 puntos. d) Calcule el coeficiente de determinación. Qué porcentaje de la variación en el sueldo promedio está explicada por la variación en la calificación? e) Obtenga el error residual y explique su significado. f) Explique el significado del coeficiente de correlación lineal en el contexto del análisis de correlación. Tenga en cuenta tanto su valor absoluto como su signo g) Analice los resultados obtenidos en los ítems anteriores para explicar el tipo de relación que hay entre las variables consideradas. 10- Una empresa determinada reúne datos acerca de la cantidad de familias que sintonizan un determinado anuncio de publicidad. Los siguientes datos muestran la cantidad de familias espectadoras en millones y la cantidad de veces que se pasó el anuncio durante una semana del 7 de octubre al de noviembre.
Veces que se pasó el anuncio Familias espectadoras 49 4 30 6 31 0 1 4 1 19 5 359,6 96,1 71,6 51,1 9, 186,9 186,3 17,7 166 16,1 a)halle los coeficientes de la recta de regresión muestral y explique el significado de los valores obtenidos. b)realice el diagrama de dispersión. c) Se obtuvo un buen ajuste con la ecuación de regresión? Explique Por qué? d)determine la cantidad promedio de las familias espectadoras para un anuncio que se pasó 35 veces. e) Calcule el coeficiente de determinación y exprese su significado en función de las variables elegidas. f)obtenga el error residual y explique su significado. g)analice los resultados obtenidos en los ítems anteriores para explicar el tipo de relación que hay entre las variables consideradas. 11- Un gerente de una empresa de venta de paquetes turísticos llevó a cabo un estudio para determinar la relación entre los gastos de publicidad semanal y las ventas. Obtuvo los siguientes datos: G: 40 0 5 0 30 50 40 0 50 40 5 50 V: 385 400 395 365 475 440 490 40 560 55 480 510 a)encuentre la ecuación de la recta de regresión para predecir las ventas semanales resultantes de los gastos de publicidad. b)estime las ventas semanales esperadas cuando los gastos de publicidad ascienden a $35. c)calcule el coeficiente de determinación e interprételo en términos del problema. d)explique el significado del coeficiente de correlación lineal en el contexto del análisis de correlación. Tenga en cuenta tanto su valor absoluto como su signo.