Correlación y regresión lineal simple



Documentos relacionados
Tema 3. Estadísticos univariados: tendencia central, variabilidad, asimetría y curtosis

Relaciones entre variables

EXPERIMENTACIÓN COMERCIAL(I)

Análisis de Regresión y Correlación

REGRESION Y CORRELACION

Tema 1: Estadística Descriptiva Unidimensional Unidad 2: Medidas de Posición, Dispersión y de Forma

Capitalización y descuento simple

Histogramas: Es un diagrama de barras pero los datos son siempre cuantitativos agrupados en clases o intervalos.

Modelos lineales Regresión simple y múl3ple

Aspectos fundamentales en el análisis de asociación

CÁLCULO DE INCERTIDUMBRE EN MEDIDAS FÍSICAS: MEDIDA DE UNA MASA

Figura 1

CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS

DEFINICIÓN DE INDICADORES

Investigación y Técnicas de Mercado. Previsión de Ventas TÉCNICAS CUANTITATIVAS ELEMENTALES DE PREVISIÓN UNIVARIANTE. (IV): Ajustes de Tendencia

CURSO INTERNACIONAL: CONSTRUCCIÓN DE ESCENARIOS ECONÓMICOS Y ECONOMETRÍA AVANZADA. Instructor: Horacio Catalán Alonso

2.2 TASA INTERNA DE RETORNO (TIR). Flujo de Caja Netos en el Tiempo

Econometría. Ayudantía # 01, Conceptos Generales, Modelo de Regresión. Profesor: Carlos R. Pitta 1

Medidas de Variabilidad

De factores fijos. Mixto. Con interacción Sin interacción. No equilibrado. Jerarquizado

Problemas donde intervienen dos o más variables numéricas

OPERACIONES ARMONIZACION DE CRITERIOS EN CALCULO DE PRECIOS Y RENDIMIENTOS

DISTRIBUCIONES BIDIMENSIONALES

12-16 de Noviembre de Francisco Javier Burgos Fernández

Inferencia en Regresión Lineal Simple

Pruebas Estadísticas de Números Pseudoaleatorios

Media es la suma de todas las observaciones dividida por el tamaño de la muestra.

Medidas de centralización

Instituto Tecnológico Superior del Sur del Estado de Yucatán EGRESIÓN LINEAL REGRESI. 10 kg. 10 cm

Trabajo y Energía Cinética

ACTIVIDADES INICIALES

UNIVERSIDAD DE GUADALAJARA, CUCEI DEPARTAMENTO DE ELECTRÓNICA LABORATORIO DE ELECTRÓNICA II

CAPÍTULO 4 MARCO TEÓRICO

MODELOS DE ELECCIÓN BINARIA

TÉCNICAS AUXILIARES DE LABORATORIO

Economía de la Empresa: Financiación

Unidad Central del Valle del Cauca Facultad de Ciencias Administrativas, Económicas y Contables Programa de Contaduría Pública

TEMA III EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Licenciatura en Administración y Dirección de Empresas INTRODUCCIÓN A LA ESTADÍSTICA EMPRESARIAL

Introducción a la Física. Medidas y Errores

PRUEBAS DE ACCESO A LAS UNIVERSIDADES DE ANDALUCÍA PARA MAYORES DE 25 AÑOS MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES

Lección 4. Ejercicios complementarios.

Análisis de error y tratamiento de datos obtenidos en el laboratorio

Unidad I Definición de reacción de combustión Clasificación de combustibles

Diseño y Análisis de Experimentos en el SPSS 1

TEMA 4 Variables aleatorias discretas Esperanza y varianza

GUIAS DE ACTIVIDADES Y TRABAJO PRACTICO Nº 22

UNIDAD 12: Distribuciones bidimensionales. Correlación y regresión

Smoothed Particle Hydrodynamics Animación Avanzada

Medidas de Tendencia Central y de Variabilidad

CAPITULO 3.- ANÁLISIS CONJUNTO DE DOS VARIABLES. 3.1 Presentación de los datos. Tablas de doble entrada.

Tema 6. Estadística descriptiva bivariable con variables numéricas

Muestra: son datos de corte transversal correspondientes a 120 familias españolas.

Índice de Precios de las Materias Primas

Guía de ejercicios #1

EJERCICIO 1 1. VERDADERO 2. VERDADERO (Esta afirmación no es cierta en el caso del modelo general). 3. En el modelo lineal general

PROBLEMAS DE ELECTRÓNICA ANALÓGICA (Diodos)

Prueba de Evaluación Continua

TEMA III EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 19 de Septiembre de :30 horas. Pregunta 19 A B C En Blanco

CANTIDADES VECTORIALES: VECTORES

1.1 Ejercicios Resueltos Tema 1

Clase 25. Macroeconomía, Sexta Parte

Un estimado de intervalo o intervalo de confianza ( IC

Estas medidas serán más significativas cuanto más homogéneos sean los datos y pueden ser engañosas cuando mezclamos poblaciones distintas.

Ejercicios y Talleres. puedes enviarlos a

1.- Una empresa se plantea una inversión cuyas características financieras son:

CÁLCULO VECTORIAL 1.- MAGNITUDES ESCALARES Y VECTORIALES. 2.- VECTORES. pág. 1

Comparación entre distintos Criterios de decisión (VAN, TIR y PRI) Por: Pablo Lledó

CARTAS DE CONTROL. Han sido difundidas exitosamente en varios países dentro de una amplia variedad de situaciones para el control del proceso.

RESISTENCIAS EN SERIE Y LEY DE LAS MALLAS V 1 V 2 V 3 A B C

Disipación de energía mecánica

T. 9 El modelo de regresión lineal

TEMA 10. OPERACIONES PASIVAS Y OPERACIONES ACTIVAS.

Matemática Financiera Sistemas de Amortización de Deudas

TEMA 8: PRÉSTAMOS ÍNDICE

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 17 de Mayo de :00 horas

PROPORCIONAR RESERVA ROTANTE PARA EFECTUAR LA REGULACIÓN PRIMARIA DE FRECUENCIA ( RPF)

Respuesta A.C. del FET 1/14

Jordi Esteve Comas. Monográfico sobre inestabilidad financiera.

REGRESION LINEAL SIMPLE

ESTADÍSTICA BIDIMENSIONAL ÍNDICE GENERAL

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 20 DE JUNIO DE horas

COLEGIO INGLÉS MEDIDAS DE DISPERSIÓN

DELTA MASTER FORMACIÓN UNIVERSITARIA C/ Gral. Ampudia, 16 Teléf.: MADRID

Relación 2: Regresión Lineal.

Incertidumbre de la Medición: Teoría y Práctica

Población 1. Población 1. Población 2. Población 2. Población 1. Población 1. Población 2. Población 2. Frecuencia. Frecuencia

17/02/2015. Ángel Serrano Sánchez de León

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 6 de Junio de :00 horas. Pregunta 19 A B C En Blanco. Pregunta 18 A B C En Blanco

El Impacto de las Remesas en el PIB y el Consumo en México, 2015

2.5 Especialidades en la facturación eléctrica

ACTIVIDADES ESTADÍSTICA UNIDIMENSIONAL. a) Calcula la temperatura media y la temperatura mediana de la semana.

Mª Dolores del Campo Maldonado. Tel: :

ESTADÍSTICA DESCRIPTIVA Métodos Estadísticos Aplicados a las Auditorías Sociolaborales

Tema 1:Descripción de una variable. Tema 1:Descripción de una variable. 1.1 El método estadístico. 1.1 El método estadístico. Describir el problema

Estimación de incertidumbres en calibración de Osciladores

TERMODINÁMICA AVANZADA

Transcripción:

. Regresón lneal smple Correlacón y regresón lneal smple. Introduccón La correlacón entre dos varables ( e Y) se refere a la relacón exstente entre ellas de tal manera que a determnados valores de se asocan determnados valores de Y. Por ejemplo, la correlacón entre la altura y el peso, el número de horas que un alumno pasa estudando una asgnatura y la nota que obtene en la msma, la cantdad de horas de sueño y el rendmento en una determnada tarea, o el número de amgos que uno tene en un grupo y su grado de mplcacón en la tarea que va a acometer con dcho grupo, etc... Estas relacones funconales en las que las varables son meddas como mínmo en escala de ntervalo, pueden presentar dos sentdos dferentes. a medda que aumentan, crecen o se hacen mayores los valores de se produce un ncremento en los de Y la correlacón es postva; s por el contraro, valores altos en Y se asocan con valores bajos en y bajos en Y con altos en la correlacón es de tpo negatvo. Por ejemplo, sería el caso de observar menor rendmento en un examen cuanto más tempo pasan los alumnos dstraídos en una clase: A más dstraccón (), menos rendmento (Y), es decr, a mayores valores de, menores son los de Y En el estudo de las correlacones la asocacón entre dos varables puede manfestar dferentes grados. Cuanto mayormente estén asocadas e Y mayor será su correlacón (postva o negatva), mayor la fuerza en que se encuentran lgadas. Cuando la correlacón es perfecta se dce entonces que e Y se encuentran al 00% asocadas, es decr, comparten al máxmo sus varacones y que la nformacón sumnstrada por una de ellas nforma cabalmente de las varacones que manfesta la otra. Este tpo de relacones perfectas son propas de varables físcas, por ejemplo, la relacón entre el volumen y la presón (a determnados valores de volumen le corresponden unos determnados y específcos valores de presón) o la del voltaje y la corrente en un crcuto eléctrco con resstenca constante. En nuestra cenca, sn embargo, estas correlacones perfectas son mpensables. La conducta (que es nuestro objeto de estudo) -en sus múltples manfestacones- se halla relaconada con multplcdad de factores, a veces no controlados, a veces desconocdos. La medda de la asocacón entre cualesquera de ellos y la conducta nos proporconará como máxmo nformacón sobre determnadas tendencas más o menos claras, sgnfcatvas o no- entre la ocurrenca de certos comportamentos y determnadas crcunstancas o factores que los acompañan. Esto quere decr que nunca podremos predecr al 00% un comportamento por mucho que sepamos sobre el tpo y cantdad de sus condconantes, aunque sí podremos predecrlo en algún grado. Para ello hacemos nvestgacón.

. Regresón lneal smple. Covaracón y correlacón entre varables. De cara a medr de alguna manera cómo ser relaconan entre sí dos varables (por ejemplo, e Y) es mportante en prmera nstanca partr del concepto de covaracón. La covaracón entre dos varables hace referenca a la medda en que la varabldad de los valores de tende a estar aparejada en certo sentdo o tendenca con la varabldad de los valores de Y. De la manera que mejor se entende la covaracón entre dos varables es representando dcha relacón en un eje de coordenadas. Pongamos unos supuestos valores de en el eje de abcsas y sus correspondentes de Y en la ordenada. Por ejemplo, mdamos de 0 a 0 el nvel de competenca autopercbda () por una muestra de 0 sujetos para superar una asgnatura y la nota obtenda en la msma (Y). Y 0 9 5 3 0 0 3 5 9 0 Cada uno de los puntos de la gráfca representa a un sujeto. Esto quere decr que el prmero de ellos puntuó en la escala de competenca percbda un valor de y su nota en la asgnatura fue de,5 puntos aproxmadamente. Por su parte otro de los sujetos que puntuó en la escala de competenca un obtuvo una nota de y otro con una puntuacón de 9 en, obtuvo tambén una puntuacón de en Y. Interpretando en general esta gráfca podemos afrmar que este conjunto de puntos esta nube de puntospresenta una tendenca o relacón ascendente entre e Y por lo que parece ser que en líneas generales, a medda que aumenta la competenca percbda de los sujetos éstos obtenen notas superores en la asgnatura. Lo que sgue es medr o cuantfcar de alguna manera este grado de relacón mostrada en la gráfca entre e Y. A contnuacón llevaremos a cabo esta tarea. El concepto de varabldad hace referenca a la dspersón que presenta un conjunto de datos entre sí o respecto a un determnado referente. Tal referente puede ser la meda. relaconamos las desvacones de cada uno de los datos de respecto a su meda con las desvacones de sus parejas en los valores de Y respecto a la meda de Y y calculamos su promedo tenemos: Cov Y ( )( Y Y ) Con esta fórmula se calcula el grado de asocacón o covaracón entre e Y. u resultado es postvo s ocurre que los datos con desvacones altas y postvas respecto a su meda en la varable se emparejan con datos con desvacones altas y postvas En estadístca las meddas de dspersón más usadas son la desvacón típca () y la varanza ( )

. Regresón lneal smple respecto a la meda en Y, así como s desvacones altas en negatvo de los datos en la varable se aparejan gualmente con desvacones altas tambén negatvas en la varable Y. Esto ocurre cuando, por ejemplo, en el caso grafcado arrba, sujetos con alta competenca percbda obtenen notas altas en la asgnatura y sujetos con baja competenca notas bajas. Por otra parte, el resultado de la fórmula de la covaracón será negatvo s, por el contraro, desvacones altas postvas en se aparejan con desvacones altas negatvas en Y y vceversa. La fórmula de la covaracón, por tanto, nos mde hasta qué punto las dos varables están asocadas en su propa escala puesto que estamos utlzando las puntuacones drectas que han proporconado los sujetos. upongamos que los resultados de medr a sujetos en las varables horas de estudo empleadas en una asgnatura () y su nota en la msma -de 0 a 0- (Y) han sdo las sguentes. ujetos Y ( x x ) ( y y) ( x x)( y y) 3 5 5 0 9 3 3 5 0 9 9-3.5 -.5-0.5.5.5.5 0.5 -.5-3.5 -.5.5 3.5.5.5.5 -.5.9 3.9-0.3 5..9 3.9 0.9.5 Medas.5.5.5 ( x x) son las puntuacones dferencales que corresponden a cada sujeto en y ( y y) son las puntuacones dferencales en Y. Dchas puntuacones ndcan a cuántos puntos de la meda por encma o por debajo de ésta- se stúa la puntuacón de cada sujeto tanto en como en Y. Así pues, una puntuacón dferencal postva ndca una superordad respecto a la meda y una negatva un defecto respecto a la msma. Cuál es la medda de covaracón entre ambas varables en este caso? Cov Y ( )( Y Y ).5.93 upongamos que la nota en la asgnatura se hubera meddo en una escala de 0 a 0 por ejemplo s el examen constara de 0 preguntas cortas- en vez de con la escala de 0 a 0 como antes. mantenemos las msmas notas prevas, es decr, tenendo gual rendmento por alumno que antes pero en esta últma escala, las puntuacones huberan sdo (nótese que en Y, una puntuacón de, por ejemplo, 5 en una escala de 0 a 0 se corresponde con una de 0 el doble- en la escala de 0 a 0): 3

. Regresón lneal smple ujetos Y ( x x) ( y y) ( x x)( y y) 3 5 5 0 9 3 0 0-3.5 -.5-0.5.5.5.5 0.5 -.5 -.5-3.5.5.5.5.5.5-9.5.3. -0.3 30..3.. 5.3 Medas.5 3.5.95 En esta nueva escala de la varable Y, la medda de covaracón entre las dos varables será: Cov Y ( )( Y Y ).95.5 un valor sensblemente superor al de antes (.5 >.93). Quere decr esto que el grado de asocacón entre e Y resulta superor en este segundo ejemplo cuando sabemos que las puntuacones de Y son las msmas que antes pero meddas en otra escala? La respuesta es no. La explcacón está en la ampltud de la escala de medcón de la segunda de nuestras varables. Este ejemplo nos conduce a afrmar que la medda de la covaracón entre dos varables depende del tpo de escala utlzada. Cuanto más alto es el rango de varacón de las escalas más alto es el resultado de la covaracón entre los datos mantenendo equvalente las puntuacones de los sujetos en la nueva escala respecto a la orgnal. Es por eso que necestamos, para establecer comparatvas entre datos provenentes de dferentes escalas (o de dferentes nvestgacones) y para los msmos conceptos o temas, de una medda de covaracón que no dependa de ellas. Esta medda es la correlacón de Pearson. La fórmula de la correlacón de Pearson (r), la más utlzada para medr la asocacón entre dos varables nos proporcona, respecto a la covaranza, una medda de covaracón lbre de escala. El coefcente de correlacón de Pearson oscla entre + y -, representado el prmero un valor de correlacón perfecta postva entre las varables y el últmo de correlacón perfecta negatva. Un valor de r 0 sgnfca la ausenca total de correlacón entre las varables. Para calcular r se procede a estmar el promedo de los productos cruzados de y de Y (tal y como en la fórmula de la covaracón se hacía con las puntuacones dferencales) pero en sus puntuacones típcas. Z xz y r sendo Z s las puntuacones típcas, es decr, representan el número de desvacones típcas a que se encuentra la puntuacón de cada sujeto respecto a la meda del grupo tanto en como en Y. upongamos que una determnada varable tene de meda 5 y de desvacón típca.5. Un sujeto que obtene en dcha varable una puntuacón de.5,

. Regresón lneal smple se encuentra a desvacón típca por encma (postva) de la puntuacón meda. Esta sería, pues, su puntuacón en Z. Formalmente lo calcularíamos así : Z ( ) (.5 5).5 Z.5.5 Por ejemplo, transformemos en puntuacones Z los valores de e Y para el sujeto de la nvestgacón anteror. Dcho sujeto nvrtó 5 horas en el estudo de la matera y obtuvo una calfcacón de 5 en la msma. Para este sujeto su puntuacón dferencal en será: ( ) (5.5).5 lo que ndca que su puntuacón es.5 puntos menor que la meda del grupo. Y en Y: ( Y Y ) (5.5).5 lo que ndca que su nota es.5 puntos menor que la nota meda del grupo Veamos cuáles son las correspondentes puntuacones típcas. En : ( ).5 Z. lo cual ndca que su puntuacón en horas de estudo 3. nvertdas en la matera se encuentra a. desvacones típcas por debajo de la meda de horas nvertdas del grupo. En Y: ( Y Y ).5 Z.53 lo que muestra que su nota se encuentra a.53 Y 3 desvacones típcas por debajo de la nota meda del grupo. A contnuacón calculamos r para el conjunto de datos anterores (prmero para las notas de examen en la escala de 0 a 0): para el cálculo de las puntuacones típcas es correlacón de forma equvalente debería ser r Y z zy ( ) (cuasvaranza), la fórmula de la 5

. Regresón lneal smple ujetos Y ( ) 3-3,5 5 5 -,5 3 -,5 0,5 5 0 9,5 9 9,5,5 3 -,5 ( ) 0,5 5,0,0,5,5 3,0,5,0 ( Y Y ) -3,5 -,5,5 3,5,5,5,5 -,5 Y Z x Z y Z Z x y ( Y ),0 3,0,5 0,5 5,0 5,0,5,5 -,05 -, -,0,53,9,5, -,3 -,5 -,5,,0,5,5, -,5,30, -,03,5,,,0, umas (Σ) 5 50.5 3.5. Medas.5.5 D.T. 3. 3 Ya que: ( ).5 9. 3. Y ( Y Y ) 3.9 9.0 3 entonces para cada puntuacón en, por ejemplo, la prmera: ( ) 3.5 Z.0 3. Fnalmente, el coefcente de correlacón de Pearson valdrá: r z z. Y 0.955 Una correlacón muy alta postva (tenendo en cuenta que sería la correlacón perfecta). Ello ndca que cuantas más horas de estudo se emplee para estudar la matera más altas son las notas obtendas. A contnuacón calculamos r para los datos en el caso en que los datos Y se toman en la escala de 0 a 0: ujetos Y ( x x) -3,5 5 0 -,5 3 -,5 0,5 5 0,5 9 0,5,5 3 -,5 ( x) 0,5 5,0,0,5,5 3,0,5,0 x ( y y) -,50-3,50,50,50,50,50,50-9,50 y z x z y z z x y ( y) 5,5,5,5,5 0,5 0,5,5 90,5 -,05 -, -,0,53,9,5, -,3 -,5 -,5,,0,5,5, -,5,30, -,03,5,,,0, umas 5 0.5 5. Medas.5 3.5 D.T. 3..0

. Regresón lneal smple Y ( ( Y Y ) ).5 5 3..0 Y su valor r: r xy z z. x y 0.955 Observemos cómo el coefcente de correlacón entre e Y no varía cambando la escala en que se puntúa Y. Tanto en el prmer caso (escala de 0 a 0) como en el segundo (escala de 0 a 0) el valor de r es.955. En el P la petcón del cálculo de la correlacón nos puede proporconar además otra nformacón adconal que puede resultar útl. Los resultados los encontramos en Analzar/correlacones/bvaradas. En el últmo cuadro de dálogo a partr de estos comandos se pueden solctar las medas y los productos cruzados de las varables así como sus covaranzas. u salda nos proporcona la nformacón sguente (para las varables horas de estudo y notas de 0 a 0-): Estadístcos descrptvos Meda Desvacón típca HORA,500 3,0530 OTA,500 3,0 Correlacones HORA HORA OTA Correlacón de Pearson,955(**) g. (blateral).,000 uma de cuadrados y productos cruzados,500,500 Covaranza 9,3,99 OTA Correlacón de Pearson,955(**) g. (blateral),000. uma de cuadrados y productos cruzados,500 3,500 Covaranza,99 9,0 ** La correlacón es sgnfcatva al nvel 0,0 (blateral). La correlacón entre ambas varables, tal y como antes ndcamos es.955. u covaranza.93 (véase este msmo resultado cuando se calculaba a mano prevamente). La suma de

. Regresón lneal smple cuadrados de ( ( ) ) vale.5, la de Y ( ( Y Y ) ) 3.5; sus correspondentes varanzas 9.3 y 9.0 3. Por últmo, la suma de productos cruzados entre e Y ( Y ) vale.5, un dato útl para calcular a mano el coefcente r como veremos a contnuacón. El coefcente de correlacón de Pearson puede ser calculado de manera más cómoda utlzando la sguente fórmula que derva de la anteror expresada en valores Z s : r Y Y Y Y A partr de ahora utlzaremos esta últma formulacón en vez de la expresón orgnal. por cualquer razón conocemos las puntuacones dferencales de los datos la fórmula de la correlacón de Pearson se plantea así: donde x e y Y r xy Y x xy y Una medda drectamente relaconada con la correlacón de Pearson es el denomnado coefcente de determnacón -R -. Dcho coefcente se calcula elevando la cuadrado el valor de r y smbolza la cantdad de varabldad explcada por en la determnacón de los valores de Y. O dcho de otra forma, la proporcón de la varabldad de los valores de Y que es debda al efecto de, o de forma más nespecífca (cuando no queremos nducr sentdo causal alguno entre las varables), la cantdad de varabldad compartda entre las varables e Y. Mentras que r proporcona la nformacón sobre el sentdo de la correlacón (postva o negatva), R nforma sobre su fuerza. Así que un valor de r -.9 se corresponde con un R 0. (el msmo coefcente de determnacón que para una r.9). La dferenca entre los dos casos es el sentdo en que afecta a Y. El coefcente de determnacón o proporcón de varabldad explcada del modelo de relacón planteado entre e Y suele representarse en dagramas de Venn. Un círculo completo representa la cantdad de varacón de los datos en la varable Y y sus dferentes áreas representan la proporcón de la varabldad de dcha varable que se debe a, por un lado, y a factores dferentes a, por otro. Obvamente, cuanto mayor es el área de varacón explcada por más habremos explcado de Y, es decr, más conocemos de ella. Por el contraro, cuanto menor es este área mayor cantdad de factores desconocdos (que no están bajo nuestro conocmento) afectan a lo que tratamos de explcar. A contnuacón tenemos un ejemplo: 3 Hay que tener en cuenta que más que varanzas estas son cuasvaranzas puesto que resultan de dvdr las sumas cuadrátcas por -. En esta fórmula, al gual que anterormente, debe sustturse por - s las desvacones típcas del denomnador están calculadas a partr de -.

. Regresón lneal smple Delmtacón de la varabldad de Y V. Explcada por V. o explcada por R área azul área total 3. La representacón gráfca de la correlacón. La ecuacón de regresón. La representacón gráfca de la relacón entre dos varables ( e Y) consttuye un nstrumento a veces muy útl tanto para nterpretar el tpo de relacón estudada como para detectar posbles casos extremos o perturbadores de la relacón entre ellas. Como ya hemos vsto, se suele utlzar un eje de coordenadas donde los valores de se representan en la abscsa y los de Y en la ordenada. En el P, una vez confgurado el archvo de datos en su hoja correspondente, el dagrama de dspersón de los msmos se solcta con la sguente sucesón de comandos: Gráfcos/Dspersón/mple. El gráfco resultante del ejemplo que tratamos anterormente sería: Horas de estudo y notas 0 OTA 0 0 HORA Los puntos rojos en el gráfco stúan las dferentes puntuacones en el examen de cada uno de los ocho sujetos analzados en funcón del número de horas de estudo que han dedcado a estudar la asgnatura. Una nterpretacón general de esta gráfca (s aún no hubésemos calculado los estadístcos anterores como la correlacón de Pearson o la covaracón entre e Y) nos conduce a afrmar que la correlacón entre e Y es postva puesto que los valores descrben una dsposcón haca arrba a medda que aumentan los valores de. Además la vsón de dcha gráfca nos permte vslumbrar cómo se dstrbuyen los puntos respecto a una hpotétca línea recta que los defne de la forma más satsfactora posble y s respecto a dcha línea recta se da mucha o poca dspersón de los valores dbujados. (Imagna vsualmente dcha recta). 9

. Regresón lneal smple Con estas puntualzacones estamos ntroducendo algunos conceptos de nterés que se barajan en los estudos de la regresón. Por un lado el concepto de lnealdad; por otro, el grado de dspersón de los datos respecto a dcha lnealdad o tambén la consderacón del grado de nclnacón de la línea dbujada, etc... En prmer lugar es mportante dejar claro que el tpo de estudos que vamos a tratar en estas págnas se crcunscrben exclusvamente a relacones de tpo lneal entre varables. esta condcón no se cumple, las estmacones de los dferentes estadístcos aplcados para el análss de la relacón lneal estarán sesgados o serán noportunos. Consderemos por ejemplo que entre (ansedad) e Y (rendmento) se produce el sguente tpo de relacón que representamos gráfcamente (una relacón de U nvertda): 0 ansedad y rendmento 9 5 REDIMIE 3 0 AIEDAD en este caso tratamos de aplcar empecnadamente la supuesta recta que representa a estos puntos, erraremos en el empeño puesto que dcha recta y sus correspondentes valores de parámetros no consttuyen estmacones veraces y/o adecuadas de la relacón real que exste entre las varables que es de tpo curvlínea (cuadrátca). Empeñándonos en defnr una relacón lneal entre ellas (obsérvese la recta dbujada que representa estos puntos) la conclusón sería que a medda que crece la ansedad aumenta el rendmento mentras que en la gráfca se apreca precsamente que esto ocurre hasta certo nvel de ansedad a partr del cual el rendmento empeza a decaer. somos capaces de asegurar de que la relacón entre las varables e Y es de hecho de carácter lneal y por lo tanto puede ser representada medante una línea recta, el paso sguente será calcular la ecuacón de dcha recta, es decr, la expresón matemátca que la defne. Esta recta se denomna recta de regresón y su expresón matemátca es: Y ˆ a+ b donde a es la ordenada en el orgen o valor de y (estmado o predcho) cuando vale 0; b representa la nclnacón de la recta, o s se quere, el cambo estmado en la varable Y por cada undad de cambo en. Para esta ecuacón suele utlzarse la sguente nomenclatura cuando se trata de estmar la relacón estudada en la poblacón: 0

. Regresón lneal smple Yˆ β + β 0 sendo β 0 el parámetro o valor poblaconal de a y β el correspondente parámetro de b, esto es los valores de a y b de la recta anteror en la poblacón de la que supuestamente procede la muestra con la que hemos trabajado. La recta de regresón no sólo permte formalzar la relacón entre las varables estudadas asgnándole un referente gráfco sno que, lo que es cas más mportante, permte predecr valores de Y a partr de valores de que no se encuentran ncalmente en la muestra de partda. A este respecto, sn embargo, convene apuntar la convenenca de no estmar valores de fuera del rango de medda sobre la que ha versado la muestra orgnal ya que lo que en prncpo puede ser una relacón de tpo lneal puede no serlo cuando se exploran meddas de fuera (haca arrba o abajo) del rango en un prncpo contemplado. Pues ben, la recta de regresón consttuye la recta que mejor representa la nube de puntos representados en la gráfca del modo como hemos hecho antes. Dcha recta puede estmarse por dversos procedmentos sendo la ntencón dentfcar, de las nfntas rectas que puderan pntarse, aquélla que ajuste mejor con esta nube de puntos empírca. Con otras palabras, aquélla recta respecto a la cual las dstancas de los numerosos puntos respecto a la msma sea mínma. El procedmento más utlzado y que comporta menor sesgo es el de mínmos cuadrados. Consste en hacer mínma la dstanca de los varados puntos de la nube respecto a los puntos que se encuentran en la recta, esto es, que la defnen. denomnamos e a la dstanca de cada uno de los dferentes puntos () hasta la recta, el procedmento de mínmos cuadrados tratará de estmar la recta tal que: e mínmo es decr, las dstancas al cuadrado de los puntos hasta la recta, sumados, deben tender al mínmo. Gráfcamente y planteando para cada punto o dato ( Y ) su ecuacón correspondente se tene: Y a+ b + e por lo que: Y Y ( a+ b ) e Yˆ e ya que Y ˆ a+ b

. Regresón lneal smple Y 0 Horas de estudo y notas Y Y ( Y Yˆ) ( Yˆ Y ) OTA 0 0 HORA La dstanca que va desde la meda de Y (Y ) hasta cualquer punto de la recta (Yˆ ), dado un determnado valor de, queda explcado por la recta de regresón, es decr por el cambo que sufre Y como efecto de. Por otro lado, la dstanca entre dcho punto de la recta (Yˆ ) y el valor empírco de Y se denomna e y no lo explca sno otras varables ajenas a ella (errores de medcón, factores desconocdos, aleatoredad del propo comportamento de Y, etc...). 3.. upuestos. Los valores de e deben cumplr una sere de requstos para que sea pertnente el uso del modelo de regresón tal y como lo estamos realzando. Estos requstos pueden además ser aplcados a la varable Y, que es la otra varable aleatora mplcada en el modelo de regresón. Formalmente estos requstos o supuestos se expresan así: UPUETO En térmnos de Y En térmnos de ε Lnealdad E( Y / ) α + β E ( ε ) 0 Homocedastcdad Var ( Y / ) σ Var ( ε ) σ Independenca puntuacones Cov ( Y Y ) 0 Cov ( ε ) 0 ε ormaldad Y sgue una ley normal ε sgue una ley normal Gráfcamente algunos de estos supuestos en datos muy smples pueden lustrarse de esta manera: σ σ σ σ Y / Y / Y / 3 Y /

. Regresón lneal smple Homocedastcdad Lnealdad ormaldad 3 Como puede aprecarse en la gráfca, basta observar s los puntos verdes acompañan a la recta, más o menos, en todo su recorrdo para tener certa evdenca de lnealdad. En este sentdo sería ncompatble con dcha lnealdad (o sospecha de falta de lnealdad) observar un alejamento de los puntos empírcos en algún momento del recorrdo de la recta, por ejemplo, al fnal o en su curso medo aunque la recta estmada fuera la msma o cas la msma. Por otro lado, la homocedastcdad se apreca s la dspersón de los valores de Y en cada una de las condcones de son equvalentes; es decr, s no se dan dspersones claramente dferentes entre las dferentes líneas de puntos verdes correspondentes a cada valor de (las longtudes de las llaves dbujadas son semejantes). Por últmo, la normaldad aunque en la gráfca dbujada no se apreca drectamente- se refere a la exstenca de una concentracón mayor de puntos verdes en las zonas próxmas a la línea recta y menores concentracones en los extremos haca arrba y haca abajo. Las líneas rojas que delmtan la forma de campana de Gauss para los datos dentro de cada condcón de descrben este tpo de dstrbucón que explcamos. A contnuacón veamos cómo pueden estmarse los dferentes parámetros nvolucrados en la recta de regresón tal y como expresamos antes. Prescndendo de los efectos aleatoros de ε y expresando la ecuacón sn los msmos tenemos: Y ˆ a+ b donde Y estmada (Yˆ ) hace referenca a la puntuacón de Y lbre de error, es decr, aquella que concde exactamente con la recta de regresón. A partr de estas estmacones mínmo cuadrátcas se llega a dlucdar cómo se calculan cada uno de los parámetros de la ecuacón de la recta sendo: a Y b y b r Y Y 3

. Regresón lneal smple 3.. Ecuacón en drectas, dferencales y típcas. La ecuacón de regresón puede expresarse de formas dferentes según el tpo de puntuacones de las que partmos para estmarla. Así pues podemos tambén expresar los parámetros a y b, además de forma drecta, a partr de las puntuacones dferencales de los sujetos (sus desvacones respecto a las medas de y de Y) y en puntuacones típcas (los valores correspondentes de Z). Las prmeras en puntuacones dferencales- tenen la peculardad de estmar la ecuacón de regresón a partr de los valores de 0 en e Y, es decr, la ordenada en el orgen de dcha recta en puntuacones dferencales concde con el 0. Por otro lado, expresar la ecuacón de regresón en puntuacones típcas tene la gran ventaja de expresar la relacón entre e Y en puntuacones no dependentes de la escala en que se mden estas varables por lo que resulta en ocasones muy convenente a la hora de comparar rectas de regresón de dferentes nvestgacones que utlzan dferentes escalas de medcón para las msmas varables. En la sguente tabla se presentan las ecuacones de la recta en sus dferentes modaldades según el tpo de puntuacones de las que parten y la forma de calcular sus correspondentes parámetros. P. drectas P. dferencales P. típcas Y a+ b Y Y ) b( ) + e Z r Z + e ˆ ( Y Y a Y b b r Y Y a 0 b xy x r z Z x Z y ( ) Veamos cómo serían las ecuacones en dferencales y típcas de los datos de la nvestgacón que nos ocupa donde se correlaconaba el número de horas nvertdas en el estudo de una asgnatura y la nota obtenda (en escala de 0 a 0 y en otra escala de 0 a 0). Tpo de puntuacones Valores Y (Escala de 0 a 0) Valores Y (Escala de 0 a 0) Drectas Y 9. 03+. Y. 0+. 5 Dferencales y 9. x y. 5x Típcas Z 955 Y. Z ZY. 955Z Observemos que el parámetro b de las rectas de regresón para el cambo de escala de la varable Y dfere cuando se estman dchas rectas en puntuacones drectas y dferencales (lo que podría aprecarse por sus dferentes nclnacones s las representásemos gráfcamente). El parámetro b es más grande cuando la escala tene un rango mayor, es decr, se espera un cambo mayor en Y notas- por cada hora más de

. Regresón lneal smple estudo cuando la escala es de rango más amplo que cuando su rango es menor. La dferenca entre dferencales y drectas radca en el parámetro a (ordenada en el orgen) que queda gualado a 0 en el caso de las dferencales. En este ejemplo, conocendo los datos y la manera en que han sdo smulados cas podemos despreocuparnos de estos desajustes, ya que sabemos de antemano que las puntuacones en Y en la prmera escala son equvalentes proporconales- a las de Y en la segunda escala. Estamos sobre avso de que las dferencas en b entre ambas escalas son sólo aparentes, es decr, dependen de ellas, del rango de medcón de las notas. En consecuenca, el análss de ambas rectas no nos llevará a conclur que la relacón entre e Y es más fuerte en el segundo caso que en el prmero. n embargo, quzás en otras crcunstancas no seamos tan conocedores de la justa escala en que se mden las varables y querendo comparar rectas de regresón de nvestgacones dferentes erremos en el ntento. En estas stuacones, pues, tene especal utldad la estmacón de las rectas de regresón medante puntuacones típcas o estandarzadas. En el cuadro anteror aprecamos que ambas rectas concden perfectamente en una escala y en otra. En el P la salda que nos proporcona la petcón de la ecuacón de regresón para un fchero de datos muestra tanto los coefcentes en drectas como en estandarzadas. La orden a aplcar es: Analzar/Regresón/Lneal. Algunos de los resultados presentados en su salda (para las puntuacones de los ejemplos que estamos utlzando) son: Coefcentes Coefcentes no estandarzados Coefcentes estandarzados Modelo B Error típ. Beta t g. (Constante),03,9,00,99 HORA,9,,955,5,000 a Varable dependente: OTA (0-0) Coefcentes Coefcentes no estandarzados Coefcentes estandarzados Modelo B Error típ. Beta t g. (Constante),0,,00,99 HORA,5,3,955,5,000 a Varable dependente: OTA (0-0) donde pueden localzarse en las tercera y cuarta columnas los parámetros de las rectas de regresón estmadas en uno y otro caso: En drectas (subrayados en rojo) y en estandarzadas (en azul). La nformacón restante presentada en estos cuadros será tratada a contnuacón en el apartado sobre sgnfcacón de los parámetros y del modelo.. gnfcacón de la correlacón y de los parámetros del modelo de regresón. Hasta el momento hemos planteado la medcón de la relacón exstente entre dos varables (covaranza y coefcente de correlacón de Pearson) y tambén su especfcacón en un modelo formal que permte descrbr a nvel gráfco su naturaleza (ecuacón de la recta de regresón). 5

. Regresón lneal smple n embargo aún no hemos planteado nngún nterrogante acerca de la sgnfcacón de nuestros datos, es decr, de la medda en que la relacón estmada entre nuestras varables y la funcón que descrben (lneal y de determnado sentdo) son o no dferentes de lo que pueda esperarse por meros efectos del azar. Estamos planteando ahora el tema de la sgnfcacón estadístca... gnfcacón de la correlacón y del coefcente b. En prmer lugar reparemos en el coefcente de la correlacón entre las varables. Desde el punto de vsta de su sgnfcacón se trata de conocer s r es o no dferente de 0. lo es, dremos que aunque su valor no concda exactamente con 0 sí será uno de las fluctuacones aleatoras que pueda adoptar dcho valor en las muestras que pueden extraerse aleatoramente de la poblacón (de correlacón meda gual a 0). En este caso, el valor de probabldad de que nuestro estadístco proceda de dcha poblacón debe ser grande (p>.05), es decr, será grande la probabldad de que nuestro valor pertenezca a dcha dstrbucón de valor medo 0. por el contraro el valor de la correlacón empírca sobrepasa los límtes de accón del azar la conclusón es que dcha correlacón no puede consderarse gual a 0, por lo tanto es dferente de este valor y resulta estadístcamente sgnfcatva. Así pues, la probabldad de que proceda de la poblacón cuyo valor promedo es cero es pequeña o nula (p<.05). Lo msmo ocurre s deseamos evaluar el poder de predccón del estmador b en la ecuacón de regresón. erá o no consderado dferente de 0 s supera el valor prefjado por los efectos del azar en la dstrbucón muestral del estadístco b. Tanto en un caso como en otro (coefcente de correlacón de Pearson como de b) se necesta conocer el error típco de la dstrbucón de sus correspondentes estadístcos de tal manera que podamos calcular el ntervalo de probabldad (al 95% o 99%) de sus valores aleatoros. Ambos estadístcos sguen la ley de probabldad de tudent-fsher (la conocda dstrbucón t) con - grados de lbertad: r Y r t 0 Como vemos en la gráfca de arrba (el caso de r), el cálculo del error típco de dcha dstrbucón cuyo valor central de r 0, es:

. Regresón lneal smple r Y lo que sgnfca que el error típco de varacón del conjunto de valores de r calculados en nfntas muestras de tamaño extraídas de una poblacón caracterzada por una correlacón gual a 0 entre ellos es ésta. Para transformar un determnado valor de r a su a su correspondente t se hace así: t r Y 0 ry En el caso del parámetro b de la recta de regresón, el error típco de su dstrbucón es: res ( ) y por tanto su valor en t: t b 0 res ( ) sendo res el valor de la varanza resdual (de los errores e-) o no explcada por el modelo. Más tarde abundaremos más sobre este valor. Para nuestros datos que estudaban la relacón entre las horas de estudo y las notas en una asgnatura (0-0), la sgnfcacón de los valores de r y b en la ecuacón de regresón estmada se analzaría tal y como se plantea en la sguente tabla: Estadístco Valor t Decsón p/sg (P).955 0.955 t t (. 05,). t.5 r.955.955. Rechazo Ho ya que.000.5>. (<.05) b.9.9 0 t.93..9.5. t t (. 05,). Rechazo Ho ya que.5>..000 (<.05) Obsérvese que el valor de t referdo al parámetro de la ecuacón de regresón b, concde plenamente con la salda de resultados aportado en el P presentada antes. Además, ambos valores de t (el de r y de b) concden gualmente y en consecuenca sus correspondentes valores p. Esto ocurre sempre en el modelo de regresón smple.

. Regresón lneal smple Para el caso ejemplfcado concluremos, respecto al valor obtendo en r, que exste una correlacón sgnfcatva y postva entre el número de horas empleadas para estudar la asgnatura y la nota obtenda de tal manera que dcha nota se verá ncrementada cuantas más horas se nvertan en el estudo. De manera más general puede decrse que las notas y las horas de estudo comparten varacón y dcha covaracón (/correlacón) resulta sgnfcatva al.000 (< a.05 s trabajásemos teórcamente con este valor nomnal). Respecto al parámetro b, dremos que por cada hora de estudo que se nverte en la asgnatura en cuestón se ncrementa en.9 puntos aproxmadamente punto- la nota obtenda en la msma. Esta predccón resulta relevante a nvel estadístco (p.000) por lo que dcho cambo en la nota en funcón del estudo puede consderarse mayor a los límtes explcados por el azar. queremos nterpretar este parámetro de manera estandarzada dremos que por cada hora de estudo más en la asgnatura se ncrementa la nota en.955 desvacones típcas... Valdacón del modelo medante el índce F de nedecor. A contnuacón, evaluemos desde otro punto de vsta y de forma más general, el modelo de regresón planteado, la relacón especfcada entre e Y. Esto supone plantearse s los parámetros conocdos o explcatvos del modelo en este caso la varable - aportan nformacón esclarecedora y relevante para explcar el comportamento la varable Y-. Dcho de otra manera, s dcho componente explcatvo () es mucho más relevante en la determnacón de la varable crtero (Y) que el componente de error del modelo (o efecto de otras varables desconocdas, extrañas y/o no meddas). Para llevar a cabo este proceso de valdacón se suele utlzar el índce F de nedecor. Como ya se sabe, es un cocente entre la varanza explcatva (conocda) del modelo la varable manpulada, en los dseños expermentales- y la varanza no explcada o error. El índce evalúa en qué medda la varanza del numerador es capaz de sobrepasar aquella representada en el denomnador. Para el modelo de regresón que nos ocupa se trata de medr por un lado la varacón de Y condconada por (s se quere, compartda con ella) y por otro, la varacón de Y no explcada o no atrbuda a. Los componentes de varabldad del modelo de regresón son dos: b y e. traemos de nuevo a colacón la representacón gráfca del modelo en ejes cartesanos: 0 Horas de estudo y notas e Y Yˆ ) ( ( Yˆ Y ) OTA 0 0 HORA

. Regresón lneal smple Entenderemos que el error de cualquer puntuacón (Y ) es su desvacón respecto a su puntuacón estmada -predcha por el modelo-, es decr, la que debería pasar por la recta (dstanca o desvacón en rosa en la gráfca). Por otro lado (en azul) dcha puntuacón estmada por la recta o el modelo para ese dato se desvía o es dferente a la Y (que sería la puntuacón estmada -la consderada más probable- para cualquer sujeto de la muestra en la stuacón de total desconocmento de la puntuacón correspondente de dcho sujeto en o ncluso de desconocer o no exstr el efecto de ). A partr de estas desvacones planteadas y sumando ambas para estmar la complementaredad de las dferentes fuentes que hacen que una puntuacón determnada en Y se dstance, dference o varíe respecto a Y la más probable ante la ausenca total de nformacón- tenemos: ( Y Y ) ( Yˆ Y ) + Varacón total V. exp lcada + ( Y Yˆ) V. error elevamos al cuadrado ambos membros de esta gualdad y sumamos todas y cada una de las desvacones de cada uno de los sujetos de la muestra (suma de dferencas al cuadrado C-) llegamos a la sguente gualdad: C total C exp lcada+ C ( no exp lcada) error Que es precsamente el desglose de varabldad que se realza medante el índce F ya conocdo. Recuérdese que dcho índce se plantea así: F Cexpcada / glexpl Cerror / gle ( Y ( Yˆ Y ) Yˆ ) / k / ( k ) donde k ndca el número de regresores o varables predctoras a consderar (en la regresón smple sempre será uno). la varanza explcada por la regresón la varable utlzada como predctoraconsgue manfestarse lo sufcentemente por encma de la varanza atrbuda al error o a varables ajenas a la regresón-, dcho índce resultará sgnfcatvo. Dcho de otra forma, s aún a pesar de que el modelo queda en certa medda desvrtuado por los componentes aleatoros la nformacón aportada por el componente explcatvo logra mantener con sufcente grado de esclarecmento el valor del modelo, éste se manfesta relevante para explcar la conducta de manera relevante. Esto es, el modelo planteado resultará en este caso un referente váldo para la explcacón del comportamento. En térmnos gráfcos y tal y como se apuntaba anterormente, el índce F consste en la medcón la varabldad de Y (área total del círculo) y el desglose de dcha varabldad en funcón de sus dferentes causas (áreas azul y roja): 9

. Regresón lneal smple Delmtacón de la varabldad (C) de Y V. (C de Y) explcada por V. (C de Y) no explcada por En el P el comando regresón que hemos utlzado antes proporcona tambén por defecto el desglose de los componentes de varabldad del modelo para llegar a F. De forma smlar al AOVA en los dseños expermentales, el cuadro de AOVA en regresón se presenta tal que así (utlzando los datos de la nvestgacón que nos ocupa sobre horas de estudo y notas): AOVA Modelo uma de Meda cuadrados gl cuadrátca F g. Regresón 5,0 5,0,,000 Varable dependente: OTA Resdual 5,30,93 Total 3,500 Por lo que se apreca en la tabla anteror, el valor de F para estos datos es. y la probabldad de que dcho resultado pueda ser producto del azar es.000. Asummos, pues como conclusón, que el modelo resulta relevante: Las horas de estudo empleadas en la asgnatura se muestra un factor sufcentemente explcatvo de la nota obtenda en la msma. La nformacón contenda en este cuadro y la conclusón dervada de ella pueden complementarse con la nformacón aportada por el denomnado índce de bondad de ajuste (R ) que representa la proporcón que de la varacón total del modelo asume el efecto de la varacón explcada por la regresón, es decr, por la varable utlzada como predctora. e calcula a partr de la nformacón proporconada en el AOVA: Y Y C ( ˆ ) explcada R ( Y Y ) Ctotal en nuestro caso, R 5. 3.5.9 lo que ndca que el 9% de las varacones aprecadas en las notas se debe a la cantdad de horas empleadas en el estudo de la asgnatura, una proporcón muy alta. Otra forma de llegar a este resultado es elevando al cuadrado el coefcente r que concde además, tal y como hemos vsto, con el coefcente b estandarzado (Beta.955): R.955.9 0

. Regresón lneal smple 5. La predccón en el modelo de regresón smple. Apuntamos anterormente que una de las utldades del modelo de regresón lneal es su capacdad para predecr qué puntuacones obtenen en Y certos sujetos con valores en no contemplados drectamente en la muestra de estudo. Ello le concede a la ecuacón de regresón, una vez valdada y probada su bondad, un valor nestmable. e trata de calcular, a partr de la ecuacón de regresón valdada, el valor de Y estmado para un sujeto que tene en otro determnado. Por ejemplo, en nuestro caso, qué nota obtendría en la asgnatura, según la ecuacón de regresón estmada, un sujeto que ha dedque.5 horas a su estudo?. Recordemos la ecuacón estmada: susttuyendo: Yˆ.03+. 9 Y ˆ.03+.9.5.0 La nota estmada para dcho sujeto estudando,5 horas es de.0 (en una escala de 0 a 0). Obvamente, este valor sería el estmado tomando como base úncamente la parte explcada por la recta de regresón, es decr, sn tener en cuenta las posbles fluctuacones que pueden producrse en este valor por efecto de la parte aleatora del modelo. Resulta entonces más precso estmar la puntuacón de dcho sujeto por ntervalo, es decr, apuntando los límtes entre los que puede esperarse con una certa probabldad- se encontrará su puntuacón en Y conocdo su valor en. La pregunta es entonces: entre qué valores trabajando con un nvel de confanza del 95%- se encontrará la nota de un sujeto que ha estudado.5 horas?, o de otra forma, entre qué valores se encontrará el 95% de posbles notas que puede obtener dcho sujeto, notas que fluctúan aleatoramente alrededor de.0? recordamos la representacón gráfca de la recta de regresón y aprecamos la dstrbucón de los valores de Y a partr de su estmacón Yˆ -dado un determnado valor de -, trataremos de captar el 95% de dchos valores Y y medr el ntervalo que los defne conocendo cuál es el valor de la varanza resdual aleatora- (de los valores e) de la muestra.

. Regresón lneal smple Yˆ ± t (, α ) res Ŷ Yˆ Para nuestro caso:.0+..93.9.0..93.9 Es decr, la nota esperada para un sujeto que ha dedcado a estudar la asgnatura.5 estará entre.9 y.9 pudéndonos equvocar en dcha estmacón en un 5%. Es un ntervalo tal vez muy amplo pero tenemos muy pocos datos en la muestra lo que condcona sustancalmente este valor. Con muestras más grandes el ntervalo estmado tende a reducrse sendo más precso. Deseando aún ser más precsos en la predccón podemos ncluso dejar en entredcho la recta de regresón estmada pensando que es un tanto dferente de la recta de regresón real (verdadera) que defne nuestros datos aquella recta de la poblacón de la que proceden nuestros datos o muestra con la que, de hecho, la hemos estmado-. En este caso se trata de estmar en qué medda ambas rectas dferen de la forma en que se ndca en la sguente tabla: Y ˆ a+ b ( estmada) otas 9 5 3 Yˆ α+ β ( verdadera) 3 5 9 3 5 9 Horas de estudo Es necesaro calcular pues cuáles son las varanzas esperadas de cada uno de los parámetros de la recta de regresón (a y b) para conocer cuáles son sus dspersones esperadas. e sabe que:

. Regresón lneal smple y que Var ( a) + res ( ) Var ( b) res ( ) Por lo que la ecuacón de regresón expresada en las varanzas de sus correspondentes parámetros será: Var + ( ) ( ) res ( Y ) + res + res Hacendo operacones nos queda que el ntervalo de confanza estmado para Y dada la posble fluctuacón de la recta estmada respecto a la verdadera es: Yˆ ± t (, α ) res + + ( ) ( ) Para nuestro caso, la puntuacón estmada (verdadera) utlzando un ntervalo de confanza del 95% para la puntuacón.5 en será:.0+..0..93 +.93 + (.5.5) +.5 (.5.5) +.5.0+.3.3.0.3.5 Esto es, la nota verdadera esperada para un sujeto que ha estudado.5 horas estará con un 95% de probabldad entre.3 y.5, un ntervalo más amplo como era de esperar- que el delmtado anterormente a partr de la recta de regresón estmada. 3