UNIDAD 11 Estadísticabidimesioal ÍNDICE DE CONTENIDOS 1. Estadísticauidimesioal.................................41 1.1. Població y muestra.................................. 41 1.. Parámetros estadísticos................................ 41. Estadísticabidimesioal..................................44.1. Variables estadísticas bidimesioales........................ 44.. Nube de putos.................................... 45 3. Parámetrosestadísticosbidimesioales........................48 3.1. Medias y desviacioes típicas margiales...................... 48 3.. Covariaza....................................... 49 4. Correlació..........................................5 5. Regresiólieal........................................55 5.1. Rectas de regresió.................................. 55 5.. Estimacioes co las rectas de regresió...................... 56 La Estadística sirve para describir datos. E cursos ateriores el alumo ha podido empezar a estudiar los rudimetos de la Estadística, e particular de la Estadística uidimesioal. E esta uidad, después de u breve repaso de los coceptos estudiados ateriormete, os vamos a ocupar de la Estadística bidimesioal. E la Estadística uidimesioal se estudia u grupo de datos, por ejemplo, el gasto mesual e libros de u cierto úmero de familias. Co la Estadística bidimesioal podríamos estudiar la relació etre el gasto mesual e libros de u grupo de familias co sus igresos mesuales, es decir, podemos estudiar la relació de dos características distitas de u determiado cojuto de idividuos. 4
1. Estadística uidimesioal 1.1. Població y muestra Se ha llevado a cabo ua ecuesta a u grupo de 15 estudiates de primero de bachillerato sobre el úmero de horas semaales que dedica al estudio de la asigatura de Matemáticas. Los ecuestados ha respodido que el úmero de horas que dedica al estudio de esta asigatura so: 1 8 5 3 1 8 4 4 1 5 6 7 8 8 Este es u ejemplo de variable estadística uidimesioal, se dice uidimesioal porque sólo estamos estudiado ua característica, umérica e este caso, del grupo, el úmero de horas. El grupo al que se ha dirigido la ecuesta, estudiates de primero de bachillerato, se deomia població. La població so todos los estudiates de primero de bachillerato de España, por ejemplo. Los datos de los 15 estudiates que hemos recogido, so ua muestra extraída de la població. Ua vez que teemos ua muestra de datos, el estudio de los mismos se puede llevar a cabo co dos fialidades distitas. Podemos estar iteresados úicamete e sacar coclusioes sobre el úmero de horas que dedica al estudio de las Matemáticas los 15 estudiates a los que hemos pregutado; esto es hacer Estadística descriptiva. Por otra parte, podríamos itetar sacar coclusioes sobre los hábitos de estudio de toda la població, e este caso, los estudiates españoles de primero de bachillerato, mediate el estudio de la muestra de 15 que teemos; esto sería hacer Estadística iferecial o iferecia estadística. Para este último puto de vista habría que utilizar modelos matemáticos de probabilidad, y es lo que se estudiará e el curso siguiete. E este curso y e esta uidad e particular, estudiaremos la Estadística desde el puto de vista descriptivo. E otras palabras, o pretedemos descubrir los hábitos de estudio de todos los estudiates de primero de bachillerato, sio simplemete aalizar lo que les ocurre a los 15 que hemos elegido. Como se ha dicho e la itroducció, aquí vamos a recordar cómo se calcula alguos de los parámetros asociados a ua variable estadística uidimesioal, que ya se estudiaro e cursos ateriores. Sólo aquellos que vamos a ecesitar e el resto de la udiad didáctica. 1.. Parámetros estadísticos Los parámetros estadísticos asociados a ua variable so ciertos úmeros que se calcula a partir de los datos, que proporcioa iformació sobre el comportamieto cojuto de la variable. Para ir recordádolos, vamos a utilizar el ejemplo de las horas de estudio de los 15 estudiates de primero de bachillerato. Comezamos ordeádolos de meor a mayor, 1 1 3 4 4 5 5 6 7 8 8 8 8 1 41
UNIDAD 11 Si sumamos todos los datos y dividimos la suma por la catidad de ellos que hay, obteemos la media o media aritmética, que represetaremos por x. E uestro caso, x = 1 + 1 + + 3 + 4 + 4 + 5 + 5 + 6 + 7 + 8 + 8 + 8 + 8 + 1 15 = 8 15 = 5 33 lo que os idica que, por térmio medio, estos quice estudiates dedica 5 33 horas semaales al estudio de las matemáticas. E geeral, si dispoemos de los datos x 1, x,...,x, lamedia es x = x 1 + x + + x Dode es el úmero de datos de que dispoemos. Para abreviar la expresió aterior, e particular la suma del umerador se utiliza el símbolo sumatorio. Auque lo correcto sería escribir x i = x 1 + x + + x, paraidicarquelasumaesdesdeelprimerdato x 1,hastaeleésimo x,escribiremos simplemete x i para referiros a la suma de todos los x i. Por tato, la fórmula de la media se puede escribir de la forma siguiete: i=1 x = x 1 + x + + x = xi La media es u parámetro que mide la tedecia cetral de la variable estadística. Otros parámetros de tedecia cetral so, auque o los usaremos e la estadística bidimesioal; lamoda, que es el dato que aparece u mayor úmero de veces, y la mediaa, que es el dato que ocupa el lugar cetral, si previamete se ha ordeado de meor a mayor. E uestro ejemplo, lamoda es 8, que es el dato que aparece mayor úmero de veces,esdecir,comayorfrecuecia.ylamediaa,dadoquehay15datos,eseldato que ocupa el lugar octavo, x 8 = 5, ua vez que está ordeados de meor a mayor: MEDIANA 1 1 3 4 4 5 5 6 7 8 8 8 8 1 Si el úmero de datos fuese par, etoces la mediaa es la media aritmética de los dos datos que se ecuetra e el cetro. Además de los parámetros que mide la tedecia cetral; media, moda y mediaa, hay otros que sirve para medir cuál es la dispersió de los mismos, es decir, si está más o meos cocetrados alrededor de la media. Los que vamos a recordar aquí so variaza y la desviació típica. Variaza y desviació típica se utiliza para medir el promedio de las desviacioes de los datos co respecto de la media. Para medir esta desviació, podríamos calcular todaslasdifereciasetredatoymedia, (x i x),ysumarlas,paradespuésdividiretre el úmero de datos. Si embargo, este resultado sería ulo. Por esta razó, lo que se hace es utilizar los cuadrados de las diferecias, así se trata de ua suma de úmeros positivos o ulos, y o siempre dará cero. 4
Lavariaza es la suma de los cuadrados de las diferecias etre cada dato y la media, dividida por el úmero de datos, se deota s, s = (x 1 x) + (x x) + + (x x) = (xi x) Etoces, para calcular la variaza, hay que restar la media a cada dato, después se eleva al cuadrado cada úmero y se suma todos, por último, se divide etre. El proceso es algo largo, pero se puede abreviar, porque la fórmula admite ua expresió más secilla de utilizar. Se puede comprobar que la siguiete expresió proporcioa el resultado, y es la que vamos a utilizar e la práctica: s = x i x A pesar de que la variaza mide el promedio de las desviacioes de la media, como estas desviacioes se ha elevado al cuadrado, o está e las mismas uidades que los datos. Por esta razó, resulta más ituitivo a la hora de iterpretar la variabilidad o dispersió de los datos, utilizar otro parámetro, la desviació típica, que es simplemete la raíz cuadrada de la variaza, y se deota s, s = x i x Calculemos la variaza y desviació típica e uestro ejemplo del úmero de horas de estudio: La variaza la calculamos co la fórmula s = x i x Calculamos e primer lugar la suma de los cuadrados de los x i, x i = x 1 + x + + x = 1 + 1 + + 3 + 4 + 4 + 5 + 5 + 6 + 7 + 8 + 8 + 8 + 8 + 1 = 1 + 1 + 4 + 9 + 16 + 5 + 36 + 49 + 64 + 64 + 64 + 64 + 1 = 538 Ahora sustituimos e la fórmula de la variaza, Por tato, la desviació típica, s = 538 15 5 33 = 7 46 s = s = 7 46 = 73 E resume, la media de tiempo dedicado al estudio de la asigatura de matemáticas de los 15 alumos aalizados es x = 5 33 horas; y la desviació típica es s = 73, lo que quiere decir que la mayoría de los 15 estudiates dedica al estudio de las 43
UNIDAD 11 matemáticas u tiempo compredido etre las 5 33 73 = 6 horas y 5 33 + 73 = 8 6 horas. ACTIVIDADES 1. El úmero de libros leídos e el último mes por diez persoas ha sido: 1 3 3 4 5 5 Calcular la media, moda, mediaa, variaza y desviació típica. Recuerda Ua variable estadística uidimesioal es ua característica umérica de u grupo de idividuos. Se llama població al cojuto de idividuos del que se hace u estudio estadístico. Se llama muestra a u subcojuto de la població. Coocidos los datos x 1, x,...,x de ua variable estadística. Los pricipales parámetros estadísticos se calcula de la forma siguiete: xi - Media. Es la suma de los datos dividido etre la catidad de ellos x =. - Moda. Es el dato que aparece co mayor frecuecia. - Mediaa. Es el dato cetral, si el úmero de datos es impar. Si el úmero es par, es la media de los dos datos cetrales. - Variaza. Es el promedio de los cuadrados de las diferecias etre cada dato y su media, se puede calcular de dos formas equivaletes, auque la seguda es más coveiete, s (xi x) x = = i x. - Desviació típica. Es la raíz cuadrada de la variaza, mide la desviació de la media de los datos, s = s.. Estadística bidimesioal Hemos recordado e la secció aterior alguas ocioes de estadística uidimesioal. Allí estudiábamos ua característica umérica de u grupo de idividuos. E la estadística bidimesioal se trata de estudiar dos características uméricas de cada idividuo..1. Variables estadísticas bidimesioales Teemos u grupo de 8 estudiates de primero de bachillerato que ha hecho u exame de la asigatura de Matemáticas y otro de la asigatura de Física y Química, 44
las otas, de a 1, de cada alumo e cada asigatura ha sido las siguietes: x i 4 5 6 7 8 8 9 y i 3 5 4 5 5 5 7 5 8 1 dode para cada par (x i, y i ), la ota de Matemáticas es x i, y la de Física y Química, y i de u alumo cocreto. Este es u ejemplo de variable estadística bidimesioal (X, Y ), dode X = otadematemáticas, Y = otadefísicayquímica. El objeto de estudiar las dos variables de maera cojuta es el de ver qué tipo de relació hay etre ambas, si es que hay algua... Nube de putos Ua primera aproximació al estudio de la relació existete etre las dos variables que costituye ua variable bidimesioal es su represetació gráfica. Si cada par (x i, y i ) lo represetamos como u puto e uos ejes coordeados, se obtiee ua gráfica que llamaremosubedeputos odiagramadedispersió. Para el ejemplo aterior, la ube deputosseharepresetadoelafigura 11.1. Laformadelaubedeputosdelafigura 11.1 os sugiere que existe algú tipo de depedecia etre la ota de Matemáticas y la de Física y Química. Y Física y Química 11 1 9 8 7 6 5 4 3 1 1 3 4 5 6 7 8 9 1 11 Matemáticas X Figura 11.1: Nube de putos E efecto, segú vemos e la figura, parece que cuado u alumo tiee ua ota alta e la asigatura de Matemáticas, tambié la tiee e la asigatura de Física y Química. Lo mismo ocurre co alumos que ha obteido ota baja e ua de las asigaturas, tambié ha obteido ua ota baja e la otra. Se dice e este caso que parece existir ua depedecia liea positiva etre las dos variables (debido a que la ube de putos se asemeja a ua recta co pediete positiva). Mediate los paraámetros bidimesioales que estudiaremos después, veremos cómo se puede medir cuatitativamete el grado de depedecia. La ube de putos puede presetar muchas formas distitas, e la figuras siguietes se muestra alguas de las diferetes posibilidades. E la figura 11., los putos parece acumularse alrededor de ua recta co pediete positiva, como e uestro ejemplo aterior. Diremos etoces que etre las variables, haydepedecialiealpositiva. E la figura 11.3, los putos parece acumularse e toro a ua recta co pediete egativa. E este caso, diremos que etre las variables, hay depedecia lieal egativa. 45
UNIDAD 11 Y Y X X Figura 11.: Depedecia lieal positiva Figura 11.3: Depedecia lieal egativa Y Y X X Figura 11.4: Depedecia o lieal Figura 11.5: No hay depedecia E la figura 11.4, los putos parece seguir ua curva, e este caso parecida a ua parábola. Es decir, etre las variables parece haber algú tipo de depedecia, auque ahora es o lieal. Por último, e la figura 11.5, los putos está situados e el plao si seguir igua pauta cocreta, si aproximarse a igua curva o recta que sugiera algú tipo de fució. Diremos que etre las variables, o hay depedecia. Pero, icluso detro de cada uo de los casos ateriores se puede establecer diferecias. Observemos las ubes de putos de las figuras 11.6 y 11.7. E ambas teemos, segú acabamos de explicar, ua depedecia lieal egativa. Si embargo, so claramete distitas. Mietras que los putos del diagrama de la figura 11.6 está prácticamete sobre la recta, e la figura 11.7, los putos está mucho más dispersos. Para distiguir etre estas posibilidades, se dice que hay depedecia lieal fuerte y depedecia lieal débil, respectivamete. No obstate, esta deomiació de fuerte o débil resultaría ambigua si o hubiese otra posibilidad que la simple observació de la ube de putos. Por esta razó, veremos más adelate u parámetro, el coeficiete de correlació, que establece uméricamete ua medida para el grado de depedecia de las variables. 46
Y Y X X Figura 11.6: Depedecia fuerte Figura 11.7: Depedecia débil ACTIVIDADES. Dibujar las ubes de putos correspodietes a las siguietes variables estadísticas bidimesioales. Idicar además, el tipo de depedecia etre las variables que se observa e el diagrama. Será útil para ello itetar dibujar la recta o la curva que mejor se aproxime a la ube de putos: a) c) x i 3 4 6 7 8 5 y i 9 8 8 5 3 1 1 4 x i 1 4 4 6 6 9 9 y i 6 8 4 8 7 b) d) x i 1 1 4 5 6 7 8 y i 3 6 7 7 6 4 x i 1 4 5 6 7 7 y i 1 3 4 6 7 8 9 Recuerda Ua variable estadística bidimesioal es u par de características uméricas (X, Y ) de u cierto cojuto de idividuos. Por ejemplo, el peso y la estatura de u grupo de persoas. Ua ube de putos o diagrama de dispersió es la represetació gráfica de los datos de ua variable estadística bidimesioal (X, Y ). Se trata de represetar los datos (x 1, y 1 ), (x, y ),...,(x, y ), como putos e u sistema de ejes coordeados. El aspecto de la ube de putos sugiere la depedecia etre las variables X e Y de ua variable bidimesioal (X, Y ): - Si la los putos se acumula e toro a ua recta de pediete positiva, se dice que hay depedecia lieal positiva. - Si se acumula alrededor de ua recta de pediete egativa, se dice que haydepedecia liea egativa. - Tambié puede haber depedecia o lieal, cuado los putos se acumula e toro a ua curva, y puede o haber depedecia, si los putos o sigue igua pauta recoocible. 47
UNIDAD 11 3. Parámetros estadísticos bidimesioales Como ya hemos cometado ates, el objeto de estudiar de maera cojuta dos variables estadísticas e lo que llamamos ua variable bidimesioal, es el de estudiar la posible depedecia de las dos variables. Para ello, además de la ube de putos, se puede calcular ciertos parámetros estadísticos que proporcioa iformació sobre el cojuto de datos. Hay uos parámetros que se refiere sólo a cada variable por separado, so las medias y desviacioes típicas margiales. Otros, que estudiaremos después, ivolucra a los datos de las dos variables. 3.1. Medias y desviacioes típicas margiales Cosideremos los siguietes datos correspodietes a ua variable bidimesioal (X, Y ). x i 1 3 3 4 5 6 7 8 8 8 y i 3 4 4 6 7 7 7 8 9 Si pesamos e los datos de la variable X de forma idepediete, podemos calcular, tato su media como su desviació típica co las fórmulas de la estadística uidimesioal. Así, las medias se calcula mediate las fórmulas: x = xi y = yi dode x i, y i so las sumas de x i e y i, respectivamete, y es el úmero de (pares de) datos. Para uestro ejemplo, estas medias so: 1 9 x = 53 1 = 5 3 y = 57 1 = 5 7. Las medias margiales admite ua iterpretació gráfica importate. Si dibujamos la ube de putos (e la figura 11.8 hemos dibujado la ube de los datos ateriores),el puto de coordeadas (x, y) se ecuetra siempre e el cetro de gravedad de la ube, esto es, el puto dode se puede supoer cocetrada toda la masa. Y 8 7 6 5 4 3 1 Cetro de gravedad 1 3 4 5 6 7 8 9 1 X Figura 11.8: (x, y) es el cetro de gravedad 48
ACTIVIDADES 3. Para los siguietes datos, dibujar la ube de putos correspodiete y su cetro degravedad, es decir, el puto de coordeadas (x, y): x a) i 3 4 5 x b) i 1 3 4 x c) i 1 3 4 y i 6 5 3 y i 1 3 3 1 y i 1 3 5 4. Tambié se puede calcular de forma separada las variazas y las desviacioes típicas margiales, mediate las fórmulas siguietes: - Lasvariazasmargiales: s x = x i x s y = y i y - Lasdesviacioestípicasmargiales: s x = x i x s y = y i y Vamos a calcular las variazas y desviacioes típicas del ejemplo co el que empezábamos este apartado. Para llevar a cabo estos cálculos, y los que vedrá después, coviee orgaizar la iformació e ua tabla que os permita realizar la tarea de ua maera más cómoda. Ua posibilidad es orgaizarlo como e la tabla que se poe a cotiuació, e la que aparece (de mometo) cuatro columas; x i, y i, que so los datos origiales, y x i, y i, que so los datos al cuadrado. E la última fila de la tabla se poe las sumas de todas las columas: x i y i x i yi 1 1 4 3 3 9 9 3 4 9 16 4 4 16 16 5 6 5 36 6 7 36 49 7 7 49 49 8 7 64 49 8 8 64 64 8 9 64 81 53 57 337 373 SUMAS 3.. Covariaza Y ahora sólo queda sustituir e las fórmulas. Variazas: s x = 337 1 5 3 = 5 61 s y = 373 1 5 7 = 4 81. Desviacioes típicas: s x = 5 61 = 37 s y = 4 81 = 19. La covariaza es el primer parámetro cojuto que vamos a estudiar, e el setido de que ivolucra los datos de las dos variables. Da ua idea sobre la forma e que se distribuye los putos alrededor del cetro de gravedad (x, y). Se represeta por s xy y es la media de los productos de las diferecias de las coordeadas de cada puto de 49
UNIDAD 11 la ube (x i, y i ) y las coordeadas de (x,y), es decir, s xy = (xi x)(y i y) Al igual que ocurría e el caso de las variazas, la covariaza se puede calcular mediate ua fórmula que es equivalete a la aterior, pero más secilla de utilizar desde u puto de vista práctico, esta fórmula equivalete es la siguiete: s xy = xi.y i x.y Para utilizar esta fórmula, primero hay que calcular la suma de todos los productos x i.y i, dividir esta suma etre y restarle el producto de las medias. A efectos prácticos, e la tabla de la que hemos hablado ates, añadimos ua ueva columa, la de los productos x i.y i, cuyos compoetes será los productos de los de las columas x i, y i. Para el ejemplo del apartado aterior, completado la tabla que habíamos empezado ates, x i y i x i yi x i.y i 1 1 4 3 3 9 9 9 3 4 9 16 1 4 4 16 16 16 5 6 5 36 3 6 7 36 49 4 7 7 49 49 49 8 7 64 49 56 8 8 64 64 64 8 9 64 81 7 53 57 337 373 35 Etoces, la covariaza e este caso es xi.y i s xy = x.y = 35 1 5 3 5 7 = 4 99 Aparte de la forma e la que se calcula la covariaza que, segú acabamos de ver, o reviste ua especial dificultad, os iteresa saber cuál es el sigificado de este parámetro. Como dijimos al pricipio, la covariaza da ua idea de cómo está distribuidos los putos alrededor del cetro de gravedad (x, y). Y esto se aprecia mediate el sigo. - Si la covariaza es u úmero positivo, los putos estará dispuestos de maera que haya depedecia lieal positiva. - Si la covariaza es u úmero egativo, los putos estará dispuestos de maera que haya depedecia lieal egativa. - Si la covariaza es u úmero próximo a cero, esto idicará que, o bie o hay depedecia etre las variables, o esta depedecia o es lieal. Hay ua explicació geométrica para lo aterior, y auque o vamos a etrar mucho e los detalles, idicaremos que realmete la covariaza o es otra cosa que la 5
media de los productos de las coordeadas de los putos ua vez trasladados los ejes al puto (x,y). Etoces, si cada vez que teemos ua ube de putos, imagiamos los ejes cetrados e (x,y), depediedo de e qué cuadrate esté los putos, los sigos de los productos será positivos o egativos. Por ejemplo, si la mayoría de los putos se ecuetra e el primer y tercer cuadrate, la media será positiva. Esto es lo que ocurre cuado hay depedecia lieal positiva. ACTIVIDADES 4. A partir de los datos siguietes, dibujar la ube de putos y calcular medias y la covariaza: x i 1 3 4 y i 9 8 6 3 Qué tipo de depedecia hay etre las variables? Recuerda Sea (X, Y ) ua variable estadística bidimesioal. A partir de los datos (x 1, y 1 ), (x, y ),...,(x, y ) de la varible, se puede calcular los siguietes parámetros: Medias margiales: x = xi y = yi El puto (x,y) es elcetrodegravedad de la ube de putos. Variazas margiales: Desviacioes típicas margiales: x s x = i y x s y = i y s x = x i x s y = y i y Covariaza: xi.y i s xy = x.y El sigo de la covariaza determia el tipo de depedecia etre las variables: - Si s xy > hay depedecia lieal positiva. - Si s xy < hay depedecia lieal egativa. 51
UNIDAD 11 4. Correlació A pesar de que el sigo de la covariaza idica el tipo de depedecia que hay etre las variables, o os sirve para determiar si esta depedecia es más o meos fuerte. La razó es que su valor depede de las uidades e las que esté dados los datos. Es decir, que si ua de las variables está e cetímetros, por ejemplo, y pasamos estas medidas a metros, el valor de la covariaza cambia (auque o el sigo). Lo cual impide que se pueda establecer ua comparació acertada etre dos depedecias lieales positivas o dos depedecias egativas. Para evitar este problema, se utiliza otro parámetro llamadocoeficietedecorrelació lieal o coeficiete de Pearso (osotros lo llamaremos simplemete coeficiete de correlació), que se defie como el cociete etre la covariaza y el producto de las desviacioes típicas: r = s xy s x.s y Veamos e primer lugar u ejemplo secillo de cómo se calcula y, a cotiuació, cometaremos su sigificado. Por ejemplo, queremos calcular el coeficiete de correlació para los datos siguietes: x i 1 3 4 6 y i 1 5 5 E primer lugar, orgaizamos la iformació e la tabla que hemos apredido a utilizar ates, x i y i x i yi x i.y i 1 1 1 1 1 3 9 4 6 4 5 16 5 6 5 36 5 3 14 13 6 55 57 Y empezamos a calcular los parámetros estadísticos. Medias: Variazas: x = xi = 14 4 = yi 3 5 y = = 13 4 = 3 5 x s x = i x = 6 y 4 3 5 = 3 5 s y = i y = 55 4 3 5 = 3 19 Desviacioes típicas: Covariaza: s x = 3 5 = 1 8 s y = 3 19 = 1 78 s xy = xi.y i x y = 57 4 3 5 3 5 = 87 5
Por fi, el coeficiete de correlació es r = s xy s x s y = 87 1 8 1 78 = 89 ACTIVIDADES 5. Multiplicar los todos los datos ateriores por 1 y calcular el uevo coeficiete de correlació. Es decir, ahora cosideramos los datos: x i 1 3 4 6 y i 1 5 5 Ya sabemos calcular el coeficiete de correlació. Veamos ahora cómo lo podemos iterpretar. E primer lugar, es evidete que el sigo del coeficiete de correlació y el de la covariaza coicide, ya que las desviacioes típicas que aparece e el deomiador so siempre positivas (recordemos que las desviacioes típicas so raíces cuadradas y, por tato, su resultado siempre es positivo.) Pero además, se puede demostrar que r 1, lo cual implica que r siempre es u úmero compredido etre -1 y 1, 1 r 1 El hecho de que r esté más próximo a -1, a 1, o a está directamete relacioado co la forma de la ube de putos y, por tato, co el tipo de depedecia etre las variables estadísticas. E las gráficas de la figura 11.9 hemos dibujado diferetes ubes de putos juto a los valores de sus correspodietes coeficietes de correlació. 1 1 1 1 1.9.9.9.9.9.8.8.8.8.8.7.7.7.7.7.6.6.6.6.6.5.5.5.5.5.4.4.4.4.4.3.3.3.3.3......1.1.1.1.1.1..3.4.5.6.7.8.9 1 r = 98.1..3.4.5.6.7.8.9 1 r = 81.1..3.4.5.6.7.8.9 1 r =.1..3.4.5.6.7.8.9 1 r = 79 Figura 11.9: Coeficiete de correlació y ube de putos.1..3.4.5.6.7.8.9 1 r = 99 Segú vemos e las figuras, cuado los valores de r so positivos, teemos depedecia lieal positiva, tato más fuerte, cuato más próximo a 1 esté el valor de r. Cuado los valores de r so egativos, hay depedecia lieal egativa, tato más fuerte, cuato más próximo a -1 esté el valor de r. Por último, e el diagrama cetral teemos u ejemplo de ua ube de putos e la que o se aprecia igua tedecia positiva o egativa cocreta, e este caso, el valor de r está cercao a. Por último, si r = 1 los putos estará situados sobre ua recta de pediete positiva, es decir, o es que se parezca a ua recta, sio que está alieados. Si r = 1 los putos estará alieados e ua recta co pediete egativa. Y cuado r =, 53
UNIDAD 11 estaríamos e el caso e el que o hay absolutamete igua depedecia o correlació, se dice a veces que las variables soicorreladas. A la hora de calcular el coeficiete de correlació hay que teer ua pequeña precaució. Lo habitual es que aparezca decimales casi desde el primer cálculo, de los cuales tomamos los o los 3 primeros, bie elimiado los demás ( esto se llama trucar), o bie redodeado al segudo, al tercero, etc. Sea cual sea la maera e la que lo hagamos, cuado llegamos al valor de r se ha acumulado pequeños errores que, fialmete os puede dar u valor de r poco mayor que 1, por ejemplo, 1 1. Pero esto, teóricamete es imposible, e estos casos lo mejor es rehacer los cálculos tomado u mayor úmero de decimales, co el objeto de aumetar la exactitud. ACTIVIDADES 6. Asigar a cada ua de las ubes de putos siguietes su valor del coeficiete de correlació de etre los siguietes: r = 6; r = 99; r = 98; r = 6. A B 1 C D 1 1 1.9.9.9.9.8.8.8.8.7.7.7.7.6.6.6.6.5.5.5.5.4.4.4.4.3.3.3.3.....1.1.1.1.1..3.4.5.6.7.8.9 1.1..3.4.5.6.7.8.9 1.1..3.4.5.6.7.8.9 1.1..3.4.5.6.7.8.9 1 Recuerda El coeficiete de correlació lieal mide el grado de asociació lieal etre dos variables estadísticas. Se calcula mediate la fórmula r = s xy s x s y Verifica 1 r 1. Si r >, hay depedecia lieal positiva etre las variables. Si r <, hay depedecia lieal egativa etre las variables. Si r =, o hay depedecia, las variables so icorreladas. La depedecia es mayor cuato mayor sea el valor absoluto de r. 54
5. Regresió lieal Si calculásemos el coeficiete de correlació de la ube de putos de la figur 11.1, obtedríamos u resultado positivo. E efecto, se observa que hay ua depedecia lieal positiva, ya que los putos parece acumularse alrededor de ua recta de pediete positiva, recta esta que tambié se ha dibujado e la figura. Ahora bie, cuál es la recta que mejor se aproxima a los putos? Esta recta, cuya ecuació vamos a apreder a calcular es la llamada recta de regresió. Figura 11.1: Recta de regresió Cuado queremos estudiar la recta que mejor se aproxima a la ube de putos, estamos haciedo regresió lieal. Si embargo, hemos visto a lo largo de esta uidad otras ubes de putos que más que acercarse a ua recta, parecía aproximarse a algua curva (ua parábola por ejemplo). E este caso hablaríamos de regresió o lieal. E este curso sólo os ocuparemos de la regresió lieal. 5.1. Rectas de regresió Hemos dicho ates que larectaderegresió es la recta que mejor se aproxima a la ube de putos. Vamos a itetar aclarar qué queremos decir co la expresió mejor se aproxima". Empezaremos diciedo que hay dos formas de precisar esta idea, que da lugar a dos rectas de regresió, que se va a llamar, respectivamete, recta de regresió de Y sobre X yrectaderegresió Xsobre Y. La recta de regresió de Y sobre X aparece como aquella recta que hace que las diferecias etre las ordeadas de la recta y las ordeadas de los putos (estas diferecias so los segmetos verticales que se ha dibujado e la figura 11.1, es decir, so las diferecias etre la altura del puto y la de la recta) sea, e promedio, míima. Debido a que estas diferecias so positivas y egativas, depediedo de que el puto esté por debajo o por ecima de la recta, realmete lo que se hace es elevarlas al cuadrado, sumarlas y dividir etre el úmero de putos, para calcular el promedio. Bie, pues impoiedo la codició de que este promedio sea míimo, se puede demostrar que la ecuació que la verifica es y y = s xy (x x) s x La recta de regresió de X sobre Y se obtiee de maera aáloga, impoiedo la codició de que sea míimas las diferecias etre las abscisas. De esta forma, se llega a la ecuació x x = s xy (y y) s y 55
UNIDAD 11 Es fácil darse cueta de que las dos rectas de regresió pasa por el cetro de masas de la ube de putos (x, y) y además, ambas está icliadas hacia el mismo lado, es decir, ambas tiee pediete positiva o pediete egativa, precisamete depediedo de que la haya depedecia lieal positiva o egativa. Para calcularlas es ecesario calcular las medias, las variazas y la covariaza. E el apartado siguiete vamos a ver u ejemplo. 5.. Estimacioes co las rectas de regresió Para qué sirve las rectas de regresió? Pues sirve para hacer estimacioes de ua de las variables sobre la otra. Vamos a ver qué sigifica esto mediate u ejemplo que ya apareció cuado empezamos a hablar de variables estadísticas bidimesioales, las otas de la asigatura de Matemáticas y de la asigatura de Física y Química de u grupo de alumos. x i 4 5 6 7 8 8 9 y i 3 5 4 5 5 5 7 5 8 1 dode los x i so las otas de Matemáticas y los y i las de Física y Química. La ube de putos de estos datos, que ya habíamos dibujado, es la de la figura 11.11 y sugiere que cuado la ota de Matemáticas es alta, tambié lo es la de Física y Química; y lo mismo cuado la ota es baja. Y 11 1 9 8 7 Física y Química 6 5 4 3 1 1 3 4 5 6 7 8 9 1 11 Matemáticas X Figura 11.11: Depedecia positiva Este grado de depedecia o de correlació la podemos cuatificar mediate el cálculo del coeficiete de correlació. Omitiremos la tabla y alguos de los cálculos que hemos repetido ya e varios ejemplos. (Se sugiere como ejercicio verificar los resultados.) Medias: x = 6 15; y = 6. Variazas: s x = 4 8594 s y = 4 6875. 56
Desviacioes típicas: s x = 44 s y = 1651. Covariaza: s xy = 4 5. Coeficiete de correlació: r = s xy s x s y = 895. Lo que cofirma uestra observació sobre la ube de putos. Existe ua correlació positiva fuerte etre las dos variables. Ahora bie, supogamos que u estudiate ha hecho los dos exámees y sólo cooce la ota de Matemáticas que es u 6 5. Qué ota puede esperar e la asigatura de Física y Química? Para hacer esta estimació es para lo que sirve la recta de regresió de Y sobre X. Calculamos su ecuació sustituyedo e la expresió y y = s xy s (x x) x y 6 = 4 5 4 8594 (x 6 15) que, simplificado y despejado y se covierte e y = 8746x + 6431 Ahora, para estimar la ota de Física y Química, sustituimos e la ecuació de la recta el valor x = 6 5, etoces, y = 6 38, que será aproximadamete la ota que puede obteer. Otro estudiate sabe que ha obteido 9 e Física y Química. Qué ota puede esperar e Matemáticas? Ahora sabemos que y = 9 y queremos calcular x. Para este caso, es más adecuada la recta de regresió de X sobre Y, ya que queremos calcular x coocido y. Calculamos la recta de regresió de X sobre Y sustituyedo e la expresió x x = s xy s (y y) y x 6 15 = 4 5 4 (y 6) 6875 Simplificamos y despejamos x y obteemos x = 967y + 685. Para estimar la ota de Matemáticas, sustituimos e la ecuació de esta recta el valor y = 9, co lo que se obtiee x = 8 8453. 57
UNIDAD 11 Qué fiabilidad tiee estas estimacioes? Desde luego, o se puede esperar que aporte el resultado exacto. Su exactitud depederá precisamete del valor del coeficiete de correlació. Cuato más próximo esté el coeficiete de correlació a -1 o a 1, mejor será la estimació. Por otra parte, hay que teer e cueta que la estimació sólotedrásetidosielvalorquesesustituyeestáeelragodelosdatosquesetiee. Por ejemplo, si teemos datos de peso y estatura de u grupo de persoas y los pesos oscila etre 6 y 7 kilogramos, o tedría setido, co estos datos, itetar hacer ua estimació de la estatura de ua persoa que pese 1 kilogramos. ACTIVIDADES 7. Sehapregutadoaugrupodepersoascuátashorassemaalesdedicaahacer deporte (X) y cuátas horas semaales dedica a ver la televisió. Las respuestas ha sido las siguietes: x i 4 7 8 1 y i 15 5 4 1 Calcular las ecuacioes de las dos rectas de regresió. Utilizado la recta adecuada, estimar el tiempo que dedicaría a ver la televisió ua persoa que dedica semaalmete 5 horas a hacer deporte. Recuerda Ua recta de regresió es la que mejor se ajusta a ua ube de putos. Hay dos: Recta de regresió de Y sobre X: y y = s xy s (x x) x Recta de regresió de X sobre Y: x x = s xy s (y y) y Las rectas de regresió sirve para hacer estimacioes de ua variable sobre la otra. Si coocemos x, utilizamos la recta de regresió de Y sobre X para calcular y. Si coocemos y, utilizamos la recta de regresió de X sobre Y para calcular x. 58