CAPÍTULO 9 ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 1 INTERROGANTES CENTRALES DEL CAPÍTULO a) Cuado sobre cada idividuo se observa simultáeamete dos características cuatitativas cómo se orgaiza y represeta gráficamete esos datos bidimesioales? b) Cómo se puede sabersi dos variables estadísticasestá relacioadas de forma lieal, expoecial, potecial o parabólica? c) Se puede predecir el valor de ua variable sabiedo el valor de otra variable que está relacioada co ella de forma lieal, expoecial, potecial o parabólica? 2 CONTENIDOS FUNDAMENTALES DEL CAPÍTULO 21 Tabulació de los datos Cuado sobre cada idividuo de ua població se observa simultáeamete dos características cuatitativas, que uidimesioalmete podríamos represetar separadamete por las variables X e Y, etoces se dice que se está observado ua variable estadística bidimesioal y se represeta por (X, Y ) El cojuto de valores bidimesioales de la variable juto co sus frecuecias asociadas dará lugar a la correspodiete distribució bidimesioal de frecuecias E el caso de variables bidimesioales podemos distiguir dos tipos pricipales de tablas: a) Tabulació e dos columas (o e dos filas) Si el úmero de datos bidimesioales es pequeño, los datos se dispoe e dos columas (o e dos filas) sobre las que se empareja los correspodietes valores uidimesioales de ua misma realizació de la variable bidimesioal, como se expresa e la tabla siguiete: variable X variable Y x 1 y 1 x 2 y 2 x y
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 257 X Y B 1 B 2 B j B k suma A 1 f 11 f 12 f 1j f 1k f 1 A 2 f 21 f 22 f 2j f 2k f 2 A i f i1 f i2 f ij f ik f i A r f r1 f r2 f rj f rk f r suma f 1 f 2 f j f k Tabla 91: Tabla de doble etrada o de cotigecia b) Tabla de doble etrada o de cotigecia Si el úmero de observacioes bidimesioales es grade, clasificamos los idividuos de la muestra e r clases (A 1,,A r ) respecto de la variable X, yek clases (B 1,,B k ) respecto de la variable Y Etoces los datos suele orgaizarse e ua tabla como la Tabla 91, que se deomia tabla de doble etrada odecotigecia E la Tabla 91, f ij es el úmero de idividuos que perteece a la clase A i de la variable X y a la clase B j de la variable Y y se llama frecuecia absoluta cojuta de la clase A i B j de la variable bidimesioal (X, Y ) La frecuecia relativa cojuta de la clase bidimesioal A i B j es igual a: h ij = f ij (91) 22 Distribucioes margiales y codicioadas Idepedecia de variables Supogamos que teemos los datos bidimesioales orgaizados e ua tabla de doble etrada como la Tabla 91 La suma de las frecuecias absolutas cojutas de la fila i ésima, f i, es igual al úmero de idividuos e la clase A i de la variable X, idepedietemete del valor de Y, y se llama frecuecia absoluta margial de la clase A i de la variable X: f i = f i1 + f i2 + + f ik La frecuecia relativa margial de la clase uidimesioal A i es igual a: h i = f i (92) Aálogamete, la suma de las frecuecias absolutas cojutas de la columa j ésima, f j, es igual al úmero de idividuos e la categoría B j de la variable Y, y se llama frecuecia absoluta margial de la clase B j de la variable Y : f j = f 1j + f 2j + + f rj La frecuecia relativa margial de la clase uidimesioal B j es igual a: h j = f j (93)
258 MATEMÁTICAS Si de la Tabla 91 cosideramos la primera y la última columa obteemos la distribució margial de frecuecias absolutas de la variable X: X A 1 A i A r suma f i f 1 f i f r Aálogamete, si cosideramos la primera y la última fila de la Tabla 91, obteemos la distribució margial de frecuecias absolutas de la variable Y : Y B 1 B j B k suma f j f 1 f j f k Deotaremos por X/y j a la variable X codicioada a que Y tome el valor y j Ladistribució de frecuecias absolutas codicioadas de X/y j se obtiee de la Tabla 91 cosiderado la primera columa y la columa de la clase B j ; es decir: X/y j A 1 A i A r suma f ij f 1j f ij f rj f j Por tato, la frecuecia relativa de X A i codicioada a que Y tome el valor y j es: h i/j = f ij f j (94) Aálogamete, deotaremos por Y/x i a la variable Y codicioada a que X tome el valor x i Ladistribució de frecuecias absolutas codicioadas de Y/x i se obtiee de la Tabla 91 cosiderado la primera fila y la fila de la clase A i ; es decir:
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 259 Y/x i B 1 B j B k suma f ij f i1 f ij f ik f i E cosecuecia, la frecuecia relativa de Y B j codicioada a que X tome el valor x i es: h j/i = f ij f i (95) Teiedo e cueta las fórmulas 94 y 95 se obtiee: f ij = h i/j f j = h j/i f i Dividiedo por teemos: f ij = h f j i/j Y teiedo e cueta 91, 92 y 93 se tiee: = h f i j/i h ij = h i/j h j = h j/i h i La variable X es idepediete de la variable Y si las distribucioes de frecuecias relativas de X codicioada a cualquier valor de Y so todas idéticas; es decir, o depede del valor que tome la variable codicioate Y ; es decir: h i/1 = h i/2 = = h i/k i, lo que es equivalete a: f i1 f 1 = f i2 f 2 = = f ij f j = = f ik f k i, y por tato: lo que tambié se puede escribir como: f ij f j = f i1 + f i2 + + f ij + + f ik f 1 + f 2 + + f j + + f k i, j, f ij = f i f j i, j E cosecuecia, la defiició de idepedecia etre las variables X e Y es equivalete a la siguiete propiedad: f ij = f i f j i, j, o su equivalete: h ij = h i h j, i, j, es decir, las frecuecias relativas cojutas so iguales al producto de las correspodietes frecuecias relativas margiales
260 MATEMÁTICAS 23 Represetacioes gráficas Los métodos para determiar la existecia y el grado de relació etre dos variables cuatitativas debe ser capaces tambié de discrimiar etre los tipos geerales de relació que hay: a) Se dice que dos variables cuatitativas X e Y matiee ua relació directa cuado los valores altos e Y tiede a emparejarse co valores altos e X, los valores itermedios e Y tiede a emparejarse co valores itermedios e X, y los valores bajos e Y tiede a emparejarse co valores bajos e X b) Se dice que dos variables cuatitativas X e Y matiee ua relació iversa cuado los valores altos e Y tiede a emparejarse co valores bajos e X, los valores itermedios e Y tiede a emparejarse co valores itermedios e X, y los valores bajos e Y tiede a emparejarse co valores altos e X c) Se dice que o hay relació etre dos variables cuatitativas cuado o existe u emparejamieto sistemático etre ellas e fució de sus valores E ua buea represetació gráfica cojuta de dos variables estadísticas cuatitativas debe apreciarse fácilmete si existe relació etre las variables y de qué tipo es Ua represetació gráfica que cumple esta codició es el diagrama de dispersió, que tambié se puede llamar ube de putos Si los datos o está agrupados e itervalos (como e la tabla siguiete), etoces el diagrama de dispersióse hace como se muestra e la Figura 91 x i 61 118 57 123 125 122 122 85 85 85 83 78 76 76 73 70 97 107 y i 15 28 15 30 31 30 30 23 22 22 23 23 23 21 21 21 25 29 Y 35 30 25 20 15 10 5 0 60 70 80 90 100 110 120 130 X Figura 91: Diagrama de dispersió para datos o agrupados e itervalos Si los datos está agrupados e itervalos (como e la tabla siguiete), etoces el diagrama de dispersió se hace como se muestra e la Figura 92 X Y (0,10] (10,20] (20,30] (30,40] (40,50] suma (25,75] 13 3 16 (75,125] 4 9 5 1 19 (125,175] 11 16 4 31 (175,225] 2 11 9 22 (225,275] 1 5 3 1 10 (275,325] 1 5 6 suma 17 26 38 22 1 104
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 261 50 Y 40 30 20 10 0 25 75 125 175 225 275 325 X Figura 92: Diagrama de dispersió para datos agrupados e itervalos 24 Covariaza A partir de las distribucioes margiales de X ydey se puede calcular las medidas descriptivas de las variables X e Y De etre las medidas descriptivas bidimesioales, la más utilizada es la Covariaza etre X e Y que se calcula de la siguiete forma: 1) Si los datos se tabula e dos columas (o dos filas), la covariaza etre X e Y es: s xy = (x i x)(y i y) = x i y i x y 2) Si los datos se orgaiza e ua tabla de doble etrada como la Tabla 91, la covariaza etre X e Y es: r j=1 k (x i x)(y j y)f ij s xy = = x y, dode x i es la marca de clase de la clase A i, y j es la marca de clase de la clase B j y f ij es la frecuecia absoluta cojuta de la clase bidimesioal A i B j r j=1 k x i y j f ij Si e lugar de dividir por dividimos por ( 1) teemos la la Cuasicovariaza o Covariaza modificada o corregida etre X e Y ; cuya defiició, por tato, es la siguiete: 1) Si los datos se tabula e dos columas (o dos filas), la cuasicovariaza etre X e Y es: S xy = (x i x)(y i y) 1
262 MATEMÁTICAS 2) Si los datos se orgaiza e ua tabla de doble etrada como la Tabla 91, la cuasicovariaza etre X e Y es: r k (x i x)(y j y)f ij j=1 S xy =, 1 dode x i es la marca de clase de la clase A i, y j es la marca de clase de la clase B j y f ij es la frecuecia absoluta cojuta de la clase bidimesioal A i B j E cosecuecia, la covariaza y la cuasicovariaza está relacioadas de la siguiete forma: ( 1)S xy = s xy Por tato, se puede calcular ua de ellas a partir de la otra La covariaza (y, por tato, la cuasicovariaza) es capaz de discrimiar etre los dos tipos de relació lieal pues: a) si s xy > 0 etoces hay relació lieal directa etre X e Y, b) si s xy < 0 etoces hay relació lieal iversa etre X e Y,y c) si s xy =0etoces o hay relació lieal etre X e Y 25 Regresió y correlació Coeficiete de determiació La regresió cosiste e sustituir la ube de putos correspodiete a ua distribució bidimesioal por la fució matemática que mejor se ajuste a la ube de putos La correlació estima la fuerza co que las variables está relacioadas La curva de regresió es la curva ideal hacia la que tiede los putos del diagrama de dispersió El ajuste por el método de míimos cuadrados cosiste e lo siguiete: Si teemos ua ube de putos {(x i,y i ),i = 1, 2,,} y queremos ajustarle ua curva cualquiera y = f(x,a,b,) co parámetros a, b,, la determiació de éstos se hace miimizado la siguiete expresió: D = [y i f(x i,a,b,)] 2 Para saber si la curva y = f(x,a,b,) se ajusta a los putos {(x i,y i ),, 2,,} calculamos el coeficiete de determiació: [y i f(x i )] 2 Este coeficiete verifica: R 2 =1 1) 0 R 2 1 2) Si R 2 =1, etoces el ajuste es perfecto (y i y) 2 3) Si R 2 =0, etoces la fució y = f(x) o se ajusta e absoluto a los putos 4) Cuato más se aproxime R 2 a 1, mejor es el ajuste
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 263 26 Regresió y correlació lieal 261 Coeficiete de correlació lieal de Pearso La covariaza carece de uos valores máximo y míimo estables, comues a todos los casos, que permita su iterpretació directa La solució a este problema cosiste e dividir la covariaza por el producto de las desviacioes típicas margiales Este ídice se cooce co el ombre de coeficiete de correlació lieal de Pearso, y se deota por la letra r; o sea: r = s xy, (96) s x s y dode s x es la desviació típica de la variable X y s y es la desviació típica de la variable Y Si la tabulació de los datos se ha hecho e dos columas, etoces ua fórmula alterativa equivalete a la expresió 96 es la siguiete: ( )( ) x i y i x i y i r = ( ) 2 ( x 2 i x ) 2 i yi 2 y i La razó pricipal por la que la covariaza o puede cosiderarse u ídice de depedecia lieal etre dos variables es la dificultad de su valoració dado que carece de u máximo y u míimo estables Pero el coeficiete de correlació lieal o tiee esa dificultad ya que este ídice o puede valer más de 1 i meos de 1, es decir: 1 r 1 Además, la iterpretació descriptiva de r es la siguiete: a) Si r =1etoces existe ua depedecia lieal directa exacta etre las variables X e Y Los putos del diagrama de dispersió está sobre ua líea recta de pediete positiva b) Si r = 1 etoces existe depedecia lieal iversa exacta etre X e Y Los putos del diagrama de dispersió está sobre ua líea recta de pediete egativa c) Si r =0etoces o existe depedecia lieal etre X e Y d) Cuato más se aproxime r a 1 oa1, más depedecia lieal existe etre X e Y Cuado esto ocurra, el diagrama de dispersió se aproxima a ua líea recta e) Cuato más se aproxime r a 0, más idepedecia lieal existe etre X e Y Cuado esto ocurra, el diagrama de dispersió o se aproxima a ua recta f) Si r es positivo, etoces al aumetar el valor de la variable X, aumeta el valor de la variable Y g) Si r es egativo, etoces al aumetar el valor de la variable X, dismiuye el valor de la variable Y 262 Recta de regresió míimo cuadrática La recta de regresió míimo cuadrática de Y sobre X es la recta Ŷ = A + BX que mejor se ajusta (por el método de míimos cuadrados) a los putos del diagrama de dispersió {(x i,y i ),, 2,,} Esta recta os permitirá predecir Y a partir de los valores de X
264 MATEMÁTICAS Teemos que miimizar la expresió: D(A, B) = [y i (A + Bx i )] 2 (97) Igualado a cero las derivadas parciales de D respecto de A y de B obteemos las siguietes ecuacioes ormales: { yi = B x i + A xi y i = B x 2 i + A x i Si los datos está tabulados e dos columas, las fórmulas de los coeficietes A y B que hace míima la expresió 97 so las siguietes: ( )( ) x i y i x i y i B = ( ) 2, x 2 i x i A = y B x Estas fórmulas so equivaletes a las siguietes: B = s xy s 2 x = r s y s x, A = y B x Estas últimas fórmulas se puede aplicar tato si los datos está orgaizados e ua tabla de dos columas como si lo está e ua tabla de doble etrada Aálogamete, la ecuació de la recta de regresió míimo cuadrática de X sobre Y es: ˆX = A + B Y, dode B = s xy s 2 y = r s x s y, A = x B y 263 Coeficiete de determiació y coeficiete de correlació lieal Predicció E el caso del ajuste lieal (ajuste a ua recta), el coeficiete de determiació es igual a: R 2 = s2 xy s 2 x s 2 y Por tato, (sólo e el caso del ajuste lieal) se cumple que el coeficiete de determiació es igual al cuadrado del coeficiete de correlació lieal (R 2 = r 2 ) Si el coeficiete de correlació lieal estápróximo a 1 o a 1 sabemos que existe bastate relació lieal etre las variables X e Y y por tato los putos del diagrama de dispersió está próximosalarectaderegresió míimo cuadrática E este caso, a partir de la ecuació de la recta de regresió de Y sobre X se puede calcular, de forma aproximada, el valor de la variable Y cuado se cooce el valor de la variable X Esta aproximació se cooce tambié por el ombre de estimació, predicció o proóstico Similarmete, a partir de la ecuació de la recta de regresió de X sobre Y se puede predecir los valores de la variable X cuado se cooce los valores de la variable Y Si el coeficiete de correlació lieal o estápróximo a 1 o a 1, las ecuacioes de las rectas de regresió o os sirve para predecir los valores de ua de las variables cuado se cooce los valores de la otra, pues los putos del diagrama de dispersió o está próximos a la recta de regresió míimo cuadrática
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 265 27 Regresió expoecial Ajuste a la curva Y = Ae BX por el método de míimos cuadrados Tomado logaritmos eperiaos: l Y = l A + BX Se hace el cambio: Y =ly,a =la Etoces Y = A + BX, co lo que se reduce a u ajuste lieal etre las variables Y y X (se puede utilizar las ecuacioes ormales) La bodad del ajuste os lo da el coeficiete de determiació, que coicide co el cuadrado del coeficiete de correlació lieal etre Y y X 28 Regresió potecial Ajuste a la curva Y = AX B por el método de míimos cuadrados Tomado logaritmos decimales: log Y = loga + B log X Se hace el cambio: Y =logy, A =loga, X =logx Etoces Y = A + BX, co lo que se reduce a u ajuste lieal etre Y y X (se puede utilizar las ecuacioes ormales) La bodad del ajuste os lo da el coeficiete de determiació, que coicide co el cuadrado del coeficiete de correlació lieal etre Y y X 29 Regresió parabólica Ajuste a la curva Y = A + BX + CX 2 por el método de míimos cuadrados Miimizar D(A, B, C) = [y i (A + Bx i + Cx 2 i )]2 Simplificado se obtiee: yi = A + B x i + C x 2 i xi y i = A x i + B x 2 i + C x 3 i x 2 i y i = A x 2 i + B x 3 i + C x 4 i La bodad del ajuste a la curva Y = A + BX + CX 2 os lo da el coeficiete de determiació: R 2 =1 [yi (A + Bx i + Cx 2 i )]2 (yi y) 2 3 ACTIVIDADES DE APLICACIÓN DE LOS CONOCIMIENTOS A91 Se está estudiado la relació existete etre los años de estudios realizados por los padres (X)ylosaños de estudios realizados por los hijos (Y ) E ua muestra de tamaño 7 se obtiee los siguietes resultados:
266 MATEMÁTICAS x i y i 12 12 10 8 6 6 16 11 8 10 9 8 12 11 Dibujar el diagrama de dispersió o ube de putos Hallar la covariaza, s xy, etre las dos variables Hallar el coeficiete de correlació lieal r Hallar la ecuació de la recta de regresió míimo cuadrática de Y sobre X Predecir el úmero de años de estudio de u hijo cuyo padre ha estudiado 14 años Decir si esta predicció es fiable Hallar la ecuació de la recta de regresió míimo cuadrática de X sobre Y Predecir el úmero de años de estudio de u padre cuyo hijo ha estudiado 15 años A92 Determiar el grado de depedecia existete etre los años de estudio completados (X) y las faltas de ortografía cometidas e u dictado (Y ) tal y como se ecotró e la siguiete muestra de 10 etrevistados x i 10 3 12 11 6 8 14 9 10 2 y i 1 7 2 3 5 4 1 2 3 10 Cuátas faltas ortográficas tedría u etrevistado que hubiese completado 13 años de estudio? Es fiable esta predicció? A93 Ua factoría de ua cierta marca de refrescos ha tomado al azar 18 semaas de u año, observado la temperatura media, e grados cetígrados (X) correspodiete a cada ua de ellas y la catidad de refrescos pedidos durate cada uo de dichos períodos, e miles (Y ) La iformació obteida es la siguiete: x i 10 28 12 31 30 19 24 5 9 15 y i 21 65 19 72 75 39 67 11 12 24 Dibujar el diagrama de dispersió Hallar el coeficiete de correlació lieal r Predecir la temperatura media de u semaa e la que se hubiese pedido 50000 refrescos Decir si esta predicció es fiable Predecir el úmero de refrescos pedidos e ua semaa e la que la temperatura media fuese de 20 grados cetígrados A94 Se está estudiado la relació existete etre la edad de los hombres (X) y de las mujeres (Y ) a la hora de cotraer matrimoio Se recoge los datos del año 1971 e la tabla siguiete: X Y [10,20] (20,25] (25,30] (30,35] (35,40] (40,50] (50,60] (60,80] [10,20] 4187 16272 7401 864 175 127 5 (20,25] 1125 55505 69151 8138 1358 354 26 2 (25,30] 134 8731 37480 11668 2715 779 64 10 (30,35] 16 485 2845 4142 2602 1153 120 21 (35,40] 3 104 517 1110 1886 1871 266 57 (40,50] 5 31 142 327 730 2265 1176 410 (50,60] 4 12 32 56 314 867 792 (60,80] 1 2 6 33 151 828 Existe ua depedecia lieal fuerte etre la edad de los hombres y la edad de las mujeres a la hora de cotraer matrimoio? Hacer ua predicció de la edad de la esposa cuyo esposo tiee 25 años Es fiable esta predicció? Hacer el diagrama de dispersió A95 El precio, e pesetas, (X)yelúmero de págias (Y ) de los libros coteidos e u catálogo viee dados por:
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 267 x i y i x i y i x i y i x i y i 19950 496 27500 392 21000 240 12000 342 9950 208 12500 200 15000 278 21000 340 17500 300 25000 280 27500 420 17000 207 15000 448 8000 120 10500 128 35000 440 12000 200 5950 220 9950 249 7500 88 30000 288 9950 200 35000 392 21000 351 32500 324 32500 468 20000 400 25000 292 35000 525 24000 539 27500 300 37250 464 37500 384 30000 400 15000 240 24000 344 25000 250 30000 320 16000 230 12500 130 18000 200 35000 736 12000 144 22500 382 15000 224 22000 516 38000 336 25000 403 30000 384 37500 700 37750 550 20000 249 25000 256 20000 400 30000 478 18000 182 17500 215 30000 656 17250 437 38500 458 17000 278 9500 191 9950 288 3500 63 20000 376 19500 464 18500 496 30000 400 22500 421 20500 348 18000 236 21500 278 32500 450 30000 352 12000 143 27500 508 30000 243 32500 598 17000 284 16000 256 12000 202 27500 392 28000 520 30500 368 15000 251 24000 472 38500 758 15000 275 21000 320 36500 591 25000 413 12500 112 35000 460 14500 282 27500 394 38000 458 12000 342 21000 340 17000 207 7500 83 Agrupar los datos de ambas variables e itervalos de clase Determiar la distribució bidimesioal de frecuecias, así como las distribucioes margiales de X y de Y Hallar el coeficiete de correlació lieal Predecir el precio de u libro que tuviera 205 págias Decir si esta predicció es fiable A96 Las calificacioes obteidas por u grupo de alumos e Biología y Física so: Biología 3 4 6 7 5 8 7 3 5 4 8 5 5 8 8 8 5 Física 5 5 8 7 7 9 10 4 7 4 10 5 7 9 10 5 7 a) Escribir la tabla de doble etrada de frecuecias absolutas b) Hallar las distribucioes margiales, así como la media y la variaza de dichas distribucioes uidimesioales c) Existe relació lieal etre las calificacioes de Biología y Física? A97 Se ha tomado cico muestras de glucógeo, de ua catidad fija cada ua Se les ha aplicado ua catidad X de glucogesa (e milimoles/litro) aotado e cada caso la velocidad de reacció Y,medidae micromoles/miuto, obteiédose los siguietes datos: X 1 2 3 0 2 0 5 Y 18 35 60 8 10 a) Se puede deducir que la velocidad de reacció aumeta co la cocetració de glucogesa? Justificar la respuesta b) Si a ua de las muestras le hubiésemos aplicado ua cocetració de glucogesa de 2 5 milimoles/litro cuál hubiese sido la velocidad de reacció? Co qué grado de predicció? A98 U psicólogo afirma e base a los datos obteidos, que a medida que u iño crece, meor es el úmero de respuestas iadecuadas que da Los datos so:
268 MATEMÁTICAS X 2 3 4 4 5 5 6 7 7 9 9 10 11 11 12 Y 11 12 10 13 11 9 10 7 12 8 7 3 6 5 5 dode X represeta la edad e años, e Y represeta el úmero de respuestas iadecuadas a) Determiar la validez de esta coclusió b) Si Alberto, de diez años y medio, participa e el experimeto cuál será elúmero de respuestas iadecuadas que dará? A99 Dada ua variable bidimesioal (X, Y ), cuya tabla de frecuecias relativas es: Calcular: X Y 4 7 10 13 16 17 1 0 03 0 04 0 03 0 0 0 2 0 0 07 0 09 0 04 0 0 3 0 0 0 04 0 12 0 04 0 4 0 0 0 04 0 12 0 04 0 5 0 0 07 0 09 0 04 0 0 6 0 03 0 04 0 03 0 0 0 a) Distribucioes margiales de frecuecias absolutas b) Medias y variazas margiales c) Recta de regresió de Y sobre X d) Coeficiete de correlació lieal A910 Los datos de la tabla siguiete represeta el resultado de u experimeto cosistete e expoer bacterias, e períodos de 1 a 15 itervalos de 6 miutos, a la radiació de rayos X a 200 kilovoltios y cotabilizar el úmero de bacterias supervivietes (X represeta el úmero de itervalos de 6 miutos, e Y represeta los cietos de bacterias supervivietes) X 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Y 355 211 197 166 142 106 104 60 56 38 36 32 21 19 15 Ajustar a los datos ua curva expoecial; represetar gráficamete el resultado y comprobar la bodad del ajuste A911 Los datos de la tabla siguiete so el resultado de u estudio del efecto de la temperatura de cristalizació primaria (medida e grados cetígrados) de ua solució, x i, sobre el coteido e fósforo (medido e gramos por litro), y i x i y i 25 10 9 20 9 3 15 8 2 12 7 5 9 6 2 6 5 8 3 4 2 0 3 9 3 2 8 6 2 0 a) Represetargráficamete la ube de putos Determiar el modelo de curva adecuado para represetar la relació etre las variables y ecotrar, por el método de míimos cuadrados, los parámetros de la curva
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 269 b) El ajuste aterior es bueo? A912 Los datos de la tabla siguiete perteece a la medida de la temperatura (X) y la presió (Y ) e diferetes lugares del Himalaya x i y i x i y i x i y i 29 211 210 8 20 480 193 4 16 959 184 1 28 559 210 2 20 212 193 6 16 881 184 6 27 972 208 4 19 758 191 4 16 817 184 1 24 697 202 5 19 490 191 1 16 385 183 2 23 726 200 6 19 386 190 6 16 235 182 4 23 369 200 1 18 869 189 5 16 106 181 9 23 030 199 5 18 356 188 8 15 928 181 9 21 892 197 0 18 507 188 5 15 919 181 0 21 928 196 4 17 267 185 7 15 376 180 6 21 654 196 3 17 221 186 0 21 605 195 6 17 062 185 6 Explicar la presió e fució de la temperatura mediate ua parábola (por el método de míimos cuadrados) 4 ACTIVIDADES PRÁCTICAS DEL CAPÍTULO 41 Diagrama de dispersió Para ua variable estadística bidimesioal, el gráfico más utilizado es el diagrama de dispersió El programa dibuja estos diagramas si seleccioamos las opcioes Statistics Summary Statistics Scatter Plot Etoces os aparece ua vetaa como e la Figura 93 dode debemos seleccioar las variables implicadas (X-Axis Variable e Y-Axis variable) Si deseamos agrupar los datos e itervalos (de ua variable o de las dos) etoces debemos rellear los recuadros X-Axis (Optioal) o Y-Axis (Optioal), segú la variable que queramos agrupar Ejercicio Dibuja el diagrama de dispersió de la variable estadística bidimesioal (PESO,ALTURA) 42 Covariaza y coeficiete de correlació lieal Para ua variable bidimesioal es iteresate hallar la matriz de variazas y covariazas corregidas Dicha matriz es la siguiete: ( ) S 2 x S xy, S xy dode S 2 x deota la cuasivariaza de X, S 2 y idica la cuasivariaza de Y,yS xy represeta la cuasicovariaza etre X e Y La matriz de variazas y covariazas corregidas se puede obteer seleccioado las opcioes Statistics Liear Models Variace-Covariace Etoces aparece ua vetaa (ver Figura 94) e la que debemos seleccioar las variables estadísticas de las cuales queremos calcular su matriz de covariazas corregidas (e el recuadro Var-Covar Variables) S 2 y
270 MATEMÁTICAS Figura 93: Patalla del programa que permite seleccioar las variables para las que vamos a dibujar el diagrama de dispersió Figura 94: Patalla del programa que permite seleccioar las variables para las que vamos a calcular la matriz de covariazas Ejercicio Calcula la matriz de variazas y covariazas corregidas de la variable bidimesioal (PESO, ALTURA) Para calcular el coeficiete de correlació lieal de Pearso etre dos variables estadísticas debemos seleccioar las opcioes Statistics Liear Models Correlatios (Pearso) y os aparece ua vetaa como e la Figura 95 Tras pulsar el botó OK surge la vetaa de resultados, co los coeficietes de correlació lieal etre todas las variables seleccioadas E uestro ejemplo (ver Figura 96) el coeficiete etre las variables PESO y ALTURA es de 0 9384, lo que sigifica que existe ua depedecia lieal fuerte Ejercicio Determia el coeficiete de correlació lieal de Pearso etre las variables ALTURA y PESO
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 271 Figura 95: Patalla del programa que permite calcular el coeficiete de correlació lieal de Pearso Figura 96: Patalla co los resultados para la correlació etre el PESO y la ALTURA 43 Recta de regresió Predicció La recta de regresió permite estimar el valor de ua variable estadística coocido el valor de otra variable, siempre que etre las dos variables estadísticas exista depedecia lieal Cuato mayor sea esta depedecia lieal, mejor será la aproximació que os da la recta de regresió Para calcular la ecuació de la recta de regresió míimo cuadrática debemosseleccioarlasopcioesstatistics Liear Models Liear Regressio y os aparece ua vetaa como e la Figura 97 E el recuadro Depedet Variable debemos poer la variable depediete (la que está represetada e el eje vertical) y e el recuadroidepedet Variables la variable idepediete (la que está represetada e el eje horizotal) Por ejemplo, si e la variable depediete poemos ALTURA y e la variable idepediete colocamos EDAD, etoces se supoe que queremos predecir la altura de u idividuo coociedo su edad La vetaa de resultados se muestra e la Figura 98 E dicha figura aparece muchos valores que o estamos e codicioes de explicar e este mometo, ya que perteece a la parte de Estadística Iferecial Si la ecuació de la recta de regresió de ALTURA sobre EDAD es ALTURA = A + B EDAD, etoces A =1 40089 y B =0 01306 Para hacer ua predicció debemos seleccioar las opcioes Results Predictio, escribiedo e el recuadro Predictor Values el valor de la variable idepediete para el cual queremos estimar el correspodiete valor de la variable depediete E la casilla Specificatio Method debemos seleccioar la opció Valued Method (ver Figura 99) Así, para ua edad de 245 años el valor correspodiete de la altura es de 17207 metros Ua vez hemos calculado la recta de regresió podemos realizar ua represetació gráfica de la misma Para
272 MATEMÁTICAS Figura 97: Patalla del programa que permite seleccioar las variables para las que vamos a calcular la recta de regresió Figura 98: Patalla del programa que muestra la recta de regresió de ALTURA sobre EDAD ello seleccioamos las opcioes Results Plots Simple Regressio Plot Eelgráfico resultate aparece el diagrama de dispersió (co cruces), la recta de regresió (e color azul) y dos curvas (e color rojo), ua por cada lado de la recta de regresió, que delimita ua zoa de cofiaza para los valores de la variable depediete (ver Figura 910) Ejercicio Halla la ecuació de la recta de regresió míimo cuadrática de ALTURA sobre PESO Represétala gráficamete y predice la altura de u alumo que pesa 60 kilogramos 5 BIBLIOGRAFÍA DEL CAPÍTULO CANDEL, J; MARIN, A y RUIZ, JM Estadística aplicada I: Estadística descriptiva Barceloa: DM PPU, 1991 Seccioes 31, 33, 41, 42, 43, 44, 46
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 273 Figura 99: Patalla del programa que permite estimar el valor de ALTURA para u valor de EDAD 179 Simple Regressio Plot 174 ALTURA 169 164 159 18 20 22 24 26 EDAD ALTURA = 14009 + 00131 * EDAD 95% cof ad pred itervals Figura 910: Patalla del programa que represeta la recta de regresió de ALTURA sobre EDAD 6 PREGUNTAS DE EVALUACIÓN E91 E u grupo de alumos de la Uiversidad de Murcia, se estudia el úmero de asigaturas aprobadas e Juio (X) y el úmero de horas semaalesdedicadas al estudio (Y) La iformació obteida es la siguiete: X Y (0, 10] (10, 20] (20, 30] (30, 40] 0 6 2 0 0 1 3 6 2 1 2 1 10 8 3 3 0 10 12 8 4 1 5 10 15 5 0 2 16 10
274 MATEMÁTICAS a) Obteer la distribució margial de frecuecias absolutas de Y Cuál es el tiempo medio semaal dedicado al estudio? Cuál es el tiempo semaal de horas de estudio que deja por debajo el 50 por cieto de los tiempos semaales y por ecima el 50 por cieto restate? b) Obteer la distribució margial de frecuecias absolutas de X Cuál es el úmero más habitual de asigaturas aprobadas por los alumos? Cuál es el úmero medio de asigaturas aprobadas? Calcular e iterpretar la variaza de X Dibujar u polígoo acumulativo para la variable X y calcular su recorrido itercuartílico c) Obteer la distribució de frecuecias absolutas de Y codicioada a X= 1 Cuál es el tiempo medio semaal dedicado al estudio por los alumos que ha aprobado ua asigatura? Cuál es el tiempo semaal más habitual e los alumos que ha aprobado ua asigatura? Calcular la mediaa de esta distribució E92 E ua determiada empresa se ha realizado u estudio para determiar si la edad de los empleados está relacioada co el úmero de días de ausecia e el trabajo Estos so los resultados: Edad (X) Días de ausecia (Y ) (20,29] (29,38] (38,47] (47,56] (56,65] (44,50] 0 1 8 7 16 (50,56] 2 6 10 2 4 (56,62] 5 9 5 0 1 (62,68] 14 6 2 2 0 a) Obteer la distribució margial de frecuecias absolutas y frecuecias acumuladas absolutas de X Hallar la mediaa, la media y la desviació típica de X b) Obteer la distribució margial de frecuecias absolutas de Y Hallar la moda, la media y la desviació típica de Y c) Determiar el coeficiete de correlació lieal etre X e Y Existe ua fuerte depedecia lieal etre X e Y? E93 Ua empresa acioal dedicada a la producció de videojuegos pretede sacar al mercado dos uevos productos: uo para el segmeto de 13 a 15 años y otro para el segmeto de 16 a 18 años Ates de fijar el precio, la empresa cotacta co u cetro de estudios sociológicos para coocer la asigació semaal de los jóvees Para ello, el cetro extrae ua muestra de 10 jóvees y, etre otros datos, se les preguta la edad (X,eaños) y su asigació semaal (Y, e miles de pesetas), obteiedo los siguietes datos: Edad (X) 17 16 16 15 14 13 16 18 17 13 Asigació (Y ) 3 4 3 4 1 2 2 5 4 0 a) Calcular recorrido itercuartílico y coeficiete de variació de la asigació semaal b) Cuál es la asigació semaal estimada para u jove de 16 años? Es fiable dicha predicció? E94 U equipo ivestigador está aalizado el comportamieto de los jóvees españoles respecto del matrimoio Para ello extrae ua muestra de 10 jóvees parejas y les pasa u cuestioario Etre las muchas pregutas del cuestioario figura la edad a la que cotrajero matrimoio, obteiédose los siguietes datos: X: Edad de la mujer 26 25 25 24 23 22 25 27 26 22 Y : Edad del hombre 26 27 26 27 24 25 25 28 27 23 a) Calcular los cuartiles Q 1, Q 2 y Q 3 de la variable X b) Calcular el coeficiete de variació de la variable Y c) Calcular la recta de regresió de Y sobre X Si e ua pareja de jóvees, la mujer teía 28 años cuado cotrajo matrimoio, cuál es la edad estimada del hombre? es fiable esta predicció?
ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL 275 E95 Ua editorial está iteresada e coocerlos hábitos de lectura de los españoles y determiar si existe algua relació co otras variables (ivel cultural, ivel ecoómico, edad, etc) Para ello se extrae ua muestra de 10 persoas y, etre otros datos, se les preguta por el úmero de años de estudio (X) y por el úmero de libros que suele comprar cada trimestre (Y ) Los datos so los que recoge la siguiete tabla: X 11 10 10 9 8 7 10 12 11 7 Y 3 4 3 4 1 2 2 5 4 0 a) Calcular la media y la mediaa de Y b) Calcular la desviació media y la desviació mediaa de Y c) Si ua persoa suele comprar 2 libros al trimestre, calcular ua estimació para el úmero de años de estudio Es fiable dicha predicció?