Aéndce C Correlacón lneal Sgnfcacón de Parámetros Objetvos En este aéndce extendemos la dscusón de cuadrados mínmos, ncada en el Ca.7, al caso en que los datos tengan errores. Se analza la sgnfcacón estadístca de los arámetros extraídos de un ajuste y sus ncertezas. Se resenta una breve dgresón de bandas de ncertdumbre en una regresón lneal y el caso de una regresón lneal en que las dos varables tengas errores. C. Regresón lneal Datos con errores Cuadrados mínmosdatos con errores Incertdumbre de arámetros de un ajuste Sgnfcacón estadístca Bandas de redccón Datos con error en las dos varables Consderemos el caso de un conjunto de medcones (,Y ), donde el error en el valor de Y vene dado or σ, ver Fg. C. El objetvo de esta seccón es extender la dscusón de cuadrados mínmos ncada en el Ca. 7, al resente caso de datos con errores. Analzamos el rocedmento que ermte obtener la línea que mejor ajusta los datos exermentales, y las ncertezas asocadas en la determnacón de los arámetros del ajuste. Fgura C..- Reresentacón gráfca de un conjunto de datos exermentales (,Y ) con errores en el eje Y dado or los valores σ. La línea contnua azul es la recta obtenda or cuadrados mínmos. Al gual que lo hcmos en el Ca. 7, suonemos que los datos ueden descrbrse or la ecuacón: Exermentos de Físca -S. Gl 56
Defnmos el valor de Ch-cuadrado, χ, como: Y ( x) a x + b (C.) χ w ( Y a x b) (C.) Aquí w es un factor de eso o onderacón que se uede defnr de dstntos modos según el roblema en estudo. Un modo usual de esar los datos es hacerlo usando sus resectvos errores σ del sguente modo: w. (C.3) σ con W w (C.4) S todos los datos tenen gual onderacón, es decr s, w, entonces W número total de datos. Desde luego, la exresón (C.3) reresenta solo una de las tantas formas en que ueden onderarse los datos. La eleccón más adecuada de los factores de onderacón deende del roblema esecífco en consderacón.. El método de cuadrados mínmos consste en elegr como los mejores valores de a y b aquellos valores que mnmcen el valor de χ Ec.(C.). El resultado de este rocedmento resulta en,, 3, 4 : y o ben ( Y ) ( ) ( Y ) W W < Y > < > < Y > Cov( Y ) a, (C.5) b ( ) ( ) ( < > < > ) S ( Y ) ( ) ( ) ( Y ) < > < Y > < Y > W ( ) ( ) ( < > < > ) Donde usamos la notacón: Y n w Y, w < >, (C.6) b < Y > a < >. (C.7) n, y Y w Y, (C.8) y así sucesvamente. Tambén defnmos los valores medos de y y x como: Y < Y > w Y W, y < > w W, (C.9) Por su arte, las desvacones estándar venen dadas or: Exermentos de Físca -S. Gl 57
y S x w ( ) W Var( ) < > < > ( Y Y ) W Var( Y ) < Y > < Y >, (C.) SY w. (C.) Los coefcentes de correlacón se defnen en modo smlar: S Y ( ) ( Y Y ) W < Y > < Y >< > Cov( Y, ) w, (C.) y R < Y > < Y S S Y >< > Cov( Y ). (C.3) S S Y El error tíco de estmacón de Y sobre, está relaconado con el valor de Ch-cuadrado normalzado, χ Ν, or: w ( Y Y ( )) W χ Error. tíco( Y ). (C.4) Tambén es útl defnr el valor de Ch-cuadrado or grados de lbertad: χ v o sd : w ( Y Y ( )) χv sd χ. (C.5) ( ) W La varanza total, S t S Y, da una medda de cómo los untos Y se dstrbuyen alrededor del valor medo de Y. S t se defne como: W S t w ( Y Y ) W S Y. (C.6) La varanza nexlcada, S nex, mde la caldad del modelo, Y( )a +b, ara exlcar los datos observados, Y. Este nombre surge del hecho que s el modelo lneal rouesto fuese adecuado, los valores: ε (Y -Y( )) deberían tener una dstrbucón estadístca al azar. S nex se defne como: W S nex La varacón exlcada S ex, se defne or: W S w ( Y Y )) ex w ) ( Y Y ) ( W χ. (C.7) ( (C.8) Sumando las Ecs. (C.6) (C.7) y (C.8) membro a membro, se uede demostrar que: 5, 6 Exermentos de Físca -S. Gl 58
de donde tenemos: S S +, (C.9) t ex S nex Sex l S χ nex R. (C.) St St SY Una roedad mortante de los estmadores a y b, es que s los errores o resduos de las estmacones, ε : ι ε Y Y ), (C.) ( ( ) tenen una dstrbucón normal, entonces los valores a y b tendrán a su vez una dstrbucón estadístca y sus valores medos vendrán dados or <a>a y <b>b y sus desvacones estándares, o errores estándares, denotadas or a y b resectvamente, son: y χ a a S R b χ S < > a < (C.) >. (C.3) S los errores ε ι tenen una dstrbucón normal, la varable aleatora t, defnda or: t ( a < a > ) a. (C.4) Presentará una dstrbucón t-student, 6,7 con - grados de lbertad. Para calcular la ncerteza en la estmacón de a ( a) a artr de una muestra de tamaño, con un límte de confanza de P%, se calcula a artr del valor t, que se obtene de la dstrbucón t-student con (-) grados de lbertad: 6,7 Probabldad_t-Student (t<t )P% (C.5) S se usa Excel Mcrosoft este valor de t se calcula usando la funcón DISTR.T.IV((- P), -). La ncerteza a se calcula como: El error en b vene dado or: (/ R ) a( P%) a t a t a. (C.6) ( ) b( P%) b a( P%) < >. (C.7) Exermentos de Físca -S. Gl 59
C. Sgnfcacón estadístca de arámetros de un ajuste Un ensayo usual y necesaro de realzar, es el evaluar o docmar s el valor de la endente (a ) obtenda de un dado exermento, es sgnfcatvamente dstnta de otro ensayo que arrojo como resultado A. En defntva lo que deseamos evaluar es la hótess nula # H : a A, frente a la hótess H : a A. Suonendo que la varable aleatora: t ( A aa, (C.8) ) tene una dstrbucón t-student con - grados de lbertad. S deseamos docmar H frente a H con un nvel de confanza de P%, evaluamos el corresondente coefcente de confanza t, dada or relacón (C.5). De modo tal que s: a t a < A < a + t (C.9) a acetamos H, en caso contraro, la msma debe ser desechada. En artcular, s deseamos falsar (evaluar s es osble desechar o no) la hótess H : a, debemos calcular la robabldad, P, que el valor efectvamente encontrado de la endente (a ) sea consstente con la hótess H : a, vne dada or: a P Dstrbucón _ t t,. (C.3) a Donde la robabldad se calcula usando la dstrbucón usada es la t-student con (-) grados de lbertad. S se usa Excel Mcrosoft este valor se calcula usando la funcón DISTR.T.C (a / a ; - ), este últmo argumento (.C) esta asocado al hecho que se usan las dos colas de la dstrbucón. Claramente, cuanto más cercana a cero sea esta robabldad, mayor será la confanza que tendremos en que la varable ndeendente ( en nuestro caso) es relevante ara exlcar la varacón de la varable deendente Y, y mayor es nuestra confanza en que la hótess H : a es la correcta. Estas deas ueden generalzarse aún ara el caso no lneal. De este modo, ara evaluar s un dado arámetro b, es relevante o no ara exlcar los datos, o sea s debe o no nclurse en el modelo, un crtero es calcular su robabldad usando la dstrbucón DISTR.T.C(b / b ; -ν), sendo ν número grados de lbertad y verfcando s su valor suera un nvel de sgnfcacón α revamente establecdo, or ejemlo α 5%. C.3 Bandas de redccón de valores Muchas veces, el objeto de un ajuste, el obtener los arámetros del modelo con el objeto de realzar erdcones o royeccones de una varable deendente, Y, ara nuevos # Muchas veces formulamos una hótess con el únco objeto de rechazarla, or ejemlo s deseamos decdr s una moneda esta cargada o trucada, formulamos la hótess que la moneda en buena. Estas hótess se denomnan hótess nula 5 y se desgna con H. La máxma robabldad con que deseamos rechazar una hótess cuando debó se acetada (Error to I), se llama nvel de sgnfcacón y se desgna con α. Valores frecuentes de α son.5 (5%) o. (%). Exermentos de Físca -S. Gl 5
valores de la varable ndeendente,. En otras alabras, queremos realzar redccones con nuestro modelo. Deseamos estmar la ncerteza asocada a una royeccón de un nuevo valor, calculado ara un valor no meddo. Esta royeccón se obtuvo a artr de la recta de regresón Y a. +b, con un límte de confanza de P%. Aquí se resentan dos casos dstntos: a) estmacón de la robabldad que un valor ndvdual de una muestra, asocada al valor de caga con robabldad P% entre Y( ) - Y roy y Y( ) + Y roy, con: ) t a Var( ) ( + ) + ( ) Y (. (C.3) roy b) estmacón de la robabldad que un valor medo de valores una muestra, asocada al valor de caga con robabldad P% entre Y( ) - Y conf y Y( ) + Y conf. ) t a Var( ) + ( ) Y (. (C.3) conf Es usual ndcar las bandas de los ntervalos de confanza dadas or (C.3) como las bandas de confanza. Tambén se utlzan las bandas determnadas or (C.3) y usualmente se las desgna como bandas de redccón. Muchas veces las bandas de redccón y de confanza se usan cas como snónmos, ero hay una mortante dferenca entre ellas: un ntervalo de confanza se utlza ara redecr los valores en los que la meda de una oblacón a futuro caerá. umero de Acdentes 5 48 46 44 4 4 38 36 34 3 3 Bandas de Confanza y redccón LC %95 Bandas de royeccón 995 996 997 998 999 3 4 5 6 7 8 9 3 4 5 6 7 Exermentos de Físca -S. Gl 5 Año Bandas de confanza Fgura C. Reresentacón gráfca de un conjunto de datos exermentales (,Y ) (círculos). Las bandas laterales reresentan con límtes de confanza del 95%, las bandas de confanza (líneas llenas) y las bandas de royeccón (líneas trazos). Para comrender mejor estos concetos, magnemos que en una dada cudad, se regstra el numero romedo de accdentes mensuales de transto or año. Estos datos están reresentados or los untos redondos de la Fg. C.. Las bandas de confanza al 95%,
delmtan la regón donde odemos eserar cagan los valores medos de los accdentes mensuales en un año. Pero s deseamos saber con este msmo nvel del confanza la regón donde ueden ocurrr los accdentes en un dado mes, entonces debemos tomar la zona delmtada or la bandas de royeccón. Ver Fg. C. Otro ejemlo odría ser el sguente: con un nvel de confanza del 95% en el número medo las facturas mensuales de electrcdad que aga un gruo de usuaros ude varar entre ($, $). Esto sgnfca, que odemos decr con un 95% de confanza que el romedo de la facturacón en un dado mes se stúa entre estos números. En cambo un ntervalo de redccón se utlza ara redecr el ntervalo en el que una únca observacón caerá. Por ejemlo: con un nvel de sgnfcacón del 95%, el ntervalo de redccón de la factura de un determnado usuaro uede estar entre ($5, $35). Esto sgnfca que con una robabldad del 95%, s se toma al azar un determnado usuaro de esta oblacón, su factura de electrcdad estará en el ntervalo de ($5, $35). En general los ntervalos de redccón tenden a ser mayores que los ntervalos de confanza. Esto se debe a que los ntervalos de confanza hacen referenca a lo que asa con el romedo de la oblacón, mentras los ntervalos de redccón hacen referenca a el comortamento de un ndvduo de dcha oblacón. Esto se relacona con los que asa con las medcones. Las dsersones de las medcones ndvduales de un dado mesurando, son semre mayores a las devacones del romedo de las msmas. C.4 Caso de datos con error en las dos varables Caso de Error en ambas varables: En general las técncas estadístcas ara consderar estos casos es motvo dscusón entre los dstntos autores y exertos en este tema. Aquí roonemos un esquema aroxmado, basado fundamentalmente en las Ref.7,8,9. S las medcones (x,y ) tenen errores: x y y recetvamente, y hay ndcos que la relacón entes x e y es lneal, de la forma ya.x+b. Defnmos los factores de eso ara cada unto como: donde: W (C.33) / σ σ a x + y. (C.34) En general s los factores de onderacón de la varable x e y son w x y w y, resectvamente, entonces: wx, wy, w (C.35) a w + w y, x, donde a es la endente de la recta de regresón. El roblema es que ara determnar a debemos de resolver el roblema de regresón. Para ello necestamos los factores de eso w, que a su vez deenden de a. Para resolver este roblema odemos roceder de modo teratvo. Usamos como onderacón ncal solo los valores de w y (/ y ), Con estos coefcentes, usando (C.5) obtenemos el valor de a, con este valor calculamos los esos w usando (C.35) determnamos de nuevo los coefcentes w y a artr de la Ec.(C.5) los nuevos coefcentes a. Iterando hasta que los sucesvos valores de a no camben, se Exermentos de Físca -S. Gl 5
obtenen los arámetros de la regresón lneal buscada, o sea la regresón lneal ara el caso de datos con errores en las dos varables. Estas deas ueden extenderse al caso no lneal, en que la funcón f(x;a,b,c,...) cuyos arámetros, a, b, c,... se buscan determnar, deende de un modo no lneal de x. En este caso la generalzacón de (C.34) conduce al conceto de error efectvo 8 : df σ x + y. (C.36) dx Índce Alfabétco Marcadores Ch-cuadrado Sgnfcacón estadístca de Bandas de redccón ombre Marcador Ch sgnfcacon bandas Referencas P. Bevngton and D. K. Robnson, Data reducton and error analyss for the hyscal scences, nd ed. McGraw Hll, ew York, (993). Stuardt L. Meyer, Data analyss for scentsts and engneers John Wlley & Sons, Inc., ew York, (975). 3 D. C. Bard, Exermentacón, ª ed. Prentce-Hall Hsanoamercana S.A., Méxco, (99). 4 J. Hgbe, Uncertanty n the lnear regresson sloe Am. J. Phys. 59, 84 (99) 5 M. Segel, Estadístca - McGraw Hll, da. Ed. Bogotá (997) 6 M. Segel, J. Schller, R. Srnvasan, "Schaum's Outlne of Probablty and Statstcs" - McGraw-Hll; edton Y() 7 J. Orear, Least squares when both varables have uncertantes, Am. J. Phys. 5, 9 (98). 8 D. Barker and L.M. Dana, Smle method for fttng data when both varables have uncertantes Am. J. Phys. 4, 4 (974). 9 B. Cameron Reed, Lnear least-squares fts wth errors n both coordnatesii: Comments on arameter varances, Am. J. Phys. 6,, (99). Exermentos de Físca -S. Gl 53