Nocones sobre cuadrados mínmos por Dr. Horaco Bruzzone 1. Introduccón Supongamos que, a través de una sere de medcones, se han determnado un conjunto de n pares de valores de dos magntudes físcas, X e Y, asocadas a un certo fenómeno. Es decr, se tene el sguente conjunto de datos epermentales: {, y y } ; = 1 hasta n Supongamos además que hay motvos sufcentes como para conjeturar que este una relacón funconal lneal entre X e Y (s la relacón funconal es más compleja, lo que sgue puede aún aplcarse de varas maneras, es decr: Y = a+ bx En este caso, cabe plantearse un doble problema: me permten ms datos afrmar que la relacón lneal es correcta (al menos dentro del rango de valores meddos? Y, supuesto que esto tene respuesta afrmatva como determno los parámetros a y b, y cuales son sus ncertezas? La técnca más usual para responder a esas preguntas, desarrollada orgnalmente por Gauss, se conoce como el método de ajuste por cuadrados mínmos, y se basa en lo que sgue. Sean a y b los valores que se queren encontrar. Para cada par de datos,y,se defne la cantdad: d = y -(a+b. Es ntutvo ver que, s la relacón es efectvamente lneal, y los a y b son los correctos, cada d debe ser pequeño (luego precsaremos mejor esto. No podemos esperar que sean cero, porque hay ncertezas de medcón tanto en X como en Y, pero lo razonable es esperar que, s los valores de a y b elegdos son los que corresponden a la recta buscada, todos los d sean chcos. Como crtero que satsface esto, se puede proponer que la suma de los d sea mínma (en realdad, esto da el crtero para evaluar a y b. Sn embargo, la suma smple no es buen crtero, porque los d pueden ser postvos y negatvos, y cancelarse mutuamente hacendo que la suma sea mínma aunque los d sean grandes en módulo. Para evtar este problema, se pueden sumar los módulos o, lo que es más convenente, los d elevados al cuadrado. Entonces, la prmera apromacón del método consste en elegr los valores de a y b que mnmzan a la suma: n ' d 1. Cuadrados mínmos ponderados Antes de ver como se obtenen a y b usando ese proceso de mnmzacón, vamos a dar un paso más para decdr que suma mnmzar. Para ello, vamos a suponer (de momento arbtraramente, luego se precsará esto que los errores de la magntud X son desprecables frente a los errores de Y. Nótese, de paso, que d es la dstanca, en la dreccón del eje y, entre y y el valor y (= a + b que es la coordenada y del punto de la recta buscada cuya abcsa es. Es claro que, s los no tenen error ; es certo que la relacón es lneal y que sus parámetros son a y b, entonces las dferencas entre y e y son úncamente atrbubles a los errores en los y. Pero s estos errores son dstntos entre s, parece sensato realzar el procedmento de
mnmzacón asgnando una mayor mportanca a los d provenentes de valores de los y que tengan errores más chcos. Esto se logra por el procedmento de ponderar, que consste en multplcar a cada d por una cantdad que sea mayor cuanto más pequeño sea el correspondente y. La forma más senclla de hacer esto es dvdr a cada d por y : cuanto menor es el error, mayor es el coefcente que tene el d. Usando este crtero, lo que se debe mnmzar es: n 1 d y n 1 y a b y Al método de obtencón de a y b usando la mnmzacón de se lo llama cuadradados mínmos ordnaros, mentras que al que mnmza a se lo llama cuadrados mínmos ponderados. Como la técnca de mnmzacón es común, descrbremos sólo la de cuadrados mínmos ponderados. Una parte consderable del problema orgnal que tenemos planteado consste en responder a esta pregunta: dados n valores de,y, y y cuales son los valores de a y b que mnmzan a? El análss matemátco enseña que son la solucón del sguente sstema de ecuacones: Hacendo esas dervadas se obtene: 0 ; 0 a b a b a b y ab y ab y ab 0 y a y y y ab y y a b 0 y Desarrollando las sumatoras, y defnendo (para smplfcar notacón: 1 y S ; S ; Sy ( y ( y ( y S y y ; Syy ; Sy ( y ( y ( y el sstema de ecuacones se escrbe como: cuya solucón es: S as bs 0 y S as bs 0 y SS b SS S S y y S S SSy S S y ; b a a ; ; SS S SS S S SS S
Tambén se han agregado epresones para las ncertezas de a y b. No se dará aquí el detalle de su cálculo, basta comentar que se obtenen de las epresones de a y b, propagando los errores y, que afectan a cada y que aparece en las sumatoras (( a a y j y otra equvalente para b. j y j 3. Confabldad Queda todavía por contestar la pregunta de s los datos permten confablemente asumr que las varables X e Y guardan una relacón lneal. Este tema está un poco confuso en la lteratura, y es frecuente encontrar que el crtero para sostener la relacón lneal es que un coefcente, r, llamado coefcente de correlacón de los datos y defndo como sgue: r ( SS S S y y ( SS S ( SS S yy y sea sufcentemente cercano a 1. Hacendo un poco de manobras algebracas, se puede demostrar que s r =1, entonces todos los puntos (, y están alneados en una recta. Obvamente, s se cumple esa condcón, la relacón lneal queda asegurada. Pero el problema es que no se puede decr nada cuando r es menor que 1, en el sentdo que no hay crtero sóldo para saber que es cercano a 1. Este un crtero más elaborado, que es aplcable cuando los errores en Y son de naturaleza puramente estadístca (y gaussana. Su dervacón es bastante complcada, y requere el uso de teoría estadístca, por lo que no se dará en este curso. Por otra parte, la médula de la argumentacón empleada en ese crtero es etensble a casos no estadístcos, y la dscutremos a contnuacón. Ya se menconó que, gráfcamente, d es la dstanca en la dreccón del eje y entre el dato -ésmo y la recta obtenda usando el método de cuadrados mínmos (es decr, aquella determnada por los valores de a y b que se obtenen del método. Por lo tanto, d /y es una medda de cuanto vale esa dstanca comparada con el error en Y en ese punto. Supongamos que los errores en Y son de naturaleza nstrumental. Es claro que, s ese cocente es menor o gual que 1, para ese dato partcular, se puede decr que el punto pertenece (epermentalmente a la recta. S los errores fueran estadístcos gaussanos, esta condcón no es sufcente, porque hay una probabldad respetable (33% de que el valor medo utlzado para y caga fuera del ntervalo defndo por una dspersón, y en estos casos se debería agregar un ntervalo de probabldad en esa condcón. Dejando de lado este problema, consderemos ahora que pasa con el conjunto de datos. En prncpo, es posble que algunos de los puntos tengan ese cocente menor que 1 mentras que otros lo tengan mayor que 1. Parece razonable usar como crtero para decdr s se acepta o no la relacón lneal el que la mayoría de los puntos satsfaga esa condcón. Y esto se puede hacer sencllamente calculando el valor que toma, una vez calculados a y b. En efecto, es la suma de los cuadrados de esos cocentes, de modo que /n es el valor medo de ese cuadrado. Luego, (/n 1/ es una estmacón de cuanto vale el promedo de los d /y, y s resulta ser menor o gual que 1, la relacón lneal debe ser aceptada; s es mucho mayor que 1, debe ser rechazada. Entre el valor 1 y mucho mayor que 1 queda un margen de ndecsón (entre otras cosas, en decdr cuanto es mucho. La ventaja de la teoría
estadístca menconada más arrba consste en que, hacendo una comparacón que es substancalmente equvalente, da resultados en térmnos de probabldades para cualquer valor que se obtenga en la comparacón. Con todo, el crtero epuesto aquí tene la ventaja de ser sencllo de entender y váldo para cualquer tpo de errores. Que relacón tene esto con el r? S se reemplazan los resultados de a y b dados más arrba en la epresón de, y se usa la defncón de r, hacendo un poco de manobras algebracas se encuentra que: ( 1 r ( S S / S yy y en donde se ve que s r vale 1, es cero y por tanto, el crtero dado anterormente se satsface. Sn embargo, el hecho que r sea cercano a 1 (=0,95, por ejemplo no alcanza para garantzar que sea pequeño (menor o del orden de n porque el otro factor (S yy - S y /S es habtualmente un número mucho mayor que 1. Todavía no se djo nada sobre n, el número de datos. S los datos fueran sólo, es obvo que determnan un únco valor de pendente y ordenada al orgen, y consecuentemente, =0. Pero tambén es claro que, con sólo dos datos, no se puede pretender asegurar una relacón lneal entre las varables X e Y. Tambén es claro que, cuantos más datos se tengan, mayor confanza se puede tener en determnar la estenca (o nestenca de una relacón lneal. En un tratamento estadístco esten crteros adconales sobre el número de datos requerdos, pero para lo que nos nteresa acá basta decr que un mínmo razonable para n es n = 10. De todos modos, hay que agregar otra consderacón: no basta con tener un valor de n razonable; es necesaro además que los rangos de valores de X e Y cubertos por los datos sean tambén razonables, al menos que cubran un orden de magntud. Nótese que, en un rango de valores relatvamente pequeño, cualquer funcón puede ser ben apromada por una recta. Una vez llegados a este punto, tambén puede verse cual es la dferenca esencal entre el método de cuadrados mínmos ponderados y el ordnaro. El ponderado admte dar un crtero para aceptar o no la hpótess lneal, el ordnaro no, porque aún que se pueda defnr en él un coefcente equvalente al r, hemos vsto que esto no srve para garantzar la hpótess lneal. Es frecuente encontrar en calculadoras de mano y en paquetes de computacón métodos de correlacón lneal que, ante un conjunto de datos, y dan valores de a, b, r, e ncertezas de a y b. Todos estos programas usan cuadrados mínmos ordnaros, y como no tenen ncertezas en los datos Y, asumen que estas ncertezas son constantes e guales a [/(n-] 1/, usando este valor en las fórmulas de propagacón. Pero, salvo el que dvden por n- en lugar de dvdr por n (debdo a razones estadístcas, lo que están usando como error en Y es la dstanca promedo a la recta, y se perde así toda posbldad de dar un crtero. En efecto, este método supone que esos apartamento de la recta son debdos a un error, en lugar de compararlos con los errores de medcón. Este uso puede ser aceptable en algunas dscplnas (cencas socales, por ejemplo, en las que no es fácl n habtual determnar errores, pero de nngún modo es aceptable en físca, en donde cada dato debe conocerse con su error. 4. Errores en las dos varables Acabamos de menconar la mportanca y convenenca de nclur los errores de los datos en el método de cuadrados mínmos. Y nos queda pendente la dscusón de que crtero usar para decdr que una de las varables tene errores desprecables,
que es lo que justfca el tratamento anteror. El modo de aclarar este punto es replantear el problema para el caso general de errores en ambas varables, cosa que es relatvamente nueva (D. York, Canadan Journal of Physcs, 44 (1966 p. 1079, completado por J. Wllamson, Canadan Journal of Physcs, 46 (1968 p. 1845, y con trabajos hasta la fecha que aclaran y mejoran el método. A contnuacón se dará un resumen de las deas en las que se basa. Hay dos cosas que modfcar en el tratamento anteror: una es nclur en los factores de peso a los, la otra es modfcar consstentemente la dstanca a la recta que se usa. Es claro que ya no se justfca mnmzar la dstanca en y ( porque no en?, y la solucón es mnmzar la dstanca perpendcular a la recta. Sea d esa dstanca (va a depender de la pendente b, porque la pendente de la recta perpendcular es -1/b y tambén de los valores e y, por analogía al caso anteror, se elgen los pesos como los d evaluados propagando los errores y y (notar que con la defncón anteror de d, y es su error s no hay error en. Este cálculo es sencllo, y se obtene la sguente sumatora a mnmzar: ( y a b ( y ( b El efecto fnal (engañoso es el de mnmzar la suma de los vejos d pero dvdos por coefcentes que ncluyen el error en. Nótese que ahora aparece un nuevo térmno que depende de b en el denomnador, por lo que al dervar e gualar a cero, las ecuacones serán más complejas. De hecho, en el caso general de errores todos dstntos entre s, no hay solucón analítca para a y b, sno que deben obtenerse solucones en forma numérca. En cambo, las ncertezas de a y b s tenen solucones analítcas (pero muy arduas de calcular, supuesto que se conocen a y b. En lo que sgue, nos lmtaremos a un caso más sencllo, llamado de errores proporconales ( /y = constante para todo. Esta lmtacón se adopta porque permte dsponer de solucones analítcas, y sn perder generaldad, permte entender que sgnfca que uno de los errores sea desprecable. Llamando d al cocente de errores podemos escrbr en la forma: 1 ( y a b 1 bd ( y Sguendo el msmo procedmento que en el caso anteror, se forma un sstema de ecuacones para a y b, que pueden ser despejados y resulta una ecuacón cuadrátca para b, cuyas solucones son: db 1 1 db 1 ( db Sy S a db r db r r S S b 4 4 ; (,,, en donde se ha llamado b* a la solucón ya conocda del caso ponderado y r tambén es el del caso ponderado, lo msmo que las sumatoras S que aparecen en a +,-. Para decdr cual sgno tomar en la solucón, hay que hacer un análss de cual solucón es un mínmo y cual un mámo. Se encuentra que esto depende del sgno de b*: s b* es postvo, se debe tomar el sgno + de la raíz y vceversa.
Tomaremos en adelante la solucón b + y, para smplfcar escrtura, en lo que sgue se usa esa raíz sn el subíndce. Tambén se pueden calcular las ncertezas de estas solucones, y se obtene: 1 f( b, b, d, r ; ( 1b d f( b, b, d, r [ 1f( b, b, d, r ] b b a a donde f( b, b, d, r ( 1b d 1 b d / r 1d ( bb b / r De estas epresones se puede ver que, en el límte d0, bb* (basta sacar factor común 1/(b*d en la raíz y desarrollar en sere; aa* ; y como f1, las ncertezas tenden a las cláscas. Tambén se puede ver que s r 1, bb* y aa* pero ahora las ncertezas se modfcan, resultando: ab, ( 1 d b a, b es decr, son mayores que las del caso clásco. Nótese que el ncremento relatvo de las ncertezas es proporconal a (db* = (b* /y. Como las ncertezas cláscas son, substancalmente, proporconales a una espece de valor medo de (y, lo que esto dce es que se debe agregar otro térmno que es substancalmente proporconal a b* multplcado por una espece de valor medo de (, lo cual es razonable. Por otro lado, esto pone en evdenca que crtero se debe usar para decr que un error es gnorable (o sufcentemente pequeño comparado con el otro: lo que cuenta no es que d sea chco, sno que db* lo sea. Dcho de otra forma, el modo de asegurar a pror s los errores en alguna de las varables son desprecables ( para errores proporconales consste en estmar apromadamente la pendente de la recta y luego comparar los y con el producto de esa pendente con los. S resulta y mucho mayor, los son gnorables; s mucho menor, los y son gnorables, s son del msmo orden, entonces se deben nclur ambos. bd S