Estmadores roustos de estadístcos de poscón Marano Caronero Facultad de Cencas Económcas y Empresarales. ETEA. Unv. de Córdoa 4004 Córdoa mcaronero@etea.com Jesús Ramírez Facultad de Cencas Económcas y Empresarales. ETEA. Unv. de Córdoa 4004 Córdoa jramrez@etea.com César Hervás Departamento de Informátca y A.. Unversdad de Córdoa 407 Córdoa chervas@uco.es Domngo Ortz Departamento de Informátca y A.. Unversdad de Córdoa 407 Córdoa maorod@uco.es Este traajo ha sdo fnancado por el MCYT, proyecto TIC00-04036-C05-0 y con fondos FEDER Resumen El traajo aorda la utlzacón de estmadores roustos en el caso de que las dstrucones asocadas a las varales mplcadas en el prolema no tengan dstrucones normales. De entre estos estmadores destacamos la mportanca de la medana como estmador de parámetros de localzacón y en general de los cuantles como estmadores de parámetros de dspersón. Proponemos para la medana una dstrucón alternatva a la dstrucón nomal que hatualmente se utlza y que tene la dfcultad de ser dscreta, por lo que es dfícl otener ntervalos de confanza con extremos reales. Como aplcacón consderamos la construccón de ntervalos de confanza laterales que srvan de ase a operadores de cruce multpadres para algortmos genétcos con codfcacón real. Introduccón Exsten muchos estmadores sencllos para el centro de una dstrucón smétrca pertenecente a una clase llamada L-estmadores, esto es estmadores comnacón lneal de estadístcos de orden. Hasta ahora, dada la ausenca de un conocmento precso acerca de la dstrucón verdadera suyacente a un conjunto de datos, es hatual consderar la conducta de estos estmadores para dstrucones alternatvas que van desde una Gaussana a una dstrucón de Cauchy []. Este tpo de estmadores están tenendo una gran dfusón dentro de la comundad centífca tanto en estadístca como en aprendzaje, dado que en mnería de datos el efecto de la dmensonaldad del espaco de varales ndependente nmersas en la resolucón de un prolema, así como la suposcón de normaldad de dchas varales, o de los errores cometdos en prolemas de clasfcacón o regresón, hace que las técncas de comparacón de algortmos o de análss de sus característcas sean aordadas medante métodos roustos de estadístca no paramétrca []. Es por ello, que con este traajo ntentamos aproxmarnos al desarrollo y aplcacón de una teoría de los contrastes de hpótess en el contexto de modelos de regresón de cuantles lneales (L-estmadores)[3] que se utlzan como una alternatva a los desarrollados en la lteratura sore grande muestras en múltples aspectos de la nferenca estadístca asocada a la regresón con cuantles. Ejemplos de ello ncluyen, la nferenca asada en rangos [4], así como la nferenca asada en varos procedmentos de ootstrap [5-7]. De esta forma, en una prmera aproxmacón aplcaremos los resultados de dstrucones alternatvas asocadas a estmadores roustos, la medana en este traajo, que explíctamente ncorporen detalles de la forma en la que se mplementa la varanza asntótca estmada en los test estadístcos de los parámetros de poscón de una dstrucón. Proponemos como aplcacón de estas dstrucones la defncón y propuesta de un método de cruce para algortmos genétcos con codfcacón real, AGCR, donde se trata de extraer las característcas estadístcas más relevantes de localzacón y dspersón de los ndvduos más aptos otendos en cada generacón. Es por ello, un algortmo donde ntroducmos un aprendzaje estadístco al consderar, en prmer lugar, que para estmar la localzacón y dspersón de los genes de los mejores ndvduos sus dstrucones van a ser contnuas a lo largo de la evolucón [8-9]. Bajo esta consderacón, al no conocer la dstrucón de los genes de los mejores ndvduos, utlzamos un estmador de localzacón asado en la norma L, esto es, la Actas del III Taller aconal de Mnería de Datos y Aprendzaje, TAMIDA005, pp.34-347 ISB: 84-973-449-8 005 Los autores, Thomson
34 III Taller de Mnería de Datos y Aprendzaje medana muestral de los genes de los n mejores ndvduos de cada generacón. Como la dstrucón de la medana no depende de la dstrucón de esos genes como proponemos en este traajo, entonces tendremos ntervalos que no dependerán de la dstrucón de los genes de los mejores ndvduos lo que en computacón evolutva es muy mportante dados los posles camos que pueden tener dchas dstrucones a lo largo de la evolucón A partr de esos estmadores de los parámetros de localzacón y de sus dstrucones asocadas construmos ntervalos de confanza laterales para producr, en cada generacón, tres padres, uno formado por los extremos nferores de los ntervalos de confanza, otro formado por los extremos superores y otro formado por el estadístco de localzacón utlzado la medana dado que utlzamos la norma L.. Defncón del prolema Aunque presentado ajo dstntos aspectos y con dferentes denomnacones, el prolema que presentamos es, proalemente, uno de los más mportantes y dscutdos en la actualdad: Consderemos una varale aleatora, Y, y una varale k-dmensonal X sore las que dsponemos de un conjunto fnto de n oservacones {( x, y), =, K, n}. Consderemos gualmente una famla de funcones p F = { f ( x ), θ θ Θ } () defndas de k en, de forma funconal conocda salvo por el valor del parámetro p- dmensonal θ pertenecente a un certo espaco paramétrco Θ. A partr de la anteror nformacón, el ojetvo consste en determnar, a partr de la nformacón ncluda en el conjunto de oservacones, la mejor eleccón posle del parámetro vectoral θ de manera que resulte mínma la cantdad ( θ) = yf, θ ( x ) (), sendo y y f θ x los vectores n-dmensonales construdos a partr del conjunto dsponle de oservacones para cada valor paramétrco y una dstanca o, de forma más genérca, cualquer medda de dsmlardad. Tan sólo por evdencar la frecuenca de este tpo de prolemas, asta consderar que, s la varale dependente Y es de tpo contnuo, este prolema no es más que un modelo de regresón, mentras que s Y es una varale dscreta y fnta, se tratará de un prolema de clasfcacón supervsada. Este prolema no admte una solucón unversal, n en general, n tan squera para alguna de sus varantes, y las dferencas entre las dstntas solucones, así como su nvel de éxto en térmnos del valor de la medda venen condconados por la forma en que tanto F como se eljan, eleccones éstas que a su vez, deerán apoyarse tanto en la nformacón que pueda extraerse del conjunto de datos oservados como en las hpótess formuladas y contrastadas que sore la polacón de la que provenen se efectúen, especalmente en lo que a la dstrucón de proaldad de la varale aleatora Y se refere. De nuevo, por aproxmar estas consderacones generales a prolemas más concretos, aste constatar que el modelo clásco de regresón lneal, utlzando para la norma L, no es más que la sguente eleccón k k + F = f = θ0 + θ jxj, x θ θ j= (3) n ( y ) fθ θ = x (4) = cuya utldad y conocdas propedades estadístcas se dervan del dole supuesto de normaldad de la varale dependente y lnealdad en el conjunto de datos oservados. Enfocado el prolema, en este traajo trataremos de poner de releve la mportanca que tanto la eleccón de como sus consecuencas tenen, así como los nconvenentes que pueden presentarse s esta eleccón no se hace cudadosamente. Supondremos por tanto, en lo que sgue, que el conjunto de funcones F se encuentra perfectamente especfcado salvo por el valor del parámetro θ, cuyo valor deerá ser, en consecuenca, estmado a partr de los datos dsponles. Con este ojetvo y ajo el ctado supuesto, comenzaremos por descrr un esquema de resolucón y valdacón que, s en no tene carácter unversal, sí que responde a la estratega seguda por muchos de los métodos actualmente
III Taller aconal de Mnería de Datos y Aprendzaje, TAMIDA005 343 propuestos y empleados para aordar el prolema. En esta descrpcón se destacarán, sore todo, las conexones exstentes entre los dstntos elementos presentados así como las consecuencas que pueden llegar a tener determnadas decsones s las hpótess sore los que se asentan no están en contrastadas. En la segunda parte, asada en los elementos crítcos señalados en la prmera, se presenta un modelo de traajo alternatvo que, aunque sguendo el msmo esquema ya presentado, podría resultar preferle en aquellos casos en que los supuestos a que nos refermos en el párrafo anteror no resulten aceptales. 3. Aspectos generales de una solucón Dada la dversdad de solucones para el prolema presentado en el apartado anteror, cualquer nueva propuesta de solucón que se haga se desarrollará normalmente en dos fases aparentemente ndependentes: Fase : De tpo metodológco, consste en la presentacón del procedmento empleado para la resolucón. Fase : De carácter compettvo, tratará de justfcar la utldad de la propuesta, comparando su capacdad de resolucón con la de otros procedmentos generalmente aceptados. Para ello suelen compararse los resultados de todos ellos frente a prolemas concretos que, como los métodos de referenca, suelen elegrse de entre un conjunto más o menos estandarzado. Analcemos con algo más de detalle cada una de estas fases: 3.. Fase Los dos elementos que ntegran esta fase son la eleccón y cálculo de la medda de dscrepanca y la estmacón del parámetro θ, cuestones que, aunque aparentemente puedan parecer ndependentes no lo son, n mucho menos, en todos los casos. Para justfcar esta últma afrmacón, consderemos, de nuevo, que en general es ( θ) = ( y, fθ ( x )), por lo que su forma funconal y el ojetvo de mnmzarla pueden llegar ncluso a defnr el procedmento de cálculo de las estmacones, como ocurre, por ejemplo, en el método de mínmos cuadrados y, con carácter mucho más general, con procedmentos algorítmcos como el de Levenerg-Marquardt o cualquer procedmento de tpo gradente o newtonano. La nfluenca en sentdo contraro resulta mplíctamente del razonamento anteror, ya que s la estmacón se hace sn tener en consderacón la forma funconal de, la dscrepanca entre oservacones y predccones no resultará necesaramente mínma y la eleccón de parámetros efectuada será, por tanto, nefcente. Trasladada a otro terreno estadístco, el de las meddas de poscón y dspersón, esta concordanca entre estmadores y meddas de dscrepanca se traduce en el hecho de que cada medda de dspersón se encuentra asocada a una medda de poscón que la mnmza. Por ctar los dos ejemplos más mportantes y que serán los referdos en este documento, s es X una varale aleatora, su valor medo µ = E( X), supuesta la exstenca, mnmza la dspersón cuadrátca meda mentras que su medana Me= Me( X) mnmza el valor esperado de la desvacón asoluta [] T T ( ) = ( µ ) mín E X T E X mín E X T = E X Me stuacones amas que se mantenen conceptualmente s se consderan conjuntos de datos y no la varale aleatora en sí. Por tanto, es de esperar que la utlzacón de meddas de dscrepanca asadas en el crtero mínmo cuadrátco determne que en los procesos de estmacón susguentes la meda muestral desempeñe un papel mportante, mentras que s se opta por valorar las desvacones entre lo oservado y lo calculado en térmnos asolutos y no cuadrátcos ese papel le corresponda a la medana. La dferenca entre amas stuacones es aprecale. Son conocdas las propedades e nconvenentes de una y otra medda como estadístcos de poscón que, naturalmente, serán trasladados a los correspondentes estmadores otendos medante su empleo. La meda muestral resultara una uena ase para el cálculo de estmadores cuando la dstrucón presente evdentes ndcos de smetría, sus colas no resulten ser excesvamente pesadas y, por tanto, la presenca de oservacones anómalas sea altamente mproale. El paradgma de esta stuacón lo consttuye la dstrucón
344 III Taller de Mnería de Datos y Aprendzaje normal, y de hecho, cuando la hpótess de normaldad puede ser asumda, los estmadores otendos medante el procedmento mínmo cuadrátco gozan de propedades óptmas que los hacen práctcamente nmejorales. S en en la práctca esta stuacón se presenta o puede ser supuesta con astante frecuenca, tamén es certo que no se trata de una hpótess que dea ser automátcamente asumda y que de hecho es naceptale en astantes stuacones, especalmente cuando se opera con conjuntos de datos de pequeño tamaño, procedentes de dstrucones manfestamente asmétrcas o en los que se hallen presentes oservacones atípcas. En presenca de estas u otras rregulardades la meda deja de ser la medda óptma de poscón, los estmadores asados en su cálculo manfestarán tendenca a comportarse de manera poco precsa y, por las razones anterormente expuestas, el crtero de medda del error no deera ser mínmo cuadrátco. 3.. Fase Con aparente ndependenca del procedmento o procedmentos empleados en la que hemos llamado fase, surge la necesdad de comproar la efcaca del método construdo lo que, como ya hemos señalado, se lleva a cao hacéndole competr con otros algortmos generalmente aceptados en la resolucón de prolemas más o menos estandarzados. Para llevar a cao esta tarea de pruea, los métodos actualmente vgentes se asan en la comparacón de los resultados ofrecdos por uno y otros medante el empleo de técncas estadístcas, normalmente muy estandarzadas: el mero cálculo de estadístcos descrptvos (normalmente medas y desvacones típcas), el uso de estadístcos t de Student y procedmentos de análss de varanza podrían ctarse entre los medos más empleados, s en es éste un campo en el que el nvel de sofstcacón técnca sgue en aumento. En todo caso e ndependentemente de la complejdad de los procedmentos que se empleen, en la mayor parte de los casos sgue presentándose una crcunstanca que vncula esta fase con la anteror: el mplícto supuesto de normaldad. Tanto s se recurre sólo al cálculo de la meda y desvacón del conjunto de resultados y mucho más aún s se hace uso de la dstrucón t de Student o de los métodos cláscos de análss de la varanza el supuesto de normaldad suyace: la dstrucón t de Student surge asocada a la valoracón de la meda de una dstrucón normal cuya varanza es desconocda y dee ser estmada, mentras que los procedmentos AOVA se asan en comparar las desvacones cuadrátcas con respecto a la meda que pueden o no ser explcadas por la presenca de un determnada fuente de varacón, sendo su prncpal supuesto la normaldad de la dstrucón analzada. De nuevo, por tanto, como en la fase anteror, y quzá de forma mucho más evdente, la asuncón de que es la meda la medda dónea de poscón y por tanto la varaldad cuadrátca la correspondente medda de dspersón, está mplícta en estos procedmentos que, por otra parte, no parecen ser prueas excesvamente roustas frente a alteracones del supuesto de normaldad. 4. Estmadores de poscón roustos uestra propuesta consste en consderar, especalmente para aquellos casos en que el supuesto de normaldad dea ser descartado, la estmacón de parámetros asada no en la meda muestral, sno en la medana, estadístco mucho más rousto por su mayor nsensldad a la presenca de rregulardades. Esta decsón dee venr asocada, por las razones expuestas en el punto anteror, a un camo en la eleccón de la medda de dscrepanca asada consecuentemente en la desvacón asoluta y no en la cuadrátca, coherente, como ya se ha señalado, con la eleccón de la meda como medda de dspersón. Como consecuenca de lo anteror, las meddas de comparacón propas de la que hemos llamado fase deerán tamén replantearse en térmnos de dcho estadístco. Un esquema de cuál sería el modo de construr uno de estos procedmentos podría ser el sguente: 4.. Fase Sean dados el conjunto de datos x, y, =, K, n y el espaco funconal {( ) } F f, p { } = x θ θ Θ completamente defndo salvo por el valor del parámetro θ.
III Taller aconal de Mnería de Datos y Aprendzaje, TAMIDA005 345 S consderemos la medda de dscrepanca asocada a la norma L n y fθ θ = x (5) = la estmacón del vector de parámetros θ vendrá determnada por la resolucón del prolema mín θ θ Θ lo que normalmente requerrá de la aplcacón de algún algortmo de optmzacón de tpo gradente o newtonano. 4.. Fase S se pretende poder estalecer comparacones ojetvas a partr de los resultados otendos medante el procedmento defndo en la fase anteror resulta mprescndle hacer uso de alguna dstrucón asocada a la medana, que es la medda de poscón asocada a la funcón de dspersón elegda. Consderaremos a este respecto el sguente resultado, adaptacón a nuestro prolema del presentado por Chuan Goh [5]: Sea X,, K X una muestra aleatora smple procedente de una polacón con funcón de densdad f contnua y postva en un entorno de Me( X ). Sea X () K X ( ) la correspondente muestra ordenada, s defnmos k = +, sendo. la funcón parte entera, y m< k es un entero ndependente de. S consderamos el estmador de Sddqu- Bloch-Gastwrth de una funcón de la medana [0] ˆ f ( Me( X) ) = Sm = ( X( k m) X + ( k m) ) (6) m el estadístco ( ( k) ) tm = X Me X (7) S m tene dstrucón límte, cuando, S con m grados de lertad, cuya funcón de densdad vene dada por g s ( x, m) t tx m + 4m 0 = mγ ( m) π t e dt (8) x Se trata de una dstrucón smétrca con respecto al orgen, que se aproxma a la normal cuando m pero de colas sgnfcatvamente más pesadas que las de ésta, lo que resulta coherente con el contexto de traajo en que ha sdo planteada su construccón y s en no podrá ser otenda exactamente la dstrucón de proaldad correspondente a este tpo de varales, la msma puede ser taulada en funcón del parámetro m del msmo modo que ocurre con el parámetro asocado a los grados de lertad de la dstrucón t de Student cuando utlzamos la meda como estmador de la localzacón de una varale dstruda normalmente, y a la que, en certo modo, vene a susttur en el contexto de traajo estalecdo. Por tanto, aunque con una dstrucón de referenca dstnta, el tpo de operacón presentado en la que hemos llamado fase podrá mantenerse, al menos parcalmente, consderando como estadístcos de comparacón la medana muestral y la desvacón meda asoluta respecto de la msma (en lugar de la meda y la desvacón típca) y podremos utlzar el estadístco de contraste S (en lugar del estadístco de contraste t presentado en el apartado anteror) que permtrá contrastar por ejemplo hpótess de gualdad de efcaca en medana de un algortmo frente a otro cuando las dstrucones de los errores que mden la efcaca no sean normales y/o no sean smétrcas. 5. Operadores de cruce roustos en algortmos genétcos con codfcacón real Una de las posles aplcacones de la dstrucón propuesta para la medana estará asocada a la defncón de operadores de cruce en algortmos genétcos con codfcacón real, AGCR, en la forma: Sea = β el gen -ésmo del cromosoma de un = K q y suponemos que estas ndvduo, para,, son varales aleatoras ndependentes con H β, con un dstrucones contnuas
346 III Taller de Mnería de Datos y Aprendzaje parámetro de localzacón defndo como µ. Además, consderamos el modelo β = µ + e, para cada =, K, q, sendo e una varale aleatora. S suponemos que los n mejores ndvduos forman una muestra aleatora smple ( β, β, K, β) de la dstrucón de los mejores ndvduos de la polacón utlzada por el AGCR, β, el modelo se puede escrr como: β = µ + e, j =, K, (9) j j Entonces, utlzando este modelo, podemos uscar un estmador para el parámetro de localzacón µ del gen -ésmo asándonos en el método propuesto en las seccones anterores, de forma tal que ahora s utlzamos un algortmo de gradente d ( µ ) descendente, S ( µ ) =, donde la dµ funcón de dspersón nducda por, según la norma L es ( µ ) = β j µ. j = El estmador, es la medana muestral ˆ µ = M de la dstrucón de los β []. La medana muestral es mejor estmador del parámetro de localzacón que la meda muestral cuando se desconoce la forma de la dstrucón H. S consderamos la dstrucón del estadístco S, dada una muestra de los n genes -ésmos asocados a otros tantos mejores ndvduos, el ntervalo de confanza para un nvel de sgnfcacón α, se construye utlzando el método de studentzacón. Como los resultados de las smulacones ndcan la haldad que los valores crítcos de S tenen para controlar su tamaño, para valores relatvamente pequeños de m, tomaremos m=, y entonces M = S = β β 4 + 3 y utlzando el estadístco t (0), tenemos β 8 β Me + β + 3 + S () y s consderamos un coefcente de confanza del (-α)%, el ntervalo de confanza lateral será I α ( Me( )) = β ± S, / α β β + 8 + 3 + S oservamos la funcón de dstrucón de S, taulada en [3] y tomamos -α= 0.95, tenemos que S, 0,05 toma un valor de 3.39, con lo que podemos calcular el ntervalo para un valor de dado. El ntervalo propuesto no depende de la dstrucón H de los genes, lo que es de una mportanca manfesta en nuestro prolema de evolucón, ya que las dstrucones de los genes de los mejores padres presumlemente camarán a lo largo de la evolucón. Otra ventaja que tene este ntervalo frente a otros donde utlzamos la dstrucón nomal asocada a la medana [], es que no es necesaro nterpolar valores puesto que la dstrucón asntótca de S es contnua. A partr de este ntervalo de confanza contaremos en cada generacón con tres padres para poder hacer el cruce: la medana, el extremo nferor del ntervalo y el extremo superor, estos padres se han otendo tenendo en cuenta característcas estadístcas de los mejores ndvduos de la polacón a través de los estadístcos roustos de centralzacón y de dspersón. Este tpo de operadores de cruce están sendo empleados en optmzacón de funcones multmodales y epstatcas con resultados prometedores [-]. 6. Conclusones Hemos presentado en este artículo un método alternatvo para la construccón de modelos adecuados para la resolucón de prolemas de regresón o clasfcacón que, s en sgue la msma estratega que los hatualmente empleados, dfere de éstos en la funcón de valoracón del error, el procedmento para la =
III Taller aconal de Mnería de Datos y Aprendzaje, TAMIDA005 347 estmacón de parámetros y las meddas de evaluacón de sus resultados. Con ndependenca de que dentro de este msmo esquema caen sn duda otras muchas eleccones, queremos resaltar dos hechos mplíctos en nuestro planteamento de carácter general: En prmer lugar, que exste una conexón nevtale entre las fases que ntegran la construccón de un modelo, la medda nterna de su efectvdad y la valdacón de su efcaca frente a otros, de manera que las decsones que sore estos aspectos se tomen no deen de ser, a nuestro entender, adoptadas ndependentemente las unas de las otras. En segundo lugar que, a su vez, estas decsones deen apoyarse en la naturaleza del conjunto de datos oservados. Esta afrmacón es evdente en lo que a la eleccón de la forma funconal del conjunto F se refere, pero pensamos que no tanto en cuanto a resolucón del prolema a partr de ese momento. La nformacón que sore la estructura proalístca de las varales oservadas contene el conjunto de datos dee servr de apoyo para elegr convenentemente no sólo el tpo de funcón que se desea emplear, sno tamén cuál dee ser la forma adecuada de medr las dferencas entre los valores oservados para la varales dependente y su estmacón, con todo lo que ello mplca s consderamos la anteror conclusón. Referencas [6] He, X and Hu, F. Markov chan margnal ootstrap. Journal of the Amercan Statstcal Assocaton 97, 783-795. 00 [7] Koenker, R., and Machado J. A. F. Goodness of ft and related nference processes for quantle regresson. Journal of the Amercan Statstcal Assocaton 94, 96-30. 999 [8] Ortíz D., Hervás C. and Muñoz J.. Genetc algorthm wth crossover ased on confdence ntervals as an alternatve to tradtonal nonlnear regresson methods. European Symposum n Artfcal eural etworks, Brujas. 00. [9] Ortíz D., Hervás C. and Muñoz J. Genetc algorthm wth crossover ased on confdence ntervals as an alternatve to least squares estmaton for nonlnear models. Metaheurstc Internatonal Congress, Oporto. 00. [0] Sddqu, M. M. Dstruton of quantle n samples from a varate populaton.. Journal of Research of the atonal Bureau of Standards -B. Mathematcs and Mathematcal Physcs 64B, 45-50. [] Ortz D., Hervás C., García. CIXL: A crossover operator for evolutonary algorthms ased on populaton features. Journal of Artfcal Intellgence Research. 004 (Aceptado) [] Hervás C., Ortz D. Analyzng the statstcal features of CIXL crossover offsprng. Soft Computng. Vol 9, nº 4 pp 70-79. 005 [] Hoagln D., Mosteller, F., and Tukey, J. Undestandng roust and exploratory data analyss. Wley Classcs Lrary. 000 [] Hettmansperger T, and McKean J. Roust nonparametrc statstcal methods. Kendall s Lrary of statstcs 5. Arnold. London. 998 [3] Chuan G. Smoothng choce and dstrutonal approxmatons for econometrc nference. PhD dssertaton, Unversty of Calforna, Berkeley. 004 [4] Gutenrunner, C., Jurecková, J., Koenker R. And Portnoy S. Test of lnear hypotheses ased on regresson rank scores. Journal of onparametrc Statstcs, 307-333. 993 [5] Horowtz, J. L. Bootstrap methods for medan regresson models. Econometrca 66, 37-35. 998