REVISTA INVESTIGACIÓN OPERACIONAL Vol., 30, No.1, 52-60, 2009

REVISTA INVESTIGACIÓN OPERACIONAL Vol., 30, No.1, 52-60, 2009 USO DE REDES BAYESIANAS OBTENIDAS MEDIANTE OPTIMIZACIÓN DE ENJAMBRE DE PARTÍCULAS PARA EL DIAGNÓSTICO DE LA HIPERTENSIÓN ARTERIAL María del Carmen Chávez, Gladys Casas, Jorge Morera, Emlo González, Rafael Bello, Rcardo Grau Centro de Estudos de Informátca, Unversdad Central Martha Abreu de Las Vllas, Santa Clara, Vlla Clara, Cuba, CP 54830 RESUMEN En el presente trabajo se combnan dferentes técncas de Intelgenca Artfcal para modelar el dagnóstco de la Hpertensón arteral. La base de datos utlzada es el resultado de un estudo realzado con personas supuestamente sanas, en cnco polclíncos de la cudad de Santa Clara. Una forma de modelar las relacones entre las varables es usando una red del bayesana. El costo computaconal del aprendzaje de la estructura de una red bayesana desde datos, crece con el número de varables y el número de casos. Por lo que surge el problema de dentfcar una buena heurístca para explorar el espaco de posbles redes. Los algortmos evolutvos son métodos muy valosos para encontrar buenas solucones en problemas concretos, por lo que se usa el algortmo de Optmzacón de Enjambre de Partícula (PSO) para la búsqueda de la estructura de la red bayesana. Se ha realzado una extensón a la plataforma Weka (Wakato for Envronment Knowledge Analyss) y se utlzan métrcas de score global para evalúar las solucones. El nuevo algortmo forma parte de la clase Bayesnet de Weka. Los resultados obtendos muestran buenos resultados en la clasfcacón de la Hpertensón Arteral. ABSTRACT In the present work, dfferent Artfcal Intellgence technques are combned to model the dagnoss of hypertensve people. To develop the work a data base of Arteral Hypertenson was used, whch s result of a prelmnary study made n fve polyclncs of Santa Clara cty, wth supposedly healthy ndvduals. One of the ways to model the relatons between varables s usng a Bayesan network. The computatonal cost of the learnng of a Bayesan network from data, grows wth the number of varables and the number of cases, therefore, the problem of dentfyng a good heurstc to explore the space of possble networks arses. The evolutonary algorthms are beng very valuable methods to fnd good solutons to concrete problems, that s why the Partcle Swarm Optmzaton (PSO) algorthm s used for the network structure search. An extenson to the Weak platform (Wakato for Envronment Knowledge Analyss) was done, n whch the new algorthm becomes part of the global score metrcs mplemented n the Bayesnet class n Weka. The obtaned results show good classfcaton of the Arteral Hypertenson wth Bayesan networks. KEY WORDS: Bayesan networks, classfcaton, PSO, Partcle Swarm optmzaton, qualty metrc of optmzaton Bayesan networks, algorthms bo nspred, arteral hgh blood pressure. MSC: 62P10 1. INTRODUCCIÓN El corazón bombea sangre a través de las arterías a todo el cuerpo, la tensón que se genera en el nteror arteral se denomna presón arteral. La hpertensón arteral (HTA) ó presón alta, es la elevacón de esta presón arrba de un límte que se consdera normal (140/90 mmhg). La HTA es la prncpal enfermedad crónca degeneratva y la más común causa de muerte, afecta aproxmadamente al 20% de la poblacón mundal. La elevacón anormal de la presón consttuye un mportante factor de resgo coronaro. Al medrse la presón arteral se anotan dos números, el mayor es la presón sstólca, y se corresponde con la presón del corazón al contraerse para bombear la sangre. El número menor es la presón dastólca, que es la presón de la sangre en las arteras en la fase de relajamento del corazón. Para un correcto dagnóstco de hpertensón, el médco mde varas veces la presón arteral, en dferentes 52

condcones de esfuerzo y en dferentes horas del día. En personas hpertensas, la varacón es mayor y permanece alta la mayor parte del día, ncluso en los perodos de descanso. El conocmento actual de éste problema de salud públca a nvel mundal, oblga a buscar estrategas de deteccón, control y tratamento [1], [2], [3]. El estado de hperreactvdad vascular se consguó medante una ergometría sométrca denomnada Prueba del Peso Sostendo (PPS) [4]. Esta prueba basa su prncpo en ntroducr al método clásco de la medcón de la tensón arteral la condcón de que los pacentes realcen, en poscón sentada, un ejercco físco sométrco, que consste en mantener un peso de 500 gramos con el brazo zquerdo extenddo en ángulo recto al cuerpo durante 2 mnutos. La presón arteral se toma en el brazo contraro antes del ejercco y a partr del segundo 50 del segundo mnuto. Las redes bayesanas (RB) son una herramenta poderosa de representacón del conocmento. Una RB es un grafo acíclco drgdo (GAD) con una dstrbucón de probabldad asocada a cada nodo. Los nodos en la red representan las varables, atrbutos o rasgos del domno de aplcacón, y los arcos entre los nodos representan las relacones de dependenca entre las varables [6]. Encontrar un modelo de RB consta de dos partes fundamentales, determnar laestructura de la red y obtener las tablas de probabldades asocadas a cada nodo. La búsqueda de una estructura adecuada puede nterpretarse como un problema de optmzacón, se trata de hallar la red de mejor caldad en el espaco de posbles redes, donde la caldad puede medrse por una métrca que evalúa la red de acuerdo a los datos de partda. Exsten varas métrcas que evalúan la caldad de las redes, específcamente con enfoque bayesano, K2, basados en crteros de nformacón o entropía, Akake Informaton Crteron, Mnmum Descrpton Length [5]. En el trabajo se han realzado las pruebas con la métrca de Bayes, basado en los análss realzados por Bouckaert en [5]. El alto costo en tempo y recursos nherentes a los algortmos exactos de búsqueda, ha conllevado al auge y desarrollo de las heurístcas y metaheurístcas cuyo uso ha arrojado resultados muy alentadores. Dentro de ellas, los algortmos bonsprados y en partcular la Intelgenca de Enjambre (Swarm Intellgence, SI) ha sdo objeto de estudo, nvestgacón y aplcacón por su smplcdad y robustez [14], [16], [17], [15]. Nos centraremos ahora en hallar la estructura de la red, en dcha búsqueda se empleará el modelo computaconal: Optmzacón en Enjambre de Partículas (Partcle Swarm Optmzaton, PSO) [14], [16], [17], [15]. En [8] se hzo un prmer ntento usando métrcas de score local y los resultados para problemas de clasfcacón ncalmente no fueron satsfactoros. En el presente trabajo se mejora la efcenca de los modelos obtendos pues se utlzan métrcas de score global, o sea se mejora el desempeño de la red tenendo en cuenta la muestra y la exacttud de la clasfcacón. La valdacón de los resultados se mde hacendo valdacones cruzadas con dez subconjuntos, que es el estándar para esta tarea. 2. REDES BAYESIANAS Una red bayesana (RB) es un par (D,P), donde D es un grafo acíclco drgdo (GAD), P= {p(x 1 τ 1 ),, p(x n τ n )} es un conjunto de n dstrbucones de probabldad condconales, una por cada varable x (nodos del grafo), y τ es el conjunto de padres del nodo x en D. El conjunto P defne la dstrbucón de probabldad conjunta asocada, como muestra la ecuacón (1): n p ( x ) = p ( x τ ) x = ( x 1, x 2,..., x n ) = 1 (1) Uno de los problemas que debe resolverse cuando se utlzan las RB, es la búsqueda de la estructura que mejor se ajuste a los datos. Esta tarea tene mplícto dos pasos: 53

Aprendzaje estructural: obtener la estructura de la RB, es decr, las relacones de dependenca e ndependenca entre las varables nvolucradas Aprendzaje paramétrco: dada una estructura de RB, obtener las probabldades a pror y condconales requerdas En este trabajo se propone un algortmo para la obtencón desde datos de la estructura de la RB, medante la utlzacón de un algortmo de ntelgenca colectva. Las RB son un tpo especal de sstema basado en el conocmento, por lo que es posble hacer nferenca a partr de conocmento a pror. A este proceso se le llama propagacón de evdencas [6]. 3. PSO PRINCIPIOS BÁSICOS PSO es una metaheurístca de optmzacón estocástca basada en una poblacón. Un enjambre (swarm) se defne como una coleccón estructurada de organsmos (agentes) que nteractúan. La ntelgenca no está en los ndvduos sno en la accón de todo el colectvo. Cada organsmo (partícula) se trata como un punto en un espaco N dmensonal el cual ajusta su propo vuelo de acuerdo a su propa experenca y la experenca del resto de la banda. La banda (swarm) vuela por el espaco de búsqueda localzando regones o partículas prometedoras [17]. 3.1 PSO en el aprendzaje de redes bayesanas La búsqueda de la estructura de la red puede formularse como un problema de optmzacón en el espaco de las posbles redes Ω, en otras palabras, determnar Xópt Ω: H (Xópt) H ( X ), X Ω, donde la funcón objetvo H consderada es una métrca que evalúa la RB en cada partcula del espaco de búsqueda. Se pueden usar cualesquera de las métrcas de score local descrtas en el captulo 4 de la tess de Bouckaert [5], las cuales se encuentran ya mplementadas en la plataforma Weka, en el software que se han obtendo los resultados. En la modelacón del problema de búsqueda a partr del algortmo PSO se defne cada partícula como una red bayesana la cual se representa como una matrz de adyacencas B ] donde b = 1s el 54 = [B j atrbuto es padre del atrbuto j, (s exste un arco de a j) y b = 0 en otro caso. Por tanto el espaco 2 de búsqueda Ω tene cardnal 2 n, de hecho se puede trabajar con dcho espaco, pero habría que chequear que no exstan cclos. Esto se puede lograr, por ejemplo, elmnando de forma aleatora arcos que formen parte de cclos exstentes [8]. Se propone entonces una forma de generar el espaco de búsqueda garantzando que no exstan cclos, o sea, partendo de que un grafo drgdo representa un ordenamento topológco, s y sólo sí este no presenta cclos, es posble a partr de una permutacón formar un grafo acíclco drgdo [8]. El problema de optmzacón que se propone es bnaro, por lo que el algortmo PSO orgnal [19], [18] debe ser adaptado. X : Partícula (matrz del espaco Λ), { X 1, X 2,K} : Bandada (conjunto de partículas), { V 1, V2,K} : Velocdades (matrces del espaco Ω asocadas a cada partícula que ndcan su movmento), {, 2,K} XpBest 1 XpBest : Mejores puntos del espaco localzados por cada partícula, XgBest : Mejor punto localzado por la bandada. En el algortmo Incalzar valores asgna aleatoramente valores a la poblacón de XpBest de cada partícula como copa de j j X y V, X y XgBest con el mejor valor, CantGeneracones es la cantdad de generacones en que van a nteractuar las partículas y cantpart es la cantdad de partículas que van a exstr en cada generacón. La varable t se utlza como contador de generacones. La subrutna Generar red acíclca G π genera una red acíclca como se vo en [8] a partr de una permutacón aleatora π de (1, 2,, n) con dstrbucón unforme, dcha red se representa como una matrz de adyacenca. La actualzacón de las partículas se logra añadendo la velocdad a cada partícula obtenda en la teracón t, la velocdad se obtene utlzando las expresones que se muestran en la ecuacón 2.

V S = w V + c 1 ( V jk ) = ( ) 1 1 + e rand V jk ( XpBest X ) + c rand ( XgBest X ) En la expresón de V, el prmer térmno es la memora de la partícula, el segundo la parte cogntva o conocmento prvado, el tercero la parte socal que permte la colaboracón, w es el peso de nerca, c 1 y c 2 son los llamados factores de aprendzaje cogntvo y socal respectvamente y rand es un número aleatoro entre 0 y 1. Entre los valores recomendados en [8], se tomaron los valores c 1 = c 2 =2, pero en realdad se recomenda en el trabajo que c 1 y c 2 no tomen necesaramente el msmo valor sno, que se generen aleatoramente con dstrbucón en el ntervalo [0,2], w = 0.5 + rand /2. Otros funcones para la S : R 0,1 aparecen en [19], [12], [13]. transformacón, [ ] 2 (2) 3.2 Algortmo PSO Incalzar valores; t = 0 ; Repeat Generar red acíclca G π For each = 1, cantpart V t + 1 y lmtarla a [-Vmax, +Vmax] Calcular ( ) Calcular S ( V ) Actualzar X : For all j, k: If rand ( ) < ( ) end For For each = 1, cantpart Evaluar X //Aplcar la métrca Actualzar XpBest endfor Actualzar XgBest Incrementar t Untl t> CantGeneracones S V jk then X jk ( t + 1) = ( G π ) jk else ( t 1) X jk + = 0 Es necesaro estmar la caldad del modelo de red obtendo en la fase de entrenamento, o sea, es necesaro tener en cuenta la nformacón que brnda la funcón ftness u objetvo. Para lograr mejor funconamento del algortmo PSO en el trabajo se muestran los resultados usando las meddas de caldad global mplementadas en Weka [20], estas meddas evtan el sobre ajuste (overfttng) de los datos medante el método de valdacones cruzadas (crossvaldaton), las métrcas se basan en resultados de la RB como clasfcador, por lo que se extende Weka con este nuevo algortmo para buscar la estructura de una RB, los resultados de la clasfcacón son buenos, pero se apreca que s se realza una seleccón de atrbutos óptma con el propo método, según se apreca en [20], los resultados de la clasfcacón de la HTA son mejores y se obtenen redes menos complejas. La mplementacón se realzó hacendo una extensón al paquete Weka con el objetvo de mnmzar el tempo de mplementacón y rehusar códgo lbre. Para los detalles consultar [20]. Otras meddas de evaluacón de la RB, son por ejemplo: una basada en la senstvdad y la especfcdad, y la otra en la senstvdad y precsón, estas se muestran en la ecuacón 3 y 4, donde TP son los casos postvos que se predcen como postvos, TN son los casos negatvos clasfcados como negatvos, y FP y FN son los casos mal clasfcados en cada una de las clases. 55

La funcón de la ecuacón 4 se debe utlzar para el caso donde se tengan clases mnortaras, y además se recomenda usar la precsón de Laplace, ver ecuacón 5, donde k es la cantdad de clases [13], [9] y [11]. Estas meddas han sdo utlzadas por algunos autores como se apreca en [9] y [10]. senstvdad senstvdad TP TN especfcdad = TP + FN TN + FP (3) TP TP precson = TP + FN TN + FP (4) 1 + TP precson = (5) 1 + k + TN + FP 4. REDES BAYESIANAS EN LA CLASIFICACIÓN DE LA HTA En nuestro estudo la muestra estuvo consttuda por un total de 849 ndvduos supuestamente sanos entre 18 a 78 años de edad, de ambos sexos, pertenecentes a 5 polclíncos de la cudad de Santa Clara. Se confecconó una hstora clínca con nformacón del pacente contenda en las sguentes varables: edad, sexo, raza, índce de masa corporal, bebe, fuma, dabetes melltus, dslpdema, número de padres con HTA, número de abuelos con HTA, tensón arteral sstólca y dastólca basal, al prmer y segundo mnuto, presón arteral meda, glcema, trglcérdos, colesterol total, hdl y ldl y perfl psíquco. A partr del análss de las msmas, los pacentes fueron clasfcados en normotensos, hperreactvos e hpertensos. La red obtenda con el algortmo PSO de búsqueda local se muestra en la fgura 1, en la que se hace el dagnóstco del tpo de HTA basándose solamente en los rasgos: dsamn1 y 2, dagexp, sstmn2, edad glcema e mc. En la fgura 2 se muestra la estructura de RB obtenda usando un paso prevo de seleccón de atrbutos y el algortmo de aprendzaje PSO global. La clasfcacón se basa en 11 rasgos. Se obtenen buenos resultados para la clasfcacón de la HTA en normotensos (0.926), hperreactvos (0.925) e hpertensos (0.976) El porcento de ben clasfcados es de 94.96. Tabla 1. Resumen de las meddas de valdacón para los modelos de redes bayesanas obtendas utlzando dstntas mplementacones del algortmo PSO para clasfcar la HTA. PSO (Parámetros) Exacttud Verdaderos Postvos Búsqueda Local 2 padres, 40 partículas y 1000 teracones Búsqueda Global 2 padres, 40 partículas y 1000 teracones Búsqueda Global 2 padres, 40 partículas y 1000 teracones (hacendo seleccón de atrbutos) 89.21 93.72 94.96 Normotensos (0.864) hperreactvos (0.888) hpertensos (0.911) normotensos (0.895) hperreactvos (0.918) hpertensos (0.972) normotensos (0.926) hperreactvos (0.925) hpertensos (0.976) 56 Área bajo la curva ROC normotensos (0.976) hperreactvos (0.942) hpertensos (0.988) normotensos (0.993) hperreactvos (0.983) hpertensos (0.998) normotensos (0.996) hperreactvos (0.985) hpertensos (0.997)

Fgura 1. RB que muestra la posbldad de realzar el nuevo dagnóstco tenendo en cuenta sete rasgos de los ncalmente tomados en la muestra. Con esta RB se obtenen resultados muy favorables para las tres clases normotensos (0.927), hperreactvos (0.87) e hpertensos (0.97), la de los hpereactvos es la mas confusa y por ello el porcento de ben clasfcados mas bajo. En la tabla 2 se muestran los resultados de valdacón con otros enfoques alternatvos reportados en la lteratura para la tarea del aprendzaje de la estructura de una RB, los que no se dferencan sgnfcatvamente de los que obtene e algortmo que se propone, pero se apreca que cuando los parámetros del algortmo propuesto son: Búsqueda Global, 2 padres, 40 partículas y 1000 teracones (hacendo seleccón de atrbutos prevamente) los resultados son mejores relatvamente a los obtendos por el resto de los que se utlzaron para comparar. 5. CONCLUSIONES El aprendzaje estructural de RB con el algortmo de búsqueda l PSO, ha mostrado ser un algortmo efcente, cuando se usan métrcas de caldad global, cuando la red se evalúa con métrcas de caldad local, los resultados suelen peores que en el caso global hacendo uso de valdacones cruzadas. Al hacer extensones a Weka se logra valdar cada uno de los modelos obtendos medante el uso de meddas mplementadas en dcha plataforma y además es posble comparar los resultados con otros cláscos para la msma tarea reportados en la lteratura. Se obtenen buenos modelos de RB para la clasfcacón de la HTA, con una exacttud alrededor del 95% de buena clasfcacón. Se trabaja en una mplementacón paralelzada, para realzar aplcacones con mayor volúmen de datos, por ejemplo en aplcacones Bonformátcas. 57

Fgura 2. Los exacttud de la red por clases es: normotensos (0.926), hperreactvos (0.925) e hpertensos (0.976). En este caso se logra la clasfcacón con 11 rasgos ncludos en el modelo. Tabla 2. Resumen de las meddas de valdacón cuando se utlzan dstntos algortmos de aprendzaje estrutural de RB. Algortmos Exacttud Verdaderos Postvos K2 92.74 Normotensos (0.907) hperreactvos (0.869) hpertensos (0.968) HC 93.36 Normotensos (0.929) hperreactvos (0.869) hpertensos (0.968 TAN 93.81 Normotensos (0.935) hperreactvos (0.881) hpertensos (0.968) Área bajo la curva ROC normotensos (0.995) hperreactvos (0.975) hpertensos (0.995) Normotensos (0.997) hperreactvos (0.98) hpertensos (0.995) Normotensos (0.995) hperreactvos (0.982) hpertensos (0.996) REFERENCIAS Receved May 2008 Revsed November 2008 [1] ANDERSON, K.M., ODELL, P.M., WILSON, P.W.F. y KANNEl, W.B. (1991): Cardovascular dsease rsk profles. Amercan Heart Journal, 121. 293 298. [2] ARMARIO, P., HERNÁNDEZ DEL REY, R. y MARTIN, M. (2002): Estrés, enfermedad cardovascular e hpertensón arteral. Med. Cln(Barc). 119, 23-29. 58

[3] BENET, M., PENNINI, A., TORRES, J. y PERAZA, S. (2003): Cardovascular Rsk Factors among Indvduals under Age 40 wth Normal Blood Pressure. Rev. Esp Salud Públca, 77. 143-150. [4] BENET, M., YANES, N., GONZÁLEZ, J., PENNINI, A. y GARCÍA, J. (2001): Crteros dagnóstcos de la prueba del peso sostendo en la deteccón de pacentes con hpertensón arteral. Med. Cln (Barc), 116, 645-649. [5] BOUCKAERT, R.R. (1995): Bayesan Belef Networks: From Constructon to Inference, PhD Thess, Promotor: Prof. Dr. J. Van Leeuwen, Co-promotor: Dr. L.C. Van der Gaag, Facultet Wskunde en Informatca, Utrecht Unversty [6] CASTILLO, E., GUTIÉRREZ, J.M. y HADI, A.S. (1997): Expert Systems and Probablstc Network Models. Sprnger-Verlag, New York. [7] CHÁVEZ, M.C., CASAS, G., FALCÓN, R., MOREIRA, B. y R., G. (2007). Buldng Fne Bayesan Networks Aded by PSO-based Feature Selecton. MICAI 2007: Advances n Artfcal Intellgence, LNCS, Sprnger Berln / Hedelberg 4827: 441-451. [8] CHÁVEZ, M.C., SILVEIRA, P., CASAS, G., GRAU, R. y BELLO, R. (2007). Aprendzaje estructural de redes bayesanas utlzando PSO. Memoras en Boletín de la Socedad Cubana de Matemátca, Vol 5, Trabajo IA7, Número Especal en CD de COMPUMAT, ISSN: 1728-6042, Holguín, Cuba [9] CLARK, P. Y BOSWELL, R. (1991). Rule nducton wth CN2: Some recent mprovements. Machne Learnng, EWLS 91, 151-163. [10] CORREA, E.S., FREITAS, A.A. Y JOHNSON, C.G. (2007). Partcle Swarm and Bayesan Networks. Appled to Attrbute Selecton for Proten Functonal Classfcaton. Proceedngs of the GECCO: Conference companon on Genetc and evolutonary computaton, ACM Specal Interest Group on Genetc and Evolutonary Computaton, NY, USA, 2651-2658. [11] FALCO, D., CIOPPA, A.D. Y TARANTINO, E. (2007): Facng classfcaton problems wth Partcle Swarm Optmzaton. Appled Soft Computng. 7, 652 658. [12] FERAT, S., TILLET, J., RAGHUVEER, R. y RAO, T.M. (2004): An evolutonary algorthmc approach to learnng a Bayesan network from complete data. Data Mnng and Knowledge Dscovery: Theory, Tools, and Technology VI, Orlando, FL, USA, 5433, 88-99. [13] FERAT, S., YAVUZ, M.C., ARNAVUT, Z. y ULUYOL, O. (2007): Fault dagnoss for arplane engnes usng Bayesan networks and dstrbuted partcle swarm optmzaton. Parallel Computng, Elsever 33: 124 143. [14] KENNEDY, J. (1997): The partcle swarm: socal adaptaton of knowledge. IEEE Internatonal Conference on Evolutonary Computaton, Aprl 13 16, 303 308. [15] KENNEDY, J. y EBERHARt, R.C. (1995): A new optmzer usng partcle swarm theory. In: Sxth Internatonal Symposum on Mcro Machne and Human Scence. Nagoya: 39 43. [16] KENNEDY, J. y EBERHART, R.C. (1995): Partcle swarm optmzaton. In: Proceedngs of IEEE Internatonal Conference on Neural Networks, Perth, 1942 1948. [17] KENNEDY, J. Y SPEARS, W.M. (1998: Matchng algorthms to problems: an expermental test of the partcle swarm and some genetc algorthms on the multmodal problem generator. Proceedngs of the IEEE Internatonal Conference on Evolutonary Computaton, 39-43. [18] MAHAMED, G.H.O., ANDRIES, P.E. y AYED, S. (2005): Dynamc Clusterng usng PSO wth Applcaton n Unsupervsed Image Classfcaton. Transactons on Engneerng, computng and Technology, 9: V9-36. 59

[19] WANG, X., YANG, J., TENG, X., XIA, W. y JENSEN, R. (2006). Feature Selecton Based on Rough Sets and Partcle Swarm Optmzaton. Pattern Recognton Letter, 28, 459-471 [20] WITTEN, I.H. y FRANK, E. (2005). Data Mnng Practcal Machne Learnng Tools and Technques, Morgan Kaufman, San Francsco, USA. 60