Minería de Datos en Análisis Ontológico-Funcionales

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Minería de Datos en Análisis Ontológico-Funcionales"

Transcripción

1 Universidad Nacinal de Córdba Facultad de Ciencias Exactas, Físicas y Naturales Tesis Dctral Minería de Dats en Análisis Ontlógic-Funcinales Autr: Biing Cristóbal Fresn Rdríguez Directr: Dr Elmer Andrés Fernández Marz de 2014

2

3 Minería de Dats en Análisis Ontlógic-Funcinales pr Biing Cristóbal Fresn Rdríguez Dr Elmer Andrés Fernández Directr Cmisión Asesra Dr Elmer Andrés Fernández FCEFYN-UNC / FI-UCC Dra Cristina Nemí Gardenal FCEFYN-UNC Dra Andrea Sabina Llera Fundación Institu Lelir - CONICET Esta Tesis fue enviada a la Facultad de Ciencias Exactas Físicas y Naturales de la Universidad Nacinal de Córdba para cumplimentar ls requerimients de btención del grad académic de Dctr en Ciencias de la Ingeniería Córdba, Argentina Marz de 2014

4

5 Dedicad a Carlina, mi cmpañera incndicinal, y a mi familia

6

7 Agradecimients Este trabaj n habría sid psible sin el apy y el estímul del Dr Elmer Andrés Fernández quien di un salt al abism, cuand me prpus cm becari dctral, cn sól haber estad en cntact pcs mments durante el dictad de curs de pstgrad en la Facultad de Ingeniería de la Universidad Nacinal de Entre Rís También me gustaría agradecerle a la Dra Andrea Llera pr permitirme frmar parte de su pryect al igual que pr su apy, cnsejs y paciencia, cada vez que necesité una explicación bilógica cuand n cmpartims el diccinari A tds ls cmpañers del Grup de Minería de Dats en Bi-ciencias de la Facultad de Ingeniería de la Universidad Católica de Córdba, en especial a Dieg Arab, Germán Gnzález, Anibal Olivera y Gabriela Merin; al igual que a ls integrantes del Labratri de Bimetría de la Facultad de Agrnmía de la Universidad Nacinal de Córdba, en especial a Marian Córdba, Andrea Peña, Mónica Picardi, Mónica Balzarini y Juli Di Rienz; así también cm a ls miembrs del Labratri de Terapia Mlecular y Celular de la Fundación Institut Lelir, en especial a Lrena Benedetti, Rmina Girtti, Edgard Salvatierra y Osvald Pdhajcer; y a ls miembrs del Labratri de Investigación y Desarrll en Infrmática Aplicada de la Universidad Nacinal de Villa María, en especial a Laura Prat, pr haberme sprtad durante ests añs y cn ls cuales he cmpartid muy buens mments A las diferentes fuentes de financiamient entre ellas a la Universidad Católica de Córdba, la Agencia Nacinal de Prmción Científica y Tecnlógica, a través del Fnd para la Investigación Científica y Tecnlógica, y al Cnsej Nacinal de Investigacines Científicas y Técnicas N pued terminar sin agradecer a Carlina Kestler, pr su apy incndicinal y a mi familia (bilógica y plítica), a quienes dedic esta tesis vii

8

9 Resumen Palabras claves: Biingeniería/Biinfrmática - Inteligencia Artificial - Tecnlgías de alt rendimient - Recncimient de patrnes - Integración de infrmación El análisis ntlógic-funcinal determina las funcines prcess bilógics mdificads en un experiment genómic/prteómic de alt rendimient Si bien existen herramientas para su abrdaje, la explración del experiment implica cnsultar diversas bases de dats y utilizar prgramas que n siempre sn cmpatibles entre sí, sól se encuentran dispnibles vía web Esta situación cnlleva a una serie de prblemas cm l sn la carencia metdlógica del análisis, falta de validación de ls resultads, un análisis disgregad al utilizar herramientas cn distint frmat en la presentación de sus resultads y dificultad en la integración de ls resultads parciales de distints experiments en frma simultánea Ésts generan una serie de desafís metdlógics, cmputacinales y analítics desde el prcesamient, integración, visualización y validación de ls resultads En este cntext, la Minería de Dats brinda un sustent adecuad, prprcinand n sól un fluj de trabaj rdenad, sin también estrategias y cncepts de Inteligencia Artificial para su abrdaje Esta tesis prpne diferentes metdlgías que permiten un análisis más estructurad y cmplet de ls dats btenids en un más experiments, facilitand y enriqueciend así el análisis ntlógic-funcinal Se desarrlló un análisis de calidad de dats que permite detectar tendencias y evaluar su impact, al igual que herramientas prgramáticas (autmáticas) para integrar y validar cmputacinalmente ls prcess funcinales alterads pr el experiment La explración de ls resultads puede ahra realizarse de frma centralizada a través de una interfaz visual amigable, que facilita la interpretación, búsqueda y extracción de infrmación Las metdlgías prpuestas han sid aplicadas a diverss experiments, demstrand su utilidad en la identificación de patrnes de infrmación funcinal de interés ix

10

11 Abstract Keywrds: Biengineering/Biinfrmatics - Artificial Intelligence - High-thrughput Technlgies - Pattern Recgnitin - Infrmatin Integratin Functinal-ntlgy analysis determines the functins r bilgical prcesses mdified in a genmic/prtemic high thrughput experiment Several tls exist t address it but, experiment explratin invlves querying many databases and prgrams that are nt always cmpatible with each ther r nly are web available This situatin leads t numerus prblems such as lack f methdlgical analysis, results validatin, a disaggregated analysis due t tl dependent results frmat and difficulty in the partial r separate experiments results integratin These prblems generate a series f methdlgical, cmputatinal and analytical challenges frm prcessing, integratin, visualizatin and results validatin In this cntext, the Data Mining field prvides an adequate livelihd, nt just an rdered wrkflw, but als strategies and cncepts frm Artificial Intelligence This thesis prpses different methdlgies that allw a structured and cmplete data analysis frm ne r mre experiments, thus, facilitating and enriching the functinal-ntlgy analysis It has been develped a data quality cntrl methdlgy t detect trends and assess their impact, as well as, prgrammatic (autmatic) pipelines t integrate and cmputatinal validate functinal prcesses mdified by the experiment Results explratin can nw be centrally perfrmed thrugh a friendly visual interface, which facilitates the interpretatin, pattern search and infrmatin extractin The prpsed methdlgies have been applied t several experiments, evidencing its usefulness n functinal pattern detectin xi

12

13 Resum Palavras-chave: Biengenharia/Biinfrmática - Inteligência Artificial - Tecnlgias de alt desempenh - Recnheciment de padrões - Integraçã das infrmações A análise ntlógic-funcinal determina as funções u prcesss bilógics mdificads em uma pesquisa genmica / prteômica de alt desempenh A mesm temp em que nã há ferramentas para sua abrdagem, a explraçã da pesquisa envlve cnsultar váris bancs de dads e utilizar prgramas que nem sempre sã cmpatíveis uns cm s utrs, u só estã dispníveis através da web Esta situaçã leva a uma série de prblemas cm a falta de caminh metdlógic da análise, a falta de validaçã ds resultads, a análise disgregada quand usar ferramentas cm frmat diferente na apresentaçã ds seus resultads e a dificuldade n prcess de integraçã ds resultads parciais u várias pesquisas a mesm temp Estes geram uma série de desafis metdlógics, recurss cmputacinais e analítics da transfrmaçã, a integraçã, a visualizaçã e a validaçã ds resultads Neste cntext, a Minería de Dads frnece um adequad sustent, nã só pr prprcinar um bm flux de trabalh, mas também as estratégias e cnceits de Inteligência Artificial para a sua abrdagem Esta tese prpõe diferentes metdlgias que permitam uma análise mais estruturada e cmpleta ds dads btids em uma u mais pesquisas, facilitand e enriquecend a análise ntlógica-funcinal Desenvu-se uma análise da qualidade ds dads que lhe permite detectar tendências e avaliar seu impact, bem cm ferramentas prgramáticas (autmáticas) para integrar e avalidar prcesss funcinais cmputacinalmente alterads pela pesquisa A explraçã ds resultads já pde ser realizada de frma centralizada através de uma interface visual amigável, que facilita a interpretaçã, a busca e extraçã de infrmações As metdlgias prpstas têm sid aplicadas a diferentes pesquisas, prvand a sua utilidade na identificaçã de padrões de infrmações funcinais de interesse xiii

14

15 Abreviaturas 2D-DIGE : 2D - Difference In Gel Electrphresis ANOVA-PCA APCA : ANOVA-Principal Cmpnent Analysis ANOVA-SCA ASCA : ANOVA-Simlutaneus Cmpnent Analysis ANOVA : ANalysis Of VAriance AP MO : Aceite de Pescad Menhaden Oil API : Applicatin Prgramming Interface AV VO : Aceite Vegetal Vegetal Oil CC : Cmpnentes Celulares Cellular Cmpnente CD : Clina Deficiencia CORBA : Cmmn Object Request Brker Architecture CS : Clina Suplementada DABG : Detectin Abve Backgrund DAVID : Database fr Anntatin, Visualizatin and Integrated Discvery DIBD : Descubrimient de Infrmación en Bases de Dats DM : Data Mining DWS : DAVID Web Service xv

16 xvi EASE : Expressin Analysis Systematic Explrer EC : Enzyme Cmmissin number FDR : False Discvery Rate FM MF : Función Mlecular Mlecular Functin FSH : Flicule Stimulant Hrmne FSHrh : Flicule Stimulant Hrmne-recmbinante humana FSHrh-AC : FSHrh-ÁCida FSHrh-BA : FSHrh-BÁsica FSHrh-DR : FSHrh-Débilmente Retenids FSHrh-FR : FSHrh-Fuertemente Retenids FSHrh-NR : FSHrh-N Retenids GDA : Gráf Dirigid Acíclic GEO : Gene Expressin Omnibus GI : Prtein_GI_Accessin number GO : Gene Ontlgy GSEA : es el acrónim de Gene Set Enrichment Analysis ID : Identificadr IRA : Insuficiencia Renal Aguda KDD : Knwledge Discvery in Data bases KEGG : Kyt Encyclpedia f Genes and Genmes LMDME : Linear Mdel Decmpsitin fr designed Multivariate Experiments

17 xvii LR-I : LR del genma de la especie baj estudi LR-II : LR de genes presentes en el chip para experiments de micrarregls LR-III : LR especificada a criteri del usuari LR : Lista de Referencia MAD : Meadian Abslute Deviatin MD : Minería de Dats MEA : es el acrónim de Mdular Enrichment Analysis MRCM : Multi-Reference Cntrast Methd NA : Nt Available NCBI : Natinal Center fr Bitechnlgy Infrmatin NGS : Next Generatin Sequencing PB BP : Prcess Bilógics Bilgical Prcess PCA : Principal Cmpnent Analysis PLSR : Partial Least Squares Regressin R-T PCR : Real-Time Plymerase Chain Reactin RMA : Rbust Multi-array Average RMI : Remte Methd Invcatin SEA : Singular/Set Enrichment Analysis SOAP : Simple Object Access Prtcl SVG : Scalable Vectr Graphics TCP : Transmissin Cntrl Prtcl

18 xviii URL : Unifrm Resurce Lcatr XML : extensible Markup Language

19 Prefaci El análisis ntlógic-funcinal es actualmente un de ls pass cruciales en el prcesamient de experiments prteómics/genómics de alt rendimient (del inglés high thrughput) Usualmente se lleva a cab para relacinar una lista de genes cn cncepts/categrías/términs de relevancia bilógica, a ls efects de determinar las funcines y/ vías metabólicas mdificadas (enriquecidas) pr el experiment Esta tarea se lleva a cab cnsultand grandes bases de dats que pseen vcabulari cntrlad (cncidas cmntlgías), dnde se almacena la infrmación funcinal a nivel de genes En las ntlgías se puede encntrar el nmbre de ls genes, en qué prcess bilógics participan, dnde actúan, cuales sn las publicacines asciadas, etc Una vez identificadas la infrmación ntlógica-funcinal, se aplican metdlgías estadísticas para evaluar si la relación que se bserva en el experiment es un event azars n, cuand se l cmpara cn un cmprtamient de referencia basal (Rivals et al, 2007) Existen diferentes herramientas para realizar el análisis ntlógic-funcinal (Huang et al, 2009a) En este cntext, es habitual que el investigadr cnsulte varias de ellas para expltar al máxim las frtalezas de unas, frente a las debilidades de tras, cn el fin de sacar el mayr prvech a ls resultads experimentales Pr esta razón, se requiere de un elevad dmini pr parte del usuari, dad que muchas veces tendrá que exprtar la infrmación de una a tra, cn el cnsecuente refrmate de ls dats que ell implica Tal situación prduce en cierts cass, frustración a ls usuaris y dificultan su utilización cnjunta en un sl pas A su vez, algunas técnicas sn dependientes de la tecnlgía utilizada y deben ser adaptadas para pder ser utilizadas Pr ejempl cuand se quiere aplicar sbre dats de prteínas, es necesaribtener su identificadr equivalente a nivel de gen, inclus cnstruir cn xix

20 xx una tecnlgía diferente una referencia aprpiada para el cntext experimental Pr tr lad, la mayría de las metdlgías sl permiten analizar diseñs experimentales simples (tip cas-cntrl), n pudiend analizar diseñs de mayr cmplejidad, cm tampc incluir infrmación tempral, clínica, etc Inclus para el cas simple, el usuari es el únic respnsable de integrar las extensas tablas de salidas btenidas de la aplicación de diferentes herramientas De manera que la prpia cmplejidad de integración de resultads, al igual que la falta de técnicas de resumen visual de infrmación que se pueda realizar sbre ellas, limita la capacidad de análisis Adicinalmente, n existe un patrón de r (del inglés gld standard) para validar ls resultads en este tip de metdlgías, recurriend de frma habitual a una validación mediante literatura científica De manera que ls prblemas nmbrads anterirmente, impactan negativamente en la extracción de patrnes que pueda realizarse sbre la infrmación que pudiese estar dispnible, dnde la aplicación de técnicas de minería de dats sería de gran prvech en este camp Esta tesis prprcina metdlgías que facilitan el análisis ntlógic-funcinal de experiments genómics/prteómics, desde la perspectiva de la minería de dats En particular, se prpne un análisis más estructurad y cmplet de ls dats prprcinads pr distintas fuentes de infrmación Se abrdan ls prblemas que se suscitan al utilizar herramientas desarrlladas para el análisis genómic en el estudi de la prteómica, en l que respecta a la utilización de una lista de referencia También se prpne una estrategia para la validación de ls resultads mediante simulación numérica Adicinalmente, se facilita y autmatiza la indagación de distintas fuentes de infrmación, presentándla de una manera amigable Est permite la extracción de patrnes, sbre nuevas relacines inferidas del cntraste visual de ls resultads btenids, en experiments que presenten ds más cndicines La rganización del dcument de tesis es cm sigue: Capítul 1: brinda una visión glbal del análisis ntlógic-funcinal, las diferentes metdlgías y herramientas existentes Adicinalmente se intrduce al lectr en ls diferentes prblemas asciads a este tip de análisis Capítul 2: intrduce al lectr al cncept de minería de dats en el cntext del análisis ntlógic-funcinal Se describen las diferentes etapas invlucradas en el análisis (entendimient del prblema y dats, mdelad, evaluación y

21 xxi reprte) Capítul 3: presenta ls aprtes realizads en este trabaj de tesis, en el cntext del análisis ntlógic-funcinal En este sentid, se prfundiza sbre las diferentes cntribucines realizadas en cuant a la cnsistencia e integridad de identificadres, explración multivariada y su aplicación para el cntrl de calidad de ls dats, al igual que integración, visualización, explración y validación de ls resultads btenids Se presentan tres bases de dats dnde se aplicó la metdlgía prpuesta Capítul 4: muestra la aplicación de las diferentes estrategias desarrlladas en la presente tesis, sbre ds experiments genómics En el primer se cntrasta el impact funcinal de las diferentes cnfiguracines de la hrmna flícul estimulante (FSH) en humans, es decir, la integración y explración de las diferentes cnfiguracines a nivel funcinal En el segund ejempl, se prfundiza sbre la explración multivariada y cntrl de calidad de dats, en el estudi en ds órgans, baj el efect prtectr de aceite de pescad en insuficiencia renal aguda inducida pr la dieta Capítul 5: presenta las cnclusines y trabajs futurs prduct de la presente tesis Se destacan ls diferentes aprtes realizads al estad del arte, así también cm las psibles líneas que se pueden cntinuar a partir de l realizad a l larg del dctrad

22

23 Índice general Agradecimients Resumen Abstract Resum Abreviaturas Prefaci vi viii x xii xiv xix 1 Análisis Ontlógic Funcinal 1 11 Ontlgías Gene Ontlgy Kyt Encyclpedia f Genes and Genmes 5 12 El análisis de enriquecimient funcinal Metdlgías de análisis de enriquecimient funcinal Selección de lista de referencia Herramientas para análisis de SEA y MEA Frmas de acceder a las herramientas Versines y reprducibilidad de resultads Carga de dats Análisis de enriquecimient funcinal Visualización de resultads 20 xxiii

24 xxiv Índice general 2 Minería de dats Generalidades Objetivs Etapas Entendimient del prblema Entendimient de dats Creación de un cnjunt de dats Cnsistencia e integridad de infrmación Filtrad de dats Reducción, pryección integración de dats Mdelad Evaluación Reprte Cmentaris finales 63 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD Fluj de trabaj Cnsistencia e integridad de antación Módul de prteómica Módul de micrarregls Módul de cnversión/actualización Cmentaris finales Explración multivariada y cntrl de calidad El mdel Evaluación Cmentaris finales Cnectividad al prtal DAVID Implementación Evaluación Cmentaris finales Integración y cntraste de múltiples referencias Análisis de múltiples LRs Análisis de estabilidad 128

25 Índice general xxv 353 Bases de dats de ejempl Evaluación Cmentaris finales Visualización y explración de ls resultads Evaluación del cntraste ntlógic Cmentaris finales Aplicacines Impact funcinal de variantes de FSH Entendimient de dats Mdelad Evaluación Cmentaris finales Efect prtectr del aceite de pescad en la insuficiencia renal aguda Entendimient de dats Mdelad Evaluación Cmentaris finales Cnclusines y trabaj futur 189 A Anex Digital 197 A1 Cnsistencia e integridad de antación 197 A11 uniprtr 197 A12 eutilesr 198 A2 Dats de ejempl para cntrl de calidad en micrarregls 199 A3 Reprtes del efect prtectr del aceite de pescad en IRA 199 Bibligrafía 201

26

27 Capítul 1 Análisis Ontlógic Funcinal La era de las ciencias ómicas, cm la genómica (estudi de ls genes) y la prteómica (estudi de las prteínas), ha dad lugar a grandes revlucines y avances en la bilgía Parte de ell se debe a la incrpración de tecnlgías de alt rendimient (del inglés high thrughput) Estas tecnlgías han permitid pasar del análisis clásic de una única variable (gen prteína), hacia una evaluación masiva de tds ls genes (genma) prteínas (prtema) en frma simultanea, sbre una variedad de diseñs experimentales Estas tecnlgías n sól prducen una gran cantidad de dats, de frma y estructura cmpleja, sin que también generan grandes bases de dats cn la intención de almacenar el cncimient adquirid cm pr ejempl en PubMed (wwwncbi nlmnihgv/pubmed) La gran cantidad y variedad de dats cn las que estas bases cuentan, bligan a implementar flujs de análisis/prcesamient que presentan diversas cmplejidades, l que mtiva a utilizar distintas herramientas biinfrmáticas, dependiend de la tecnlgía utilizada, para aprvechar al máxim la/s particularidad/es de cada una de ellas (Gentleman et al, 2005) Pr ejempl, en cáncer, nrmalmente se utilizan micrarregls de ADN para evaluar la expresión de genes y geles en diferencias de electrfresis bidimensinal en prteínas, para el descubrimient de marcadres mleculares en diagnóstic y terapia (Phan et al, 2009) En estas aplicacines se identifican genes prteínas candidatas, que se expresan diferencialmente en distintas cndicines experimentales, las cuales pueden ir desde el cas más simple en un ensay tip cas-cntrl, hasta diseñs experimentales de ma- 1

28 2 Capítul 1 Análisis Ontlógic Funcinal yr cmplejidad También el investigadr puede utilizar diferentes algritms, para buscar genes que se expresen de manera similar (cexpresan) en diferentes cndicines experimentales, inclus utilizar un criteri ad hc para seleccinar ls genes prteínas candidatas En este cntext, n sl es psible estudiar genes prteínas candidatas de frma individual, sin que es psible evaluar cóm respnde td el sistema bilógic cuand participan tds ls candidats en su cnjunt, sbre una variedad de prcess y/ funcines bilógicas cncidas Esta tarea se lleva a cab cnsultand grandes bases de dats que pseen vcabulari cntrlad (cncidas cmntlgías), dnde se almacena la infrmación funcinal a nivel de genes En las ntlgías se puede encntrar el nmbre de ls genes, en qué prcess bilógics participan, dnde actúan, cuales sn las publicacines asciadas, etc Una vez identificada la infrmación ntlógica-funcinal, se aplican metdlgías estadísticas para evaluar si la relación que se bserva en el experiment es un event azars n, cuand se l cmpara cn un cmprtamient de referencia basal (Rivals et al, 2007) De esta manera, es psible determinar qué funcines y/ vías metabólicas se ven enriquecidas (mdificadas) pr el experiment, l que se cnce cm enriquecimient funcinal análisis ntlógic-funcinal A tales efects, el presente capítul intrduce a las diferentes ntlgías utilizadas en bilgía (sección 11), metdlgías existentes para el análisis (sección 12) y herramientas de mayr renmbre (sección 13), dnde se presenta la prblemática que se pretende abrdar en esta tesis 11 Ontlgías El términntlgía (del griegντς del ente, genitiv del participi del verb εiµí ser, estar y λóγς ciencia, estudi, tería ), se define cm la rama de la filsfía que se cupa de la naturaleza y rganización de la realidad, es decir de l que existe En el camp de la Inteligencia Artificial, una ntlgía define el vcabulari de un área, mediante un cnjunt de términs básics y relacines entre dichs términs, así cm reglas que cmbinan términs y relacines que amplían las definicines dadas en el vcabulari (Guarin, 1995) En Bilgía las ntlgías sn grandes bases de dats de antación, que pseen v-

29 11 Ontlgías 3 cabulari cntrlad para almacenar de frma estructurada, la infrmación existente cncida Pr ejempl las ntlgías que se utilizan para el análisis ntlógicfuncinal cntienen infrmación sbre las funcines, prcess lcacines dnde actúan, etc de cada gen Desafrtunadamente n se incluye en ellas infrmación que permita diferenciar de frma aprpiada las funcinalidades de isfrmas de la misma prteína cnsiderar splicing alternativ del mism gen, l que deriva en una antación incmpleta Pese a est, las ntlgías sn la principal fuente de cncimient bilógic Las mismas se utilizan cn éxit para encntrar rápidamente infrmación relevante de l que a la fecha se cnce, para el experiment baj estudi Más aún, el prpi us favrece la incrpración de nuev cncimient, al igual que a su perfeccinamient (curación) Existe un gran númer de ntlgías, dependiend básicamente del rganism baj estudi y/ de la prblemática que mtiva la investigación Sin embarg, en esta tesis se utilizarn ds de las ntlgías de mayr difusión en la cmunidad científica, que permiten realizar un análisis de genómica/prteómica funcinal: GO (Gene Ontlgy, Ashburner et al (2000)) y KEGG (Kyt Encyclpedia f Genes and Genmes, Kanehisa y Gt (2000)) 111 Gene Ontlgy El cnsrci de Gene Ontlgy (GO, wwwgenentlgyrg) fue cread hacia fines de ls nventa y su misión inicial fue recpilar la infrmación bilógica dispersa de rganisms eucaritas, en l que respecta a las funcines asciadas a sus genes (Ashburner et al, 2000) Cn el tiemp, pasó de ser una mera herramienta para unificar el vcabulari bilógic, a transfrmarse en la ntlgía de mayr ppularidad Est n hubiera sid psible sin que el cnsrci pr un lad, permitiera la incrpración de nuevs rganisms y pr tr, liberara el cncimient a la cmunidad científica Cabe destacar que de esta manera, la prpia cmunidad participa activamente en la curación (revisión y actualización) de la infrmación dispnible En esta ntlgía, la infrmación se encuentra estructurada en tres categrías principales: Prcess bilógics (PB) se refieren a un bjetiv bilógic al cual un gen algun de ls prducts genétics asciads a él cntribuye Un prces se lleva

30 4 Capítul 1 Análisis Ontlógic Funcinal a cab a través de un más cnjunts rdenads de funcines mleculares Ls prcess, usualmente invlucran una transfrmación química física, en el sentid de que alg ingresa a un prces y alg diferente se btiene a su salida Esta categría cmprende PB generales cm pr ejempl crecimient celular y mantenimient transducción de señales, hasta más específics cm metablism de pirimidinas bisíntesis de camp Funcines mleculares (FM) se definen cm la actividad biquímica de un prduct genétic, incluyend la unión a ligands específics estructuras En este sentid se describe sól l que hace, sin precisar dónde ni cuánd se prduce el event en realidad Ejempls de FM cmprenden desde enzimas, transprte ligand hasta más específics cm adenilat ciclasa inclusive transprte transferencia de electrnes dentr del cicl de transprte de electrnes en la vía de la ftsíntesis Cmpnentes celulares (CC) se refieren al lugar en la célula dnde un prduct genétic es activ Ests términs reflejan la cmprensión de la estructura celular En CC se incluyen términs cm ribsma, membrana nuclear aparat de Glgi Pr l tant en GO, se tiene la infrmación de ls genes que participan en un determinad cncept/términ bilógic perteneciente a PB y/ FM, y en qué CC actuan A su vez, un mism gen puede participar en más de un términ dentr de la misma categría principal (PB, FM CC), e inclus en más de una de ellas En esta ntlgía la infrmación se almacena utilizand estructuras jerárquicas en frma de grafs dirigids acíclics (GDA), para cada una de las categrías principales En cada un de ls GDA, ls cncepts/términs bilógics se representan cm nds en la estructura Cada nd tiene asciad ls genes que se relacinan cn el cncept que éste representa, cm se aprecia en la figura 11 Adicinalmente, cada GDA se encuentra rganizad de manera jerárquica mediante relacines entre nds del tip es un es parte de En este sentid el nd de más arriba del graf (nd raíz), representa el cncept/términ más genéric psible (PB, FM CC) A medida que se desciende pr la jerarquía (se recrre el graf), ls nds pseen un grad de especificidad mayr en el prces en sí mism y pr ende, la cantidad

31 11 Ontlgías 5 Figura 11: Esquema simplificad de la ntlgía de Cmpnentes Celulares (CC) para tres rganisms (en clres diferentes) Pr simplicidad n se han incluid tds ls genes Imagen extraída de Ashburner et al (2000) de genes asciads a él es menr Pr ende, un gen que se encuentre antad en un nd dad, también se encntrará presente en tds ls nds de sus ancestrs de la misma rama del graf Adicinalmente, dich gen puede estar asciad a nds de diferentes ramas del mism graf, e inclus en diferentes grafs (PB, FM CC) 112 Kyt Encyclpedia f Genes and Genmes El pryect de la enciclpedia de genes y genmas de Kyt, cncida pr sus siglas del inglés KEGG (Kyt Encyclpedia f Genes and Genmes), cmenzó en may de 1995 baj el prgrama del genma human, fmentad pr el ministeri de educación, ciencia, deprtes y cultura de Japón (Kanehisa y Gt, 2000) Este pryect se impulsó cn la finalidad de frmar una base de cncimients para el análisis sistemátic de las funcines de ls genes y vincular la infrmación genómica cn funcines de mayr rden, en l que se cnce cm vías metabólicas

32 6 Capítul 1 Análisis Ontlógic Funcinal En esta ntlgía, la infrmación se encuentra almacenada en tres grandes bases de dats La primera de ellas almacena la infrmación de ls genes para tds ls genmas cmpletamente secuenciads y alguns parcialmente secuenciads En esta base se puede encntrar para cada gen: el nmbre, la secuencia de nucleótids aminácids, psición en el genma, rganisms en ls cuales se puede encntrar, al igual que ls identificadres del mism gen en tras bases de dats Además se puede indagar sbre aquells genes muy similares a él en diferentes rganisms, que prvienen de un ancestr cmún (rtólgs), y genes que sufriern una duplicación en el mismrganism evlucinand de manera independiente (parálgs) Cabe destacar que existen muchs genes para ls cuales n se cnce infrmación de su función bilógica ni lcalización En ests cass, sl se dispne de infrmación parcial en la base de dats La segunda base de dats, estructura y vincula las funcines de diferentes genes que participan en determinad prces vía metabólica Estas vías se representan mediante gráfics cm pr ejempl para el cicl de Krebs cicl del ácid cítric (figura 12), transprte de membrana, transducción de señales cicl celular En ests gráfics se identifican tres tips de elements: cajas rectangulares cdificads pr cuatr númers (EC, del inglés Enzyme Cmmissin number) para representar prducts de genes, flechas para el fluj de las reaccines y cajas cn brdes redndeads para vincular a tras vías que participan en el prces A su vez, esta base de dats se cmplementa cn un cnjunt de tablas de grups rtólgs, dnde se encuentra la infrmación de subvías cnservadas, las cuales sn de especial utilidad para la predicción de funcines de genes Las ds bases anterires se cmplementan cn una tercera base de dats de ligands En ella se encuentra la infrmación acerca de ls cmpuests químics, mléculas y reaccines enzimáticas asciadas a ls genes y vías metabólicas invlucradas Adicinalmente KEGG prprcina de herramientas para explrar la infrmación de genes y visualizar vías metabólicas, mapas de genmas, entre tras Desafrtunadamente, a partir de juli de 2011, el cnsrci decidió dejar la plítica de acces públic, para cbrar diferentes tarifas pr el acces a la infrmación dispnible Nbstante, algunas herramientas permiten acceder a versines previas de frma gratuita

33 12 El análisis de enriquecimient funcinal 7 12 El análisis de enriquecimient funcinal El análisis de enriquecimientntlógic-funcinal permite evaluar el impact a nivel sistémic, de un grup de genes candidats activs que en su cnjunt alteran, mdifican enriquecen pr ejempl un prces bilógic, función mlecular, vías metabólicas, etc debid al experiment/tratamient Para ell se recurre a diferentes bases de dats cm GO KEGG, para btener la infrmación ntlógicafuncinal relacinada a dichs genes candidats Una vez seleccinada la fuente de infrmación ntlógica, el investigadr debe ptar entre algunas de las metdlgías Figura 12: Ejempl de una vía de KEGG en este cas es el cicl del ácid cítric para humans Las cajas rectangulares representan prducts de genes y en cajas cn brdes redndeads tras vías que participan en el prces Imagen extraída de wwwgenmejp/kegg-bin/shw_pathway?hsa00020

34 8 Capítul 1 Análisis Ontlógic Funcinal dispnibles para realizar el análisis funcinal 121 Metdlgías de análisis de enriquecimient funcinal Existen tres grups bien definids para realizar el análisis (Huang et al, 2009a): SEA es el acrónim de Singular/Set Enrichment Analysis Tradicinalmente utilizad debid a su trayectria al igual que dispnibilidad en herramientas/prtales digitales (Khatri y Draghici (2005) y Huang et al (2009a)) Esta metdlgía necesita definir una segunda lista adicinal (de referencia), que servirá para especificar l que es esperable del cmprtamient basal del mdel bilógic Una vez definida, se realiza para cada cncept/términ de interés, en frma independiente, un test de hipótesis para cmparar las prprcines bservadas sbre ls candidats respect a la referencia Así, un términ resultará enriquecid si en dicha cmparación existe evidencia de que las prprcines sn diferentes, a un nivel de significancia definid pr el usuari GSEA es el acrónim de Gene Set Enrichment Analysis Esta metdlgía cnstruye un rdenamient inducid en la ttalidad del perfil de expresión de las muestras pertenecientes a ds clases: cntrl y tratamient El bjetiv de la misma es determinar si tds ls miembrs de un cncept/términ de interés, están distribuids al azar n (en algún extrem) a l larg del mism (Subramanian et al, 2005) Para ell, ls genes se dispnen en base a un criteri de rdenamient cm la crrelación entre su expresión y la distinción de clases, alguna tra métrica plausible para generar un ranking Lueg se recrre el rdenamient para calcular el máxim del enriquecimient inducid A cada gen se aplica una función de cst que aumenta (disminuye) prprcinal a la crrelación de su nivel de expresión cn el fentip de las clases, cada vez que encuentre un gen que pertenezca ( n) a la lista de miembrs de la categría de interés Lueg, este enriquecimient se cmpara cntra la distribución nula generada a partir de permutacines en las etiquetas de las clases, a ls efects de evaluar si el rdenamientbservad es esperable n pr azar En cas de que difiera del azar, existen distints criteris para definir cuáles sn ls genes del experiment de interés en el términ Usualmente se utilizan ls más

35 12 El análisis de enriquecimient funcinal 9 próxims al máxim ls del segment más pequeñ entre el máxim del cst y el cmienz fin de la lista MEA es el acrónim de Mdular Enrichment Analysis Este métd tma cm punt de partida cualquiera de ls anterires (usualmente SEA), a ls efects de incluir la redundancia de la red bilógica en el análisis, dada las relacines existentes entre ls términs explrads Una psibilidad es aplicar un agrupamient a ls resultads de SEA Para ell, cada términ se puede cdificar cm un vectr binari representand la pertenencia ( n), de cada gen de la lista de interés antad a él Lueg se realiza un agrupamient de ls términs utilizand algún estadístic cm pr ejempl Kappa (Chen et al, 1960) Psterirmente, el enriquecimient asciad a cada grup, se define mediante alguna peración realizada sbre ls valres p de cada términ perteneciente al agrupamient Pr ejempl, Huang et al (2007) utiliza la media gemétrica medida en escala lgarítmica a tales efects Ls ds primers métds se usan para saber si un términ se encuentra enriquecid ( n) en la cndición analítica estudiada Nbstante, la frmulación del prblema es diferente para cada cas Para realizar el análisis vía SEA es necesari prprcinar ds listas, una de ellas de referencia y la tra de ls genes candidats Esta última suele estar cnfrmada pr aquells genes que hayan sid identificads cm expresads diferencialmente, entre distintas cndicines experimentales (eg cas-cntrl) para un umbral definid En GSEA se utiliza una única lista que cntiene la ttalidad de genes dispnibles pr ejempl en un chip, si fuera el cas de utilizar micrarregls de ADN, para lueg utilizar el criteri de rdenamient prpuest para medir el enriquecimient En este sentid GSEA respect a SEA, n utiliza un umbral para definir la lista de candidats En general, ls resultads cn SEA y GSEA sn similares, pese a que n existe un estándar para su cmparación (Hung et al, 2012) Sin embarg, la gran debilidad que presentan ambs métds se debe a la aplicación en frma independiente, a cada cncept/términ bilógic, perdiéndse así la relación entre ells En esta tesis se utilizó SEA cm mtr de cálcul del enriquecimient funcinal, y MEA para integrar/explrar ls resultads En este sentid, SEA se centra en cmparar una lista de genes candidats cntra ls genes de una lista de referencia

36 10 Capítul 1 Análisis Ontlógic Funcinal para encntrar términs enriquecids, cnciend a priri quiénes sn ls integrantes de ls distints términs a evaluar Frmalmente el iésim términ (Términ i ) respnde a una distribución Hipergemétrica, a la cual se le realiza una prueba de hipótesis de hmgeneidad independencia (Walple et al, 1999) Según la herramienta biinfrmática elegida, esta prueba de hipótesis puede realizarse de diferentes maneras (Rivals et al, 2007) Hay herramientas que utilizan la prpia distribución Hipergemétrica (BINGO, Maere et al (2005); CLENCH, Shah y Fedrff (2004); GeneMerge, Castill-Davis y Hartl (2003)), una aprximación cn una distribución Binmial (CLENCH, Shah y Fedrff (2004); GFINDER, Masserli et al (2004); GOTlBx, Martin et al (2004)) aquells basads en tablas de frecuencias bservadas de tamañ 2x2 cn ttales marginales fijs, para ds categrías mutuamente excluyentes: en filas Candidats n (Candidats c ) y en clumnas Términ i de interés n (Términ c i): Tabla 11: tabla de cntingencia 2x2 para el i-ésim términ de interés Términ i Términ c i Ttal Candidats n i N Candidats n i N Candidats Candidats c n T érmin n i (N N Candidats ) (n T érmin n i ) N N Candidats Ttal n T érmin N n T érmin N El ttal de genes de la lista de referencia (N), se encuentra dividid en filas en cas de pertenecer n a la lista de candidats (Candidats Candidats c ); mientras que las clumnas determinan la pertenencia ( n) de ls genes al términ de interés (Términ i Términ c i) En la tabla 11 se muestra cóm ls N Candidats genes pertenecientes a la lista de Candidats, se encuentran dividids en n i genes pertenecientes al Términ i de interés y aquells que n pertenecen al términ de interés (Términ c i), es decir, N Candidats n i genes A su vez, la lista de referencia determina la cantidad ttal de genes de la tabla (N) y la cantidad de genes que pertenecen al términ de interés (n T érmin ) Cnsecuentemente, Candidats c es el cnjunt cmplementari de genes, que n pertenece al cnjunt de Candidats, es decir, el remanente de genes de la lista de referencia Este cnjunt cntiene N N Candidats genes, distribuids en n T érmin n i genes sbre el términ de interés que n pertenecen a la lista de candidats, y aquells que n se encuentran en el términ de interés (N N Candidats ) (n T érmin

37 12 El análisis de enriquecimient funcinal 11 n i ), dejand cmpletamente determinada la tabla Usualmente estas tablas de frecuencias se analizan mediante una prueba exacta de Fisher (GOstat, Falcn y Gentleman (2007); GMiner, Zeeberg et al (2003); DAVID, Dennis Jr et al (2003); EASEnline, Hsack et al (2003)) una aprximación para grandes muestras cn una prueba χ 2 de un grad de libertad (GSurfer, Zhng et al (2004); Ont-Express, Khatri et al (2002); CLENCH, Shah y Fedrff (2004)) para cada un de ls i términs evaluads (cients a miles) Nbstante, en esta metdlgía el investigadr se ve bligad a definir una lista de referencia para cmpletar la tabla 11, es decir definir N y n T érmin Dicha lista impacta sbre ls resultads btenids, pr l que su definición/elección n es trivial 122 Selección de lista de referencia La mayría de las herramientas que realizan SEA tales cm DAVID (Base de dats para Antación, Visualización y Descubrimient Integrad, Dennis Jr et al (2003) y Huang et al (2007)), permiten al usuari elegir una lista de referencia (LR) de una lista de psibilidades: LR-I El genma de la especie en estudi LR-II La lista de genes presentes en el chip para experiments de micrarregls LR-III Una lista especificada a criteri del usuari Pr l general, el genma (LR-I) es la pción pr defect en la mayría de las herramientas Sin embarg, desde un punt de vista analític, el us de diferentes LRs pdría prducir resultads diferentes Más aún, una inaprpiada definición/elección de la LR pdría cntradecir ls supuests estadístics, ptencialmente sesgand la interpretación de ls resultads (Khatri y Draghici, 2005) Para vislumbrar est, cnsiderems pr ejempl un experiment prteómic para estudiar las prteínas que se encuentran en el espaci extracelular (secretma), baj un estudi tip cas-cntrl En este cntext, n se está accediend a td el prtema, sin a un subcnjunt de éste que se encuentra fuera de la célula Una vez definid un términ de interés cm apptsis (muerte celular prgramada) e identificadas las prteínas candidatas

38 12 Capítul 1 Análisis Ontlógic Funcinal (N Candidatas = 80), el númer de ellas pertenecientes al términ (n Candidatas = 10) será cncid, dejand determinada pr cmplet la primer fila de la tabla 12 Tabla 12: tabla de cntingencia 2x2 para el ejempl prteómic sbre apptsis Apptsis Apptsis c Ttal Candidats n i = 10 N Candidats n i = 70 N Candidats = 80 Candidats c n T erm n i (N N Candidats ) (n T erm n i ) N N Candidats Ttal n T erm N n T erm N Nte que hasta n definir la lista de referencia, el gran ttal N y el tamañ del términ (n T erm ) se encuentran indefinids, pr ende, la segunda fila se encuentra indeterminada Nbstante, para cmpletar el rest de las celdas de la tabla 12, es necesari definir N y n T érmin, es decir una LR Asumiend que la verdadera LR es cncida (LR v ), será cncid el gran ttal de prteínas N v = 750, y pr l tant quedará definida la cantidad de prteínas que pertenecen al términ (n T ermv = 60) Cabe destacar que la lista de candidats es un subcnjunt cntenid dentr de la LR Esta cnfiguración se encuentra esquematizada mediante líneas en el panel A de la figura 13, dnde se ha destacad la crrespndencia cn las celdas de la tabla 12 Pr cnsiguiente, una selección de la LR diferente, pdría ptencialmente mdificar el resultad del test estadístic (valres p) de acuerd a ls siguientes escenaris simulads en la figura 13A: a) La lngitud de la LR varía mdificand la cantidad de prteínas ttales que psee desde: un númer menr al cas real N 1, pasand pr el cas real N v, hasta alcanzar un númer mayr al real N 2, es decir, N 1 < < N v < < N 2, mientras que el tamañ del términ, se encuentra cmpuest pr las mismas prteínas que en el cas real (es cnstante), pr l que n T erm = n T ermv = cte b) La elección de la LR cntiene una cantidad de prteínas en el términ de interés, apptsis, diferente a las del cas real Pr l tant, varía el tamañ del términ pudiend ser mayr menr al real, es decir, n T erm1 < n T ermv n T erm2 > n T ermv, mientras que la cantidad de prteínas ttales de la LR, se mantiene cnstante, pr l que N = N v = cte

39 12 El análisis de enriquecimient funcinal 13 A Cas real Candidats LR N Candidats - n i n i N V n TermV B 2 n Term1 n i / n Termj n TermV 2 umbral Escenaris simulads a) b) b) n Term2 N 1 N V N 2 n i n Term1 n TermV n Term2 N 1 N V N 2 Lngitud de LR Figura 13: Simulación de χ 2 utilizand ls siguientes parámetrs: n i = 10, N Candidadts = 80, N 1 = 400, N V = 750, N 2 = 1000, n T erm1 = 50, n T ermv = 60 y n T erm2 = 70 A) Esquema de diferentes escenaris B) Gráfic de χ 2 cntra la lngitud de la lista de referencia (LR) para las diferentes cnfiguracines c) Una cmbinación de ls ds escenaris anterires Est es l que que realmente sucede cuand se cambia la LR (genma, lista de genes del chip una referencia definida pr el usuari) En el panel B de la figura 13 se muestra la evaluación del estadístic χ 2 a medida que se varia la lngitud de la LR desde N 1 = 400, pasand pr N V = 750, hasta N 2 = 1000 y tres tamañs de términ en curvas de clres: n T érm1 = 50 (rmbs rjs), n T érmv = 60 (triánguls negrs) y n T érm2 = 70 (rectánguls verdes) En ella se puede apreciar que a medida que se incrementa la lngitud de la LR cm en el escenari a), se prducen valres más alts de χ 2, independiente del tamañ del términ (curvas de clres) Es decir que, el sól hech de aumentar la cantidad de miembrs de la LR, prduce una mayr psibilidad de superar la línea hrizntal a la altura χ 2 umbral, que delimita el umbral de enriquecimient, para un determinad nivel de significación (pr ejempl α = 0,05) Nbstante, el escenari bilógic real crrespnde a un únic valr χ 2 v, representad pr un triángul amarill

40 14 Capítul 1 Análisis Ontlógic Funcinal cn centr negr, en la curva n T érmv situad a una lngitud de LR N = N V Cabe destacar que este valr es inferir al umbral, es decir, χ 2 v < χ 2 umbral Pr l tant, el términ apptsis n se encuentra enriquecid en este experiment En el escenari b), para una lngitud de la LR similar a la verdadera (línea vertical de punts cn LR = N V = 750) un cambi en el tamañ del términ al pasar del cas real (curva de triánguls negrs) a un menr (curva de rmbs rjs de n T érm1 = 50), aumenta el slapamient n i /n T érmj Esta situación implica valres χ 2 más elevads, pudiend superar así el umbral de enriquecimient prduct de la reducción del tamañ de términ Pr el cntrari, para tamañs de términs más grandes (curva de rectánguls verdes de n T érm1 = 70), disminuye el slapamient cn la cnsecuente disminución en la pendiente de la curva Pr ende, el valr estadístic para la misma lngitud de la referencia es menr al cas real Más aún, para este tamañ de términ (curva de rectánguls verdes) se necesita una lngitud aún mayr al real (curva de triánguls negra), para alcanzar el umbral de enriquecimient χ 2 umbral Pr tra parte, el escenari c) representa una cmbinación de mdificacines de tant la lngitud de la cantidad de prteínas en la LR (variación de N) y tamañ de términ (cambi de curvas de clres) De manera que es esperable btener valres del estadístic χ 2 entre ls resultads de ls ds escenaris anterires: a) y b) Cm se mstró en SEA, la elección de diferentes LRs puede intrducir sesg en el enriquecimient funcinal En este cntext, al utilizar referencias muy grandes cm el genma (LR-I, pr defect en la mayría de las herramientas), prteínas que n sn detectables (pr ejempl, prque sól estudiams las prteínas extracelulares) bien prque la tecnlgía n tiene la reslución suficiente, van a estar presentes en la LR En cnsecuencia, se intrduce un sesg en el análisis pr n satisfacer ls supuests estadístics (Zeeberg et al, 2003) En este cas se impne una distribución cndicinal, dnde n tds ls miembrs marginales sn capaces de frmar parte de cualquier celda de la tabla de cntingencia 12 Es decir, hay prteínas que pertenecen a la segunda fila, que nunca pdrán ser parte de la lista de candidats ya que es impsible tener medicines de ells Una situación similar pdría estar presente en ls experiments de micrarregls de ADN, cuand se utiliza el genma (LR-I) en un chip persnalizad para una enfermedad particular (cáncer, Parkinsn, etc), al utilizar la lista de genes del

41 13 Herramientas para análisis de SEA y MEA 15 chip enter (LR-II) en lugar de la lista de genes definid pr el usuari (LR-III), teniend en cuenta aquells genes detectads en el experiment según ls cntrles de calidad del fabricante (Affymetrix (2004), Archer y Reese (2010) Hackstadt y Hess (2009), McClintick y Edenberg (2006) y Burgn et al (2010)) En este sentid, ls investigadres deben utilizar sól aquells genes que están sistemáticamente presentes en el estudi Las tecnlgías de secuenciamient de nueva generación (NGS, del inglés Next Generatin Sequencing), ptencialmente pdrían detectar tds ls genes presentes en la muestra Nbstante, la LR-III dependerá fuertemente de la prfundidad de secuenciamient Pr l tant en SEA, cualquier tecnlgía pdría n estar prprcinand la LR adecuada, siend en cualquier cas un desafí para el investigadr Si bien n existe un estándar para la cmparación de resultads btenids y en la literatura es usual n encntrar cntra cuál de ells se realizó el análisis, es una buena idea utilizar una LR que cntenga tds ls psibles candidats a elegir de la muestra (LR-III) En este cntext frente a diferentes eleccines, Huang et al (2009a) aseguran que es más imprtante la estabilidad de ls genes encntrads que ls valres p del enriquecimient 13 Herramientas para análisis de SEA y MEA Existen diferentes herramientas para realizar el análisis de enriquecimientntlógic funcinal mediante SEA y MEA (Huang et al, 2009a) En su mayría siguen el esquema de prcesamient de la figura 14, dnde se utiliza cm dat de entrada la infrmación de antación almacenada en las ntlgías (sección 11) y ls identificadres tant de ls genes candidats, al igual que ls pertenecientes a una referencia dada Lueg, se relacina la infrmación de ls identificadres cn la almacenada en las bases de antación funcinal, para realizar el análisis prpiamente dich, a ls efects de identificar ls términs enriquecids (mdificads) utilizand alguna de las metdlgías plausibles (sección 121) Finalmente, estas herramientas presentan ls resultads para la explración del investigadr En este cntext, es habitual que el investigadr cnsulte diferentes herramientas para expltar al máxim las frtalezas de unas, frente a las debilidades de tras,

42 16 Capítul 1 Análisis Ontlógic Funcinal Figura 14: Esquema de fluj de trabaj en herramientas de enriquecimient funcinal Tres grandes blques se identifican: bases de dats de antación ntlógica; minería de dats, dnde ls identificadres de ls genes candidats se relacina cn la infrmación de antación y realiza el prcesamient del enriquecimient funcinal; finalmente se presentan ls resultads Imagen extraída de Huang et al (2009a) a ls efects de sacar el mayr prvech a ls resultads experimentales En este sentid, intrducirems tres herramientas cntempráneas cm GMiner (Zeeberg et al, 2003, 2005), DAVID (Dennis Jr et al, 2003; Huang et al, 2009b, 2007) y GOstat/s (Beissbarth y Speed, 2004; Falcn y Gentleman, 2007), dnde se presentan ls diferentes aspects/prblemática invlucrada en cada etapa del análisis funcinal y cóm l abrdan cada una de ellas 131 Frmas de acceder a las herramientas Las tres herramientas permiten acces mediante una página web Sin embarg, para realizar diferentes prcesamients cmputacinalmente intensivs, es fundamental pder accederlas de frma prgramática (sin supervisión de un usuari) En este cntext, GMiner frece adicinalmente la psibilidad de instalar un cliente

43 13 Herramientas para análisis de SEA y MEA 17 Java R, cn la psibilidad de acceder al repsitri de Zeeberg et al (2003) inclus instalar las bases de dats de frma lcal Pr su parte DAVID, inicialmente habilitó una interfaz prgramática mediante mensajes utilizand lcalizadr unifrme de recurss (URL del inglés Unifrm Resurce Lcatr), limitand la cnsulta a una lngitud de hasta 1024 caracteres Interfaces vía servicis web fuern implementadas pr Jia et al (2012), utilizand clientes para ls lenguajes Java R, Perl R, Pythn R y Matlab R, dejand afuera un de ls lenguajes más difundids en la cmunidad biinfrmática cm R R En el cas de GOstat, Falcn y Gentleman (2007) escribiern el paquete GOstats en lenguaje R R, siguiend la filsfía del desarrllriginal, siend un de ls que frecen una implementación prgramática para cnsultar las base de dats Nbstante, en la cmunidad de biólgs esta herramienta n ha tenid repercusión en su us, dad a que es necesari saber prgramar en lenguaje R R para expltar su ptencialidad cm l haría un biinfrmátic Adicinalmente, esta herramienta sl utiliza GO cm base de dats de antación 132 Versines y reprducibilidad de resultads La infrmación de la versión de base de dats que pseen instaladas las herramientas, es difícil de btener En cas de frecerl cm en DAVID y GMiner, n es psible seleccinar una versión de la base de dats específica Más aún, la versión web actual de GMiner (discverncinihgv/gminer/htgmjsp), utiliza el mtr 328 y la última actualización de la base de dats es de ener de 2011 Adicinalmente, ya n es psible la instalación lcal de la base de dats del cliente Java R, dad que ls esquemas de las bases han sid actualizads y el cliente n puede utilizarlas para realizar un análisis funcinal, prque el sftware n es mantenid en el tiemp Esta situación sesga el análisis funcinal al incluir cncimient parcial y n el estad actual del arte Pr su parte, DAVID, psee un cicl de mantenimient bianual de la base de dats y el mtr de cálcul (versión 67) data desde ener de 2010 En este sentid ls resultads sn sl reprducibles en tant y en cuant n se actualice la base de dats Esta particularidad permite que diferentes miembrs de un mism equip de investigación puedan btener ls misms resultads, e inclus revisres de artículs

44 18 Capítul 1 Análisis Ontlógic Funcinal científics persnas externas que deseen reprducir ls resultads En el cas de GOstat, el siti web (gstatwehieduau) n especifica la versión de antación que utiliza, prbablemente sea la de la fecha de la publicación (2004), siend en td cas la más bsleta de tdas las herramientas, cn resultads siempre reprducibles Pr el cntrari, en GOstats se debe especificar de frma explícita el paquete de antación, el cual se pueden btener de Bicnductr (wwwbicnductrrg) y tienen una actualización cada seis meses De manera que para reprducir ls resultads, el usuari debe utilizar la misma versión usada riginalmente Cabe destacar que en las últimas ds herramientas, el usuari puede utilizar un archiv de antación cread para satisfacer sus prpias necesidades, cm sucede cuand se desea realizar enriquecimient funcinal únicamente en GO sbre un rganism aún n antad En la mayría de ls cass, la impsibilidad de reprducción de ls resultads publicads en un artícul científic se debe a que el/ls autres n especifican cn qué versión de la herramienta han llevad a cab el análisis En este sentid es usual n pder utilizar la misma lista de genes candidats publicada, dad que pr ejempl ls símbls de ls genes han sid actualizads y pr ende n sn recncids pr el sistema Más aún, casi la ttalidad de ls artículs n reprtan la lista de referencia utilizada 133 Carga de dats El ingres de dats a cualquiera de estas herramientas requiere que el usuari suba ds listas de identificadres: una para ls candidats que se quiere analizar y la tra para establecer la referencia de cmprtamient basal Nbstante, GMiner utiliza cm identificadres ls símbls (mnemónic crt) de ls genes y un sign/sentid del valr de expresión asciad a cada gen candidat: 1/-1 cuand el gen esté sbre/sub-expresad en relación a la referencia, respectivamente En el cas de DAVID, existe una gran versatilidad dad que admite 34 bases de dats de identificadres diferentes cm pr ejempl: Affymetrix R, Agilent R, Illumina R, Ensembl, RefSeQ, UniPrt, WrmBase, EntreZ, etc Pr el cntrari, GOstats sól permite utilizar identificadres de paquetes de antación de platafrmas cmerciales cm Affymetrix R y Agilent R, únicamente EntreZ en el cas de paquetes de r-

45 13 Herramientas para análisis de SEA y MEA 19 ganisms dispnibles en Bicnductr (Gentleman et al, 2004) Pr tr lad, tant DAVID cm GOstat/s n utilizan infrmación del sentid de la expresión, es decir, sól requieren del identificadr En el cas que el usuari desee utilizar más de una herramienta, deberá tener un elevad dmini de ellas, dad que muchas veces tendrá que exprtar la infrmación de una a tra Cnsecuentemente será necesari cnvertir ls identificadres requerids pr una herramienta a algun de ls cmpatibles en la tra, situación que prduce en cierts cass frustración a ls usuaris y dificultan la utilización cnjunta de estas herramientas en un sl pas A su vez, las ntlgías se encuentran antadas a nivel de genes De manera que si se quiere aplicar sbre dats de prteínas, es necesaribtener ls identificadres equivalentes a nivel de gen Mas aún, en el estudi de secretma, se deberá cnstruir una referencia aprpiada para el cntext experimental, utilizand en alguns cass una tecnlgía diferente a la empleada para identificar a ls candidats Pr tra parte, tdas las herramientas deben permitir seleccinar sbre qué ntlgía se realizará el análisis funcinal En este cntext, GOMiner y GOstat/s han sid desarrlladas para expltar al máxim GO (sección 111), cm parte de su nmbre l indica DAVID, pr tra parte, permite n sól el us de GO sin también de una amplia variedad de repsitris bilógics y científics agrupads en 10 grandes categrías: enfermendades (Omin, Genetic_assciatin_db, etc), categrías funcinales (COG_ntlgy, PIR_seq_feature, etc), GO (PB, FM y CC a diferentes niveles), antacines generales (EntreZ_gene_summary, Cytband, etc), literatura (PubMed, GeneRif_summary, etc), acces principal (Ensembl, EntreZ_gene_id, etc), vías metabólicas (KEGG, Bicarta, Panther, Reactme, etc), dmini de prteínas (PFam, Interpr, etc), interacción de prteínas (Bind, Mint, etc) y expresión te tejids (UP_tissue, etc) 134 Análisis de enriquecimient funcinal La mayría de las herramientas de SEA (sección 121) sól permiten analizar diseñs experimentales simples (tip cas-cntrl), es decir, cóm se cmprta una lista de genes candidats cn respect a la referencia Cnsecuentemente n es psible analizar, a nivel funcinal, diseñs de mayr cmplejidad, cm tampc incluir

46 20 Capítul 1 Análisis Ontlógic Funcinal infrmación tempral, clínica, etc Nbstante, en el cas que el usuari utilice diferentes listas de candidats cn diferentes factres experimentales, estas herramientas n permiten integrar/cmparar ls resultads btenids Inclus para el cas simple, el usuari es el únic respnsable de integrar las salidas de las diferentes herramientas Pr tra parte, n existe un patrón de r (del inglés gld standard) para validar ls resultads en este tip de metdlgías, recurriend de frma habitual a una validación mediante literatura científica, una validación bilógica pr una técnica diferente GMiner y DAVID adicinalmente permiten realizan un análisis de tip MEA (sección 121) En el cas de GMiner este prcesamient está slamente dispnible desde su siti web, dnde se realiza un agrupamient (clustering en inglés) utilizand ls valres de intensidad signs de expresión de ls genes cntra las antacines funcinales, representándls mediante un mapa de calr (genes vs términs) N bstante, esta funcinalidad n está presente para el cliente Java R Pr tra parte, DAVID, puede realizar un agrupamient cm el descript en la sección 121, agrupand términs utilizand la evidencia de antación de ls genes, agrupand genes utilizand la evidencia de antación Cabe destacar que esta funcinalidad sól está dispnible en su siti web (davidabccncifcrfgv) 135 Visualización de resultads Las salidas de herramientas de SEA sn pr l general listas tabulares extensas, en el rden de cients a miles de filas pr decenas de clumnas, cm se muestra en la figura 15 para GOMiner En ella se pueden apreciar cada un de ls términs analizads de la ntlgía utilizada (eg GO) en filas, dnde se puede encntrar la ttalidad de genes pertenecientes al términ, cuants de ells sn de la lista de candidats y estadístics asciads al análisis (valr p, FDR, etc) Tdas estas herramientas pueden generar también reprtes HTML cm ls mstrads para GOstat (figura 16(a)) y DAVID (figura 16(b)) Nbstante, en ambs cass se requiere de un gran esfuerz para explración debid a la extensión del reprte, e interpretación/vinculación de ests resultads funcinales cn la infrmación de expresión de ls genes En GOstat la inspección de ls términs GO se debe hacer psicinándse arriba del códig (eg GO: ) para btener el nm-

47 13 Herramientas para análisis de SEA y MEA 21 Figura 15: Captura de pantalla de una hja de cálcul, para la salida tabular de SEA cuand se utiliza GMiner Fuente Zeeberg et al (2003) bre asciad en un recuadr de text amarill emergente (eg mlecular functin, signal transducer-receptr ) Además se puede inspeccinar a ls genes de cada términ cn vínculs a bases externas viend ls códigs GO a ls cuales se encuentra asciads Pr su parte, DAVID presenta una visión similar a la vista tabular (figura 16(b)), dnde se puede navegar de frma interactiva Nbstante, cada hipervíncul genera una nueva ventana de Internet Explrer R, FireFx R Chrme R, dificultand así la navegación Adicinalmente, el usuari debe mantenerse cnectad a internet y frente a una inactividad mayr a 5 minuts, se pierde la sesión Si est sucede, se deberá repetir el análisis desde la carga de dats Se han desarrllad algunas estrategias para mejrar la explración de ls resultads de enriquecimient de GO En particular, GOstat y el cliente de GMiner, utilizan árbles jerárquics desplegables para pder inspeccinar ls diferentes niveles de la estructura de GO cm se muestra en la figura 17 Si bien esta alternativa permite navegar ls resultads, utilizand la prpia estructura de GO, n resulta la frma más aprpiada, ya que al mens se duplica la infrmación, al rmper el graf dirigid acíclic (GDA) Pr ejempl, a un nd del cuart nivel del GDA

48 22 Capítul 1 Análisis Ontlógic Funcinal (a) GOstat: gstatwehieduau (b) DAVID: davidabccncifcrfgv Figura 16: Ejempls de reprtes HTML de SEA para GOstat (a) y DAVID (b) Imágenes extraídas de Beissbarth y Speed (2004) y Huang et al (2009b)

49 13 Herramientas para análisis de SEA y MEA 23 (a) Explración web de GOstat: gstatwehieduau (b) Cliente Java R de GMiner Figura 17: Alternativas de explración utilizand árbles para representar a Gene Ontlgy (GO) Ntesé que GMiner agrega infrmación de la expresión de un gen cn flechas rjas (sbrexpresión), verdes (subexpresión) y circul gris (sin cambi) Imágenes extraídas de Beissbarth y Speed (2004) y Zeeberg et al (2003) que pueda ser accedid pr ds camins (ramas) diferentes, aparecerá en ds ramas desplegables del árbl junt cn tds sus descendientes Est n genera cnflicts cnceptuales dadas las relacines entre nds de GO, per aumenta la cantidad de infrmación a la hra de la explración de ls resultads Cabe destacar que G- Miner (figura 17(b)), incrpra a cada términ el nivel de expresión (sub, igual

50 24 Capítul 1 Análisis Ontlógic Funcinal sbre-expresión) respect de la referencia de cada gen utilizand flechas y clres verde, gris y rj respectivamente A su vez, presenta una vista de árbl dnde se despliegan ls términs en que participa un únic gen, cm se aprecia en el panel derech de la figura 17(b) para el gen BCL2 en este ejempl Figura 18: Ejempl de graf de enriquecimient de Gene Ontlgy btenid pr G- Miner Ls nds en clr azul/gris/rj representan términs sub/sin cambi/sbreenriquecids respectivamente Nte que al psicinarse sbre un términ, un cuadr amarill emergente indica el nmbre del cncept bilógic (apptsis regulatr) y ls símbls de ls genes presentes (BCL2, BAG1, etc) Imagen extraída de Zeeberg et al (2003)

51 13 Herramientas para análisis de SEA y MEA 25 Frente a la duplicación de infrmación que prduce este tip de visualización, GMiner presenta ls resultads de enriquecimient mediante ls prpis grafs de GO Para ell utiliza gráfics vectriales redimensinables (SVG, del inglés Scalable Vectr Graphics) cm se muestra a md de ejempl para funcines mleculares en la figura 18 Nbstante, el cliente psee una limitación en el tamañ máxim de imagen que puede generar, situación que limita la cantidad de nds que se puedan representar, n siend psible utilizarla cuand pr ejempl en prcess bilógics se presentan muchs términs enriquecids (más de 100 nds) Pr su parte, GOstats permite utilizar el paquete Rgraphviz (Gentry et al, 2013) para visualizar el graf, per de una frma muy primitiva La imagen puede destacar ls nds enriquecids, al igual que ls nmbres de términs, mas n psee capacidad adicinal para explrar ls resultads (inspeccinar ls genes asciads a un términ, etc) Otra diferencia es que el graf se encuentra dispuest de frma invertida, es decir, cn el nd raíz en la parte inferir de la figura Se han desarrlladtras alternativas para mejrar la explración de ls resultads btenids pr SEA, relacinads a la lngitud de las salidas y visualización de ls misms Pr ejempl, Al-Shahrur et al (2004) sugieren recrtar el GDA agrupand términs que cmparten una cantidad similar de genes En Zeeberg et al (2005) prpnen utilizar valres q mediante simulación sbre la lista de candidats, para disminuir la cantidad de términs enriquecids pr azar, mientras que en Huang et al (2009a) prpnen realizar un filtrad más restrictiv pr umbral de enriquecimient (sbre ls valres p) y fijar una cantidad mínima de genes candidats En cualquiera de ls cas anterires pdría perderse infrmación bilógica valisa, pr el sl hech de tratar de facilitar la explración de ls resultads En el cas de realizar un análisis del tip MEA utilizand DAVID, ls resultads se presentan mediante reprtes HTML sbre ls agrupamients realizads sbre genes términs, cm se muestra en la figura 19(a) Básicamente es un reprte similar al btenid al realizar SEA (figura 16(b)), dnde se presenta un pequeñ encabezad para cada agrupamient Adicinalmente, frece para cada agrupamient matrices de pertenencia (figura 19(b)), dnde se puede visualizar en una grilla la evidencia existente ( n) entre ls genes y términs de la literatura (KEGG, GO, etc) En este cntext, Huang et al (2009a) aseguran que el análisis de resultads de

52 26 Capítul 1 Análisis Ontlógic Funcinal (a) Agrupamient funcinal de términs enriquecids GO: extracellular regin part Terms GO: extracellular matrix GO: prteinaceus extracellular matrix Evidence FALSE TRUE GO: structural mlecule activity 1403_S_AT 1890_AT 2090_I_AT 31506_S_AT 31621_S_AT 31793_AT 32250_AT 33284_AT 33530_AT 33684_AT 34012_AT 34546_AT 34618_AT 34623_AT 35038_AT 35169_AT 35367_AT 36436_AT 36703_AT Genes 37061_AT 37172_AT 37454_AT 37898_R_AT 37905_R_AT 38482_AT 38508_S_AT 38604_AT 38691_S_AT 41280_R_AT (b) Evidencia de muchs términs (filas) a muchs genes (clumnas) Figura 19: Explración web de resultads de MEA (del inglés Mdular Enrichment Analysis) utilizand DAVID Imagen extraída de (Huang et al, 2009b)

53 13 Herramientas para análisis de SEA y MEA 27 SEA es un prces explratri más que una mera visualización de ls resultads estadístics Nbstante, inclus para un análisis tip cas-cntrl, el usuari es el únic respnsable de integrar las extensas tablas gráficas de salidas btenidas de la aplicación de diferentes herramientas De esta manera la prpia cmplejidad de integración de resultads, al igual que la falta de técnicas de resumen visual de infrmación que se pueda realizar sbre ellas, limita la capacidad de análisis Ls anterires impactan negativamente en la extracción de patrnes que pueda realizarse sbre la infrmación dispnible, dnde la aplicación de técnicas de minería de dats es de gran prvech en este camp, cm se muestra es la presente tesis

54

55 Capítul 2 Minería de dats En este capítul se describe brevemente el cncept de Minería de Dats, cm un subprces del análisis de dats, dentr de un cntext much más general cm el Descubrimient de Infrmación en Bases de Dats (DIBD), más cmúnmente cncid en inglés cm Knwledge Discvery in Data bases KDD En el cntext del análisis ntlógic funcinal, el KDD prprcina un marc de referencia rdenad de trabaj, aprtand herramientas y dirigiend el trabaj hacia la búsqueda de infrmación relevante Éste cmprende distintas etapas que van desde la cnceptualización de ls experiments, la btención de ls dats de entrada, el cntrl de calidad, la adecuación e integración de distintas fuentes de infrmación, el análisis cn las herramientas elegidas, hasta la presentación de ls resultads mediante infrmes cn visualizacines aprpiadas En este capítul se desarrllan brevemente ls cncepts a tener en cuenta en esta metdlgía y las etapas a seguir para el análisis de dats ómics : prteómics y genómics 21 Generalidades Las tecnlgías de alt rendimient permiten explrar prtemas y/ genmas de distintas especies de una sla vez, de manera que es psible medir la expresión de miles de prteínas y/ genes, en frma simultánea Est implica que la cantidad de infrmación dispnible y accesible hayan sbrepasad, largamente, ls métds tradi- 29

56 30 Capítul 2 Minería de dats cinales de análisis de dats, ls cuales se han vuelt impracticables Ésts se basan en que un usuari human (biólg, investigadr, etc), manipule directamente ls dats, extrayéndls y/ realizand búsquedas guiadas pr su experiencia pericia Si bien las tecnlgías de bases de dats prprcinan un almacenamient eficiente, e inclus un abanic de herramientas para su análisis, la interrelación intercnsulta entre las distintas fuentes de infrmación bilógica es cmpleja y engrrsa Adicinalmente, las escasas capacidades para visualizar eficientemente el cncimient encntrad, generan restriccines que limitan ls psibles análisis (Huang et al, 2009a) Es pr ell que cnsider que las técnicas de distintas disciplinas, que han dadrigen al termin inglés Knwledge Discvery in Data bases (KDD), sn muy aprpiadas para abrdar este prblema El cncept KDD empieza a cncebirse a finales de la década de ls 80, para referirse a un ampli cnjunt de prcess El bjetiv principal es encntrar extraer infrmación en dats, y enfatizar la utilización de un métd particular de Minería de Dats (MD), del inglés Data Mining, en un cntext de más alt nivel (Fayyad et al, 1996) El cncept de MD usualmente se aplica para referirse a un cnjunt de técnicas que pueden utilizarse para encntrar estructuras y relacines subyacentes, en un cnjunt de dats Las técnicas que se utilizan en MD prvienen, en un principi, de camps cm la Estadística, el aprendizaje maquinal (del inglés Machine-Learning ), la visualización, la simulación, etc En este sentid, la MD cntiene tds aquells cncepts que antes referían a recncimient de patrnes, clasificación, predicción, agrupamient, etc Tds ests términs sn utilizads pr distintas disciplinas para describir categrías de prblemas de predicción y descripción, que metdlógicamente pueden reslverse de manera similar En l que resta del capítul se describe brevemente las distintas etapas invlucradas en un prces de KDD Adicinalmente, se muestra cóm la utilización de ls misms pass prprcinan una metdlgía rdenada de análisis, ayudand significativamente a la extracción de infrmación útil y éxit del camp de aplicación: la genómica y prteómica funcinal

57 21 Generalidades Objetivs La MD se nutre de técnicas estadísticas, tería de grafs, árbles de decisión, técnicas de aprendizaje maquinal del inglés Machine Learning, etc, que sn términs y técnicas de prcesamient que han sid desarrlladas en las últimas décadas (Han et al, 2011) Ellas han encntrad una gran variedad de aplicacines en distintas áreas de la ciencia, la industria y el cmerci, intentand reslver ds bjetivs de alt nivel generales: la predicción y la descripción Ests bjetivs pueden alcanzarse mediante la realización de alguna/s de la/s siguiente/s tarea/s: Agrupamient: El agrupamient clustering es una técnica muy utilizada cm herramienta descriptiva Cnsiste en encntrar/frmar una cantidad finita de grups/categrías que describan a ls dats Estas categrías pueden ser mutuamente excluyentes, bien una representación jerárquica y slapada de las mismas (Grdn, 2010) Pr ejempl utilizar un mapa de calr (del inglés, heatmap) en un experiment tip cas-cntrl, para verificar si las muestras del mism tip se agrupan juntas (Wilkinsn y Friendly, 2009) Clasificación: Cnsiste en aprender encntrar una función, que pryecta (clasifica) un dat en una más clases predefinidas Este puede ser el cas de utilizar firmas mleculares, pr ejempl para asignar subtips intrínsecs de cáncer de mamas cn la PAM50 (Parker et al, 2009) Regresión: Cnsiste en estimar una función, a la que se le intrduce un dat de entrada cn el bjet de predecir un nuev valr numéric Pr ejempl, el valr de expresión de un gen para un tiemp futur, en un experiment dnde se cuenta cn diferentes medicines en el tiemp (Zu et al, 2004) Resumen: Incluye métds que describen ls dats en frma cmpacta En este sentid puede mencinarse métds de estadística descriptiva (valr medi, desviación estándar, etc) y métds de visualización cm diagramas de cajas (bxplts en inglés), gráfics de agrupamient, grafs, árbles, etc (Walple et al, 1999) Mdels de dependencias: Cnsiste en encntrar un mdel que describa relacines significativas entre las variables de análisis Ests pueden ser algún tip

58 32 Capítul 2 Minería de dats de gráfic cm ls grafs dirigids acíclics (sección 111), pueden ser tablas que agrupen infrmación cntextual relacinada (Peña, 2002) Detección de cambis y desviacines: Se centra en la detección de diferencias significativas en ls dats, basándse en bservacines pasadas de ls misms Se puede mencinar, pr ejempl, la detección de prteínas/genes diferenciales en un experiment tip cas-cntrl utilizand mdels lineales (Graybill, 2000) En el cntext del análisis funcinal, la predicción implica la utilización de algunas variables, cm pr ejempl prteínas y/ genes, camps de un cnjunt de dats de base de dats (identificadres, funcines bilógicas, etc), para la predicción de funcines bilógicas que puedan estar mdificadas pr las variables de interés (ver sección 12) Pr ejempl, encntrar una vía de KEGG (sección 112) dnde participen ls genes alterads en el experiment, que permitan describir la hipótesis bilógica baj estudi Pr tra parte, la descripción se fcaliza en encntrar patrnes relacines que prprcinen una explicación de ls dats, que sea fácilmente interpretable pr una persna Pr ejempl, en un experiment cn diferentes niveles para un tratamient, utilizar un diagrama de Venn para describir ls genes que se expresan de frma diferencial entre dichs niveles También se pueden utilizar algunas medidas de resumen de estadística descriptiva respect del nivel de expresión de ls genes para las cmparacines anterires 212 Etapas El KDD es un prces iterativ e interactiv; cnsiste en una serie de etapas sucesivas dnde, a través de la aplicación de algritms particulares, en el sentid de revlver, escarbar sbre ls dats en la búsqueda de cncimient El abrdaje en sí cnsta de cinc etapas: i) Entendimient del prblema, ii) Entendimient de dats, iii) Mdelad, iv) Evaluación y v) Reprtes Entendimient del Prblema En esta etapa se realiza l que se cnce cm entendimient del negci En ella el investigadr se inteririza, invlucra y relacina en ls aspects del prblema a

59 21 Generalidades 33 abrdar Est permite cmprender, vislumbrar la esencia y naturaleza del prblema al cual se requiere dar una slución, siend primrdial cmprender ls cncepts y el vcabulari del dmini del prblema También se deben cmprender ls diferentes prcess que van a prprcinar han prprcinad ls dats, el equipamient utilizad y ls actres (recurss humans) asciads a cada un de ells En esta etapa es dnde se definen ls bjetivs del prces de KDD (cn sus hipótesis a cmprbar), se identifican ls actres y se planifican las tareas a realizar Est es básicamente l expuest en el capitul 1, dnde el dmini de aplicación es el análisis ntlógic funcinal, dnde se buscan aquells prcess/vías que se ven mdificads enriquecids pr el experiment Entendimient de dats Esta etapa cnsiste en cnstruir una base de dats ad hc, dnde se seleccinan aquells dats que se asumen puedan aprtar infrmación - en función de l abrdad en la etapa anterir En general, n se trabaja sbre tda la base de dats dispnible, ya que ésta puede ser una base de dats de prducción y pdría n tenerse acces permanente a ella pr raznes de seguridad, bien prque su tamañ hace dificults trabajar en tiemps raznables Usualmente se deberá realizar un muestre de la base de dats principal Est suele ser una tarea tedisa y lenta que implicará la cmunicación permanente entre las diferentes partes interesadas, ls diseñadres de la base de dats y ls usuaris de la misma La prpia creación de la base de dats psee cm tarea inicial la familiarización de ls dats Est implica una serie de actividades cm revisar la base de dats, identificar el/ls tips de dats y sus atributs que se cnsidere pdrían aprtar infrmación del cntext del prblema, revisar la integridad de la base de dats y cnsistencia de sus registrs, aplicar transfrmacines sbre ls dats, etc Est permitirá identificar prblemas de calidad y descubrir signs iniciales que direccinen las estrategias para detectar infrmación culta Para ell se utilizan técnicas de visualización y resumen de dats, de manera tal de btener una visión glbal de cóm se cmprtan y qué tip de distribucines tienen Entre las diferentes tareas es psible particularizar: Creación de un cnjunt de dats: Selección de un cnjunt de ejem-

60 34 Capítul 2 Minería de dats pls/individus sbre ls que se va a realizar el análisis, que se cree aprtan infrmación para respnder a ls bjetivs prpuests, bien sn ptencialmente útiles para el prces de descubrimient En el cntext del análisis funcinal, tmarems cm punt de partida ls dats generads a partir de la utilización de tecnlgías de alt rendimient y del cncimient existente en tras bases de dats Est cmprende la infrmación crrespndiente a ls valres de expresión de prteínas genes, e infrmación de antación prvista pr el fabricante (secuencia de lignucleótids, identificadres, etc) Cnsistencia de dats: Este cncept se relacina cn que diferentes csas, pueden estar representadas pr el mism nmbre en diferentes sistemas bien, que atributs que refieren al mism tip de bservación estén representads cn distints nmbres en diferentes sistemas Est es especialmente psible cuand se trabaja cn diferentes fuentes de infrmación tales cm diferentes bases de dats de antación ntlógica (sección 11) Habitualmente se cntextualiza en peracines entre bases de dats cm la unión ( jin merge en inglés), la transfrmación mape de identificadres de prteínas genes de una a tra base Aquells identificadres que pertenezcan a ambas bases, representan dats cnsistentes, es decir, están mapeads En cas cntrari, n pdrán ser utilizads en el análisis psterir Integridad de dats: este cncept evalúa las relacines permitidas entre ls atributs Pr ejempl si nuestr dat representa a una prteína gen, pdems esperar que pueda tener un símbl (mnemónic) alguns sinónims; per seguramente n pdems esperar que un mism símbl se refiera a diferentes prteínas genes La integridad también está relacinada al rang aceptable de valres para un determinad atribut Pr ejempl en el cas de ls niveles de expresión de prteínas y/ genes, siempre se esperan valres psitivs de intensidad cm medida indirecta de su expresión El cncimient del rang de valres permite

61 21 Generalidades 35 evaluar ptenciales valres extrems y su psible naturaleza Ls valres extrems deben identificarse siempre, ya que en general requieren un tratamient especial y su impact suele ser significativ en las distintas técnicas de MD Filtrad de ls dats: Operacines básicas a ls efects de limpiar ls dats, en el sentid de eliminar aquellas características n deseable: ruid en la señal, calidad insuficiente en ls dats, identificación y eliminación de sesgs, gestión de la ausencia de dats y dats atípics, selección de candidats de interés, etc En el cntext de tecnlgías de alt rendimient, es habitual utilizar las métricas de calidad de señal que frece el fabricante para filtrar ls dats y utilizar sl aquells dats cn cierta medida de cnfiabilidad (Affymetrix (2004), Archer y Reese (2010) Hackstadt y Hess (2009), McClintick y Edenberg (2006) y Burgn et al (2010)) Adicinalmente, en análisis funcinal, se aplica un filtr para seleccinar aquellas prteínas genes candidats que se expresan de frma diferencial entre ds cndicines, usualmente mediante mdels lineales (Graybill, 2000) Reducción, pryección integración de dats: Búsqueda de características relevantes, que permitan una mejr representación de ls dats para el bjetiv prpuest En este sentid, se reduce la dimensión de la base de dats (en cantidad de variables) para quedarns cn aquéllas que aprtan más infrmación para encntrar invariantes Un enfque multivariad clásic es la utilización de técnicas cm análisis de cmpnentes principales (PCA del inglés Principal Cmpnent Analysis, Abdi y Williams (2010)) regresión pr mínims cuadrads parciales (PLSR del inglés Partial Least Squares Regressin, Geladi y Kwalski (1986)) Mdelad A esta etapa también se la refiere en literatura cm MD (Orall et al, 2004) Cnsiste en la aplicación de algritms de aprendizaje autmátic y us de técnicas estadísticas para encntrar patrnes en el cnjunt de dats previamente seleccinad De esta manera, ls patrnes encntrads serán traducids a cnci-

62 36 Capítul 2 Minería de dats mient que permitan respnder a las cnsignas planteadas en la etapa de entendimient del prblema Esta etapa cmprende a las siguientes tareas: Elección de la tarea de Minería de Dats: Decidir qué tip de tarea es la que vams a utilizar para alcanzar ls bjetivs, es decir, si es un prces de predicción descripción (ver sección 211) Una vez definid, pueden existir una variedad de técnicas que puedan aplicarse, y cada una de ellas pdrá tener requerimients específics que deberán satisfacerse El éxit de esta etapa depende fuertemente de la realización adecuada de las etapas anterires En análisis funcinal, la tarea justamente cnsiste en la predicción del enriquecimient funcinal sbre diferentes prcess y/ vías bilógicas (ver sección 12) Ejecución de la tarea de Minería de Dats: Llevar a cab el análisis prpiamente dich, es decir, aplicar ls diferentes algritms y mdels cmputacinales, buscand aquells patrnes que caractericen ls dats, etc En esta tesis, la ejecución de la tarea dependerá de la herramienta seleccinada para enriquecimient funcinal: SEA, GSEA MEA (ver sección 13) Evaluación En esta etapa es dnde se resalta la naturaleza iterativa del KDD Justamente, cn el fin de cnseguir la mejr slución psible se evalúan las salidas de ls diferentes algritms y mdels cmputacinales prpuests, en función de ls criteris u bjetivs del prblema plantead Muchas veces es un pas incluid en la etapa anterir, dad que recurrentemente ls mdels aplicads y/ prpuests para el descubrimient de cncimient deben ser evaluads en ps de encntrar el mejr mdel Esta etapa se basa fundamentalmente en técnicas estadísticas de validación, cn la finalidad de determinar la validez de ls patrnes encntrads sbre la base de dats Usualmente se realiza un remuestre mediante Btstrap (ver más adelante, Orall et al (2004)) y cntrl de errres pr cmparacines múltiples (FDR, del inglés False Discrery Rate, Benjamini y Hchberg (1995)) En esta etapa es fundamental determinar si han habid cuestines que n hayan sid suficientemente cnsideradas,

63 21 Generalidades 37 cm pr ejempl artefacts identificads a psteriri de realizad el análisis, dad que se debe decidir sbre el us de ls resultads btenids En bilgía, n sn aplicables de frma directa las técnicas de validación utilizadas en mdels cmputacinales N existe un patrón de r (del inglés gld standard), cn el cual se pueda validar el mdel bilógic Pr el cntrari, es habitual utilizar una tecnlgía diferente a la empleada para la btención de dats, para btener resultads similares, a ls efects de validar l encntrad En tecnlgías de alt rendimient la cmunidad científica acepta la utilización de la reacción en cadena de la plimerasa en tiemp real (R-T PCR del inglés Real-Time Plymerase Chain Reactin, Erlich (1989)), cm el estándar Pr tra parte, también es habitual validar utilizand la evidencia existente en la literatura científica haciend experiments cmplementaris Reprte Una vez que se cnsidera que la etapa de mdelad representa cn precisión al prblema, es necesari presentar la slución a tdas las partes invlucradas: negcis/cmercis, investigadres, bien difundirlas en la cmunidad científica que la requiera Las características de esta etapa pueden variar en función de ls bjetivs del pryect Ests pueden ir desde infrmes de avances al cumplimentar cada una de las etapas anterires, que deben cntener ls resultads y salidas parciales btenids en cada una de las etapas, la presentación de gráfics, una asesría técnica, un infrme final, difusión en páginas web, hasta la implementación de una herramienta sftware Dentr de este espectr de psibilidades debems tener en cuenta ds aspects fundamentales: Visualización: Diferentes técnicas de mstrar la infrmación, permiten la explración e interpretación de ls resultads Existen diversas alternativas de presentación de ls resultads que cmprenden desde infrmes en frmats tabular, tablas resumen, gráfics, páginas HTML, etc cm ls presentads en la sección 135 Cnslidación del cncimient adquirid: Incrprar este cncimient

64 38 Capítul 2 Minería de dats dentr del sistema, simplemente dcumentar y presentar l realizad a las partes interesadas, mediante un infrme una publicación en alguna revista científica en el ámbit académic El hech de finalizar alguna de las cinc etapas anterires (Entendimient del prblema, de dats, Mdelad, Evaluación y Reprte), n quiere decir que n debams vlver a ella para realizar alguna crrección ajuste Justamente, sbre estas etapas y/ tareas se puede iterar (repetir vlver hacia atrás) en cualquier mment que se cnsidere prtun, dad que la slución del prblema n es un prces lineal En el rest del capítul se desarrllan, cn mayr prfundidad, cada una de las cinc etapas del KDD, dad que sn imprtantes para el éxit de su aplicación en Minería de Dats en Análisis Ontlógics-Funcinales 22 Entendimient del prblema Antes de empezar a trabajar cn ls dats, hay que definir qué tip de prblema se quiere reslver, es decir, si el prblema es de predicción de descripción Es fundamental tener en clar est, dad que ayudará a la elección de ls dats a incluir y las necesidades sbre ls dats de salida (si ls hubiera) Definir el prblema también permite ir actand las psibles eleccines, sbre la/las técnica/s y herramienta/s de análisis que se van a utilizar En esta tesis, el prblema principal puede enmarcarse dentr de la clase general de prblemas de predicción El bjetiv primari es la identificación de categrías/términs que puedan estar mdificads ( enriquecids ) pr el experiment y que puedan aprtar infrmación bilógica relevante (ver capítul 1) Es un prblema muy particular del camp de aplicación específic de las ciencias ómicas y requiere de la aplicación de diversas metdlgías de MD 23 Entendimient de dats Una vez definid el cntext del prblema, es psible inferir qué tip de infrmación se va a necesitar, circunscrits estrictamente al dmini de la aplicación En este sentid, se puede pensar sbre qué tip de dats se va a trabajar (numérics de

65 23 Entendimient de dats 39 tr tip), haciend referencia en este cas a una cuestión meramente metdlógica tecnlógica También es necesari pensar evaluar si se van a necesitar dats de salida, cuál es su relación cn ls dats de entrada, cuánts pass intermedis hay y cuáles sn las entradas-salidas de ests pass intermedis, cuánts dats de salida vams a necesitar, cuánts de entrada, si existe la psibilidad facilidad de pder acceder a dichs dats, si se requerirá infrmación extra, dónde está dicha infrmación, etc Este tip de aspects sn sumamente imprtantes en una aplicación médica bilógica, dad que puede haber diverss tips de restriccines Pr ejempl, si trabajams cn muestras humanas animales, existen cuestines éticas invlucradas, csts perativs, etc Pr ell debems ser muy cauts en el diseñ de la estrategia y en el prces de adquisición de ls dats, haciend énfasis en un prtcl que cntemple: I Períd de adquisición y tip de la pblación, etc II Tip de errr asciad a la metdlgía utilizada y pr ende la expectativa de replicads necesaris, limitacines de ls dats (pr ejempl el rang dinámic de la metdlgía y manipulación de las muestras) III Otras que puedan surgir pr la particularidad de la investigación En particular para una investigación en el camp de la medicina, es precis cntar cn un prtcl de investigación que tenga en cuenta: IV Evaluación del prblema y prtcl de investigación, si es necesari, evaluad pr un cmité de ética V Cndición y dispnibilidad de las muestras bilógicas VI Cnsentimient de ls sujets (en cas de ser muestras humanas), de ls dueñs de las muestras VII Si el prces de adquisición extracción de ls dats, es un prces cruent n, etc, cuestines técnicas que puedan alterar impactar en el análisis

66 40 Capítul 2 Minería de dats En el ámbit de la bilgía experimental, ls factres que pueden influir sbre el fenómen que se desea estudiar pueden ser muy variads Pr l tant, es necesari plantear y estudiar cncisamente: qué es l que se desea analizar, cuál es el fenómen que se quiere ver y cuáles sn las variables cntrladas y a cntrlar En el cas cncret de la prteómica y la genómica, ls niveles de expresión de las prteínas/genes pueden estar alteradas pr la manipulación de la muestra siguiend el prtcl del labratri húmed, el prces de escanead, ls ltes de ls reactivs chips, etc En este sentid es muy imprtante actar alguns parámetrs, para que ns permita estandarizar las muestras, el entrn de la variable a bservar (en este cas ls niveles de expresión), etc Tdas estas decisines deben ser analizadas e implementadas en el mment de realizar el diseñ del prtcl de investigación (cual excede el alcance de esta tesis), ls prcedimients perativs de ls labratris de bilgía mlecular, etc Sin embarg, es de mucha utilidad evaluar vislumbrar la existencia de fuentes de variación que puedan prvenir de prblemas de labratri Usualmente el sftware prpietari utilizad para la btención de dats frece medidas de cntrl de calidad sbre la partida de dats Ests reprtes permiten en primera instancia, cmparar ls resultads cn valres de desempeñ esperable pr el fabricante Dicha situación permite la detección temprana de algún artefact n cntemplad en el prtcl de labratri 231 Creación de un cnjunt de dats En el cntext de las tecnlgías de alt rendimient, la creación de un cnjunt de dats se encuentra ligad a las tecnlgías de alt rendimient utilizadas En particular, abrdarems las ds utilizadas en esta tesis: electrfresis bidimensinal diferencial (2D-DIGE) y micrarregls de ADN Diferencia en geles de electrfresis bidimensinal Actualmente existen diversas técnicas para el estudi del prtema Una de ellas es la utilización de diferencias en geles de electrfresis bidimensinal para medir diferencias de expresión en prteínas Esta tecnlgía es cncida cm 2D-DIGE del inglés bidimensinal Difference In Gel Electrphresis (Maruga et al, 2005)

67 23 Entendimient de dats 41 La técnica radica en separar las prteínas existentes en la muestra en ds dimensines de acuerd cn su ptencial iseléctric y pes mlecular La particularidad de 2D-DIGE es que permite clcar sbre el mism gel hasta tres muestras distintas de prteínas marcadas cn flurófrs diferentes Lueg en el mism gel, es psible cmparar la abundancia (nivel de expresión) de las prteínas de cada muestra N bstante, dependiend del diseñ experimental y la técnica estadística utilizada en el análisis es cmún utilizar más de un gel En un experiment tip cas-cntrl, pr ejempl, se puede realizar una manipulación genética de una línea celular activand desactivand genes según la/s hipótesis bilógica/s que se desea/n investigar Psterirmente se realiza un cultiv de ellas y se extraen las prteínas de interés: aquellas secretadas, un extract intracelular Las diferentes muestras se etiquetan cn diferentes flurófrs (Cy#) según su prcedencia (figura 21): Cy5 - Tratadas: muestras que prvienen de una línea celular manipulada Cy3 - Cntrl: muestras de la misma línea celular sin manipulación Cy2 - Estándar: un preparad que cntiene una mezcla de tdas las réplicas bilógicas tant Tratadas cm de Cntrl, para pder estandarizar ls geles y cmparar ls niveles de expresión entre ls diferentes geles Una vez marcadas las muestras (Cy3, Cy5 y Cy2) se mezclan y se clcan en una tira de gradiente de ph inmvilizad, sbre la que se aplica una diferencia de ptencial a fin de separar las prteínas de acuerd a su ptencial iseléctric (primera dimensión) Lueg cada cinta es clcada a l larg del extrem superir en una pieza de gel de pliacrilamida, usualmente de frma rectangular, dnde pr el efect de la gravedad las prteínas se separan de acuerd a su pes mlecular (segunda dimensión) Este prces se repite para cada gel dependiend del diseñ experimental Siguiend cn el experiment tip cas-cntrl, usualmente se emplean al mens cuatr geles (GE, 2008) Una vez terminada la migración bidimensinal de las prteínas, cada gel es escanead a tres lngitudes de nda (una pr cada flurófr), bteniend así tres imágenes pr cada gel (figura 21) Las imágenes cntienen manchas (spts), cuya intensidad representa la cncentración de prteínas según la ubicación en el gel,

68 42 Capítul 2 Minería de dats Spt matching acrss gels Gel1 Cy3 Gel2 Cy3 Gel1 Cy5 Gel2 Cy5 Gel1 Cy2 Gel2 Cy2 Gel 1 Gel 2 Gel k Spt 1 Spt 2 Spt n Figura 21: Esquema del fluj de trabaj para el análisis de expresión diferencial de prteínas en geles de electrfresis bidimensinal (2D- DIGE) Imagen adaptada de wwwciq17cm/yp/web/shwphp?userid-39/ categry-jishufuwu/id-1067html, wwwprteiniastateedu/q-starhtml y GE (2008) cdificada pr su ptencial iseléctric y su pes mlecular En este sentid, la cncentración de la/s prteína/s de cada mancha se cuantifica teniend en cuenta el tamañ de la mancha (en pixeles) y la intensidad de la misma Así, una mancha más scura representa mayr cncentración (expresión) Usualmente el fabricante del escáner prvee de sftware para la detección de las manchas, cm pr ejempl DeCyder R (GE, 2008) Ests prgramas realizan una segmentación de la imagen, a ls efects de detectar y cuantificar la abundancia de cada spt en cada gel Utilizand la infrmación del estándar (Cy2) se aplican diferentes transfrmacines sbre las imágenes a ls efects de emparejar (nrmalizar) las manchas entre ls diferentes geles Una vez finalizad este prces, se btiene una matriz de ls niveles de expresión (abundancia) de cada spt, en las diferentes cmbinacines de tratamients Ptencialmente cada spt representaría una prteína

69 23 Entendimient de dats 43 que a priri se descnce La identificación de las prteínas implica recrtar cada un de ls spts, en un gel teñid cn una tinción que sea visible a simple vista Cada spt se crta (digiere) utilizand una enzima que crta la estructura lineal de la/s prteínas presente/s, cada vez que se encuentra una secuencia determinada de aminácids (figura 21) Ests fragments sn lueg intrducids en un espectrómetr de masa (usualmente para geles Maldi TF TF u Orbitrap) y ls espectrs btenids (MS y/ MS/MS) se cmparan cn resultads teórics de la digestión de tdas ls prteínas cncidas utilizand la misma enzima Así, es finalmente psible btener el/ls identificadr/es de la/s prteína/s (ID) presentes en cada spt De esta manera, se cuenta tant cn la matriz de expresión cm de la infrmación de antación de las prteínas Esta infrmación es el punt de partida del KDD, al utilizar este tip de tecnlgía de alt rendimient Micrarregls de ADN La infrmación cntenida en un rganism se encuentra almacenada en el genma en frma de mléculas en ADN Nbstante, el ADN debe ser transcript a ARN mensajer (ARNm, transcriptma), el cual es traducid a prteínas (prtema) siend éstas últimas las efectras de las diferentes funcines bilógicas que sstienen el funcinamient Ls micrarregls (del inglés micrarrays) de ADN, sn usads para btener el perfil de expresión de una célula a nivel del transcriptma Est permite indagar en diferentes cntexts experimentales, ls mecanisms de regulación, vías metabólicas y funcines celulares asciadas Para ell se mnitrea la expresión de miles de transcripts simultáneamente (López et al, 2005) Básicamente, un micrarregl es una clección de lignucleótids fragments de ADNc cncids (sintetizads a partir de ARNm), dispuests sbre una superficie sólida (chip) en frma de grilla arregl (Tarca et al, 2006) Ests fragments se denminan sndas y se emplean para identificar secuencias cmplementarias a ellas, prvenientes de la muestra (figura 22) Tecnlógicamente para chips Affymetrix R, para medir la expresión de un transcript es necesari utilizar la infrmación de un cnjunt de sndas, dad que n es psible sintetizar la secuencia cmpleta de ADNc

70 44 Capítul 2 Minería de dats (b) Hibridización cn ds clres (a) Cmparación de tecnlgías (c) Intensidades Figura 22: Esquema de la btención de dats en tecnlgías de micrarregls A) Cmparación de tecnlgías de un y ds clres B) Esquema de hibridización para el cas de ds clres C) Esquema idealizad de la representación de la intensidad en una imagen Imágenes btenidas de Staal et al (2003) y wwwmicrarraylu/ en/microarray_overviewshtml en el chip A su vez, existen ds tips de tecnlgías, dependiend de la cantidad de flurófrs diferentes que se puede aplicar sbre un mism chip: ls de ds clres y ls de un clr En la figura 22(a) se cmparan las diferencias existentes en la preparación de las muestras para la btención de resultads En cualquiera de las tecnlgías, el principi de funcinamient se basa en la cmplementariedad de las secuencias Es decir, las secuencias de la muestra se unen (hibridizan), cn aquellas inmvilizadas en el chip que cmplementan a sus bases (ver figura 22(b)) Una vez terminad este prces, ls chips sn leíds pr un escáner utilizand la lngitud de nda de ls flurófrs Así, la señal emitida pr el flurófr es prprcinal a la cantidad del marcadr presente, l que permite realizar una cuantificación indirecta a partir de la/s imagen/es escaneada/s En el

71 23 Entendimient de dats 45 cas de ds clres, se cuantifica la expresión de cada flurófr y es habitual utilizar la intensidad relativa, mientras que en ls de un clr, se usa la expresión absluta Este prces da cm resultad una grilla de intensidades cm ls de la figura 22(c) Lueg ls dats de cada chip se dispnen en clumnas en una matriz de expresión cruda, dnde en este cas pr clumnas tendrems chips (tratamients) y pr filas genes Nbstante dependiend de la platafrma tecnlógica, cm pr ejempl Affymetrix R, la infrmación de expresión de ls transcripts se btiene mediante un prcesamient que cnsiste en la crrección del ruid de fnd y resumen de infrmación de lignucleótids de un mism transcript (Gentleman et al, 2005) La crrección del ruid de fnd permite disminuir la variabilidad que se prduce debid a la hibridación n específica y prduct del sistema de detección óptic A su vez, cm un transcript es representad en el chip pr un cnjunt de sndas, dicha infrmación es resumida en un únic valr de expresión para cada trasncript Inclus existen chips que pseen sndas repetidas del mism transcript para aumentar la cnfiabilidad del nivel de expresión De esta manera, se cuenta cn la matriz de expresión resumida, similar a la btenida en geles de prteínas (sección 231), que junt cn la infrmación de antación, cnfrman ls dats btenids pr esta tecnlgía 232 Cnsistencia e integridad de infrmación Las tecnlgías de alt rendimient generan bases de dats de elevada dimensión y estructura Sin embarg, ls dats de estas salidas se encuentran lejs de transfrmarse en infrmación útil para el investigadr Para ell, es necesari pder relacinar dichs dats cn cncimient previamente adquirid pr la cmunidad científica Justamente aquí es dnde entra en jueg el cncept de cnsistencia e integridad sbre la infrmación cntenida en bases de dats de antación Bases de dats de antación La infrmación de antación almacenada en estas bases de dats cmprende el cncimient existente Diferentes rganizacines y cnsrcis que mantienen bases de dats bilógicas cn diversa intencinalidad Justamente, en función de ell será el tip de dat que se almacena Algunas sn específicas para un rganism cm

72 46 Capítul 2 Minería de dats pr ejempl FlyBase para Drsphila (mscas, FlyBase Cnsrtium (1994)) la base de dats para el prtema de levaduras (YPD, Yeast Prteme Database) para Saccharmyces cerevisiae (Hdges et al, 1999) para cmpuests y reaccines químicas cm PubChem (Bltn et al, 2008) Inclus existen algunas que pretenden incrprar infrmación de diferentes rganisms a nivel de genes cm en Entrez Gene (Magltt et al, 2011), prteínas en UniPrt (Apweiler et al, 2004) y PIR (Wu et al, 2002), inclus vías metabólicas cm en Reactme (Jshi-Tpe et al, 2005) y KEGG (ver, sección 112), vcabulari cntrlad cm en GO (ver, sección 111) Cada un de ests repsitris almacena la infrmación mediante bases de dats relacinales cn un esquema prpietari En el mejr de ls cass, estas bases de dats sn de libre acces, tant al esquema cm a ls dats Nbstante, el desafí es pder relacinar td ese cncimient para cada secuencia, prteína gen que brinda la tecnlgía de alt rendimient utilizada En el cas de 2D-DIGE, la identificación es un prces a psterir del análisis de ls dats, cm vims en la sección 23 Mientras que al utilizar micrarregls el fabricante usualmente prvee un archiv de antación a priri, dad que sabe qué secuencia de ADNc u lignucleótids se encuentra en cada psición de la grilla A su vez, ls fabricantes frecen diferentes archivs de antación, dnde utilizan identificadres prpietaris para relacinarls cn las diferentes bases de dats Si bien las diferentes tecnlgías prveen de sftware prpietari para analizar ls dats, existe una serie de prblemas de cnsistencia e integridad cuand el investigadr pretende realizar análisis acrde a sus necesidades Incnvenientes en la utilización de la antación En el cntext de análisis de dats de alt rendimient, es habitual utilizar simultáneamente diferentes herramientas biinfrmáticas Cada una de ellas fuern desarrlladas para un prpósit específic, presentand diferentes características/frtalezas En alguns cass, funcinan de frma cerrada (cajas negras), n permitiend acceder a ls resultads de etapas intermedias extender sus funcinalidades Este suele ser el cas de ls sftware prpietaris asciad al equip que btiene ls dats Pr tra parte, es usual que las diferentes herramientas se encuen-

73 23 Entendimient de dats 47 tren ligadas a un tip de identificadr (ID) particular Aquí ns encntrams frente a un prblema de cnsistencia, dnde es necesari realizar una cnversión de ID para pder utilizar dichas herramientas En sí misma la cnversión n es un prces trivial, dad que depende de muchs factres cm las estructuras de almacenamient, cóm se estable la relación entre bases de dats, cuáles sn las versines cmpatibles, etc Desafrtunadamente la mayría de las herramientas dispnibles n dcumentan cóm realizan dich prces Si bien existen cnversres que dicen sprtar muchs tips de IDs, ell n implica que establezcan de frma adecuada la relación entre la base de dats rigen y la de destin Tdas estas particularidades hay que tener en cuenta a la hra de realizar la cnversión de IDs En este cntext Huang et al (2009a) recmiendan utilizar Ont-Translate (Draghici et al, 2003), MatchMiner (Bussey et al, 2003), IDCnverter (Alibés et al, 2007) y DAVIDIDCnverter (Huang et al, 2007) Lamentablemente ls IDs que n lgren ser emparejads se pierden, l cual intrduce sesg sbre la infrmación bilógica dispnible para el análisis Cnsecuentemente, algunas prteínas/genes pueden n participar del análisis, a pesar de que pueden tener un rl crucial en el cntext del experiment Otr prblema de cnsistencia se encuentra directamente asciad al tip de ID utilizad en el análisis (Zeeberg et al, 2004) El símbl es un de ls más utilizads y cnsiste de un mnemónic crt, emplead para referirse a la prteína gen en cuestión Pr ejempl, en Hm sapiens para el gen septin 9, se utiliza el símbl SEPT9 Si bien SEPT9 resulta más inteligible para el investigadr que su cntra parte en Entrez Gene ID, 10801, cuand es utilizad en prgramas tip Micrsft Excel R es transfrmad a un dat de tip fecha Sep-09 Adicinalmente, ls símbls n siguen una cnvención unificada para su denminación, cm pr ejempl, utilizar parte de la descripción del gen De hech, en muchs cass sn acrónims del apellid del investigadr que reprtó su aparición Inclus pueden ser referid en publicacines cntempráneas cn distints símbls, dand lugar a ls alias sinónims cncids del gen Siguiend cn el ejempl de SEPT9, a la fecha cuenta cn ls siguientes sinónims: MSF, MSF1, NAPB, SINT1, PNUTL4, SeptD1 y AF17q25 En trs cass, más de un gen diferente puede cmpartir el mism símbl Pr ejempl, el símbl ANXA8 refiere a tres genes cuys símbls

74 48 Capítul 2 Minería de dats ficiales a la fecha sn ANXA8, ANXA8L1 y ANXA8L2, siend que sn tres entidades diferentes Justamente, debid a tds ests prblemas de cnsistencia e integridad de dats, el cmité para la nmenclatura de genes humans (HGNC, de sus siglas en inglés, Pvey et al (2001)) realiza un gran esfuerz pr nrmalizar la nmenclatura de ls símbls Esta situación da lugar a un nuev prblema, la estabilidad de ls IDs La estabilidad usualmente es un prblema subestimad, siend que n es un menr La utilización de ls símbls es, sin lugar a dudas, el cas más crític (Zeeberg et al, 2004), dad que tant el HGNC cmtrs cnsrcis ls mdifican en frma recurrente Est impacta en la impsibilidad de reprducción de ls resultads publicads en un artícul científic Sumad a l anterir, las herramientas dispnibles usualmente n publican la versión de base de dats que pseen instalada, siend cmún la impsibilidad de su utilización pr diferencias en la versión utilizada Pr tra parte, el mayr prblema es la falta de trazabilidad de ls IDs dentr de una misma base de dats En este aspect, alguns cnsrcis sl mantienen el registr actual de las prteínas/genes, n permitiend acceder a las versines anterires; inclus desde la versión anterir n es psible acceder al registr actual, perdiend así su trazabilidad De esta manera, el investigadr n sabe si: i) existe evidencia de que dich ID en realidad n tiene una función bilógica, ii) se unificó cn tr identificadr iii) ha sid actualizad pr un nuev Tds ls prblemas anterires de cnsistencia e integridad hacen que la antación psea en sí misma gran cmplejidad A ells hay que sumarles el agravante de que, dependiend de las bases de dats de antación utilizada, la cnversión la prpia trazabilidad de un únic identificadr debe realizarse de frma manual Esta situación es impracticable si se cnsidera el caudal de dats que generan las tecnlgías de alt rendimient Es decir, n existe un acces prgramátic (sin supervisión del usuari) para realizar las diferentes tareas requeridas sbre las decenas a centenas de miles de IDs invlucrads en un experiment 233 Filtrad de dats Una vez que se cuenta cn ls dats para el estudi, se prcede a preparar ls dats El filtrad de dats es fundamental en el desarrll de un prces de MD,

75 23 Entendimient de dats 49 siend una etapa significativa y a veces crítica para el éxit de la aplicación (Orall et al, 2004) El bjetiv de esta etapa es simplificar el prces de análisis (mdelad recncimient de patrnes), enfatizand la infrmación relevante del sistema baj estudi Para ell se trabaja en la reducción del ruid y/ eliminación de dats incnsistentes, dad que ambs cass pueden scurecer la infrmación subyacente en ls dats, causand cnfusión Adicinalmente, se hace us del cncimient previ aprtad pr ls experts pr el analista, pniend especial cuidad en que este cncimient n prduzca desviacines en el análisis, de manera que ls resultads n resulten sesgads pr ls dats elegids y n reflejen la infrmación cntenida Antación para micrarregls Únicamente para el cas de micrarregls, ls archivs de antación del fabricante pseen infrmación adicinal para cada snda, cm es el cas de utilizar chips de Affymetrix R Dentr de la diversidad de infrmación, el fabricante especifica características adicinales para cada snda cm tip de snda y características de la secuencia (Affymetrix, 2004) Esta infrmación es de utilidad a la hra eliminar dats que puedan scurecer la etapa de mdelad (aumenta variabilidad, n cumplen supuests del mdel, etc) En l que respecta al tip de snda, este camp define la intencinalidad de la misma En este cntext, el fabricante especifica cuáles sndas sn: Principales: diseñadas específicamente para el rganism baj estudi Estas sndas se encuentran identificadas cm main (principal en inglés) Cntrles: sirven para diferentes tips de cntrl Entre ells se encuentran ls cntrles prpis del fabricante (denminads cntrl->affx ), aquellas específicas del micrarregl ( cntrl->chip ), las utilizadas para cuantificar el ruid de fnd del mismrganism ( cntrl->bgp->genmic ) de un diferente ( cntrl->bgp->antigenmic ) Nrmalizadres: sn utilizadas para hmgeneizar la intensidad de la imagen, a nivel de exnes ( nrmgene->exn ) intrnes ( nrmgene->intrn ) De rescate: sndas de micr ARN que n alinean cn el genma del rganism, l hacen de frma muy limitada ( rescue->flmrna->unmapped )

76 50 Capítul 2 Minería de dats En este cntext, deben eliminarse aquellas sndas que n cdifican las características principales, es decir, tdas aquellas utilizadas pr el fabricante (cntrles, nrmalizadras y de rescate) A su vez, las sndas principales pseen en su ID una terminación que cdifica diferentes características de la secuencia, siend las más cmunes (dependiend del chip): _at: sndas que alinean cn un transcript cncid _a_at: sndas que alinean cn un transcript alternativ para el mism gen _s_at: aquellas sndas que alinean cn múltiples transcripts de diferentes genes (hibridación cruzada) _x_at: sndas dnde n fue psible seleccinar una única secuencia un cnjunt de ellas cn idénticas secuencias entre múltiples transcripts De esta manera, valres de expresión prveniente únicamente de sndas del tip _at y/ _a_at representan dats n ambigus, es decir, prvienen de un únic transcript, razón pr la cual sn ls utilizads en esta tesis Si bien ls dats de las sndas _s_at sn de utilidad, requieren un tratamient especial para su psterir validación, dad que se debe diseñar un experiment adicinal para determinar a cuál/es de tds ls trasncripts diferentes pertenece su nivel de expresión Es pr ell que n se incluyen en el análisis, al igual que las sndas terminadas en _x_at Este filtr utiliza el cncimient previ, aprtad pr ls experts, en el sentid de que se cnce a priri la psición y la secuencia específica de cada snda Justamente, elimina aquellas sndas que puedan intrducir desviacines en el análisis al utilizarlas en un cntext diferente para el cual fuern diseñadas Sin embarg, también es necesari enfatizar la prpia infrmación btenida del sistema baj estudi Para ell se recurre a un filtrad utilizand infrmación del nivel de expresión (señal), adquirid pr la tecnlgía de alt rendimient Cntrl de calidad de la señal Este filtr es necesari y de vital imprtancia, dad que ls dats prvenientes del mund real n sn ideales Especialmente al trabajar cn dats bilógics, resulta

77 23 Entendimient de dats 51 muy cmún encntrar dats incmpatibles que dificultan la integración de distintas fuentes de dats Pr l tant, revisar la calidad de la señal es un pasbligatri y cnveniente (Batista y Mnard, 2003; Zhang et al, 2003) En esta etapa se realiza un prces de revisión y limpieza de ls niveles de expresión de prteínas/genes dnde se preparan y seleccinan ls dats para su psterir análisis En este cntext se verifican diferentes aspects cm: que ls dats sean crrects, la ausencia de dats (del inglés missing values), sus características distribucinales, la presencia de dats cn una magnitud n esperada (anómals del inglés utliers), la existencia de dats de distinta naturaleza (numérics, bleans y/ tip carácter), etc En el cas de utilizar micrarregls de ADN, ls fabricantes prveen de ciertas medidas de detectabilidad, sbre ls niveles de expresión cm presencia/ausencia, referids cm calls en tecnlgía Affymetrixs R, banderas de calidad en Agilent R, Heeb R, cualquier tra técnicas de ds clres Estas medidas pr l general frecen un rang de valr p, para el cual se definen regines de cnfiabilidad dnde el valr de la señal es: aceptable (presente), marginal ausente (Affymetrix, 2004) (b) Prteína (a) Parámetrs de una mancha (c) Partícula de plv Figura 23: Caracterización de una mancha (a) y ejempls de: una prteína (b) y una partícula de plv (c) Imágenes btenidas de GE (2008)

78 52 Capítul 2 Minería de dats Se ha demstrad que el filtrad de ls genes utilizand este tip de medicines, n mdifica la distribución marginal de ls genes que se expresan de frma diferencial Pr el cntrari, el n filtrad afecta fuertemente a la nrmalización e incrementa la tasa de falss psitivs (Affymetrix, 2004; Archer y Reese, 2010; Burgn et al, 2010; Hackstadt y Hess, 2009; McClintick y Edenberg, 2006), razón pr la cual en esta tesis se adptó cnsiderar aquells valres que n pseen cnfiabilidad en la medición, cm valres ausentes Es decir, aquells que se encuentran en el nivel del ruid En este sentid, ls investigadres deben utilizar sól aquells genes que sistemáticamente están presentes en el estudi Pr el cntrari, al trabajar cn niveles de abundancia de prteínas al utilizar 2D-DIGE, el panrama es diferente En esta tecnlgía, ls sftware prvists pr ls fabricantes para la cuantificación de las manchas, usualmente, n entregan infrmación de detectabilidad de la frma que l hacen para el cas de ls micrarregls N se cnce a priri cuants spts hay, ni su ubicación, inclus cuál/es prteínas sn Sin embarg, las manchas se encuentran caracterizadas pr ls parámetrs que se muestran en la figura 23(a) Esta infrmación es de utilidad para discriminar prteínas (figura 23(b)) de manchas que puedan ser prduct de una partícula de plv (figura 23(c)), aquellas que han saturad el rang dinámic del escáner Para ell, GE (2008) recmienda utilizar un filtr basad en ls parámetrs de la tabla 21 para eliminar las manchas n fiables Tabla 21: Parámetrs recmendads para filtrar manchas cn artefacts Prpiedad Valr sugerid Unidad Pendiente >11 Intensidad / píxel Área <100 Cantidad de píxeles Vlumen <10000 Cant píxeles x intensidad Altura de pic <80 >65000 Intensidad Valres pr defect utilizads en DeCyder R Fuente GE (2008) La aplicación de este tip de filtr, permite eliminar artefacts y valres n cnfiables En este cntext, la n aplicación del mism, puede n remver diferentes fuentes de variabilidad, que pueden ser perjudicial en la etapa de mdelad

79 23 Entendimient de dats 53 Nrmalización El prces de nrmalización es tr aspect imprtante en el entendimient de dats Básicamente implica llevar a tdas las variables de entrada a un mism rang de trabaj De esta manera, se intenta evitar que alguna dimensión particular (variable) dmine sbre las tras En general la nrmalización es un prces de escalad y en muchs algritms de MD mejran sustancialmente su rendimient, eficiencia y/ interpretación (Orall et al, 2004) En el cas particular de dats de expresión de prteínas y/ genes, existen diferentes fuentes de variabilidad que pueden influir sbre la medición de ls niveles de expresión En este cntext, la nrmalización n sól se aplica en el sentid habitual, es decir, llevar las variables a escalas cmparables, sin que también para eliminar efects técnics, que n tienen que ver cn la bilgía que se está estudiand Estas fuentes de variación se cncen cm variabilidad tecnlógica La experiencia ha demstrad que existe una cantidad sustancial de fuentes de variabilidad tecnlógica en dats de micrarregls y geles de prteínas La calidad de ls dats puede estar influenciada pr tds y cada un de ls pass que preceden al análisis, desde la extracción y marcación de la muestra, cndicines de hibridización, adquisición de la imagen, e inclus pequeñas imperfeccines de fabricación en ls chips geles utilizads para la btención de dats Pr l tant se deben inspeccinar ls dats pr psibles inter e intra artefacts en ls micrarregls geles de prteínas Algunas de estas fuentes de variación pueden prvcar desviacines sistemáticas en la medición, variacines que pueden ser estimadas y crregidas mediante técnicas de nrmalización (Quackenbush, 2002) Si n sn eliminadas, estas variacines sistemáticas aumentan la incidencia de falss psitivs durante el análisis (Nadn y Shemaker, 2002) Un de ls supuests de este tip de experiments es que la gran mayría de las prteínas/genes presentes en el mdel bilógic, n se van a ver afectads pr el tratamient Es decir, que el nivel de expresión esperable pr la mayría de ells debe ser basal (a nivel de una referencia) y sl alguns de ells tendrán un valr de expresión influenciad pr el experiment (valres mayres menres que la referencia) Nbstante, al cnsiderar la distribución de las intensidades registradas pr el medi óptic (valres psitivs), pseen valres muy pequeñs y mrflgía

80 54 Capítul 2 Minería de dats Figura 24: Nrmalización de muestras de micrarregls de Affymetrix R Nivel de expresión medid en escala lgarítima antes y después de nrmalizar pr cuantiles, en el panel izquierd y derech respectivamente En el panel superir se muestran ls diagramas de caja y en el inferir, la función de densidad de cada muestra

81 23 Entendimient de dats 55 muy asimétrica, razón pr la cual es usual aplicarles una transfrmación lgarítmica a cada muestra, para cambiar el rang de la variable y crregir en parte la asimetría, cm se aprecia en ls diagramas de caja y densidad de la figura 24 Sin embarg, existen cass cm el presentad en el panel izquierd, dnde se aprecia que existen pequeñas diferencias en las funcines de densidades, cuand n sn esperables desde la bilgía y sn prducidas pr la variabilidad tecnlógica Es decir, que si cmparams individus entre las distintas muestras pdems encntrar diferencias en el nivel de expresión sól pr variación en la técnica En ests cass es necesari nrmalizar ls dats En base al supuest bilógic, inicialmente ls dats de las distintas muestras (intensidades en escala lgarítmica) eran nrmalizads pr escala Simplemente a tds ls valres de cada muestra se le restaba su prpia mediana y dividía pr la desviación estándar (Smyth y Speed, 2003) De esta manera, se crregían las psibles diferencias entre las escalas de las diferentes muestras Existen tras alternativa de nrmalización, en dnde pr ejempl se realiza un escalamient, para que tdas las muestras tengan la misma desviación absluta respect a la mediana ( MAD del inglés Meadian Abslute Deviatin, Yang et al (2002)) También se pueden estandarizar pr cuantiles, para que tds tengan la misma distribución empírica (Blstad et al, 2003), cm se muestra en la figura 24, realizar un prmedi rbust entre ls diferentes micrarregls ( RMA, del inglés Rbust Multi-array Average Irizarry et al (2003)) Cn estas diferentes nrmalizacines, se lgra que ls dats prvenientes de diferentes muestras tengan distribucines similares, remviend así artefacts prpis de la técnica 234 Reducción, pryección integración de dats El desempeñ de ls algritms de MD para la búsqueda de patrnes, es dependiente del tamañ del espaci de entrada Este espaci cnsiste en tdas las psibles entradas a nuestr sistema, que en el cntext de tecnlgías de alt rendimient, sn ls niveles de expresión de las prteínas y/ genes Nbstante, la cantidad de ellas suele ser del rden de cients a decenas de miles, superand ampliamente a la cantidad de ejempls/cass/sujets/muestras bilógicas Particularmente en prteómica y genómica, disminuir la cantidad de variables de entrada favrece significativamente

82 56 Capítul 2 Minería de dats el prces de análisis ntlógic funcinal (sección 12) En general, la reducción selección de las variables de entrada se realiza mediante el us de mdels estadístics Ests cmprenden desde una simple prueba t (Walple et al, 1999), hasta mdels lineales (Graybill, 2000) inclus lineales mixts (Pinheir y Bates, 2009) Ests mdels permiten encntrar aquellas prteínas/genes que presentan diferencias en ls niveles de expresión, a un nivel de significancia dad, entre las diferentes cndicines experimentales dependiend de la hipótesis bilógica del investigadr (cntrl vs tratamient 1 tratamient 2, etc) Selección de prteínas/genes En el cntext de las tecnlgías de alt rendimient, el punt de partida es la matriz de expresión En ella cada fila representa un individu crrespndiente a un spt (prteína) prbeset (gen) y cada clumna representa una cmbinación de tratamients, para una replica bilógica dada En este cntext cada individu es mdelad de frma independiente En el cas más elemental de un experiment tip cas-cntrl cn sl una réplica para cada cndición, tendrems una matriz de N filas (prteínas/genes) en el rden de decenas de miles, pr ds clumnas (cntrl y tratamient) En esta cnfiguración, es impsible aplicar un mdel estadístic Nbstante, es habitual btener la diferencia de expresión entre las ds cndicines y a partir de su valr abslut utilizar algun de ls siguientes criteris de selección: Establecer un umbral para seleccinar aquells individus que l superen Ordenar las filas de la matriz y seleccinar una cantidad establecida Obtener la función de densidad empírica de la diferencia de expresión y establecer un percentil para la selección, a una ds clas En el cas de diseñs de mayr cmplejidad, es usual ajustar un mdel lineal para cada un de ls individus de frma independiente (Graybill, 2000) Este mdel dependerá del diseñ experimental baj estudi Pr ejempl, en un experiment de micrarregls cn tres niveles de tratamient (A, B y C) y r repeticines, es psible utilizar un mdel de clasificación unifactrial (21) para cada un de ls genes:

83 23 Entendimient de dats 57 y ij = β 0 + β 1 τ B (i) + β 2 τ C (i) + ε ij i = 1,, N j = 1,, r (21) ε ij N(0, σ 2 ) Cv(ε ij, ε kl ) = 0 i k j l (22) dnde: y ij es el valr bservad de expresión del i-ésim gen, en la j-ésima repetición, β 0, β 1, β 2 y σ 2 sn parámetrs descncids a estimar, ε ij es el errr aleatri nbservable, sujet a ls supuests de (22) τ B (i) y τ C (i) sn variables binarias para indicar la pertenencia n (1 0), del i-ésim gen al tratamient B C respectivamente El mdel (21) es ajustad mediante Mínims Cuadrads Ordinaris (Walple et al (1999) y Graybill (2000)) Lueg, el investigadr puede plantear la/s diferentes pruebas de hipótesis particular/es, a partir de una cmbinación lineal de las medias de tratamients, l que se cnce cm cntraste (Walple et al (1999) y Graybill (2000)) Pr ejempl, puede seleccinar aquells genes que se expresen de frma diferente entre ds pares de tratamients (A vs B), es decir, seleccinar ls genes para ls cuales existe evidencia para rechazar la hipótesis nula (pseen igual expresión en ambs tratamients) En esta tesis se utiliza la implementación de mdels lineales del paquete limma (Smyth, 2004) del lenguaje R (R Cre Team, 2013) Este paquete adicinalmente permite realizar una crrección empírica de Bayes, para reducir las varianzas de cada mdel (prteína/gen) hacia un valr cmún y aumentar ls grads de libertad de las varianzas individuales De esta manera, se tiene una prueba de hipótesis cn mayr ptencia estadística Pr tra parte, también hay que tener en cuenta que debid a la cantidad de mdels que se deben ajustar, es necesari realizar una crrección pr cmparacines múltiples de ls valres p, btenids para cada prueba de hipótesis Est permite reducir la cantidad de falss psitivs, pr ejempl utilizand FDR (del inglés False Discvery Rate, Benjamini y Hchberg (1995)) Lueg de fijar un valr de significancia, pr ejempl α = 0,05, se determinan aquells candidats (prteínas/genes) que se expresan de frma diferencial Ests candidats serán cmparads cn aquells dispnibles en el experiment, que harán de lista de referencia para el análisis funcinal

84 58 Capítul 2 Minería de dats Así, a través de ls mdels lineales, el investigadr tiene la flexibilidad de definir el cntraste específic para su prblema bilógic (ver capítul 1) Justamente, la salida de un cntraste permite reducir la cantidad de prteínas/genes presentes en la ttalidad (referencia) de dats, a una lista de candidats más pequeña para realizar el análisis funcinal Integración de perfil de expresión de prteínas/genes Una manera de cmprbar si las prteínas/genes candidats han sid seleccinads de frma aprpiada, es a través de la visualización del perfil de expresión Para ell se utilizan mapas de calr (del inglés heatmap), dnde se cmprueba que ls candidats elegids, distingan adecuadamente las cndicines/tratamients invlucrads en cada un de ls cntrastes de interés (Wilkinsn y Friendly, 2009) En el cntext del análisis ntlógic-funcinal, el mapa de calr representa ls valres de la matriz de expresión, utilizand una paleta de clres Usualmente se utiliza una escala cntinua de clr rj y verde para representar aquells candidats subexpresads y sbrexpresads respect a un tratamient, respectivamente En esta gráfica, el rden tant de las filas y clumnas se mdifica de frma tal que se puedan apreciar la existencia ( n) de asciacines entre candidats y tratamients (figura 25) A tales efects, se realiza un dble agrupamient sbre ls valres de expresión de dichs candidats En las filas (geles/micrarregls) se bserva si las réplicas bilógicas de cada cndición se cmprtan de manera similar, es decir, pertenecen al mism agrupamient En clumnas (prteínas/genes) se evalúa si la expresión de un mism candidat es influenciada pr la cndición experimental, es decir, pasa de sbrexpresad a subexpresad viceversa Este cmprtamient se muestra en la figura 25, para el ejempl del cntraste prpuest entre ls tratamients A y B de la sección 234 En la figura se aprecia que las ds réplicas de cada tratamient pertenecen al mism agrupamient, es decir, para el cas de A (A1 y A2) y para B (B1 y B2) Pr tra parte, en clumnas se bservan ds grups de genes sbre y subexpresads, que invierten su nivel de expresión cuand se ls mide en el tr tratamient De esta manera se puede cmprbar visualmente que el cmprtamient de ls candidats seleccinads es el esperad para el diseñ experimental prpuest, cm es el cas de la figura 25

85 23 Entendimient de dats 59 Figura 25: Mapa de calr de ls genes seleccinads cn expresión diferencial entre ls tratamients A y B Nte que las réplicas bilógicas de cada tratamient (en filas) se encuentras agrupadas cm se aprecia en el dendgrama de la izquierda, induciend un agrupamient de genes (en clumnas) que cambian su nivel de expresión en cada tratamient

86 60 Capítul 2 Minería de dats 24 Mdelad Una vez realizad el entendimient del prblema (sección 22) y entendimient de dats (sección 23), quedand así definid el prblema y preparads ls dats, es tiemp de revelar la infrmación que ests cntienen Para ell, el siguiente pas es seleccinar una metdlgía un algritm de MD para realizar la etapa de mdelad En la presente tesis, la metdlgía de MD seleccinada cm mtr de cálcul para el análisis funcinal es SEA (del inglés Set Enrichment Analysis) A través de ella, es psible evaluar qué prcess y/ funcines bilógicas, dnde participan una lista de candidats en su cnjunt, se encuentran mdificads (enriquecidas) pr el experiment cuand sn cmparads cn una lista (basal) de referencia, cm se intrduj en la sección 12 Para ell se utilizó cm punt de partida, una lista de prteínas/genes candidatas (reducida), btenidas mediante mdels lineales (sección 234) y cm lista de referencia, la ttalidad de prteínas/genes que han transitad cn éxit pr ls diferentes pass del entendimient de dats (cnsistencia, integridad, filtrads, nrmalización, etc) El análisis se realizó sbre la infrmación bilógica cntenida en las ntlgías de GO y KEGG, la cual ha sid presentada en la sección Evaluación N siempre es psible cntar cn una cantidad suficientemente grande de dats, cm sería deseable, dificultand la tarea de generar tres ( al mens ds) cnjunts de dats para entrenar, validar y evaluar el/ls mdel/s utilizad/s en la etapa de mdelad (sección 24) En estas circunstancias es dnde las técnicas de validación juegan un papel prepnderante, prprcinand estadísticas más fiables sbre ls resultads, aún cuand el númer de dats sea reducid En este cas, es usual utilizar la técnica de Btstrap cm estrategia de validación (Efrn, 1979) La idea básica de Btstrap es que la inferencia sbre ls dats de una pblación pueden ser btenida a partir de una muestra representativa Nbstante, pr diferentes tips de restriccines, la muestra termina siend pequeña y/ n se pueden btener muestras adicinales del fenómen baj estudi Entnces, el cmprtamien-

87 25 Evaluación 61 t de la pblación se mdela a través de nuevas muestras cn repsición sbre ls dats riginales, l que se cnce cm remuestre, es decir, btener una nueva muestra del tamañriginal, permitiend que existan valres repetids Este tip de metdlgía es usualmente aplicada cuand: La distribución teórica del estadístic de interés es descncida La distribución teórica del estadístic n es fácil de calcular El tamañ de la muestra es insuficiente para estimar el estadístic Es necesari estimar la ptencia del mdel utilizad y sól se dispne de una muestra pilt pequeña A través de esta metdlgía, ptencialmente se puede cntar cn una cantidad de muestras btstrap suficientemente grande (cients a miles), para estimar el cmprtamient de la pblación En cas cntrari, resulta impsible pder abrdar cualquiera de las aplicacines anterires En el cntext del análisis ntlógic funcinal, n es usual utilizar técnicas de validación mediante simulación Justamente, la aplicación de este tip de metdlgías permite aumentar la fiabilidad sbre ls resultads en términs de ptencia estadística, en el sentid de detectar enriquecimient, cuand el efect verdaderamente existe Es decir, reducir la psibilidad de enriquecimient espuri, prduct de artefacts que puedan sesgar ls resultads funcinales btenids En bilgía n existe un patrón de r (del inglés gld standard) cn el cual se pueda validar el mdel bilógic, razón pr la cual es habitual utilizar una tecnlgía diferente a la empleada para la btención de dats, para btener resultads similares Est se cnce cm validación bilógica En tecnlgías de alt rendimient, la cmunidad científica acepta la utilización de la reacción en cadena de la plimerasa en tiemp real (R-T PCR del inglés Real-Time Plymerase Chain Reactin, Erlich (1989)) cm el estándar bilógic Pr tra parte, cuand n es psible realizar una validación bilógica, es habitual referirse a la evidencia existente en la literatura científica para validar pr bibligrafía Cabe destacar que en esta tesis se excluye la validación bilógica cm estrategia de la etapa de evaluación

88 62 Capítul 2 Minería de dats 26 Reprte En esta etapa se presentan ls resultads btenids del análisis ntlógic funcinal, a través de las diferentes etapas del KDD En este cntext, las herramientas biinfrmáticas presentadas en la sección 13 utilizan diversas estrategias de visualización, entre las cuales es psible encntrar (sección 135): Listas tabulares: extensas tablas de text plan, en el rden de cients a miles de filas pr decenas de clumnas, cn la diferente infrmación funcinal (prteínas, genes, funcines/términs, valres p, etc) Reprtes basads en tecnlgías web: usualmente sn páginas estáticas, cn capacidades dinámicas limitadas, dnde se pueden explrar ls reprtes tabulares Árbles jerárquics desplegables: estructuran (agrupan) la infrmación de frma jerárquica, permitiend explrar ls resultads En el cas de GO, este tip de visualización prduce una duplicación de infrmación Imágenes prediseñadas: en esta categría existe un abanic de psibilidades, entre las siguientes: Grafs de GO: utilizan la prpia estructura de GO, cm estrategia de resumen y visualización, de ls resultads ntlógic-funcinales Vías metabólicas de KEGG: representan las relacines existentes entre ls diferentes cmpuests, enzimas, etc presentes en la vía Antación: permiten visualizar la evidencia existente ( n), entre prteínas/genes y diferentes categrías/términs de interés, utilizand una tabla de dble entrada Si bien las anterires sn alternativas válidas para visualizar y explrar ls resultads, cn las limitacines descriptas en la sección 13, éstas n permiten integrar resultads funcinales btenids de diferentes análisis En este sentid, en esta tesis se abrda esta prblemática mediante metdlgías del tip MEA para integrar/explrar este tip de resultads, cm estrategia de cnslidación del cncimient

89 26 Reprte Cmentaris finales En este capítul, se ha utilizad el KDD cm un marcrdenad de trabaj, aprtand herramientas de MD y dirigiend el trabaj hacia la búsqueda de infrmación relevante en el cntext del análisis ntlógic-funcinal En este sentid, el prcesamient de ls dats es extens y es necesari cmprender tant la génesis de ls dats cm ls algritms invlucrads en las diferentes herramientas de MD, para que ellas brinden infrmación clara e interpretable en cada una de las etapas del análisis

90

91 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD En este capítul se muestran las diferentes metdlgías desarrlladas, a ls efects de prprcinar herramientas de MD que permitan un análisis más estructurad y cmplet de la infrmación bilógica existente y la visualización de nuevas relacines inferidas de la integración/cntraste sbre diseñs experimentales de mayr cmplejidad Basads en la perspectiva del KDD del capítul 2, se presenta el fluj de trabaj cmplet del análisis ntlógic-funcinal De esta manera el lectr tendrá una visión glbal, dnde pdrá particularizar la aplicación de ls cncepts intrducids en el capítul 1 Más aún, pdrá rápidamente cmprender dónde se encuentra el fc de ls aprtes realizads pr esta tesis, que abrdan prblemas cncrets presentads en ls ds capítuls anterires en las diferentes etapas del KDD En l que respecta al entendimient de dats, se prpne una estrategia mdular y extensible, que permite incrprar diferentes tecnlgías de alt rendimient (2D-DIGE, micrarrays, secuenciamient, etc), para abrdar la cnsistencia e integridad de identificadres A partir de este aprte, es psible disminuir el sesg de antación mediante la integración de diferentes bases de dats, para incrprar prteínas/genes que sn descartads desde el cmienz del análisis pr una incrrecta manipulación cm se describió en la sección 232 Pr tra parte, se prpne una estrategia para la explración multivariada y cntrl de calidad de 65

92 66 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD ls valres de expresión de las prteínas/genes utilizand la infrmación del diseñ experimental Est permite cmprbar la existencias de fuentes de variabilidad tecnlógica n tenidas en cuenta, al igual que explrar la variabilidad que intrducen ls diferentes niveles de tratamients cntrlads en el experiment En la etapa de mdelad se cdificó una herramienta que permite cnectividad al prtal DAVID (RDAVIDWebService) para realizar el análisis funcinal prpiamente dich (Fresn y Fernández, 2013b) De esta manera, el investigadr puede acceder de frma prgramática a un de ls prtales de explración funcinal de mayr impact en la cmunidad científica en ls últims añs Est psibilita realizar diferentes análisis n dispnibles para la integración y cntrastes de múltiples referencias (Fresn et al, 2012), cm también autmatizar prcess de cnsulta a DAVID sin intervención manual Ls ds aprtes anterires, permiten en su cnjunt una estrategia de evaluación (validación) sbre la rbustez del enriquecimient btenid mediante técnicas de remuestre (btstrap) Pr últim, se intrduce una interfaz dnde se pueden visualizar y explrar ls resultads de frma interactiva, incrprand la infrmación de expresión (Fresn et al, 2011) De esta manera, el investigadr puede extraer mayr infrmación de ls reprtes y fcalizar su atención en la explración bilógica, frente a l tedis que resulta este tip de explración en la actualidad 31 Fluj de trabaj El prcesamient de ls dats en el cntext del análisis ntlógic-funcinal es extens, aún baj un marc de trabajrdenad cm el KDD En este sentid, es necesari cmprender tant la génesis de ls dats, al igual que ls algritms de MD invlucrads en cada un de las etapas cm se muestra en las figuras 31 y 32 Cm se presentó en la sección 23, en la etapa de entendimient de dats se btienen ls valres de expresión de prteínas genes (figura 31), dependiend de la platafrma tecnlógica utilizada A ests dats se le adicina la infrmación de antación btenida de la identificación de las prteínas (2D-DIGE) la prvista pr el fabricante (micrarregls) En la sección 232 se presentarn ls diferentes incnvenientes relacinads a la cnsistencia e integridad de antación en l que respecta

93 Creación de un cnjunt de dats Cnsistencia e integridad de inf Entendimient de dats 31 Fluj de trabaj 67 Aprtes Prteómica Ómica Genómica 2D-DIGE Micrarregls Valres de expresión Cnversión/ actualización de IDs NCBI Antación fabricante R e-utiles Prtein Bicnductr EntreZ Filtrad de dats Nrmalización Reducción, pryección, integración de dats Antes Antación Calidad Selección de prteínas/genes Mdel lineal u tra alternativa Integración del perfil de expresión de prteínas/genes Prt /genes candidats Prt /genes referencia Cntrl, Principal _at, _a_at Después A + B + + E ANOVA-PCA/PLS (lmdme) Figura 31: Diagrama de fluj de las diferentes etapas del entendimient de dats invlucradas en el análisis ntlógic-funcinal según se describe en detalle en el capítul 2 Adicinalmente, se incrpran las diferentes cntribucines realizadas a l larg del desarrll de dctrad

94 68 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD a la infrmación de ls IDs (estabilidad, versines, trazabilidad, etc) Justamente, el descncimient de ls anterires y la falta de accines crrectivas, impacta negativamente en el prpi prces de MD sbre la búsqueda de patrnes En este sentid, el análisis presenta un sesg dad que es impsible extraer patrnes sbre dats que se miten a priri, pr una exclusión de prteínas/genes que n fuern directamente recncids pr la herramienta biinfrmática utilizada Nbstante, estas prteínas/genes pueden ser incluidas en el análisis siempre y cuand se acceda a la infrmación que se encuentra dispnible en trs repsitris de antación Este es el primer desafí que se abrdó en esta tesis, dnde se pririzó indagar en frma autmática la cnversión y actualización de ls IDs Para ell, se cdificarn diferentes móduls dependientes de la tecnlgía en lenguaje R (R Cre Team, 2013), dnde se cnecta de frma lcal y prgramática a ls paquetes de antación dispnibles en el repsitri de Bicnductr (Gentleman et al, 2005) En cas de n ser exitsa la cnversión/actualización, se accede a las bases de dats del NCBI cm Prtein y EntreZ, entre tras (Magltt et al, 2011), mediante la interfaz de e-utiles (Natinal Center fr Bitechnlgy Infrmatin, 2010) De esta manera, el investigadr puede tener trazabilidad y cncer el estad actual de cada prteína/gen, accediend a infrmación adicinal (prteínas/genes en el recuadr gris de la figura 31), que en cas cntrari se excluye en el análisis, cn la cnsecuente pérdida de dats bilógics ptencialmente útiles Una vez finalizada la etapa de cnsistencia e integridad de identificadres, se cuenta cn una tabla cn dats de expresión y antación A esta tabla se le aplican diverss filtrs de antación y calidad de señal cm se presentó en la sección 233 Sin embarg, ls abrdajes clásics n cnsideran la naturaleza multivariada del diseñ experimental, razón pr la cual se implementó una metdlgía (dispnible en la librería lmdme, Fresn et al (2014); Fresn y Fernández (2013a)) para disgregar las fuentes de variabilidad de ls diferentes factres mediante una descmpsición ANOVA a través de mdels lineales (sección 234) De esta manera, la matriz de expresión puede ser interpretada cm la suma de la cntribución de ls diferentes factres, esquematizadas en ls aprtes de la figura 31 pr las matrices A, B,, E Sbre estas matrices se puede realizar un análisis de cmpnentes principales (PCA), cncid cm ASCA/APCA (De Haan et al (2007) y Smilde et al (2005)),

95 31 Fluj de trabaj 69 regresión de mínims cuadrads parciales (PLS, Shawe-Taylr y Cristianini (2004)), la cual es nvedsa en este tip de análisis de descmpsición ANOVA Así, es psible explrar de frma multivariada la existencia de patrnes de crrelación existentes en ls dats que puedan deberse a efects n esperads, de manera de evaluar la calidad del experiment buscar patrnes de prteínas/genes relacinads al diseñ experimental plantead, mediante gráfics cncid cm biplts (Peña, 2002) Seguidamente debe siempre estudiarse la necesidad de nrmalizar la matriz de valres de expresión, dad que es cmún que la misma se vea afectada pr variabilidad técnica Tant para reducir dichas fuentes, cm para cumplir cn ls supuests bilógics deberá aplicarse un prces de nrmalización cm se describió en la sección 233 Esta transfrmación también es necesaria para la etapa de reducción, pryección e integración de dats, en especial para seleccinar prteínas/genes candidatas mediante mdels lineales u tra alternativa de las prpuestas en la sección 234 Lueg, se puede explrar/analizar ls perfiles de expresión mediante mapas de calr, para cmprbar si existe un agrupamient dada la selección de prteínas/genes realizada Así, la salida del entendimient de dats culmina en ds listas de prteínas/genes: una cn ls candidats y tra de referencia, que sn necesaris para el análisis de enriquecimient funcinal, cm se describió en la sección 12 En la sección izquierda de la figura 32 se presenta el fluj que hasta el desarrll de esta tesis era habitual de aplicar En la etapa de mdelad, se utiliza la infrmación funcinal cntenida en las ntlgías de interés cm pr ejempl GO y KEGG (sección 11), para realizar una análisis del tip SEA cm se describió en la sección 121, utilizand las ds listas btenidas cm salida del entendimient de dats Dependiend de la/s herramienta/s utilizada/s, se debe realizar un prcesamient cn intervención del usuari, usualmente a través de un prtal web (sección 13), bteniend cm salida la ttalidad de categrías ntlógicas baj análisis Estas categrías sn lueg evaluadas cn algún métd de crrección pr cmparación múltiple (eg FDR) para la selección de términs enriquecids, cm se describió en la sección 212 Ests resultads sn presentads mediante alguna de las psibilidades de reprtes, dependiend de la herramienta utilizada: tablas páginas HTML, imágenes prediseñadas (eg grafs de GO) Así, el investigadr puede explrar

96 delad Mdelad Bstrap Evaluación Reprte 70 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD e indagar sbre las relacines inferidas prduct del experiment, cn las limitacines ya mencinadas en la sección 135 cm pr ejempl: la extensión del reprte, duplicación de infrmación, impsibilidad de integración de dats de expresión resultads funcinales de trs experiments, etc prt/genes candidats Set Enrichment Analysis (SEA) prt/genes referencia Aprtes Cnectividad cn DAVID (RDAVIDWebService) R Web RDAVID DAVID Service WebService Categrías ntlógicas Cntraste de múltiples referencias (MRCM) False Discvery Rate (FDR) DAVID DAVID DAVID R Categrías ntlógicas FM CC PB Tablas páginas HTML = = = IDs/evidencia Grafs de GO Imágenes prediseñadas Reprtes interactivs (Cntraste Ontlógic) Figura 32: Diagrama de fluj de las diferentes etapas del KDD dnde se hace énfasis en el mdelad, evaluación y reprtes, invlucradas en el análisis ntlógicfuncinal según se describe en detalle en el capítul 2 Adicinalmente, se incrpran las diferentes cntribucines realizadas a l larg del desarrll de dctrad Frente a ls diferentes incnvenientes presentads en ls capítuls 1 y 2, en la sección derecha de la figura 32 se muestran las mejras prpuestas en esta tesis para facilitar el análisis ntlógic-funcinal Mediante ls desarrlls de esta tesis,

97 31 Fluj de trabaj 71 la etapa de mdelad se puede realizar de frma autmática a través de la librería RDAVIDWebService (Fresn y Fernández (2013b,c)) Ella tiene implementad un módul que permite cnectividad al prtal DAVID, ncifcrfgv/, a través de la interfaz de servicis web que ésta prvee (DWS, Jia et al (2012)) Est permite btener resultads de tip SEA/MEA de frma prgramática desde el lenguaje R Pr tra parte, las mismas visualizacines dispnibles desde la interfaz web de DAVID, están ahra tdas dispnibles en R Estas visualizacines n sn prvistas pr la interfaz DWS que prprcina DAVID (sección 135) Adicinalmente RDAVIDWebService permite generar grafs de enriquecimient de GO incrprand funcinalidades de diferentes librerías de Bicnductr (Gentleman et al, 2005), que n están dispnible en el siti web de DAVID De esta manera, es psible cntextualizar ls resultads utilizand la estructura de GO para su explración, a ls efects de tener una rápida visión funcinal de ls resultads experimentales Otra característica distintiva de RDAVIDWebService, es que permite incrprar resultads btenids desde el prtal web DAVID, es decir, inclus de aquells almacenads en análisis anterires Esta facilidad permite trabajar sin cnectividad a internet, l que es muy útil cuand es necesari reanalizar ls dats, al igual que cuand se trabaja en clabración entre distints grups de investigación que acceden a DAVID pr cualquier medi dispnible, para btener las diversas visualizacines de ls resultads que la librería brinda Una vez finalizada la etapa de mdelad, se cntinúa cn la etapa de evaluación del cncimient adquirid Para dich fin, en esta tesis se implementó la metdlgía de cntraste de múltiples referencias (MRCM, Fresn et al (2012)) Mediante la utilización de RDAVIDWebService es psible implementar una estrategia de validación de términs enriquecids mediante remuestre btstrap (sección 25) sbre la lista de referencia Ésta n sería psible sin RDAVIDWebService ya que de tra manera debería de realizarse manualmente y, dad que la metdlgía requiere al mens 100 más remuestres, se trna una tarea tedisa Esta validación permite btener una medida de ptencia estadística sbre la rbustez de ls términs enriquecids frente a la referencia utilizada (sección 122) Es decir, a partir del remuestrebtenems un valr adicinal al FDR, el cual ns permite cncer

98 72 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD la prprción de veces que se encuentra enriquecid de la ttalidad de simulacines realizadas Esta es una característica n dispnible en las herramientas funcinales actuales, la cual asiste al investigadr en la detección de categrías ntlógicas que n presenten enriquecimient espuri (pr azar), para su psterir validación bilógica En cuant a ls reprtes, se prpne cm alternativa utilizar la metdlgía desarrllada llamada Cntraste Ontlógic (Fresn et al, 2011) Esta metdlgía permite integrar resultads de diferentes análisis funcinales, pr ejempl de las simulacines btstrap del MRCM, diseñs experimentales de mayr cmplejidad inclus de resultads de diferentes análisis Ests resultads sn integrads en un únic reprte interactiv, el cual puede ser explrad utilizand el navegadr web de preferencia del investigadr, sin necesidad de cnectividad a internet A su vez, ests reprtes incluyen la infrmación de expresión de las prteínas/genes permitiend una rápida integración visual en un entrn unificad para su explración Adicinalmente, es psible cntinuar el análisis de las prteínas/genes de una categría de interés, utilizand ls hipervínculs hacia las bases de dats del NCBI Cada un de ls aprtes realizads en esta tesis, abrda aspects específics de la prblemática relacinada al análisis ntlógic-funcinal En este cntext, en las diferentes etapas del KDD se prprcina una herramienta de MD, que permite un análisis más estructurad y cmplet, brindand infrmación clara e interpretable 32 Cnsistencia e integridad de antación En esta tesis se siguió la recmendación prpuesta pr Zeeberg et al (2004), para abrdar la prblemática de cnsistencia e integridad de antación Esta cnsiste en transfrmar l más tempran psible ls dats de antación, a un tip de identificadr que sea estable y a su vez la base de dats psea trazabilidad En este sentid, se ptó pr utilizar identificadres del tip Entrez Gene ID presentad en la sección 232, dad que psee las ds características deseadas y adicinalmente es psible cncer el estad actual del ID: n cdifica, es bslet el vigente a la fecha En cas que fuere necesari, es psible acceder a la infrmación asciada a dicha prteína/gen, cm pr ejempl su símbl, alias cncids, descripción, publicacines, etc A su

99 32 Cnsistencia e integridad de antación 73 vez, este tip de ID es el utilizad en la ntlgía de GO (sección 111) y diversas herramientas biinfrmáticas cm pr ejempl DAVID y GOstats (sección 13) En este cntext, se prpne una metdlgía de cnversión/actualización de IDs basada en la btención temprana de ls identificadres equivalente de Entrez Gene ID, es decir, l más próxim a la generación de ls dats, teniend en cuenta las particularidades de cada tecnlgía de alt rendimient utilizada El resultad de dicha cnversión atraviesa un prces iterativ, dnde se utilizan diverss repsitris de antación para establecer el estad del ID En el cas de que el estad n fuere el actual, es necesari actualizar la infrmación al últim registr dispnible De esta manera, es psible cncer de frma transparente la histria de cada prteína, gen, secuencia, etc a l larg de ls diferentes móduls de antación, sin que ell implique pérdida de infrmación Ahra, el investigadr puede ptar pr diferentes abrdajes dependiend de ls resultads de cada módul: utilizar slamente aquells que se han cnvertid y actualizad cn éxit, vlver a la identificación de las prteínas/genes cuys GIs/IDs de fabricantes n han sid cnvertids, etc 2D-DIGE Prtein GI ACC UniPrt Prtein GI EntreZ ID e-utiles NCBI Prtein Fabricante R EntreZ µarregls ID Fabricante Affymetrix Agilent EntreZ ID ID Fabricante Bicnductr EntreZ ID Móduls dependientes de la tecnlgía de alt rendimient para btención temprana de EntreZ ID Móduls cnversión/actualización cmún a las diferentes tecnlgías Figura 33: Diagrama de fluj para la cnversión/actualización de antación en experiments realizads cn tecnlgía 2D-DIGE micrarregls de ADN Nte que el tip de traz de línea representa el acces a ls dats: discntinu, requiere cnectividad a internet, y cntinu representa un acces lcal

100 74 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD En la figura 33 se muestra el diagrama de fluj de trabaj implementad para las tecnlgías de alt rendimient utilizadas en esta tesis: 2D-DIGE y micrarregls de ADN (sección 231) Adicinalmente, se muestra cóm la salida de ests móduls es incrprada a través del lenguaje R (R Cre Team, 2013) para realizar las diferentes cnsultas a repsitris de antación, de manera de cnvertir/actualizar la antación 321 Módul de prteómica En el cas de geles de prteínas, 2D-DIGE (sección 231), usualmente la identificación de prteínas termina cn ID del tip PROTEIN_GI_ACCESSION (GI), cm se aprecia en la figura 33 Este tip de identificadr se encuentra dispnible en una de las bases de dats de prteínas de mayr difusión, cm es el cas de UniPrt (Apweiler et al, 2004) Este cnsrci psee un siti web en el cual se pueden realizar cnversines de identificadres de frma manual, accediend a la página wwwuniprtrg/?tab=mapping También prprcina una interfaz para acceder de frma prgramática a través de cnsultas mediante URLs (del inglés, Unifrm Resurce Lcatr), representada pr la línea de traz discntinu de la figura 33 Ests URLs sn similares a ls que se generan en la barra de dirección del explradr de internet (FireFx R, Chrme R, etc), cuand el usuari hace clicks en la página web La ventaja de la interfaz prgramática es que la infrmación se btiene utilizand el mism prtcl y puert que el usuari utilizaría para navegar pr internet Es decir, n requiere ninguna cnfiguración de firewall y/ prxies adicinal para su utilización A su vez, ls resultads de la cnsulta pueden ser depurads creand el URL crrespndiente, desde la pestaña de cnversión del siti web de Uniprt En esta tesis se desarrlló un cnjunt de rutinas escritas en lenguaje R (R Cre Team, 2013), que utilizan la librería RCurl (Lang, 2013a) para acceder de frma prgramática a la interfaz de UniPrt Estas rutinas se encuentran dispnibles en el anex digital uniprtr de la sección A11 Para utilizarl, es necesari cargar en memria el módul cn el cmand surce >surce("uniprtr") >names(uniprt) [1] "Tl" "Base" "Frmat" "Clumns" "Cmpress" "Mapping" "Query"

101 32 Cnsistencia e integridad de antación 75 Este módul cuenta cn el bjet uniprt, que psee diferentes atributs cm pr ejempl: cuál es la dirección web Base de la interfaz (wwwuniprtrg), qué herramientas (Tl) están dispnibles (antación, cnsulta, cnvertidr), cual es el frmat (Frmat) de ls reprtes (txt, tab, etc), las clumnas (Clumns) seleccinadas pr defect, etc A través del bjet uniprt, es psible generar cnsultas desde R para luegbtener ls resultads de una búsqueda (Query) de la cnversión de IDs (Mapping) Pr ejempl, es psible definir ds prtein_gi_ids cm " " y "29462", para cnvertirls a identificadres del tip UniPrtKB AC, cnsultand al bjet uniprt$mapping$mapper: >prtein_gi_ids<-c(" ", "29462") >ut<-uniprt$mapping$mapper(ids=prtein_gi_ids, frm=uniprt$mapping$frm["gi number*"], t=uniprt$mapping$t["uniprtkb AC"]) >ut$tab Frm T B2ZZ P09486 La salida de la cnsulta se almacena en el bjetut, dnde el text separad pr tabulacines de la cnversión se encuentra en el camp $tab En esta cnsulta fue psible cnvertir ls ds identificadres, slicitads en la clumna Frm, bteniend la respuesta en la clumna T Adicinalmente, es psible acceder a la infrmación de antación asciada a ls IDs de las prteínas cnvertidas en las bases de cncimient de Uniprt curadas (Swiss-Prt) y n curadas (TrEMBL), utilizand ls camps establecids pr defect: Entry, Entry name, Status, Prtein names, Gene names, Organism y Length En este ejempl en particular se btiene la siguiente tabla: > rbind(ut$uniprtreviewedyes, ut$uniprtreviewedn) Entry Entry name Status 1 P09486 SPRC_HUMAN reviewed 2 B2ZZ90 B2ZZ90_HUMAN unreviewed

102 76 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD Prtein names 1 Secreted prtein acidic and rich in cysteine 2 Acetyl-Cenzyme A carbxylase alpha Gene names Organism Length 1 SPARC ON Hm sapiens (Human) ACACA hcg_30204 Hm sapiens (Human) 2346 A su vez, este tip de salida también puede ser ajustada (frmat de salida, camps del reprte, etc) dependiend de las necesidades del usuari, cm se describe en la ayuda del anex digital A11 Una vez determinada la identidad de ls GI IDs, en términs de identificadres de Uniprt, es psible realizar una nueva cnversión per ahra utilizand ls últims cm punt de partida, a ls efects de btener ls Entrez Gene (GeneID) buscads pr la metdlgía prpuesta, cm se muestra a cntinuación: >ut<-uniprt$mapping$mapper(ids=ut$tab$t, frm=uniprt$mapping$frm["uniprtkb AC/ID"], t=uniprt$mapping$t["entrez Gene (GeneID)"]) >ut$tab Frm T 1 B2ZZ P En este ejempl la cnversión utilizand la herramienta prpuesta fue exitsa, cm se aprecia en la salida de ut$tab Baj este esquema de trabaj, es psible cnvertir la ttalidad de prteínas candidatas de frma prgramática, evitand que el investigadr acceda de frma manual, maximizand así el tiemp de prcesamient e infrmación de antación dispnible En el cas que n se hayan cnvertid ls IDs prvists, es psible realizar una cnsulta (Query) utilizand diferentes criteris de búsqueda dependiend de la infrmación que se tenga dispnible: símbl, descripción, etc Cntinuand cn el ejempl anterir, en el cas de dispner del símbl SPARC, y cnciend que se está trabajand cn prteínas humanas, cn ayuda de la interfaz web, el usuari puede

103 32 Cnsistencia e integridad de antación 77 explrar las diferentes alternativas de búsqueda avanzada que cumplan sus necesidades En el ejempl en cuestión puede seleccinar ls camps gene y rganism para especificar la siguiente cnsulta: gene:sparc AND rganism:"hm sapiens [9606]" Esta cnsulta es cnvertida autmáticamente en frmat cmpatible de URL, es decir, transfrma ls caracteres especiales: ds punts pr %3A, espacis pr + y cmillas dbles pr %22, cm se muestra a cntinuación ($Query): >query<-"gene:sparc AND rganism:\"hm sapiens [9606]\"" >uniprt$query(query=query) $Query "query=gene%3asparc+and+rganism%3a%22hm+sapiens+[9606]%22" $Data Entry Entry name Gene names Status 1 P09486 SPRC_HUMAN SPARC ON reviewed 2 D3DQH8 D3DQH8_HUMAN SPARC hcg_39149 unreviewed 3 E5RK62 E5RK62_HUMAN SPARC unreviewed 4 F5GY03 F5GY03_HUMAN SPARC unreviewed 5 E5RJA5 E5RJA5_HUMAN SPARC unreviewed 6 F5H4E2 F5H4E2_HUMAN SPARC unreviewed 7 Q6QE20 Q6QE20_HUMAN SPARC unreviewed Prtein names 1 Secreted prtein acidic and rich in cysteine 2 Secreted prtein, acidic, cysteine-rich (Ostenectin), isfrm CRA_a 3 SPARC (Fragment) 4 SPARC (Fragment) 5 SPARC (Fragment) 6 SPARC (Fragment) 7 Cysteine-rich prtein (Fragment) dnde se aprecia que en la primera fila de $Data se encuentra la infrmación de la misma prteína btenida cn anteriridad Así, el investigadr puede persnalizar la cnsulta dependiend de la precedencia de sus dats y reducir ls resultads psibles Si fuera el cas, es psible especificar valres en camps adicinales cm pr ejempl elegir sól las prteínas curadas (Status=reviewed)

104 78 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD Las funcinalidades de Mapper y Query implementadas en uniprtr, permiten acceder a la interfaz de Uniprt y realizar diferentes peracines para la cnversión y cnsulta de prteínas, dependiend de ls dats que el usuari psea Este módul facilita la cnsulta prgramática a la interfaz web de Uniprt, autmatizand las diferentes peracines que pueda realizar el investigadr La salida de este módul cnsiste en una tabla de antación cn ls EntreZ Gene ID y en una cn Prtein GI En el mejr de ls cass, tds ls identificadres fuern exitsamente cnvertids 322 Módul de micrarregls En el cas de micrarregls de ADN (figura 33), el punt de partida sn ls IDs del fabricante para cada platafrma utilizada (Affymetrix R, Agilent R, etc) Utilizand R es psible acceder de frma lcal, a ls diferentes archivs de antación prvist pr ls fabricantes en sus respectivs sitis web, y btener su equivalente EntreZ Gene ID A diferencia del módul de geles de prteínas (2D-DIGE), la cnversión es más directa dad que se accede a un cnjunt de camps y archivs definids dnde se cnce la secuencia de la snda, cm se describió en la sección 231 En el cas de utilizar la platafrma de Affymetrix R para el chip HG-U133A 20, es psible encntrar el crrespndiente archiv de antación siguiend el enlace www affymetrixcm/auth/analysis/dwnlads/na33/ivt/hg-u133a_2na33annt csvzip Pr l general, dentr de este archiv se cntiene un de resumen (READ- MEtxt), dnde se encuentran ls descriptres de ls camps y el segund es la antación prpiamente dicha, usualmente en frmat de camps separads pr cma (HG-U133A_2na33anntcsv) Este últim, pr l general psee un pequeñ encabezad de una cantidad de líneas determinad, dnde se especifica la fecha de las diferentes bases de dats utilizadas cm pr ejempl para EntreZ Gene ID Estas líneas deben ser ignradas (skip=25), a ls efects de una crrecta lectura del archiv (readcsv) cm se muestra a cntinuación: > antacin<-readcsv(file="hg-u133a_2na33anntcsv",skip=25) > dim(antacin)

105 32 Cnsistencia e integridad de antación 79 [1] > names(antacin) [1] "PrbeSetID" "GeneChipArray" [3] "SpeciesScientificName" "AnntatinDate" [5] "SequenceType" "SequenceSurce" [7] "TranscriptIDArrayDesign" "TargetDescriptin" [9] "RepresentativePublicID" "ArchivalUniGeneCluster" [11] "UniGeneID" "GenmeVersin" [13] "Alignments" "GeneTitle" [15] "GeneSymbl" "ChrmsmalLcatin" [17] "UnigeneClusterType" "Ensembl" [19] "EntrezGene" "SwissPrt" [21] "EC" "OMIM" [23] "RefSeqPrteinID" "RefSeqTranscriptID" [25] "FlyBase" "AGI" [27] "WrmBase" "MGIName" [29] "RGDName" "SGDaccessinnumber" [31] "GeneOntlgyBilgicalPrcess" "GeneOntlgyCellularCmp" [33] "GeneOntlgyMlecularFunctin" "Pathway" [35] "InterPr" "TransMembrane" [37] "QTL" "AnntatinDescriptin" [39] "AnntatinTranscriptCluster" "TranscriptAssignments" [41] "AnntatinNtes" > cnversin<-antacin[,c("prbesetid","entrezgene")] > head(cnversin) PrbeSetID EntrezGene _s_at /// _at _at _at _g_at _at 7318

106 80 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD En este ejempl, la dimensión del archiv de antación es de filas/sndas pr 41 clumnas/descriptres cm describe la salida de names(antacin) En este cntext, es psible utilizar la clumna PrbeSetID dnde se especifica el ID del fabricante y la clumna EntrezGene para btener el tip de ID requerid pr la metdlgía prpuesta De esta manera, es psible cnstruir una tabla de cnversin de identificadres, para la cual se muestra su cabecera (head(cnversin)) Nte que para la primera snda 1007_s_at, existen ds IDs antads en EntreZ ( y 780 ), ls cuales se encuentran delimitads pr el carácter /// Esta es tra particularidad que hay que tener en cuenta para el análisis funcinal, es decir, la misma snda debe manipularse cn tds ls EntreZ asciads Nbstante, las sndas terminadas en _s_at sn remvidas del análisis, cm se describió en la sección 233 Una particularidad que psee el módul de micrarregls es que depende de la infrmación de antación prvista pr cada fabricante, razón pr la cual deberá ser adaptad para cada una de las platafrmas utilizadas Así, baj el esquema de la metdlgía prpuesta, es psible cnvertir de frma autmática ls IDs, psterir a la adquisición de ls valres de expresión Cnsecuentemente, la salida de este módul es una lista de EntreZ Gene ID y tra cn ls IDs del fabricante que n han lgrad ser cnvertids, cm se muestra en la figura 33 En el mejr de ls cass, tds ls identificadres han sid exitsamente cnvertids 323 Módul de cnversión/actualización Este módul es el núcle de la metdlgía prpuesta, dad que es cmún a tdas las tecnlgías de alt rendimient y es dnde la cnversión/actualización de IDs tma lugar En este cntext, la entrada sn las listas de IDs btenids en ls móduls de prteómica y genómica (seccines 321 y 322) Las listas de IDs de entrada sn prcesadas utilizand el lenguaje R, permitiend cnversión/actualización de frma lcal y mediante cnsultas a internet cm se muestra en el panel derech de la figura 33

107 32 Cnsistencia e integridad de antación 81 Módul de acces lcal El módul de acces lcal utiliza cm estrategia de cnversión algun de ls paquetes de antación pertenecientes al repsitri Bicnductr (Gentleman et al, 2004) En el repsitri se encuentran ds grandes tips de paquetes de antación: aquells que se crrespnden cn micrarregls de fabricantes, y ls crrespndientes a cada rganism Ls paquetes de micrarregls sn específics para un chip y tienen una actualización de frma bianual Una vez que ls paquetes que sean necesaris sn instalads en R desde internet, pueden cnsultarse de ahí en adelante de frma lcal utilizand el ID del fabricante Cntinuand cn el ejempl de la sección 322, el chip HG- U133A 20 de la platafrma Affymetrix R, psee el paquete de antación llamad hgu133a2db La versión actual es la 290, y utiliza la definición de la base de dats de EntreZ de la fecha Para cmenzar la cnversión es necesari cargar la librería de la siguiente frma: > library("hgu133a2db") > shw(hgu133a2entrezid) ENTREZID map fr chip hgu133a2 (bject f class "PrbeAnnDbBimap") En este tip de librerías, la infrmación de antación se encuentran estructurada en una serie de bjets cuy nmbre respnde a la nmenclatura nmbre_libreria_xxx dnde XXX tma ls valres: ENTREZID, SYMBOL, GENENAME, etc Ests bjets sn representads cm grafs bipartits, es decir, ds agrupacines de nds (izquierds y derechs) cnectads pr arcs que permiten relacinar ls IDs del fabricante (nds izquierds) cn infrmación del tip XXX (nds derechs) Teniend esta idea en mente, es psible cnstruir una tabla de cnversión Pr ejempl, ls tres últims IDs del ejempl de la sección 322 definids en el bjet x pueden ser cnvertids siguiend el siguiente códig: > x<-c("121_at", "1255_g_at", "1294_at") > cnversin<-unlist(mget(x=x, envir=hgu133a2entrezid,ifntfund=na)) > cnversin<-dataframe(affyid=names(cnversin), EntreZ=cnversin) > rwnames(cnversin)<-1:nrw(cnversin)

108 82 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD > cnversin$symbl<-unlist(mget(x=x, envir=hgu133a2symbol, NA)) > cnversin$descriptin<-unlist(mget(x=x,envir=hgu133a2genename,na)) > cnversin AffyID EntreZ Symbl Descriptin 1 121_at 7849 PAX8 paired bx _g_at 2978 GUCA1A guanylate cyclase activatr 1A (retina) _at 7318 UBA7 ubiquitin-like mdifier activating enzyme 7 Ls valres asciads a ls IDs de x se btienen utilizand la función mget del paquete base del mtr de R Adicinalmente a esta función se le debe especificar sbre qué bjet de antación debe trabajar (envir=hgu133a2entrezid) y cuál es el valr pr defect (NA, del inglés nt available, n dispnible), en cas de que n exista un arc asciad a dich ID El resultad de esta búsqueda se puede almacenar en una estructura del tip dataframe de R, a la cual se le puede incluir clumnas cn infrmación de ls símbls (Symbl), nmbre del gen (Descriptin), etc, cm se muestra en el ejempl En el cntext de cnversión/actualización de antación de micrarregls, ls paquetes presentes en Bicnductr sn una alternativa válida para la cnversión de IDs del módul de micrarregls (sección 322) En trs cass puede ser utilizada de frma cmplementaria para btener dats ausentes en la fuente de antación del fabricante, cm pr ejempl su símbl, descripción, etc Pr tra parte, ls paquetes de antación del rganism baj estudi presentan tra alternativa para btener la infrmación de antación de un tip de ID en particular Usualmente ests paquetes sn denminads siguiend la nmenclatura rgyyzzdb, dnde YY sn ds letras que representan el rganism, y ZZ ds letras que determinan el tip de ID principal de acces En ests paquetes ls dats también se almacenan utilizand grafs bipartits, de la misma manera que en ls paquetes de micrarregls Así, para el ejempl anterir es psible utilizar la librería rghsegdb, la cual psee la infrmación de antación de humans (Hs) y utiliza cm identificadr principal ls EntreZ Gene ID (eg) De manera que es psible btener la misma infrmación de antación realizand ls cambis en ls nmbres de ls bjets crrespndientes, cm se muestra a cntinuación:

109 32 Cnsistencia e integridad de antación 83 > library("rghsegdb") > x<-c("7849", "2978", "7318") > antacin<-unlist(mget(x=x, envir=rghsegsymbol, NA)) > antacin<-dataframe(entrezid=names(antacin),symbl=antacin) > rwnames(antacin)<-1:nrw(antacin) > antacin$descriptin<-unlist(mget(x=x,envir=rghseggenename,na)) > antacin EntreZID Symbl Descriptin PAX8 paired bx GUCA1A guanylate cyclase activatr 1A (retina) UBA7 ubiquitin-like mdifier activating enzyme 7 Utilizand ls diferentes paquetes de antación de rganisms, el usuari se independiza de la tecnlgía de alt rendimient utilizada (2D-DIGE, micrarregls, etc), bteniend así ls símbls, descripción, etc asciads al ID principal de frma lcal Esta metdlgía junt cn ls paquetes de antación de ls fabricantes de micrarregls, presentan una alternativa cmplementaria a ls móduls de cnversión específics de cada tecnlgía (seccines 321 y 322) En este cntext, la manipulación de infrmación de antación se puede realizar de frma prgramática y lcal, mediante las diferentes alternativas que frece el repsitri de Bicnductr Justamente, est evita que el usuari deba instalar y mantener al día (actualización periódica) su prpi repsitri lcal de antación Inclus en el cas que el rganism n se encuentre antad, el usuari puede seguir ls lineamients descripts en Bicnductr (wwwbicnductrrg) para cnstruir el paquete crrespndiente, y subirl al repsitri para que trs investigadres hagan us de él La metdlgía prpuesta, ha mstrad ser de gran utilidad en diferentes experiments (Fresn et al (2012), Lreti et al (2013), Denninghff et al (2014)) Sin embarg, puede que aún cn ella n sea psible cnvertir tds ls IDs Más aún, cm se describió en la sección 232, es cmún que la infrmación asciada a IDs se encuentre desactualizada Est se puede atribuir a que ls prpis archivs de antación de ls fabricantes ls paquetes de Bicnductr sn viejs, desde añs a meses respectivamente De manera que es imprescindible btener el estad de cada ID y actualizar su valr en cas de que sea necesari, mediante una cnsulta

110 84 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD a repsitris de internet, dnde sea psible acceder a la última infrmación vigente a la fecha del análisis Módul de acces a internet Este módul permite acceder, mediante una cnexión a internet, a un de ls repsitris de mayr impact en la cmunidad científica, el NCBI (de las siglas en inglés, Natinal Center fr Bitechnlgy Infrmatin, Wheeler et al (2007)) La gran ventaja de este repsitri es que representa un punt de acces centralizad a diferentes bases de dats de genes (EntreZ, UniGene, etc), prteínas (Nucletide, EST, etc), publicacines (PubMed, NLM Catalg, etc), etc Adicinalmente, la actualización de las diferentes bases de dats se realiza de frma transparente para el usuari Es decir, siempre se accede a la última versión dispnible, sin que ell implique una instalación lcal de las diferentes bases de dats de antación El siti web de NCBI, wwwncbinlmnihgv, psee una interfaz de servicis web para su acces de frma prgramática llamad E-utiles (Natinal Center fr Bitechnlgy Infrmatin, 2010) Este servici web permite realizar prácticamente, tdas las accines que puede realizar un usuari desde la página wwwncbinlmnih gv/sites/gquery?itl=tlbar, las cuales pueden agruparse en tres categrías: ELink: permite vincular/cnvertir ls IDs presentes en una base de dats a tra ESummary: permite btener la infrmación de resumen (nmbre, símbl, estad actual, etc) de ls IDs slicitads, para una base de dats en particular ESearch: permite realizar una búsqueda, utilizand diferentes camps (nmbre, símbls, rganism, etc) sbre las diferentes bases de dats, dependiend de la infrmación que psea el usuari Así, a través del acces prgramátic a ELink es psible cnvertir ls IDs entre las diferentes bases de dats de frma n supervisada pr el usuari, bteniend el resultad del emparejamient en cuestión de segunds, sin necesidad de hacer decenas de clicks en el siti web para cada ID que se desea cnvertir Además, ESummary permite btener diferentes camps de antación específics para cada ID (nmbre,

111 32 Cnsistencia e integridad de antación 85 símbl, etc) y el estad actual de ls registrs ( vigente, bslet y n cdifica ) Esta es una característica distintiva frente a trs prtales centralizads, dad que permite cncer el estad real de cada ID y utilizar la trazabilidad que ésta frece, para recrrer el histrial de ls diferentes IDs, a ls efects de btener la última versión de ells Pr tra parte, es psible realizar una búsqueda/cnsulta mediante ESearch sbre diferentes bases de dats de antación, de manera similar a la realizada en Uniprt a través de uniprt$query (sección 321) En esta tesis se desarrlló un cnjunt de rutinas escritas en lenguaje R (R Cre Team, 2013), que utilizan la librería RCurl (Lang, 2013a) para acceder de frma prgramática a la interfaz de E-utiles Las cnsultas se realizan utilizand algunas de las tres funcinalidades dispnibles, es decir, ELink, ESummary y ESearch Nbstante, ls resultads de cada una de estas funcines se encuentran en frmat XML (de las siglas en inglés, extensible Markup Language), ls cuales sn adaptads utilizand la librería XML (Lang, 2013b), para su psterir utilización en R Las diferentes rutinas desarrlladas se encuentran dispnibles en el anex digital eutilesr de la sección A12 y requieren de una cuenta académica slicitada a eutilities@ncbinlmnihgv Para utilizar el módul de eutiles, es necesari cargarl en memria cn el cmand surce Pr ejempl, es psible invcar a ELink de una manera similar a la especificada en el módul de prteómica de la sección 321, para la cnversión de identificadres cm se muestra a cntinuación: > surce("eutilesr") > <-"user@institutinrg" > sal<-elink(dbfrm="prtein", db="gene", id="29462", = ) > dataframe(sal$data) prteinid dbfrm dbt geneid prtein gene 6678 El id=29462 de la base de dats PROTEIN_GI_ACCESSION especificada cm fuente de rigen (dbfrm="prtein"), es cnvertid a un ID del tip EntreZ Gene ID especificad pr dbfrm="genes" La salida de la cnversión se almacena en el bjet sal$data, el cual puede trasfrmarse en un bjet del tip dataframe

112 86 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD para su fácil manipulación En este ejempl, la cnversión fue realizada cn éxit bteniend el geneid=6678 El usuari también puede utilizar ESummary para btener la infrmación de antación para un ID en particular Nbstante, es recmendable emplear un mecanism del tip HTTP POST cuand la cnsulta se realiza para una serie de ids, de manera que tant la lista de ids cm la respuesta se envíen utilizand el cuerp del HTML, cm se muestra en el ejempl de invcación a ESummaryHttpPst: > ids<-c("6678", "4444", "6963", "414100", "433190", "74103","70458") > ut<-esummaryhttppst(id=ids, db="gene", = ) > names(ut$data) [1] "GeneID" "Name" "Descriptin" [4] "Orgname" "Status" "CurrentID" [7] "Chrmsme" "GeneticSurce" "MapLcatin" [10] "OtherAliases" "OtherDesignatins" "NmenclatureSymbl" [13] "NmenclatureName" "NmenclatureStatus" "TaxID" [16] "Mim" "GenmicInf" "GeneWeight" [19] "Summary" "ChrSrt" "ChrStart" La infrmación de antación se almacena en el bjetut$data, que cntiene 21 camps entre ls cuales es psible nmbrar: el GeneID, el símbl (Name) y sus alias (OtherAliases), el nmbre (Descriptin), el estad actual (Status) y el ID vigente (CurrentID), entre trs Pr simplicidad, se muestran a cntinuación sól cinc clumnas para la cnsulta realizada: > ut$data[, c("geneid", "Name", "Status", "CurrentID", "Descriptin")] GeneID Name Status CurrentID SPARC MSK TRBV/OR D830029A09Rik LOC Nebl N02Rik 0 0

113 32 Cnsistencia e integridad de antación 87 Descriptin 1 secreted prtein, acidic, cysteine-rich (stenectin) 2 antigen identified by mnclnal antibdy A123/A127 3 T cell receptr beta variable rphans n chrmsme 9 4 RIKEN cdna D830029A09 gene 5 similar t RIKEN cdna N02 6 nebulette 7 RIKEN cdna N02 gene En la primera fila del bjetut$data, es psible ver la infrmación de antación del gen GeneID=6678 cnvertid previamente cn ELink L nveds en esta salida es la clumna Status En esta clumna se cdifica el estad de ls genes en: 0) si es el vigente, 1) si es bslet y 2) si n cdifica para ninguna prteína En este ejempl, el ID crrespndiente a la primera fila se encuentra vigente, mientras que ls ds siguientes han sids remvids dad que n cdifican Pr tra parte, el cuart y quint ID ( y ) sn bslets (Status=1) pr l que en la clumna CurrentID se presentan ls IDs que ls remplazan (74103 y respectivamente) Pr últim, en las ds filas siguientes se muestra que dichs registrs sn de hech ls vigentes para ls respectivs genes De manera que es psible utilizar las clumnas de Status y CurrentID de frma iterativa y prgramática, para recrrer el histrial de ls genes para btener la infrmación del últim estad cncid Así, a través de la metdlgía prpuesta, es psible abrdar la prblemática de cnsistencia e integridad de IDs descripta en la sección 232 Más aún, el usuari tiene cncimient adicinal del estad de ls identificadres, infrmación n prvista pr tras herramientas de cnversión, situación que le permite tener trazabilidad de las prteínas/genes de interés en td mment Pr tra parte, también es psible realizar una búsqueda mediante ESearch de la misma manera que se realizó para el cas de Uniprt en el módul de prteómica (sección 321), cn las crrespndientes mdificacines cm se muestra a cntinuación: > query<-"sparc[gene] AND \"Hm sapiens\"[organism]" > sal<- ESearch(ref="Sparc",db="gene",term=query) > sal

114 88 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD $Query "SPARC[gene]+AND+%22Hm+sapiens%22[Organism]" $Data ref Cunt Id "Sparc" "1" "6678" dnde la búsqueda (term=query) realizada cn ESearch, debe ser especificada sbre una base de dats específica (db="gene") Adicinalmente, se incluye una referencia pcinal (ref="sparc"), la cual es de utilidad cuand se realiza una búsqueda de más de una prteína/gen de frma simultánea La salida de la cnsulta se almacena en el bjet sal, que es una lista de ds elements El primer element, $Query, psee la cnversión de query en frmat URL cmpatible cm se describió en la sección 321 El segund element de sal, $Data, almacena el resultad de la cnsulta prpiamente dich En ella se aprecia que existe una sla cincidencia (Cunt=1) para la búsqueda realizada, la cual apunta al Id=6678 Este ID efectivamente cincide cn el criteri de búsqueda mstrad en la primera fila de ls resultads de ESummaryHttpPst y ls crrespndientes al módul de prteómica de la sección Cmentaris finales Cntar cn una metdlgía de trabaj que permita indagar en frma autmática la cnversión y estad actual de ls ID, cm la prpuesta en esta tesis, es de gran ayuda para la cmunidad científica Est impacta psitivamente en el prpi prces de MD sbre la búsqueda de patrnes y en las herramientas que se puedan utilizar sbre ésts para extraer cncimient bilógic Cnsecuentemente, el investigadr puede acceder a tda la infrmación dispnible De esta manera se cuenta cn trazabilidad y se cnce el estad actual de cada prteína/gen, permitiend adptar diferentes estrategias para cntinuar el análisis (de frma independiente) para aquells IDs que n puedan cntinuar el fluj de trabaj habitual Pr ejempl, permite utilizar un paquete de antación de micrarregls para ls IDs del fabricante incmplets en su prpi archiv de antación La gran ventaja es que ahra se cnce de frma fehaciente hasta qué punt del fluj de trabaj han sid utilizads, mientras que las herramientas actualmente dispnibles n reprtan la pérdida de infrmación

115 33 Explración multivariada y cntrl de calidad 89 La limitación que psee esta metdlgía se restringe a la antación que se encuentre dispnible Ésta a su vez n se encuentra a carg del usuari, dad que se accede a la fuente más actual dispnible en internet mediante E-utiles Esta particularidad es una enrme ventaja, ya que evita que el usuari tenga la respnsabilidad de bajar cients de gigabytes de infrmación de bases de dats e instalar mtres de bases de dats lcales Si aún así n fuese psible encntrar el Entrez Gene ID, es decir, falle la cnversión/actualización, es psible recuperar la antación Est últim n esta implementad en esta tesis, per si fuese necesari el usuari puede utilizar la infrmación de secuencia de rigen (prteínas u lignucleótids) y realizar una nueva identificación en tándem desde blastncbinlmnihgv/blastcgi, a través de un alineamient de secuencias cn BLAST (McGinnis y Madden, 2004) 33 Explración multivariada y cntrl de calidad Una vez finalizada la etapa de cnsistencia e integridad de identificadres, se cuenta cn una tabla cn dats de expresión y antación A esta tabla se le aplican diverss filtrs de antación y calidad de señal cm se presentó en la sección 233 Sin embarg, ls abrdajes clásics n cnsideran que ls experiments de las diferentes ciencias ómicas cm pr ejempl la prteómica, transcriptómica, metablómica genómica, tienen una naturaleza multivariada Justamente, las tecnlgías mdernas ns permiten explrar una gran parte del prtema inclus td el genma, en dnde cada prteína/gen es en esencia una variable explrada, para dilucidar su relación cn algún resultad Ests experiments cada vez están incluyend un númer mayr de factres experimentales en el diseñ (tiemp, dsis, etc), inclus infrmación sujet específica tales cm la edad, sex, linaje, etc En este cntext, la búsqueda de patrnes relacinads cn el diseñ experimental, desde una perspectiva de la MD, debe realizarse mediante algún enfque multivariad Ls enfques más cmunes sn a través de análisis de cmpnentes principales (PCA, Abdi y Williams (2010)) y regresión de mínims cuadrads parciales (PLS, Geladi y Kwalski (1986)) Sin embarg, es recncid en la cmunidad científica que trabajar directamente cn la matriz de expresión, puede enmascarar infrmación de interés Cnsecuentemente, la descmpsición basada en análisis

116 90 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD de la varianza (ANOVA, Walple et al (1999)), se está vlviend ppular para dividir las diferentes fuentes de variabilidad, antes de aplicar tales enfques multivariads Trabajs seminales en genómica fuern ls de De Haan et al (2007) en ANOVA-PCA (APCA) y Smilde et al (2005) en mdels ANOVA-SCA (del inglés, ANOVA-simultaneus cmpnent analysis ASCA) Sin embarg, la implementación de APCA en lenguaje R sól está dispnible para dats de espectrs (Spectra) en el paquete ChemSpec (Hansn, 2012) En cuant a ASCA, n existe paquete en R para este mdel y sól se encuentra dispnible cm una clección de funcines a partir de la traducción del códig de MATLAB R de Nueda et al (2007) Más aún, ASCA sól acepta hasta tres matrices de diseñ binarias, l que limita su us y hace que sea difícil su aplicación Pr tra parte, las estimacines de ceficientes n frecen inferencia estadística sbre ells, dad que se basan en el cálcul de medias utilizand las matrices de diseñ En esta tesis se desarrlló un paquete R llamad lmdme (del inglés linear mdel decmpsitin fr designed multivariate experiments, Fresn y Fernández (2013a)), para la descmpsición ANOVA basada en mdels lineales (sección 234) Una amplia gama de mdels pueden ser especificads, de acuerd cn el diseñ experimental, mediante una interfaz flexible para especificar la frmula crrespndiente Debid a que ls ceficientes se estiman pr medi de máxima versimilitud (Graybill, 2000), la significación estadística se frece de frma natural A través de la metdlgía prpuesta, es psible explrar de frma multivariada la existencia de patrnes de crrelación existentes en ls dats que puedan deberse a efects n esperads, de manera de evaluar la calidad del experiment buscar patrnes de prteínas/genes relacinads al diseñ experimental plantead, mediante un análisis de PCA y/ PLS sbre ls resultads de la descmpsición ANOVA Para ell, se prvee de diferentes representacines gráficas cm biplts, screeplts, etc (Peña, 2002) En las siguientes seccines se presenta el mdel, al igual que su aplicación para la explración multivariada de patrnes y de evaluación de cntrl de calidad en experiments basads en tecnlgía de micrarregls Nbstante, esta implementación es adecuada para el análisis sbre las matrices de expresión btenidas en experiments de alt rendimient, tales cm geles 2D-DIGE, RNA-seq, etc

117 33 Explración multivariada y cntrl de calidad El mdel Una explicación detallada de la descmpsición ANOVA y análisis multivariad puede encntrarse en Smilde et al (2005) y Zwanenburg et al (2011) Sin pérdida de generalidad, se cnsidera un experiment de micrarregls dnde la expresión de ls (G 1, G 2,, G g ) genes es medida, baj un diseñ experimental cn ds factres principales: A, cn a niveles (A 1, A 2,, A i,, A a ) y B, cn b niveles (B 1, B 2,, B j,, B b ), cn R 1, R 2,, R k,, R r replicas para cada cmbinación de niveles A B Lueg de preprcesar ls dats cm se describe en el capítul 2 y sección 31, cada micrarregl/chip puede ser representad pr un vectr clumna de medicines de niveles de expresión de dimensión g 1 Cnsecuentemente, la ttalidad de ls dats del experiment puede ser expresad en una matriz de expresión (X) de dimensión g n, dnde n = a b r es la cantidad de micrarregls Baj este esquema de dats, en cada fila de la matriz X se encuentra la expresión de un únic gen a través de las diferentes cmbinacines de tratamients (A i B j ), cm se ilustra en la figura 34 Independientemente de la generación de ls dats, el mdel ANOVA aplicad a cada gen (fila) de X puede ser expresad cm (31): x ijk = µ + α i + β j + α i β j + ε ijk (31) dnde x ijk es la medición de expresión para algún gen, baj la cmbinación ij de ls factres A y B de la k-ésima réplica; µ es la media glbal; α, β y α β sn ls efects principales y de interacción respectivamente; siend el términ de errr ε ijk N(0, σ 2 ) A su vez, (31) también puede ser expresada de frma matricial para tds ls genes según (32): X = X µ + X α + X β + X αβ + E = X l + E (32) l {µ,α,β,αβ} dnde X l, E sn matrices de dimensión g n y cntienen las medias crrespndientes al l-ésim términ y el errr aleatri respectivamente Sin embarg, en el cntext de mdels lineales, X l puede ser reescrita cm una cmbinación lineal mediante la

118 92 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD Factr A i B j Treatments n=abr Micrarrays Level A a B 2 A 1 B 2 A a B 1 R A 1 B 1 1 R r G 1 G g A 1 B b A a B b G 1 Genes A A A A 1 B 1 a B b Replicates G g R 1 R r 1 B 1 a B b 1 n X ijk = µ + α i + β j + α i β j + ε ijk A) B) C) Figura 34: Representación de ls dats de expresión de micrarregls A) Esquema de ls niveles de expresión de cada gen, para cada cmbinación de tratamients AiBj y sus réplicas Rk, dand un ttal de n = a b r chips B) Ls valres de expresión de cada chip (micrarregl), sn representads cm un vectr clumna C) Ls vectres clumnas sn agrupads dand lugar a la matriz de expresión X Así, en una fila de la matriz X se almacenan ls valres de expresión de un gen dad, para la cmbinacines de tds ls tratamients Entnces, las medicines de una fila se smeten al mdel ANOVA (31) Imagen extraída de Fresn et al (2014)

119 33 Explración multivariada y cntrl de calidad 93 multiplicación de ds matrices cm se expresa en (33): X = X l + E = B l Zl T + E = B µ Zµ T + + B αβ Zαβ T + E = l {µ,α,β,αβ} l {µ,α,β,αβ} µ1 + B α Z T α + + B αβ Z T αβ + E (33) dnde B l y Z l sn cncidas en la literatura cm las matrices de ceficientes y de mdel cn dimensión g m (l) y n m (l) respectivamente, cn m (l), el númer de niveles del factr l Usualmente, el primer términ es llamad intercept, cn B µ = µ y Z µ = 1 de dimensión g 1 y n 1 respectivamente En este ejempl, tdas las matrices Z l sn binarias, permitiend identificar si una medición pertenece ( 1 ) n ( 0 ) al factr crrespndiente En la implementación de Smilde et al (2005) y Nueda et al (2007), la estimación de la matriz de ceficientes se basa en cálculs de prmedis, utilizand hasta tres matrices de diseñ Z α,β,αβ, identificand ls valres a prmediar, para descmpner pr cmplet la matriz riginal cm se muestra en (31) Pr el cntrari, en la implementación de esta tesis, la estimación de ls ceficientes del mdel se realiza de frma iterativa, utilizand un abrdaje pr máxima versimilitud, mediante la función lmfit dispnible en el paquete limma (Smyth et al, 2011) Cnsecuentemente, tres características n presentes hasta la fecha sn incrpradas: Ptencialmente cualquier mdel puede ser especificad utilizand una interfaz flexible para definir la frmula del mdel crrespndiente El usuari sól necesita prveer: i) la matriz de expresión X, ii) un dataframe (design) cn la estructura de tratamients del diseñ experimental, y iii) especificar el mdel a través de un bjet de tip frmula, de la misma manera que habitualmente l hace, mediante la función lm prvista en R Internamente, una invcación a la función mdelmatrix, autmáticamente cnstruirá las matrices Z aprpiadas Est permite superar la restricción en la cantidad de factres en el diseñ experimental, al igual que la tedisa definición de dichas matrices Pruebas de hipótesis sbre las matrices de ceficientes ˆB l Una prueba T se realiza autmáticamente para el s-ésim gen, a ls efects de cmprbar si el -ésim ceficiente es igual a cer n, es decir, H 0 : b s = 0 vs H 1 : b s 0

120 94 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD Adicinalmente, una prueba F se realiza para determinar si en frma cnjunta, tds ls ceficiente b s sn n iguales a cer, es decir, H 0 : b s1 = b s2 = = b s = 0 vs H 1 : algún b s 0 Crrección empírica de Bayes También es psible utilizar la función ebayes del paquete limma, para reducir las varianzas de las muestras en cada gen/fila hacia un valr cmún y permitir aumentar ls grads de libertad para la estimación de las varianzas individuales, cm se describe en Smyth (2004) De Haan et al (2007) estimarn ls efects principales y de interacción mediante restas sbre la media glbal cm en un ANOVA tradicinal (Walple et al, 1999) Cnsecuentemente, ls genes deben ser tratads cm un factr adicinal, mientras que, en las implementacines de Smilde et al (2005) y Nueda et al (2007), la estimación es realizada gen a gen cm en (31) De manera que, en un experiment de ds factres, cm pr ejempl tiemp xígen, en el mdel de De Haan et al se incluyen ds interaccines dbles y una triple, dad que ls genes sn tratads cm un factr, a diferencia de ls mdels de Smilde et al (2005) y Nueda et al (2007) Descmpsición ANOVA El mdel ANOVA (32) se descmpne de frma iterativa utilizand (33), dnde para cada pas se estiman las l-ésimas matrices ˆB l, Ê l y el vectr de varianzas ˆσ l 2 Lueg, la matriz de cntribución de un términ particular ˆX l = ˆB l Zl se sustrae de ls residus precedentes para frmar la matriz a descmpner en el próxim pas, cm se muestra en (34):

121 33 Explración multivariada y cntrl de calidad 95 X = X µ + X α + X β + X αβ + E = X l + E l {µ,α,β,αβ} pas µ : X = X µ + E µ X = ˆB µ Zµ + ʵ ʵ = X ˆB µ Zµ pas α : E µ = X α + E α ʵ = ˆB α Zα + Êα Êα = ʵ ˆB α Zα pas l : E l 1 = X l + E l Êl 1 = ˆB l Zl + Êl Êl = Êl 1 ˆB l Zl (34) pas αβ : E β = X αβ + E Êβ = ˆB αβ Z αβ + Ê Ê = Êβ ˆB αβ Z αβ dnde el smbrer ( ) denta ceficientes/residus estimads En esta implementación, el primer pas siempre estima el términ del intercept, es decir, frmula= 1 en códig R, cn ˆB µ = ˆµ y Z µ = 1 Ls mdels siguientes sól incluirán el l-ésim factr sin el intercept, es decir, frmula= lth_term-1, dnde lth_term refiere a α, β αβ en este ejempl Este prcedimient es bastante similar al prpuest pr Harringtn et al (2005) Análisis multivariad: PCA y PLS Ests métds explican la estructura de varianza/cvarianza de un cnjunt de bservacines (prteínas, genes, etc) a través de una cantidad reducida de cmbinacines lineales de las variables, pr ejempl, cndicines experimentales Ambs métds pueden ser aplicads sbre el l-ésim pas de descmpsición ANOVA de (34), abrdand diferentes aspects: PCA mdeliza la estructura de varianza de una única matriz, usualmente cn el bjetiv principal de reducción e interpretación de ls dats Dependiend de la matriz a la cual se aplica, da lugar a ds psibles métds: ASCA, cuand PCA es aplicad a la matriz de ceficientes, ˆB l (Smilde et al, 2005); y APCA cuand PCA es calculad sbre ls residus, Êl 1 El últim es cnceptualmente un ASCA y usualmente es aplicad a, X l + E, es decir, las medias de la matriz de factr X l, sumad al errr del mdel ttalmente descmpuest E en (31),

122 96 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD cm en De Haan et al (2007) PLS n sl generaliza, sin que también cmbina características de PCA y regresión para explrar la estructura de cvarianza entre una matriz de entrada y una de salida, cm se describe pr Abdi y Williams (2010) y Shawe-Taylr y Cristianini (2004) PLS es particularmente útil cuand una varias variables dependientes (salidas - O) deben ser predichas a partir de una gran cantidad de variables independientes (entradas) ptencialmente cn elevada crrelación En esta implementación, las entradas pueden ser la matriz de ceficientes ˆB l ls residus Êl 1 Dependiend de la elección, la matriz de salida será una matriz diagnal O=diag(nrw( ˆB l )) la matriz de diseñ O = Z l respectivamente Adicinalmente, el usuari puede especificar su prpia matriz de salida, O, para verificar una hipótesis particular Pr ejempl, en genómica funcinal puede ser la matriz de clases de GO (sección 111) cm se utiliza en GSEA (sección 121) pr Subramanian et al (2005) Smilde et al (2005) sugiere que se debe tener en cuenta el númer esperad de ls cmpnentes en X, es decir, el rang de la matriz dad el númer de réplicas pr nivel de tratamient Esta sugerencia surge de que la prpia aprximación de Smilde et al (2005) genera una matriz X cn muchs dats cnstantes (clumnas cn ls misms valres) debid a las réplicas y que pr ende n sn infrmativs Nbstante, en la presente implementación se trabaja cn la matriz de ceficientes, razón pr la cual el usuari n tendrá que precuparse pr dich númer, dad que ls cmpnentes se encuentran directamente resumids ˆB l Adicinalmente, el paquete lmdme (Fresn y Fernández, 2013a) frece diferentes alternativas de visualización para PCA/PLS, pr ejempl, biplt, ladingplt and screeplt (Peña, 2002), estimación de ls leverage (palancas), a ls efects de filtrar genes/filas cm se realiza en Tarazna et al (2012) 332 Evaluación En esta sección se presentan ds aplicacines cncretas del paquete lmdme desarrllad en esta tesis (Fresn et al, 2014; Fresn y Fernández, 2013a) dnde se evalúan, desde una perspectiva de la MD, las diferentes funcinalidades que el paquete

123 33 Explración multivariada y cntrl de calidad 97 presenta En la primera de ellas, se aplica a la búsqueda de patrnes de interacción de expresión en genes, dnde se hace fc sbre la definición del mdel, descmpsición ANOVA, análisis de PCA/PLS y visualización de ls resultads En la segunda aplicación, la metdlgía es utilizada cm estrategia de cntrl de calidad en dats btenids de tecnlgías de alt rendimient, aplicad a un cnjunt de dats de micrarregls de ADN (sección 231) A partir de aquí, algunas salidas han sid remvidas pr raznes de claridad y ls cmands han sid ejecutads utilizandptins(digits=4) Búsqueda de patrnes de interacción Prad-Lpez et al (2010) estudiarn la diferenciación de células madres de embrines humans baj hipxia El cnjunt de dats riginales se encuentra dispnible en Gene Expressin Omnibus (Edgar et al, 2002), cn el númer de acces GSE37761 y cm paquete de R llamad stemhypxia (Fresn y Fernández, 2013d), dispnible en el repsitri de Bicnductr (wwwbicnductrrg) Prad-Lpez et al (2010) midiern la expresión de genes a diferentes tiemps, baj cndicines cntrladas de xígen Este experiment psee un típica estructura de ANOVA a ds vías dnde el factr A representa el tiemp, cn a = 3 niveles {0,5; 1; 5 días}, el factr B representa la cncentración de xígen, cn b = 3 niveles {1, 5, 21 %}, y r = 2 réplicas bilógicas, dand un ttal de 18 muestras El remanente de ls dats ha sid remvid, a ls efects de tener un diseñ balancead, cm l sugiere Smilde et al (2005) para cumplir cn ls supuests de rtgnalidad de la descmpsición ANOVA Primer, es necesari cargar el paquete stemhypxia para pder acceder al bjet de R que psee ls dats, mediante el cmand data("stemhypxia") Esta invcación deja dispnibles en el espaci de trabaj, el diseñ experimental (design) y ls niveles de expresión de ls genes en el bjet M > library("stemhypxia") > data("stemhypxia") Ahra se debe manipular el bjet design, para slamente dejar ls tratamients que generan un diseñ balancead Lueg, es psible cambiar ls nmbres de las filas de M (rwnames(m)) para que se crrespndan cn cada M$Gene_ID

124 98 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD > timeindex<-design$time %in% c(05, 1, 5) > xygenindex<-design$xygen %in% c(1, 5, 21) > design<-design[timeindex & xygenindex, ] > design$time<-asfactr(design$time) > design$xygen<-asfactr(design$xygen) > rwnames(m)<-m$gene_id > M<-M[, clnames(m) %in% design$samplename] Una vez seleccinads ls niveles crrespndientes, la matriz de expresión M resultante es de dimensión g = filas (genes) y n = 18 clumnas (muestras/micrarrays) Pr tra parte, el dataframe llamad design cntiene las clumnas cn ls efects principales (time y xygen), al igual que el nmbre de las muestras (samplename) Lueg, es recmendable explrar las cabeceras de ests ds bjets invcand a la función head cm se muestra a cntinuación: > head(design) time xygen samplename h_1_ h_1_ h_5_ h_5_ h_21_ h_21_2 > head(m)[, 1:3] 12h_1_1 12h_1_2 12h_5_1 A_24_P A_32_P A_23_P A_24_P A_24_P A_32_P

125 33 Explración multivariada y cntrl de calidad 99 Una vez terminada la adecuación de ls dats experimentales, se debe cargar la librería invcand library("lmdme") Esta instrucción autmáticamente carga en memria ls paquetes requerids: limma (Smyth et al, 2011) y pls (Mevik et al, 2011) Lueg, la descmpsición ANOVA de la sección 331 puede ser llevada a cab utilizand (34), invcand a la función lmdme especificand cm parámetrs la frmula en mdel, el cnjunt de dats en data y el diseñ experimental en design: > library("lmdme") > fit<-lmdme(mdel=~time*xygen, data=m, design=design) > fit lmdme bject: Data dimensin: x 18 Design (head): time xygen samplename h_1_ h_1_ h_5_ h_5_ h_21_ h_21_2 Mdel:~time * xygen Mdel decmpsitin: Step Names Frmula CefCls 1 1 (Intercept) ~ time ~ -1 + time xygen ~ -1 + xygen time:xygen ~ -1 + time:xygen 9 El resultad de lmdme es almacenad dentr del bjet fit, el cual es una clase S4 de R Invcand al bjet fit, es psible tener una pequeña descripción de ls dats (data), el diseñ utilizad (design), así también cm el mdel (Mdel) aplicad y un resumen de la descmpsición ANOVA realizada Este últim dataframe

126 100 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD describe las frmulas aplicadas (Frmula), el nmbre (Names) para cada pas (Step), y la cantidad de ceficientes estimads para cada gen (CefCls) Cmpletada la descmpsición ANOVA, es psible elegir aquells genes en ls cuales al mens un ceficiente de interacción es estadísticamente diferente de cer (prueba F sbre ls ceficientes) cn un valr p < 0,001 Sbre ests genes es factible realizar un análisis tip ASCA sbre ls ceficientes (type="cefficient") del términ de interacción (term="time:xygen"), y/ PLS (decmpsitin="plsr") cntra la matriz identidad de salida (pción pr defect) > id<-fpvalues(fit, term="time:xygen")<0001 > decmpsitin(fit, decmpsitin="pca", type="cefficient", + term="time:xygen", subset=id, scale="rw") > fitplsr<-fit > decmpsitin(fitplsr, decmpsitin="plsr", type="cefficient", + term="time:xygen", subset=id, scale="rw") Estas instruccines realizan un análisis PCA y PLS (decmpsitin) sbre la versión escalada (scale="rw") de ls 305 genes seleccinads (subset=id), almacenand ls resultads en ls bjet fit y fitplsr respectivamente Adicinalmente, se ha especificad de frma explícita type="cefficient" (valr pr defect), para indicar que la descmpsición de varianza/cvarianza se debe realizar utilizand la matriz de ceficientes del términ de interacción term="time:xygen" ( ˆB αβ ) Una vez btenid ls resultads, es psible visualizar ls biplts asciads en las figuras 35 (a) y (b): > biplt(fit, xlabs="", expand=07) > biplt(fitplsr, which="ladings", xlabs="", + ylabs=clnames(cefficients(fitplsr, term="time:xygen")), + varaxes=true) En las figuras 35 las etiquetas de ls genes (rwnames(m)) han sid reemplazadas pr símbls (xlabs="") para claridad visual A su vez, el segund eje es escalad (expand=07), para evitar que las flechas queden fuera de la gráfica Pr tra parte, el biplt 35(b) crrespndiente al análisis de PLS, ha sid mdificad (which="ladings") para btener un gráfic similar al del ASCA de la figura

127 33 Explración multivariada y cntrl de calidad time:xygen PC1(5061%) PC2(2368%) time05:xygen1 time1:xygen1 time5:xygen1 time05:xygen5 time1:xygen5 time5:xygen5 time05:xygen21 time1:xygen21 time5:xygen21 (a) ANOVA simultaneus cmpnent analysis time:xygen Cmp 1 Cmp time05:xygen1 time1:xygen1 time5:xygen1 time05:xygen5 time1:xygen5 time5:xygen5 time05:xygen21 time1:xygen21 time5:xygen21 (b) ANOVA partial least squares regresin Figura 35: Biplt realizad sbre ls ceficientes del términ de interacción (tiemp:xígen), para genes que pseen un valr p < 0,001 para la prueba F crrespndiente Nte que la matriz de interacción en el mdel ASCA es de rang 9-1 Pr l tant, se esperan 9 flechas y ls 305 genes seleccinads sn pryectads en espaci de las primeras ds cmpnentes principales de la figura 35 Imágenes extraídas de Fresn et al (2014) 35(a) Cnsecuentemente, las etiquetas del eje y (ylabs) sn mdificadas para que cincidan cn las crrespndientes a ls ceficientes (cefficients) del términ de interacción (term="time:xygen"), y varaxes=true para que muestre las crrespndientes flechas En la figura 35(a) se muestra que las ds primeras cmpnentes biplt del análsis ASCA explican más del 70 % de la varianza de ls ceficientes A su vez, ls genes están dispuests en una frma elíptica, y se puede bservar que alguns de ells tienden a interaccinar cn diferentes cmbinacines de tiemp y xígen Un cmprtamient similar se aprecia en el biplt del análisis pr PLS de la figura 35(b) El efect de interacción del bjet fit, también puede ser visualizad utilizand la función ladingplt cm se muestra en la figura 36 En ella se aprecia que para cada cmbinación de ds niveles cnsecutivs de factres (tiemp y xígen)

128 102 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD existe un efect de interacción en la primera cmpnente principal, la cual explica el 5061 % de la ttalidad de la varianza del términ time:xygen > ladingplt(fit, termx="time", termy="xygen") time:xygen PC 1 Exp Var (5061%) xygen=1 xygen=5 xygen= time Figura 36: ladingplt del ANOVA-SCA para ls genes que pseen un valr p < 0,001 para la prueba F realizada sbre ls ceficientes del términ de interacción (tiemp xígen) Imagen extraída de Fresn et al (2014) En el cas que el usuari desee realizar un análisis de tip APCA, sól tiene que mdificar el parámetr type="residuals" en la invcación a la función decmpsitin, y realizar una explración similar, cm se muestra en el siguiente ejempl de aplicación de lmdme sbre micrarregls Cntrl de calidad en micrarregls Ls dats utilizads en esta aplicación n se encuentran publicads aún, per están dispnibles en el siti web wwwbdmgcmar y en el anex digital de la sección A2 Se agradece especialmente al grup del Dr Osvald Pdhajcer, del Labratri de Terapia Mlecular y Celular de la Fundación Institut Lelir, pr permitir el us de sus dats en la presente tesis

129 33 Explración multivariada y cntrl de calidad 103 En esta prtunidad se utilizarn micrarregls de ds clres (sección 231) para explrar ls perfiles de expresión génica Ls niveles de expresión se midiern en diferentes punts de tiemp, baj diversas cncentracines de prteínas incluidas en ls medis de cultivs independientes de una línea celular de melanma Este experiment también psee una estructura ANOVA a ds vías: dnde el factr A representa el tiemp cn a = 3 niveles {0,5; 4; 12 hras}, el factr B representa la cncentración cn b = 3 niveles {0; 1; 10 unidades} para r = 3 replicas bilógicas, dand un ttal de 27 muestras El grup de investigación que generó ls dats que se analizan en este ejempl, cnce de experiments previs que existen genes que presentan interacción de ls factres tiemp cncentración En particular, ls investigadres están interesads en encntrar aquells genes cn una expresión diferencial cn un valr p < 0,05 para la prueba F asciada al términ de interacción Resultads preliminares de análisis realizads pr el grup, utilizand el paquete limma (Smyth et al, 2011), n revelarn la existencia de patrnes de interacción En este cntext, se mstrará que mediante un abrdaje desde la MD utilizand el paquete lmdme, es psible identificar efects técnics inesperads que pdrían dar una interpretación bilógica sesgada Justamente, est n es viable mediante ls análisis tradicinales, dad que n permiten realizar una explración multivariada de ls dats Adicinalmente se demuestra cóm remver dich artefact, aplicand la librería desarrllada en esta tesis Una vez más, es necesari cargar la librería lmdme y ls dats experimentales, ls cuales han sid previamente guardads en un archiv Invcand la instrucción lad(file="example2rdata"), sn cargads en memria ls bjets crrespndientes al diseñ experimental (design) y la matriz de expresión (M) Siempre es recmendable explrar ests bjets, para cmprbar si se han cargad de frma crrecta, utilizand la función head, de la misma manera que se realizó para ls dats de stemhypxia en el ejempl anterir > library("lmdme") > lad(file="example2rdata") > head(design)

130 104 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD Time Cnc SampleName HybridDate gpr nv gpr jan gpr feb gpr nv gpr jan gpr feb > head(m)[, 1:3] gpr gpr gpr [1,] [2,] [3,] [4,] [5,] [6,] La dimensión de la matriz M es de g = 2520 filas (genes) y n = 27 clumnas (muestras/micrarregls) A su vez, el dataframe que psee el diseñ experimental (design) cntiene las clumnas de ls efects principales: tiemp (Time) y Cnc para la cncentración, el nmbre de las muestras (SampleName) y la fecha en la cual ls chips fuern hibridizads (HybridDate) Invcand la función lmdme es psible ajustar el mdel utilizand el parámetr mdel= Time*Cnc, cn una crrección empírica de Bayes (Bayes=TRUE) y el parámetr verbse=true, para darle al usuari una realimentación sbre el prgres de la descmpsición ANOVA Adicinalmente, es factible cmprbar si ls resultads btenids pr el grup de investigación acerca de la inexistencia de genes que interactúan, sn crrects n > fit<-lmdme(mdel=~time*cnc, data=m, design=design, Bayes=TRUE, + verbse=true) testing: ~ 1

131 33 Explración multivariada y cntrl de calidad 105 testing: ~ Time -1 testing: ~ Cnc -1 testing: ~ Time:Cnc -1 > idfit<-fpvalues(fit, term="time:cnc")<005 > sum(idfit) [1] 0 El resultad de sum(idfit) igual a 0 es cincidente cn ls resultads previamente btenids pr ls investigadres Sin embarg dad que se esperaban genes que interactúen, el resultad sugiere una explración en prfundidad de ls dats En este cntext, un abrdaje del tip APCA puede ser aplicad al bjet fit, para realizar una explración visual del biplt del términ term="time:cnc" representad en la figura 37(a) > decmpsitin(fit, "pca", scale="rw", type="residual") > biplt(fit, term="time:cnc", xlabs=, expand=09) En la figura 37(a) se bserva la presencia de un patrón crrespndiente a una fuente de variabilidad n cntrlada, que pareciera agrupar ls chips en tres grups La inspección del bjet design revela la existencia de una clumna llamada HybridDate, n incluida en el mdel, que pueda estar relacinada cn el agrupamient que se bserva en el biplt crrespndiente Para bservar si est es así, se pueden cambiar las etiquetas de las flechas del biplt de la figura 37(a) de manera tal de identificar a cada chip pr su fecha de hibridación, utilizand el siguiente códig: > biplt(fit, term="time:cnc", ylabs=design$hybriddate, xlabs=, + expand=08) Claramente, la figura 37(b) muestra que existiría una asciación entre ls tres agrupamients y la fecha de hibridización, es decir, ls tres agrupamients pseen etiquetas de fecha similares Esta es una fuente de variabilidad n cnsiderada en el

132 106 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD Time:Cnc PC1(1529%) PC2(1036%) Time05:Cnc0 Time05:Cnc0 Time05:Cnc0 Time05:Cnc1 Time05:Cnc1 Time05:Cnc1 Time05:Cnc10 Time05:Cnc10 Time05:Cnc10 Time4:Cnc0 Time4:Cnc0 Time4:Cnc0 Time4:Cnc1 Time4:Cnc1 Time4:Cnc1 Time4:Cnc10 Time4:Cnc10 Time4:Cnc10 Time12:Cnc0 Time12:Cnc0 Time12:Cnc0 Time12:Cnc1 Time12:Cnc1 Time12:Cnc1 Time12:Cnc10 Time12:Cnc10 Time12:Cnc10 (a) Original biplt Time:Cnc PC1(1529%) PC2(1036%) nv jan feb nv jan feb nv jan feb nv jan feb nv jan feb nv jan feb nv jan feb nv jan feb nv jan feb (b) Using ylabs=design$hybriddate Figura 37: biplt del ANOVA-PCA de ls residus del términ de interacción (Time:Cnc) Imagen extraída de Fresn et al (2014) mdelriginal De acuerd cn la evidencia, el usuari puede prpner un análisis del tip PLS En éste es psible definir una matriz de salida (Omatrix) persnalizada para preguntar si ls dats respnden n, a la estructura de ls dats Para ell, se define la estructura cn ayuda de la función mdelmatrix utilizand cm fórmula HybridDate-1 y la infrmación del bjet design > decmpsitin(fit, "plsr", scale="rw", type="residual", + term="time:cnc", Omatrix=mdelmatrix(~HybridDate-1, design)) > biplt(fit, term="time:cnc", which="ladings", xlabs=, + varaxes=true) Una explración visual del biplt de la figura 38, demuestra que la fecha de hibridación respnde al patrón encntrad cn anteriridad Una cnversación psterir cn ls autres de ls dats, reveló que el experimentriginal tenía planificad realizar las hidridizacines de las tres réplicas el mism día Nbstante, debid a restriccines aduaneras en las imprtacines, debió mdificarse pr cada recepción de grup de chips Así, pr cada recepción se hibridizó una réplica para tdas las cmbinacines de tratamients Casualmente, la primera recepción fue en el mes de

133 33 Explración multivariada y cntrl de calidad Time:Cnc Cmp 1 Cmp HybridDatejan HybridDatefeb HybridDatenv Figura 38: biplt del análisis PLS realizad sbre ls residus de interacción (Time:Cnc), utilizand la fecha de hibridación cm matriz de salida Imagen extraída de Fresn et al (2014) nviembre (nv), la segunda en ener (jan) y la última en febrer (feb) La cnfirmación btenida a partir de la explración de ls dats, junt cn las restriccines en la aleatrización del experiment, sugieren que la variable HybridDate debe ser incluida en el mdel: > fitdate<-lmdme(mdel=~hybriddate+time*cnc, data=m, design=design, + Bayes=TRUE) > idfitdate<-fpvalues(fitdate, term="time:cnc")<005 > sum(idfitdate) [1] 13 Así, cn la inclusión de HybridDate en el mdel, es psible estimar y remver este efect Cnsecuentemente, la inferencia estadística sbre genes ha sid mdificada reveland a 13 genes candidats, afectads pr ls niveles de interacción de tiemp cncentración Adicinalmente, el biplt del APCA ilustrad en la figura 39, muestra que el patrón bservad en la figura 37(a) ha sid remvid cn éxit (n se aprecian tendencias)

134 108 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD > decmpsitin(fitdate, "pca", scale="rw", type="residual") > biplt(fitdate, term="time:cnc", xlabs=, expand=08) Time:Cnc PC1(105%) PC2(711%) Time05:Cnc0 Time05:Cnc0 Time05:Cnc0 Time05:Cnc1 Time05:Cnc1 Time05:Cnc1 Time05:Cnc10 Time05:Cnc10 Time05:Cnc10 Time4:Cnc0 Time4:Cnc0 Time4:Cnc0 Time4:Cnc1 Time4:Cnc1 Time4:Cnc1 Time4:Cnc10 Time4:Cnc10 Time4:Cnc10 Time12:Cnc0 Time12:Cnc0 Time12:Cnc0 Time12:Cnc1 Time12:Cnc1 Time12:Cnc1 Time12:Cnc10 Time12:Cnc10 Time12:Cnc10 Figura 39: biplt del ANOVA-PCA sbre ls residus del términ de interacción (Time:Cnc), incluyend la fecha de hibridación en el mdel Imagen extraída de Fresn et al (2014) 333 Cmentaris finales Cnsiderand ls ejempls anterirmente analizads, puede ntarse que la descmpsición ANOVA en experiments cn diseñs multifactriales, a través de mdels lineales, ha demstrad ser una alternativa válida cm herramienta de MD para la búsqueda de patrnes multivariads en dats de expresión ómics En este sentid, la metdlgía prpuesta tiene en cuenta la infrmación del diseñ experimental, permitiend descmpner las diferentes fuentes de variabilidad, para su psterir explración multivariada En este cntext, se prpne realizar un análisis de la estructura de varianza/cvarianza de las matrices de ceficientes y/ residus mediante PCA y/ PLS Cabe destacar que este últim métd es nveds para este tip de aplicacines, y permite indagar pr la existencia ( n) de relacines funcinales de interés, definidas pr el usuari

135 34 Cnectividad al prtal DAVID 109 A través de las diferentes visualizacines prvistas en el paquete, es psible explrar la variabilidad que intrducen ls diferentes niveles de tratamients cntrlads en el experiment Mas aún, ha sid psible cmprbar la existencia de fuentes de variabilidad tecnlógica n tenidas en cuenta en el diseñ experimental riginal y psterir remción La aplicación de abrdajes univariads tradicinales, en el mism cntext, n permitiría detectar este tip de artefacts Justamente, en el segund ejempl se mstró cóm la n remción de estas fuentes impacta en el inferencia estadística, cn la cnsecuente interpretación bilógica errónea de ls dats En este sentid, el paquete lmdme (Fresn et al, 2014; Fresn y Fernández, 2013a) ha demstrad ser una alternativa válida para el cntrl de calidad de dats de tecnlgías de alt rendimient Este paquete se encuentra dispnible para la cmunidad científica en Bicnductr (wwwbicnductrrg) y psee más de 2300 descargas según las estadísticas del repsitri (bicnductrrg/packages/stats/bic/lmdmehtml) desde su primera versión, en diciembre de Cnectividad al prtal DAVID Un de ls sistemas más accedids pr la cmunidad científica para el análisis prteómic/genómic funcinal, es la base de Dats para Antación, Visualización y Descubrimient Integrad (DAVID, Dennis Jr et al (2003) y Huang et al (2007)) Este recurs biinfrmátic tiene cmbjetiv prprcinar herramientas para la interpretación funcinal de grandes listas de genes/prteínas (Huang et al, 2009b) A través de él, es psible realizar análisis de tip SEA y/ MEA y lueg explrar ls resultads mediantes reprtes de tip HTML y gráficas bidimensinales cn la evidencia existente entre muchs-genes-a-muchs-términs, cm se describe en la sección 13 El prtal DAVID se accede principalmente a través de una página web (david abccncifcrfgv) También existe una interfaz de prgramación para aplicacines (API, del inglés applicatin prgramming interface), basada en cnsultas mediante URLs para acceder a DAVID de frma prgramática Nbstante, la API en sí misma psee una serie de limitacines entre las cuales es psible destacar: i) sól funcina cn la cnfiguración predeterminada de DAVID, ii) la lngitud del URL

136 110 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD está limitada a 2048 caracteres ( 400 genes, dependiend del ID), y iii) es psible realizar hasta 200 cnsultas pr máquina, cn 10 segunds de espera entre cnsultas Pese a ell, la API puede ser utilizada a través de cualquier lenguaje para cnsultas livianas y en R existe el paquete llamad DAVIDQuery (Day y Lisvich, 2010) para tal fin Frente a las limitacines de la API, se pus a dispsición una interfaz de servicis web (DAVID-WS) para permitir el plen acces y cntrl de tdas las funcines (except la visualización), manteniend algunas restriccines cm pr ejempl la cantidad de cnsultas (Jia et al, 2012) Si bien en la publicación riginal de Jia et al (2012) se prvee de una serie de clientes para diferentes lenguajes de prgramación (Java R, Perl R, Pythn R y MATLAB R ), ptencialmente puede utilizarse desde cualquier lenguaje Nbstante, desde R es psible utilizar DAVID-WS mediante el paquete SOAP (Lang, 2012), situación que requiere elevads cncimients de prgramación Más aún, ls resultads de cada cnsulta sn muy difíciles de manejar, ya que sn bjets XML que el usuari deberá decdificar (paquete XML, Lang (2013b)) inclus clases Java (paquete rjava, Urbanek (2013)) si se utiliza el cliente nativ prvist pr DAVID-WS Dadas estas limitacines y cmplejidades de utilización de DAVID-WS, es que en esta tesis se desarrlló un paquete R llamad RDAVIDWebService (Fresn y Fernández, 2013b,c) que permite una acces prgramátic y versátil a DAVID, evitand que el usuari sea un expert en prgramación para hacer us de ls reprtes que esta herramienta prvee Mediante RDAVIDWebService, es psible tener bjets nativs de R y expandir el análisis en un de ls lenguajes de prgramación más utilizads en biinfrmática (R Cre Team, 2013) Adicinalmente, el paquete supera las limitacines de visualización de DAVID-WS, permitiendbtener las habituales gráficas de evidencia de muchs-genes-a-muchs-términs prvistas en DAVID A esta capacidad de visualización se le incrpra la vista de grafs de GO (n dispnible en DAVID), la cual es utilizada en tras herramientas, cm se describió en la sección 135 En las siguientes seccines se presentan las características de implementación del desarrll junt cn sus diferentes funcinalidades y ds ejempls de aplicación Un aplicad a la cnectividad cn DAVID, dnde se muestra cóm realizar

137 34 Cnectividad al prtal DAVID 111 cnsultas desde R, y tr dnde se explran y visualizan ls resultads btenids del análisis ntlógic-funcinal 341 Implementación El servici web de DAVID se basa en una tplgía cliente-servidr para publicar las diferentes funcinalidades (Jia et al, 2012) En la práctica, el desarrllriginal de Jia et al (2012) está basad en lenguaje Java, y utiliza un mecanism para invcar métds de manera remta llamad RMI (del inglés Remte Methd Invcatin) Este mecanism permite cmunicación en aplicacines distribuidas exclusivamente en Java A través de RMI, un prgrama cm DAVID puede exprtar un bjet (usualmente llamad skeletn), permitiend que dichbjet sea accesible a través de la red y permanezca a la espera de peticines de internet utilizand una dirección y un puert TCP específic (del inglés Transmissin Cntrl Prtcl) A partir de ese mment, desde el lad del cliente es psible acceder a las diferentes funcinalidades utilizand una interfaz (usualmente llamada stub), la cual puede cnectarse e invcar ls métds prprcinads pr el bjet skeletn Nbstante, también es psible cnectarse utilizandtrs lenguajes de prgramación, para l cual debe utilizarse tras tecnlgías cm CORBA (del inglés Cmmn Object Request Brker Architecture) SOAP (del inglés Simple Object Access Prtcl) en lugar de RMI, cm l hacen ls diferentes clientes dispnibles en la publicación riginal En la implementación del paquete RDAVIDWebService, se ptó pr utilizar el cliente nativ de Java prvist pr Jia et al (2012) para acceder a las diferentes funcinalidades frecidas pr DAVID-WS De esta manera, el desarrll tiene la ventaja de utilizar códig estable y prbad pr ls autres Adicinalmente, cualquier nueva funcinalidad que frezca DAVID-WS n impactará en el paquete R, ya que sól será necesari cambiar el stub crrespndiente para dispner de dicha funcinalidad Nbstante, será necesari implementar una interfaz entre ls ds lenguajes, R y Java En R el paquete cnsta de ds móduls: un de cnectividad entre R y Java y tr que mdela en bjets nativs de R, ls resultads de DAVID

138 112 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD Módul de cnectividad El módul de cnectividad se basa en la clase DAVIDWebService, que es la interfaz desde R hacia DAVID-WS Esta clase se encuentra implementada a través del paradigma R5, también cncid cm clase de referencia Este paradigma permite crear clases persistentes en R, para mantener un únic punt de cnexión cn el servidr Para ell, la clase DAVIDWebService a su vez utiliza el paquete rjava (Urbanek, 2013) para establecer una cmunicación cn el cliente de Java, DAVIDWebServiceStub, quien es el respnsable de establecer la cmunicación cn su cntraparte Java (skeletn) en el servidr de DAVID Así, mediante la clase DAVIDWebService, es psible acceder a DAVID-WS para realizar el fluj de trabaj habitual: 1 Subir ls identificadres de genes/prteínas y lista de referencia 2 Cmprbar el estad de DAVID en l que respecta a ls genes/prteínas recncids pr el sistema, búsqueda de las categrías dispnibles, etc 3 Seleccinar la lista de referencia/especies y categrías para utilizar en el presente análisis 4 Obtener ls diferentes reprtes SEA/MEA en ls que se incluyen la tabla de análisis funcinal, agrupamient de genes/términs, entre trs Sin embarg, el módul de cnectividad psee ciertas restriccines entre las cuales es psible nmbrar: Un usuari cmputadra puede realizar hasta 200 cnsultas en un día El agrupamient (clustering) de genes/términs puede incluir hasta un máxim de 3000 genes/términs El equip de DAVID se reserva el derech de suspender cualquier us indebid de DAVID-WS sin previ avis Estas limitacines n sn impuestas pr el paquete RDAVIDWebService, sin que sn prpias de DAVID, cm se indica en la página davidabccncifcrfgv/cntent jsp?file=wshtml

139 34 Cnectividad al prtal DAVID 113 El diagrama de clases del módul de cnexión entre R y Java se muestra en la figura 310 En ella se aprecia cóm la clase DAVIDWebService realiza sus peticines a DAVID-WS, a través de la clase DAVIDWebServiceStub Esta clase devuelve bjets nativs de Java, ls cuales deben ser transfrmads en estructuras de dats de R, para su psterir utilización Este prces cnsume un tiemp de cálcul cnsiderable (5-90 min), debid a tds ls cntrles interns que realizan ambs lenguajes Cm estrategia de reducción del tiemp de imprtación (<5 min) se implementó una clase Java llamada DAVIDParser (figura 310), que genera un archiv de text plan tempral que psee la misma estructura que ls reprtes generads en la página web de DAVID Justamente, esta estrategia permite imprtar ls resultads a R y guardar lcalmente ls reprtes para su psterir análisis/explración Esta es una característica nvedsa, dad que al tener la misma estructura de archivs, es psible utilizar tant ls reprtes btenids desde R, ls generads desde el siti web de frma indistinta (n imprta dónde se generarn) Pr tra parte, tds ls Figura 310: Diagrama de clases del módul de cnectividad entre R y Java DAVIDWebService utiliza el paquete rjava para acceder/cntrlar el servici web de DAVID a través de la clase DAVIDWebServiceStub y decdificar ls reprtes hacia R mediante la clase DAVIDParser Nte que pr simplicidad se han mitid las firmas de las funcines Imágenes extraídas de Fresn y Fernández (2013c)

140 114 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD análisis realizads en DAVID a la fecha, deben hacerse utilizand una cnexión a internet Ahra el investigadr puede cmpartir sus resultads cn trs grups de investigación y trabajar de frma clabrativa (archivs de reprtes de DAVID u bjets de R), evitand así la engrrsa carga de dats a DAVID cada vez que se quiere realizar un análisis Es decir, se pueden explrar ls resultads del análisis ntlógic-funcinal sin cnectividad a internet Módul de bjets de R El módul de bjets nativs de R prprcina un marc de trabaj unifrme (en inglés se cnce cm framewrk), para acceder directamente a las funcinalidades de DAVID desde R, sin la necesidad de decdificación ad hc de ls resultads de cada tip de reprte En este sentid, este módul es el respnsable de imprtar ls resultads btenids pr DAVIDWebService en las aprpiadas clases S4 según el análisis realizad En la figura 311 se muestra la jerarquía de clases del módul, dnde se aprecia que tds ls resultads sn genéricamente un DAVIDResult Dependiend de la precedencia del reprte, esta clase se irá especializand En la izquierda de la figura se aprecia cóm ls resultads btenids para un análisis de tip MEA mediante un agrupamient cmún en DAVIDCluster, terminan en las clases DAVIDTermCluster DAVIDGeneCluster en cas de realizar un análisis de tip Functinal Anntatin Cluster un Gene Functinal Classificatin desde DAVID, respectivamente Pr tra parte, en la región central de la figura 311 se muestran las clases DAVIDGenes y DAVIDFunctinalAnntatinChart las cuales pseen una herencia múltiple cn el tip de dats base de R denminad dataframe, dad que en esencia mdelan a una estructura de este tip A su vez, la clase DAVIDGenes sirve de cntenedr en la clase DAVIDFunctinalAnntatinTable la cual representan su equivalente reprte en DAVID La jerarquía de clases de R n sól permite mdelar el cmprtamient de ls diferentes reprtes de DAVID, sin que también permite adaptar el cmprtamient de diferentes funcines para incrprar ds capacidades de visualización n dispnibles en DAVID-WS:

141 34 Cnectividad al prtal DAVID 115 Figura 311: Diagrama de clases del módul de R Nte que pr simplicidad se han mitid las firmas de las funcines Imagen extraída de la vignette de Fresn y Fernández (2013c) Muchs-genes a muchs-términs: ahra están dispnibles en R las habituales gráficas del siti web de DAVID, de evidencias existentes entre términs y genes presentadas en la sección 135 Estas gráficas se encuentran dispnibles invcand a la función plt2d, la cual utiliza tda la ptencia del paquete ggplt2 (Wickham, 2009) Adicinalmente, incrpra la función plt2d a las clases DAVIDFunctinalAnntatinChart/Table, cm se bserva en el diagrama de clases de la figura 311 Cabe destacar que ésta es una funcinalidad n dispnible en el siti web de DAVID Ahra desde R el usuari psee la flexibilidad de seleccinar sól aquellas relacines de términs y genes que desee mstrar, frente a la habitual representación de resultads de tip MEA (DAVIDTerm/GeneCluster) del siti web (también dispnible)

142 116 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD Grafs de Gene Ontlgy: ls resultads de un reprte de tip Functinal Anntatin Chart pueden ser representads en la estructura de grafs dirigids acíclics (GDA) de GO (Ashburner et al, 2000), de la misma manera que l realizan tras herramientas cm GOMiner y GOstats presentad en la sección 135 Para ell, se muestra en la figura 311 cóm la clase DAVIDFunctinalAnntatinChart es especializada pr DAVIDGODag, quien a su vez hereda de la clase GOHyperResult A través de ellas, ls resultads btenids de DAVID sn cnvertids a una estructura de dats cmpatible cn el paquete GOstats (Falcn y Gentleman, 2007) De esta manera, es psible cnstruir el GDA de enriquecimient funcinal de las diferentes categrías principales de GO: prcess bilógics, funcines mleculares y/ cmpnentes celulares, presentadas en la sección 111 La clase DAVIDGODag permite visualizar ls valres EASE en el cntext del GDA de GO, extendiend las capacidades de DAVID desde una perspectiva de la MD Utilizar la prpia estructura de GO ha resultad ser una estrategia válida para resumir la infrmación, en cmparación cn la habitual búsqueda en extensas tablas, prblemática presentada en el capítul 1 Est n sól permite la búsqueda de patrnes funcinales de frma visual, sin que facilita la explración de ls resultads, cm se verá en la sección Evaluación En esta sección se describen ds aplicacines típicas del paquete RDAVIDWebService La primera de ellas se relacina cn la cnectividad y manej desde R sbre tdas las funcinalidades dispnibles pr DAVID-WS (carga de identificadres, btención de reprtes, etc) En el segund ejempl se muestra cóm se puede utilizar el paquete para explrar ls resultads, independientemente de dónde hayan sidbtenids (desde el siti de DAVID de frma prgramática cn R) Ejempl de cnectividad Antes de pder usar el paquete RDAVIDWebService, el usuari debe registrar su institucinal llenand el frmulari prvist en la página davidabcc

143 34 Cnectividad al prtal DAVID 117 ncifcrfgv/webservice/registerhtm, para pder utilizar DAVID-WS Una vez registrad, el usuari puede crear un bjet DAVIDWebService y establecer una cnexión A cntinuación, es psible subir la/s lista/s de identificadres indicand un nmbre, tip (genes referencia) y clase de identificadr En este ejempl, se utiliza la lista de identificadres prprcinada en el siti web de DAVID (demlist1 cn identificadres de Affymetrix R ) Nta: el siguiente códig n funcinará a mens que cambie user@instrg pr el de una cuenta de usuari previamente registrada en DAVID > library("rdavidwebservice") > david<-davidwebservice$new( ="user@instrg") > data(demlist1) > result<-addlist(david, demlist1,idtype="affymetrix_3prime_ivt_id", + listname="demlist1", listtype="gene") > result $indavid [1] $unmappedids [1] "34902_at" "1937_at" "35996_at" "32163_f_at" "32407_f_at" La salida de result muestra que 9695 % de la ttalidad de la lista demlist1 es recncida en DAVID ($indavid) Adicinalmente, este bjet cntienen ls cinc ids n mapeads ($unmappedids) Pr tra parte, el estad de la cnexión es guardada en el bjet david y puede ser cnsultada en cualquier mment: > david DAVIDWebService bject t access DAVID s website User user@instrg Available Gene List/s: Name Using 1 demlist1 * Available Specie/s: Name Using 1 Hm sapiens(155) *

144 118 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD Available Backgrund List/s: Name Using 1 Hm sapiens * La salida del bjet david muestra a ls 155 genes crrespndientes a la especie Hm sapiens presentes en la lista de genes llamada demlist1 Adicinalmente, se muestra que el genma cmplet de la especie es seleccinad pr defect cm lista de referencia Nbstante, el usuari puede subir una lista de genes y mdificar el tip de lista a listtype="backgrund", para especificar un persnalizad Pr tra parte y en cas de que l requiera, el usuari también puede seleccinar las categrías de antación de su interés para realizar el análisis, cm pr ejempl slamente cn GOTERM_BP_ALL, GOTERM_MF_ALL y GOTERM_CC_ALL, cm se muestra a cntinuación: > setanntatincategries(david, c("goterm_bp_all", "GOTERM_MF_ALL", + "GOTERM_CC_ALL")) Una vez establecida la cnfiguración, es decir, lista de genes candidats, referencia y categrías de interés, el usuari puede cmenzar a realizar el análisis Para ell, puede slicitar ls diferentes reprtes para su us inmediat para guardarls en archivs para su psterir us Pr ejempl, se puede btener el agrupamient de términs ( Functinal Anntatin Clustering en DAVID) y guardarl en el bjet termcluster, guardar ls resultads en el archiv termclusterreprt1tab invcand ls siguientes cmands: > termcluster<-getclusterreprt(david, type="term") > getclusterreprtfile(david, type="term", + filename="termclusterreprt1tab") En este cas, las ds alternativas mencinadas han sid puestas en práctica A su vez, es psible btener el agrupamient de genes mdificand el parámetr type="genes", invcar alguna tra funcinalidad descripta en la ayuda del paquete, dependiend del análisis que desee realizar el usuari, cm se muestra en el siguiente ejempl

145 34 Cnectividad al prtal DAVID 119 Ejempl de explración En l sucesiv, se utilizarán ls reprtes crrespndientes a la utilización de la lista de genes llamada demlist1, guardads en el paquete RDAVIDWebService N bstante y sin pérdida de generalidad, es psible utilizar ls resultads cntenids en el bjet termcluster prvenientes del ejempl de cnectividad Una vez más, el usuari debe cargar la librería para pder utilizar las diferentes funcinalidades A cntinuación, es psible cargar ls resultads del agrupamient de términs almacenads en el archiv termclusterreprt1tab, e inspeccinarls utilizand el siguiente códig: > library("rdavidwebservice") > filename<-systemfile("files/termclusterreprt1tabtargz", + package="rdavidwebservice") > untar(filename) > termcluster<-davidtermcluster(untar(filename, list=true)) > termcluster DAVID Result bject Result type: AnntatinCluster Number f cluster: 28 > head(summary(termcluster)) Cluster Enrichment Members El bjet termcluster es una instancia de la clase DAVIDTermCluster cn el crrespndiente reprte (AnntatinCluster), para la lista de genes llamada demlist1

146 120 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD GO: extracellular regin part cellular_cmpnent 25/15908 Terms GO: extracellular matrix GO: prteinaceus extracellular matrix Evidence FALSE TRUE extracellular regin 0/NA GO: structural mlecule activity extracellular regin part 25/960 extracellular matrix 7/ _S_AT 1890_AT 2090_I_AT 31506_S_AT 31621_S_AT 31793_AT 32250_AT 33284_AT 33530_AT 33684_AT 34012_AT 34546_AT 34618_AT 34623_AT 35038_AT 35169_AT 35367_AT 36436_AT 36703_AT Genes 37061_AT 37172_AT 37454_AT 37898_R_AT 37905_R_AT 38482_AT 38508_S_AT 38604_AT 38691_S_AT 41280_R_AT prteinaceus extracellular matrix 7/320 (a) Evidencia de términs/genes (b) Graf de enriquecimient Figura 312: Explración del segund agrupamient de antacines (a) Vista de muchs-términs a muchs-genes (b) Graf de GO inducid pr ls términs enriquecimient en (a) Ls términs/nds cn un puntaje EASE < 0,1 se muestran en gris Adicinalmente se muestra el cciente entre ls genes de la lista cntra ls presentes en la referencia Nte que en ls cass dnde n se cuenta cn la infrmación del nd (pr n pertenecer al grup) se intrducen NA (dat n dispnible) Imágenes btenidas de Fresn y Fernández (2013c) En este análisis se han encntrad 28 grups, y es psible inspeccinar de manera superficial la cabecera del resumen de infrmación de dichbjet invcand a head(summary(termcluster)) Esta salida muestra un bjet de tip dataframe, dnde se aprecia el puntaje (Enrichment) btenid en cada grup (Cluster) y la cantidad de miembrs que hay en cada un de ells (Members) Adicinalmente, se pueden explrar de frma visual las relacines existentes entre ls términs y genes de un grup particular, pr ejempl el númer 2: > clustnumber<-2 > plt2d(termcluster, clustnumber) En la figura 312(a) se aprecia que ls cuatr términs de este agrupamient cmparten tds ls genes en extracellular regin part (fila superir) Sin embarg,

147 34 Cnectividad al prtal DAVID 121 a medida que descendems hacia la fila inferir ( structural mlecule activity ) sól nueve genes pseen evidencia relacinada a ells Este tip de representación n utiliza la estructura jerárquica de GO Tampc es psible discriminar si ls términs se encuentran enriquecids n, dad que pr defect se utilizan tds ls términs asciads a ls genes de demlist1 En este sentid, RDAVIDWebService permite extender la capacidad de análisis de DAVID mediante la transfrmación de ls resultads btenids en el agrupamient y cnstruir el GDA de enriquecimient cn la clase DAVIDGODag, para un nivel de significancia dad (pvaluecutff=01): > davidgodag<-davidgodag(members(termcluster)[[clustnumber]], + pvaluecutff=01, "CC") En el ejempl se utiliza la categría de cmpnentes celulares ( CC ), per ell n restringe a que se pueda realizar sbre tra de las categrías de GO (PB FM) Mediante este abrdaje es psible utilizar la prpia estructura de GO para dar cntext a ls resultads de enriquecimient y explrarlas de frma visual invcand a la función pltgotermgraph del paquete GOstats: > pltgotermgraph(g=gdag(davidgodag), + r=davidgodag, maxnchar=40, ndeshape="ellipse") En la figura 312(b) se muestra el GDA btenid utilizand ls dats del agrupamient númer ds En esta figura se destacan ls términs enriquecids en clr gris y el cciente entre ls de genes de demlist1 y ls pertenecientes al genma, en aquells cass dnde se cuente cn la infrmación necesaria De esta manera, la prpia estructura de GO permite dar cntext y resumir funcinalmente al agrupamient, situación que n es psible ver en la figura 312(a) En este ejempl, definitivamente la evidencia del agrupamient apunta a un enriquecimient de la matriz extra celular, más específicamente al términ prteinaceus extracellular matrix 343 Cmentaris finales El paquete RDAVIDWebService (Fresn y Fernández, 2013b,c) ha demstrad ser una alternativa válida para la cnectividad prgramática cn el prtal DAVID

148 122 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD desde R En este sentid, prvee una interfaz para realizar las mismas peracines que se pueden realizar desde el siti web de DAVID Adicinalmente, brinda un marc de trabaj unifrme a través de diferentes bjets nativs de R, que permiten imprtar ls reprtes btenids desde R inclus desde el mism prtal DAVID A su vez, se frecen diferentes alternativas de explración visual de ls resultads, cm se mstró en la figura 312 Este paquete permite que ls resultads del análisis funcinal sean fácilmente imprtads a R y se encuentren lists para ser usads cn el/ls paquetes de CRAN (Hrnik, 2012) Bicnductr (Gentleman et al, 2005) favrits del usuari RDAVIDWebService se encuentra dispnible para la cmunidad científica en Bicnductr (wwwbicnductrrg) y psee más de 450 descargas según las estadísticas del repsitri desde su primera versión en juli de 2013 (bicnductrrg/ packages/stats/bic/rdavidwebservicehtml) 35 Integración y cntraste de múltiples referencias En el cntext del análisis ntlógic-funcinal, la etapa de MD crrespndiente a mdelad puede realizarse mediante alguna de las diferentes metdlgías cm SEA, GSEA MEA descriptas en la sección 121 Nbstante, un análisis de tip SEA se ve influenciad pr la selección de la lista de referencia (LR) cm se describió en la sección 122 Est últim impacta en el valr que tma la prueba estadística (prueba exacta de Fisher, prueba χ 2, etc), cn el cnsecuente sesg en la interpretación bilógica de ls resultads, debid a una elección inaprpiada de la LR Frente a esta prblemática, el fluj de análisis tradicinal de la figura 32 prpne una etapa de evaluación cm estrategia para eliminar enriquecimient espuri, basada en alguna de las alternativas de crrección pr cmparacines múltiples cm pr ejempl, a través de FDR, cm se describió en la sección 212 Si bien esta alternativa ha mstrad ser de gran utilidad, n cntempla la prblemática de la selección de la LR, cm tampc ns da un indici de cuán sensible es el enriquecimient frente a esta elección En esta tesis se prpne una metdlgía cncida cm MRCM (del inglés Multi-Reference Cntrast Methd, Fresn et al (2012)), para cmplementar ls abr-

149 35 Integración y cntraste de múltiples referencias 123 dajes tradicinales de la etapa de evaluación de MD Esta metdlgía se basa en ds cncepts: Integración y cntraste de múltiples LRs Una alternativa valisa a la hra de enriquecer y asistir a ls investigadres en la explración de ls resultads de SEA, es mediante la integración y cntraste de ls resultads btenids de múltiples LRs De esta manera, la prpia integración/cntraste de la infrmación es expltada para btener cncimient bilógic a través de las discrepancias/cnsenss Para ell, es psible utilizar la prpia estructura de GO para resumir y explrar un únic GDA, a través de un cntraste visual basad en un patrón de clres para cada una de las categrías principales (PB, FM y CC) Sensibilidad del enriquecimient Mediante simulacines de tip btstrap (sección 25), es psible evaluar la rbustez (sensibilidad) del enriquecimient de cada términ, frente a prblemática de la elección aprpiada de la LR De esta manera, el investigadr psee un valr indicadr de la ptencia de cada términ, para asistir la explración y elección de términs candidats para la psterir validación bilógica En las próximas seccines se presentan ls ds análisis prpuests pr la metdlgía Adicinalmente, se presentan tres cnjunts de dats btenids de tecnlgías de alt rendimient: un aplicad a prteómica basada en geles 2D-DIGE (sección 231), y ds de transcriptómica cn micrarregls de un clr (sección 231) Sbre ests dats se pnen en práctica ls ds aspects prpuests cm aprte a la etapa de evaluación de MD, en el cntext del análisis ntlógic-funcinal 351 Análisis de múltiples LRs La metdlgía prpuesta utiliza DAVID (ver sección 13, Dennis Jr et al (2003) y Huang et al (2007)) cm mtr para el cálcul del análisis tip SEA de las múltiples LRs a integrar/cntrastar El punt de partida del análisis cnsidera que el usuari ha seguid las diferentes etapas del KDD y MD descriptas en el capítul 2, hasta btener una lista de

150 124 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD candidats y una LR cn las prteínas/genes presentes en el experiment, cm se encuentra esquematizad en la sección 31 A partir de estas listas, el prcesamient sigue el diagrama de fluj prpuest en la figura 313, para l cual se deben llevar a cab ls siguientes pass: 1 Subir la lista de candidats btenids en el experiment (pr ejempl, cntrl vs tratamient) a DAVID Definir la LR para el análisis La platafrma psee pr defect LR-I (el genma) y LR-II (ls genes de un micrarregl) Sin embarg, LR-III (prteínas/genes presentes en el experiment) debe ser subida pr el usuari 2 Seleccinar la antación cmpleta de Gene Ontlgy, para cada una de las categrías principales (GOTERM_BP_ALL, GOTERM_MF_ALL y GO- TERM_CC_ALL) 3 Obtener ls reprtes de antación funcinal cmplets, para cada una de las LRs (LR-I, LR-II y LR-III) Es decir, tds ls términs que tengan al mens una prteína/gen candidata y cuy valr p para la prueba estadística sea menr igual a un Est equivale a seleccinar las pcines Cunt=0 y EASE=1 en las pcines de filtr avanzadas del siti web de DAVID Ls pass anterires pueden realizarse de frma manual, desde el siti web de DA- VID Nbstante, est implica que para cada una de las tres LRs es necesari seleccinar las categrías de antación y btener ls reprtes de antación funcinal requerids Sin embarg, este prces se puede realizar de frma prgramática cn RDAVIDWebService, cm se describió en la sección 34 baj el recuadr de línea discntinua de la figura 313 Ls resultads btenids del análisis funcinal, ya sea desde el siti web de DAVID cn RDAVIDWebService, se almacenan a nivel lcal y se prcesan utilizand el lenguaje R (R Cre Team, 2013), junt cn diferentes paquetes de Bicnductr (Gentleman et al, 2004) El primer prcesamient que se realiza sbre ls resultads es la identificación de ls términs enriquecids Est requiere de la definición, pr parte del usuari, de un umbral de enriquecimient, utilizand l que se cnce en DAVID cm un valr EASE (de las siglas en inglés, Expressin Analysis Systematic Explrer, Hsack

151 35 Integración y cntraste de múltiples referencias 125 I Candidats RDAVIDWebService DAVID FM I II III + + = II DAVID R PB + + = HTML III DAVID CC + + = LRs Mape de IDs & R & tablas de Bicnductr antación funcinal Integración de fuentes de enriquecimient de GO Reprte HTML Figura 313: Diagrama de fluj del métd de cntraste de múltiples referencias Adaptación de la imagen de Fresn et al (2012) et al (2003)) Este últim representa un valr p ajustad, dnde se ha penalizad en una unidad a ls candidats que pertenecen a cada términ (Términ i ) de la tabla de cntingencias 31 Es decir, en vez de que dicha celda cntenga n i candidats cm en la tabla 11 presentada en la sección 121, ahra se utiliza n i 1 para realizar la prueba exacta de Fisher, resultand en un valr llamad EASE Huang et al (2009b) sugieren utilizar un EASE 0,1 para encntrar aquells términs enriquecids Una vez identificads ls términs enriquecids, es psible utilizar la estructura jerárquica de GO para representar visualmente ls resultads Para ell, mediante RDAVIDWebService se btiene el graf de enriquecimient para cada una de las LRs, de la misma manera que se mstró en la sección 342 De esta manera, ls términs enriquecids ( n) sn representads cm nds en el graf, pr cada categría principal de GO (PB, FM y CC) dand cntext a ls resultads, cm se muestra en el diagrama de fluj de la figura 313 Nbstante, estas estructuras deben ser integradas en un únic GDA a ls efects de btener cncimient bilógic a través de las discrepancias/cnsenss En la figura 314 se aprecia el prces de integración de ls resultads de enriquecimient funcinal Para ell se btiene un GDA que psee la estructura glbal del experiment, es decir, aquella que cntiene tds ls nds y arcs presentes pr ls diferentes resultads Lueg, pr cada una de las LRs se cnstruye el GDA glbal

152 126 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD Tabla 31: tabla de cntingencia 2x2 para el i-ésim términ de interés Términ i Términ c i Ttal Candidats n i 1 N Candidats n i N Candidats Candidats c n T érmin n i (N N Candidats ) (n T érmin n i ) N N Candidats Ttal n T érmin N n T érmin N El ttal de genes de la lista de referencia (N) se encuentra dividid en filas en cas de pertenecer n a la lista de candidats (Candidats Candidats c ); las clumnas determinan la pertenencia ( n) de ls genes al términ de interés (Términ i Términ c i) Nte la penalización prpuesta pr Hsack et al (2003), para btener un valr EASE e identifican ls nds enriquecids en clr Psterirmente, ls diferentes grafs de enriquecimient sn integrads en una única estructura, mediante el códig de clres esquematizad pr el diagrama de Venn de la figura 314 En la estructura de discrepancia/cnsens se pueden identificar tres tips de términs: Nd cnsens: aquel términ identificad cm enriquecid pr tdas las LRs Nd discrepante: términ enriquecid en al mens una LR, per n en tdas Nd n enriquecid: nd intern del GDA que psee un valr EASE mayr al definid pr el umbral de enriquecimient en tdas las LRs En la figura 314, el MRCM resume ls nds cnsens cn el clr rj Ls nds/ramas discrepantes sn autmáticamente resaltads: en naranja para aquells sól enriquecids pr la LR-I, en amarill para ls cmpartids pr LR-I y II, en azul para ls únicamente presentes en la LR-II y ls exclusivs de la LR-III, en clr verde Cn este códig de clres es psible identificar nuevs términs cn relevancia bilógica, que se pierden si se utiliza cualquier tra de las referencias habituales (LR-I LR-II) A través del MRCM ls nds cnsens representan nds cnfiables, en el sentid de que se encuentran cnsistentemente enriquecids, independientemente del análisis llevad a cab A su vez, ls nds discrepantes pueden pseer enriquecimient espuri, prduct de la lngitud de la referencia y n pr ell respetar ls supuests de la prueba estadística (LR-I y/ LR-II), cm se describió en la sección 122

153 35 Integración y cntraste de múltiples referencias 127 Figura 314: Esquema del cntraste de múltiples referencias para ls dats de Packer et al (2007) crrespndientes a Funcines Mleculares de Gene Ontlgy Ls nds enriquecids se muestran en clr, para cada graf de la crrespndiente lista de referencia (LR) La cmbinación de ls resultads se resume en una única estructura, siguiend el patrón de clres del diagrama de Venn El métd resalta las ramas centrales btenidas pr la LR-I y LR-II, mientras que en A, B y C emergen sól cn la LR-III Adaptación de la imagen de Fresn et al (2012) Ls resultads btenids de la integración/cntraste de las diferentes LRs utilizadas pr el MRCM sn dcumentads en un reprte HTML, cm muestra el diagrama de fluj de la figura 313 Dich reprte n necesita cnectividad a internet para su explración, y de frma interactiva permite navegar ls diferentes GDA in-

154 128 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD tegrads de cada categría de GO En la sección 36 se describe cn detalle el aprte realizad en el cntext de la MD a ls reprtes del análisis ntlógic-funcinal 352 Análisis de estabilidad Un análisis ntlógic-funcinal tradicinal usualmente se realiza mediante un SEA, utilizand una única LR Si bien en la etapa de MD crrespndiente a evaluación el valr btenid de la prueba estadística es ajustad pr cmparacines múltiples, este valr sól permite establecer sí el términ se encuentra enriquecid n Es decir, n brinda infrmación acerca de la sensibilidad estabilidad del enriquecimient de cada términ, frente a la LR seleccinada Frente a esta prblemática, es psible definir una LR patrón y realizar simulacines de tip btstrap cm una alternativa de validación pr simulación, cm se presentó en la sección 25 Justamente, la aplicación de este tip de metdlgías permite aumentar la fiabilidad sbre ls resultads en términs de ptencia estadística en el sentid de detectar enriquecimient, cuand el efect verdaderamente existe Es decir, permite reducir la psibilidad de enriquecimient espuri, prduct de artefacts que puedan sesgar ls resultads funcinales btenids Sin pérdida de generalidad, se prpne a la LR-III cm la referencia patrón para las simulacines btstrap Esta LR cumple cn tds ls supuests del estadístic asciad, es decir, tds ls candidats pueden estar en cualquier celda de la tabla de cntingencias Una vez definida la LR patrón, la idea subyacente es intrducir una pequeña perturbación tant en el tamañ del términ, n T érmin, y lngitud, N, tratand de mantenerla l más cercan a la LR utilizada a ls efects de identificar ls términs verdaderamente enriquecids Para ell, se btienen diferentes LRs mediante un muestre cn repsición (btstrapping) sbre la LR patrón, manteniend siempre presente la ttalidad de prteínas/genes candidats En este sentid, las LRs btstrap cntendrán prteínas/genes repetids, que sn descartads en la cnstrucción de las tablas de cntingencias antes de realizar la prueba estadística crrespndiente Cnsecuentemente, ls resultads de la simulación permiten prprcinar una medida de estabilidad (ptencia) del enriquecimient para cada términ según (35):

155 35 Integración y cntraste de múltiples referencias 129 ptencia = cantidad de veces que es enriquecid númer de simulacines 100 (35) dnde la ptencia representa el prcentaje de veces que un términ se enriquece, sbre un elevad númer de simulacines En este sentid, mayr ptencia implica una mayr estabilidad en el enriquecimient del términ Cabe destacar que la idea de validación pr simulación en análisis ntlógicsfuncinales fue intrducida pr Zeeberg et al (2003), a través de valres q en G- Miner (sección 13) En esta herramienta la perturbación se realiza sbre la lista de prteínas/genes candidats, situación que respnde a cuán estables sn ls resultads funcinales cn respect a ls candidats utilizads Pr el cntrari, en esta tesis se asume que la selección de ls candidats es la aprpiada y la prblemática a abrdar radica en cuán estables sn ls términs dependiend de la LR utilizada en el análisis Si bien ambas validacines evalúan la prblemática de la estabilidad, en la presente tesis se hace énfasis en las prpias características de la LR utilizada y n en la lista de prteínas/genes candidats En este cntext, esta metdlgía n se encuentra dispnible en las herramientas biinfrmáticas actualmente dispnibles Más aún, su implementación es cmputacinalmente intensiva dad que requiere generar un numer elevad de LRs btstrap para su psterir análisis de SEA En el cas de utilizar DAVID cm mtr de cálcul, siguiend ls lineamients de la sección 351, se cnvierte en una tarea impracticable dada la abrumadra intervención en el siti web Más aún, esta tarea se encuentra prpensa a errres n frzads pr parte del usuari Sin embarg, es psible utilizar RDAVIDWebService de frma prgramática para btener ls resultads (sección 34), cn la limitación de pder realizar hasta 200 simulacines pr cuenta de usuari pr día, inclus haciend us de varias cuentas de usuari en un mism día 353 Bases de dats de ejempl El funcinamient del MRCM se pndrá a prueba utilizand una base de dats de prteómica que utiliza geles de electrfresis bidimensinal (2D-DIGE) y tres estudis de micrarregls de ADN del repsitri Gene Expressin Omnibus (GEO, wwwncbinlmnihgv/ge) En particular, se centra el interés en las hjas (nds

156 130 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD sin nds hijs), dad que cntienen infrmación bilógica más específica y permiten explicar términs ancestrales A tales efects, se estudiarán sól ls nds discrepantes y serán validads mediante búsqueda de artículs científics en PubMed (wwwncbinlmnihgv/pubmed) Prteómica Las prteínas expresadas diferencialmente se btuviern a partir de un experiment 2D-DIGE para el análisis de secretmas (prteínas secretas hacia el exterir de la célula) de ds líneas celulares de melanma, dnde se varió el nivel de expresión de la prteína prtumral SPARC (Ssa et al (2007) y Girtti et al (2011)) La base de dats fue pre-prcesada mediante un mdel lineal mixt de ds etapas, cm se explica pr Fernández et al (2008), bteniend 120 manchas (spts) cn expresión diferencial En este tip de experiment, las prteínas subyacentes n sn cncidas a priri Más aún, las restriccines bilógicas en este diseñ experimental sól permiten ver un subcnjunt de las prteínas que realmente está presente en el prtema baj estudi, es decir, cmprende slamente las prteínas extracelulares Cnsecuentemente, n se encuentra dispnible la LR-II para el análisis A su vez, la LR definida pr el usuari (LR-III) fue cnstruida utilizand diferentes técnicas dand un ttal de 3154 prteínas (ver Tabla 32 y Fresn et al (2012)) Esta lista cnsta de 72 prteínas únicas (46 sbreexpresadas y 26 subexpresadas), btenidas a partir de la identificación de ls spts diferenciales en ls geles 2D-DIGE analizads y de 3082 prteínas identificadas en la muestra referencia mediante LC-MS/MS usand Orbitraps (Girtti et al, 2011) Micrarregls de ADN Se analizarn tres estudis publicads de Gene Expressin Omnibus (GEO, www ncbinlmnihgv/ge), dnde se utilizarn micrarregls de Affymetrix R (ver Tabla 32) El primer estudi fue llevad a cab pr Packer et al (2007), dnde se btuviern ls perfiles de expresión génica en 12 réplicas bilógicas de tip salvaje y 23 mutantes para p14arfs en seres humans El bjetiv del trabaj fue buscar efectres nveles aguas abaj de la p14arf

157 35 Integración y cntraste de múltiples referencias 131 Tabla 32: Descripción de las bases de dats utilizadas para prbar el MRCM Base de dats Affymetrix Prteínas/genes diferenciales Autr GEO ID Nmbre del chip Criteri de calidad Criteri Genes #call= P Ttal Packer et al (2007) GSE7152 HG-U133 plus 20 6 sal y 12 mut FDR< (68, 97 ) Spira et al (2004) GSE994 HG-U133A 4 fum y 4 ctrl 4128 McGrath-Mrrw et al (2008) Girtti et al (2011) Muse Genme GSE Mdel mixt de 2 etapas Fernández et al (2008) e identificación pr LC-MS/MS FDR<005 y lg2f C > 0,4 116 (73, 43 ) 3 fum y 2 ctrl FDR< (10, 108 ) spts, 72 prteínas (46, 26 ) La base de dats de Girtti et al (2011) n respeta ls encabezads de la tabla dad que es un experiment prteómic de 2D-DIGE y pr simplicidad, se incluye cn el rest de ls estudis analizads

158 132 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD El segund estudi pertenece a Spira et al (2004), dnde se analizarn ls efects sbre el epiteli brnquial en 20 persnas fumadras y 20 que nunca habían fumad Ls autres llegarn a la cnclusión de que fumar induce respuesta xenbiótica, regulación de redx, expresión de varis ncgenes y disminución de la expresión de varis genes supresres tumrales, al igual que de mduladres de la inflamación en vías aéreas El últim estudi crrespnde al realizad pr McGrath-Mrrw et al (2008) Ls autres analizarn la expresión génica de tejid pulmnar de 6 ratnes nenats expuests a 14 días de hum de cigarrill y 4 ratnes cntrl Ls autres mstrarn que ls pulmnes perinatales eran particularmente susceptibles a ls efects dañins de la expsición, inhibiend la inmunidad innata y perjudicand ligeramente el crecimient pstnatal de ls pulmnes Tdas las bases de dats se prcesarn baj el mism fluj de trabaj utilizand el lenguaje R (R Cre Team, 2013) y paquetes de Bicnductr (Gentleman et al, 2005) En primer lugar, la intensidad de las sndas se escaló utilizand el algritm MAS5 cn ls parámetrs pr defect del paquete affy (Gautier et al, 2004) Est permitió btener las medidas de detectabilidad del fabricante (calls) y la señal de expresión Se incluyern en el análisis sól aquellas sndas cn anti-sentid únic _a (Affymetrix, 2004) y cnfiablemente detectadas (call= P ), para un númer mínim de chips acrde cn el diseñ experimental de cada estudi De esta manera, se utilizarn sól ls genes identificads cnfiablemente en casi tds ls micrarregls, para cnstruir la referencia definida pr el usuari (LR-III) El paquete limma (Smyth, 2004) permitió identificar ls genes cn expresión diferencial; se aplicó FDR para cntrlar las cmparacines múltiples, bteniend ls resultads de la Tabla Evaluación Cn el fin de evaluar la rbustez del MRCM e independencia de las bases de dats presentadas en la sección 353, se evaluó la presencia de términs enriquecids para las principales categrías de GO La figura 315 muestra una visión glbal (unión) de ls términs enriquecids btenids para FM, PB y CC, en tdas las bases de dats analizadas El diagrama de Venn de la extrema izquierda muestra que la mayr parte

159 35 Integración y cntraste de múltiples referencias 133 Ttal FM PB CC % 62 31% 0 0% 23 17% 11 36% 0 0% 82 21% 30 37% 0 0% % 31% 18% 29% 0% = 0% 0% + 18% 0% % 10 40% 27 41% 20 30% 6 50% 21 19% 73 30% 9 33% 0 0% 1 0% LR-I LR-II LR-III Figura 315: Diagrama de Venn para la distribución de términs enriquecids encntrads en tdas las bases de dats presentadas en la sección 353 para las diferentes categrías principales de Gene Ontlgy (Funcines Mleculares, Prcess Bilógics y Cmpnentes Celulares) En númers, la cantidad de términs enriquecids para cada subcnjunt y en prcentajes, aquélls que crrespnden a nds hjas Imagen extraída de Fresn et al (2012) de ls términs enriquecids (462) fuern cmpartids pr las diferentes LR, es decir, ls nds de cnsens A su vez, ls resultads de la LR-II (genes del micrarregl) están cntenids en el cnjunt de resultads de LR-I (genma) para cada GDA de GO, a excepción de un términ enriquecid en CC (diagrama de Venn de la extrema derecha) Este términ se encuentra en la estructura interna del GDA pr l que n aprta nueva infrmación bilógica ya que puede ser explicad pr nds hjas enriquecids (más específics) En la figura 315 también se aprecia que la LR-I (genma) presenta el mayr númer de términs enriquecids Nbstante, la mayría de ells sn nds n cnsensuads (125) ptencialmente debid a la lngitud de la LR Est se debe, cm se explicó en la sección 122, que a mayr lngitud de LR, mayr prtunidad de que el términ salga enriquecid (ver figura 13) Al analizar la LR-III (definida pr el usuari) y a pesar de que sól cntiene un máxim del 43,4 % de ls genes de la LR-I (véase tabla 33), 46 nuevs nds n cnsensuads están enriquecids y n sn recncids en ninguna de las tras ds LRs En la figura 315 se aprecia que el 39 % de ells aprta nueva infrmación bilógica, sprtada pr la literatura según se detallada en Fresn et al (2012), independientemente de cuál haya sid la base de dats la tecnlgía/experiment

160 134 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD Tabla 33: Pblación de genes en cada categría principal de Gene Ontlgy de acuerd cn las tres listas de referencias utilizadas Base de dats Funcines Mlecular Prcess Bilógics I II III I II III Girtti et al (2011) 15143(100) (169) 14116(100) (168) Packer et al (2007) 15143(100) 14128(933) 6216(410) 14116(100) 13187(934) 5798(411) Spira et al (2004) 15143(100) 10886(719) 3212(212) 14116(100) 10391(736) 3089(219) McGrath-Mrrw et al (2008) 15404(100) 12995(844) 6549(425) 14219(100) 11944(840) 6005(422) Base de dats Cmpnentes Celulares I II III Girtti et al (2011) 15908(100) (162) Packer et al (2007) 15908(100) 14741(927) 6384(401) Spira et al (2004) 15908(100) 11082(697) 3299(207) McGrath-Mrrw et al (2008) 15855(100) 13596(856) 6888(434) Pblación de genes para las distintas categrías de Gene Ontlgy y listas de referencias (I genma, II chip y III definida pr el usuari) Entre paréntesis, el prcentaje de la pblación respect a ls miembrs de I Cabe destacar que II es casi tan cmpleta cm el genma (I), mientras que sería de esperar una relación más estrecha (próxima) cm se muestra para en el cnjunt de dats genómica de melanma Nte también que el criteri de filtrad en III ha eliminad más de la mitad del ttal de ls genes del genma dispnibles en cada categría de Gene Ontlgy Dats extraíds de Fresn et al (2012)

161 35 Integración y cntraste de múltiples referencias 135 Pr tra parte, se analizó el desempeñ del MRCM sbre cada base de dats de la sección 353 Para el cas de ls resultads de Packer et al (2007), se ha representad en la fig 314 un esquema del MRMC crrespndiente a la categría de FM Un análisis detallad del graf inferir de la figura mstró 35 términs enriquecids, distribuids cm se muestra en la tabla 34, dnde 16 de ells sn nds de cnsens En este cas, a través de la utilización del MRCM, se identificarn tres nuevas ramas enriquecidas (sól cn la LR-III) directamente relacinads cn el entrn experimental La rama de la extrema izquierda (A) termina en un nd de actividad de receptr transmembrana, la cual psee genes reprtads en el estudiriginal relacinads cn vías de transducción de señales célula-célula en receptres de superficie (Barnes, 2009) La nueva rama central (B) psee enriquecid el nd de unión de in calci Este nd resultó ser un blanc ptencial para la terapia de melanmas maligns (Charpentier et al, 2010) La última nueva rama (C), terminó en un nd de actividad de transprte de acid carbxílic que cntenía sól ds genes (SCL16 y CTNS) Esta familia es fundamental para el metablism y la regulación del ph, según afirman Halestrap y Meredith (2004), per n estaría directamente asciada Tabla 34: Términs enriquecids para las tres categrías de Gene Ontlgy y las tres listas de referencias utilizads en las cuatr bases de dats Funcines Prcess Cmpnentes Base de dats Nd Mleculares Bilógics Celulares I II III I II III I II III Girtti et al (2011) T nd Packer et al (2007) T nd Spira et al (2004) T nd McGrath-Mrrw et al (2008) T nd T: cantidad ttal de nds enriquecids para una referencia dada (I genma, II genes del micrarregl, III definida pr el usuari) nd: nds discrepantes al final de una rama (hjas), es decir, nds sól detectads pr una ds referencias Dats extraíds de Fresn et al (2012)

162 136 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD al melanma Figura 316: Diagrama de cajas de la ptencia de ls nds enriquecids en cada categría principal de Gene Ontlgy, para las diferentes bases de dats Imagen extraída de Fresn et al (2012) En el estudi de Girtti et al (2011), a pesar del hech de que la LR-III sól tiene cm máxim el 17 % de ls miembrs de la LR-I (tabla 33) y el menr númer de candidats expresads diferencialmente (tabla 32), btuv el mayr cnsens entre tds ls resultads (tabla 34) Este alt cnsens válida ls nds enriquecids, teniend en cuenta que una LR larga tiende a prducir valres EASE más bajs (significativs) que LRs más crtas Adicinalmente, el análisis de ptencia respect a la lngitud de la referencia, también mstró estabilidad en ls resultads En la figura 316 es psible ver que ls diagramas de caja de la ptencia de ls nds enriquecids, está pr encima del 50 % para la mayría de ells La ptencia tiene una mayr varianza en la categría principal de PB para tdas las bases de dats, dad que es la categría de GO que tiene la mayr cantidad de términs en

163 35 Integración y cntraste de múltiples referencias 137 cmparación cn las tras ds (FM y CC, ver tabla 34) Cnsecuentemente, sól pr tener una mayr cantidad de términs, las perturbacines presentes de las LRs btstrap tienen una mayr psibilidad de prducir cambis en n T érmin que en las tras ds categrías (FM y CC) Figura 317: Diagrama de cajas de la ptencia de ls nds enriquecids en PB, cdificads cn la fuente de enriquecimient del diagrama de Venn Nte que en blanc se encuentra el diagrama de caja cnjunt ( Jint ) de tds ls nds enriquecids previamente vist en la figura 316 Imagen extraída de Fresn et al (2012)

164 138 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD En la figura 317 se muestran ls diagramas de caja de la ptencia de nds enriquecids para PB, agrupads pr la superpsición (en clr) del cntraste de las tres LRs En este cas, nuevs nds enriquecids aparecen para algunas LRs simuladas Ests también fuern nds discrepantes sól en la LR-I Sin embarg, ells muestran valres de ptencia pr debaj del 40 % Pr el cntrari, ls nds discrepantes únicamente encntrads pr la LR-III alcanzan valres de ptencia superires al 50 % y ls nds de cnsens alcanzan ptencia más alta para este experiment En ls experiments de micrarrays, ls diagramas de caja para la ptencia mstrarn el mism cmprtamient (ver figura 317) Casi tds ls nds que se encuentran en la LR-III alcanzarn valres de ptencia pr encima del 50 % Pr tra parte, ls nds que apareciern enriquecids pr btstrapping y encntrads previamente pr la LR-I cmpartids pr LR-I y LR-II mstrarn valres de ptencia de mens de 40 % en tds ls cass Est sugiere que ls nds enriquecids encntrads pr la LR-III fuern muy cnsistentes y ptencialmente significativs; además, han sid validads pr búsqueda bibligráfica pr Fresn et al (2012) Resultads similares se btuviern para la ptencia de las tras ds categrías principales de GO (FM y CC) Sin embarg, el cmprtamient de ls valres de ptencia es más evidente, ya que las cantidades de términs GO en estas categrías es menr que en PB 355 Cmentaris finales A partir de ls resultads btenids para ls diferentes cnjunts de dats reales de la sección 353, se ha demstrad que ls misms varían según la LR utilizada Est pdría ptencialmente sesgar cntribuir a una interpretación bilógica engañsa de ls resultads En este cntext, el MRCM se ha prpuest para facilitar la identificación de ls términs enriquecids pr el cntraste de ls resultads En este sentid, se pueden seguir ds abrdajes para SEA mediante el MRCM: i) el us de más de una LR ii) seleccinar una LR definida pr el usuari y realizar un análisis de estabilidad En el primer cas, se encntró un elevad cnsens, independientemente de la LR para las bases de dats de prueba utilizadas Est cincide cn la afirmación de Hedegaard et al (2009), quienes sugieren que si ls resultads bilógics (es decir, las prteínas/genes candidats) sn fiables, ls resultads de

165 35 Integración y cntraste de múltiples referencias 139 las diferentes LRs deben ser cmparables en cierta medida Sin embarg, términs ntlógics infrmativs pdrían perderse dependiend de la LR la visualización utilizada (pr ejempl frmat tabular), haciend dificults el prces de MD de descubrimient de la patrnes bilógicamente relevantes La inclusión de una referencia definida pr el usuari (LR-III) permite encntrar términs enriquecids y n identificads pr ls enfques tradicinales Más aún, el códig de clr utilizad en el MRCM ayuda a la identificación de términs bilógicamente infrmativs A su vez, est permite una visión glbal de ls resultads del experiment, l que facilita el análisis y la integración de la infrmación al destacar nds y/ ramas del graf, que en nuestr cas, sugiriern ser relevantes para el cntext experimental La estrategia prpuesta asiste la inspección del GDA, evitand mirar en extensas tablas al utilizar la estructura jerárquica de GO cm una estrategia de explración y resumen visual Est permite a ls investigadres centrarse en ls nds hja, que cntienen la infrmación bilógica más rica, acelerand el análisis Mediante el MRCM, ls nds cnsens sugieren una visión glbal del experiment e infrmación sbre la cnfiabilidad de ls genes expresads (aparecen enriquecids sin imprtar la LR que se utiliza) Est permite rápidamente saber que el experiment funcinó en términs generales, dad que se bservan ls enriquecimients esperads pr la hipótesis experimental planteada Pr tr lad, ls nds discrepantes sugieren nueva infrmación bilógica En este cntext, el us de una referencia definida pr el usuari (LR-III) permite la identificación de nuevs nds/ramas enriquecidas muy representativs, n antes vists cuand se utiliza el abrdaje de una única referencia El us del MRCM cn remuestre utilizand la LR-III permite explrar la estabilidad del enriquecimient Mediante el análisis de ptencia se demstró que ls nds discrepantes, identificads únicamente pr la LR-I y/ LR-II, sn inestables, l que sugiere enriquecimient espuri Pr el cntrari, nds enriquecids encntrads pr la LR-III mstrarn alta ptencia, l que sugiere mayr cnfianza, haciend a ests nds buens candidats de explración En ls cnjunts de dats aquí utilizads, ls nds enriquecids encntrads pr el MRCM fuern validads pr la literatura, cm se describe en el material suplementari de Fresn et al (2012) A diferencia de tras herramientas, el MRCM incluye tda la infrmación a

166 140 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD priri (sin recrtar el GDA de GO) y a psteriri (sin filtrad de ls resultads btenids), cn el fin de dejar que ls GDA y el MRCM hablen pr sí misms Ls resultads sugieren que se btiene más infrmación utilizand DAVID y GO sin ninguna restricción Pr ejempl, la nueva rama enriquecida que cntiene al nd actividad de transprte transmembrana de ácid carbxílic de la figura 314, resultó ser fundamental para el metablism y la regulación de ph Este nd n se identificaría utilizand a DAVID cn la estrategia definida pr defect, es decir, excluyend ls términs cn mens de 3 prteínas/genes Est es especialmente imprtante en ls estudis prteómics, dnde términs que pseen pcas prteínas pdrían quedar fuera del análisis, mientras que existe evidencia de la presencia de ells en varias manchas expresadas diferencialmente en el gel, cm en el estudi de Girtti et al (2011) 36 Visualización y explración de ls resultads La última etapa del fluj de trabaj del KDD crrespnde a ls reprtes, cm se presentó en el capítul 2 y se encuentra esquematizada en la figura 32 En esta etapa, el investigadr cuenta cn ls resultads de antación, expresión, estadístics y funcinales de su experiment En este punt se encuentra cn el cuell de btella más grande de tds: la explración de ls diferentes reprtes En la sección 135 del capítul 1 se mstró que el tip de reprte depende de la herramienta biinfrmática utilizada Usualmente, la mayría de las herramientas exprtan ls resultads en extensas tablas de antación, expresión y resultads funcinales En trs cass sn reprtes en frmat de páginas web, imágenes/gráfics predefinids cn escasa nula capacidad de interacción cn el usuari Nbstante, cuand la interacción es psible, se encuentra circunscrita a un siti web que requiere cnectividad a internet cm en el cas de DAVID, GOstat, GMiner, etc En ests cass, generalmente es necesari vlver a analizar ls dats cada vez que se desean explrar, dificultand el prcess de búsqueda y análisis de patrnes desde la MD En este cntext, el investigadr es el únic respnsable de integrar las salidas btenidas de la aplicación de diferentes herramientas para btener una visión cm-

167 36 Visualización y explración de ls resultads 141 pleta del mdel bilógic baj estudi Sin embarg, est n es psible inclus para diseñs experimentales simples (cas cntrl-tratamient) y much más dificults al analizar experiments de mayr cmplejidad De manera que la prpia cmplejidad de la integración de infrmación, es en sí misma un prblema A su vez, la falta de técnicas de resumen visual sbre ls resultads limita la capacidad de análisis Est impacta negativamente en la extracción de patrnes que pueda realizarse aplicand técnicas de MD, sbre la infrmación que pudiese estar dispnible El aprte de esta tesis en materia de reprtes, en el cntext del análisis ntlógicfuncinal, cnsta de un reprte HTML denminad cntraste ntlógic (Fresn et al, 2011) El reprte permite un análisis más estructurad y cmplet de la infrmación bilógica existente de frma interactiva, sin necesidad de cnectividad a internet En él es psible integrar de frma visual ls resultads funcinales y de expresión, utilizand la misma idea de la metdlgía del MRCM presentad en la sección 35, mediante grafs de enriquecimient de GO cm ls de las figuras 313 y 314 De esta manera es psible integrar autmáticamente el enriquecimient de las diferentes LRs, análisis de estabilidad, inclus de resultads de diferentes experiments diseñs de mayr cmplejidad, para visualizar mediante un patrón de clres las nuevas relacines inferidas de la integración/cntraste Así, una vez btenida la estructura, se generan ds vistas: Vista de enriquecimient En esta vista se pueden navegar ls grafs de integración funcinal de las diferentes categrías de GO (PB, FM CC) En cada un de ells es psible visualizar el nmbre de ls nds enriquecids (términ) y en clr, la/s fuente/s de prcedencia Así, la prpia estructura de GO sirve tant de estrategia de resumen de infrmación, al igual que guía para la explración de ls nds terminales u hjas, que sn ls que pseen la mayr especificidad bilógica de la rama del graf baj explración Vista de expresión Adicinalmente a la infrmación de GO, esta vista integra la expresión de las prteínas/genes asciads al experiment Para ell, cada nd se representa cn un gráfic de sección circular la cantidad de prteínas/genes sbre y/ subrexpresadas, y un punt central cn la fuente de enriquecimient A través de esta vista, autmáticamente se muestra la existencia ( n) de patrnes de sbre subexpresión asciada a términs bilógics específics;

168 142 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD es decir, si existen ramas del graf que presenten sbre subexpresión Cabe destacar que esta vista n se encuentra presente en ninguna de las herramientas presentadas en la sección 13 En ambs cass, el usuari puede seleccinar de frma interactiva un nd de interés y acceder a su infrmación de antación asciada (IDs, símbls, vínculs a bases de dats externas, etc), infrmación de expresión (media de expresión en diferentes tratamients, etc) e infrmación funcinal (definición del términ, valr EASE, etc) De esta manera, el usuari tiene la psibilidad de integrar diferentes fuentes de infrmación e inclus persnalizar la infrmación de expresión, a ls efects de explrar en su cnjunt el mdel bilógic baj estudi Finalmente, se genera un reprte HTML que integra las diferentes vistas btenidas (enriquecimient y expresión) para cada una de las tres categrías de GO (FM, PB y CC) e inclus permite acceder a la infrmación riginal btenida pr DAVID/RDAVIDWebService A ls efects de mstrar un cas de us del reprte del cntraste ntlógic, se presentan ls resultads btenids cn el MRCM de la sección 35, para el experiment de geles de prteínas 2D-DIGE de Girtti et al (2011) presentad en la sección 353 y tablas 32, 33 y Evaluación del cntraste ntlógic En la figura 318 se muestran capturas pantallas de un reprte típic del cntraste ntlógic El reprte psee, en el margen superir, una barra de navegación que permite acceder a diferentes fuentes de infrmación: Genes: psee la infrmación de antación y expresión de las prteínas/genes diferenciales del experiment en frmat tabular KEGG: ls resultads btenids en DAVID/RDAVIDWebService para las vías metabólicas de KEGG, a ls cuales se les ha incrprad la infrmación de antación y expresión de las prteínas/genes sbre subexpresadas BP, MF, CC: las tres categrías principales de GO Se puede acceder a esta infrmación a través de las tablas riginales btenidas pr DAVID/RDAVIDWebService, mediante las vistas de enriquecimient (Nmbre) y/ de expresión (Pie)

169 36 Visualización y explración de ls resultads 143 Barra de navegación Barra de explración Vista de enriquecimient Vista de expresión 3 4 Figura 318: Capturas de pantalla del reprte HTML para el experiment de prteómica funcinal de Girtti et al (2011) Imagen extraída de Fresn et al (2011)

170 144 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD en su versión resumida, que presenta sól ls nds enriquecids (Enriquecid) el graf cmplet de GO (Full) En un primer análisis explratri, el usuari usualmente puede elegir seguir el esquema de ls pass numerads del 1 al 4 en la figura 318 Inicialmente en 1 seleccinó la vista de enriquecimient de MF En la sección del graf mstrada se aprecian slamente aquells nds que resultarn enriquecids, cn su crrespndiente nmbre y grad de superpsición (en clr) En ella se bserva un elevad cnsens entre ls ds cntrastes utilizads (en rj), es decir, nds enriquecids en ambas referencias (LR-I ylr-iii) y esperables desde la bilgía del experiment (siempre enriquecids) Al utilizar este tip de representación, el usuari puede btener rápidamente un visión glbal del experiment y filtrar visualmente aquells nds más genérics, para fcalizar su atención en ls nds enriquecids más específics (más prfunds) De esta manera, se bserva una rama de gran especificidad que termina sól en ds nds naranja, enriquecids en el genma LR-I (elipse en traz discntinu, en la figura 318) Mtivad pr esta bservación, el usuari puede trasladarse a la vista de expresión cmpleta, cm es en el cas de cntinuar cn el pas númer 2 En esta vista se bserva que la ttalidad de la rama se encuentra sbrexpresada (sección verde cmpleta), manteniend en el punt central la fuente de enriquecimient: blanc para ls n enriquecids y naranja para ls bservads en la vista de enriquecimient En este punt, si el investigadr quisiera saber cuál es la infrmación funcinal, expresión y antación del nd terminal de la rama sbreexpresada denminad actividad regulada pr vltaje de canales de clrur, debe seleccinar el nd crrespndiente y navegar en la barra de explración, cm se presenta en el pas 3 de la figura 318 Esta barra se encuentra dividida en tres seccines: Superir: presenta el mism diagrama de sección del nd crrespndiente a la vista de expresión, dnde adicinalmente se incluye la leyenda cn las fuentes de enriquecimient (punt central) y ls niveles de expresión (seccines) Media: presenta una tabla cn la infrmación funcinal (nmbre del términ, valres p/ease de enriquecimient de las diferentes LRs, cantidad de prteínas/genes, definición del términ, etc)

171 36 Visualización y explración de ls resultads 145 Inferir: presenta una tabla cn la descripción de antación y expresión de las prteínas/genes cn expresión diferencial (IDs, expresión, símbl/vínculs a PubMed, descripción, etc) que resultarn asciads a dich términ bilógic En particular, se bservan ds genes de la familia CLIC para este nd El investigadr puede cntinuar la búsqueda siguiend cn el pas 4 de la figura 318 y seguir el enlace de PubMed prvist pr el reprte para acceder a tda la infrmación dispnible (requiere acces a internet) De hech, Fresn et al (2012) realizarn una validación bibligráfica y relacinarn ests genes cn migración celular de melanmas, Madeja et al (2001a,b) Adicinalmente, utilizand una estrategia similar sbre el rest del graf, resultó de interés el nd unión de prteínas n plegadas Este nd se encntró relacinad cn SPARC durante el desarrll embrinari en estudis de depsición de clágen tip IV en la lámina basal y también fue mencinad cm un chaperón mlecular en el retícul endplasmátic, Martinek et al (2007) y Pfaff et al (1993) Al utilizar la herramienta en la categría de PB, el cntraste ntlógic autmáticamente resaltó 10 nds fuera del cnsens (naranja), altamente específics (hjas) y a su vez relacinads cn SPARC Pr ejempl, rganización de filaments intermedis del citesquelet es intrínsecamente afectad pr SPARC (Alvarez, 2006) Del mism md, regulación psitiva de migración y quemtaxis de leuccits, sn directamente afectads pr la expresión de SPARC según l reprtad pr Alvarez et al (2005) y Kelly et al (2007) Términs de respuesta a stress celular, dañ de axnes y hrmna esteride también fuern resaltads y asciads a este gen (Au et al, 2007; Dieudnné et al, 2000; Luna et al, 2009; Sawhney, 2002; Schellings et al, 2004; Vadlamuri et al, 2003) Prteínas de la matriz celular cm SPARC, también se encuentran invlucradas en ls términs resaltads de desarrll de sistema nervis y diferenciación celular (Chavey et al, 2006; Erglu, 2009; Vincent et al, 2008) Pr tra parte, es interesante bservar que mediante el reprte prpuest, se encntrarn términs resaltads en FM y PB dnde genes de la familia CLIC también están presentes Una relación entre SPARC y familia CLIC en regulación negativa de ubiquitinación de prteínas ha sid recientemente sugerida pr Nakayama (2010) y Bellei et al (2010) Pr tra parte, transprte de aminas fue el únic nd que emergió en PB en el cntraste ntlógic, relacinad cn la referen-

172 146 Capítul 3 Aprtes realizads al análisis ntlógic-funcinal desde la MD cia definida pr el usuari LR-III (en clr verde) Sin embarg, la evidencia en la literatura n resultó cncluyente acerca de la relación de SPARC cn este prces, a pesar de que esta prteína psee capacidad para transglutaminarse debid a la alta densidad de ácids glutámics del extrem N-terminal (Hhenadl et al, 1995), per las transglutaminasas de tejids n están invlucradas en este tip de prcess En la última categría principal de GO, CC, el reprte resaltó tres hjas en el genma (naranja), membrana basal, cmplej de enzimas de ubiquitinación y envltura nuclear asciadas a expresión de SPARC, de acuerd cn las bservacines de Anwar et al (2011); Sacks-Wilner y Fredd (1990) 362 Cmentaris finales El cntraste ntlógic ha mstrad ser un reprte capaz de abrdar la prblemática de sus predecesres en l que respecta al integración simultánea de diferentes fuentes de infrmación y una visualización intuitiva para la inspección de ls resultads btenids a partir de SEA A diferencia de tras herramientas de la sección 135, hace us de la estructura de GO para presentar de frma amigable y facilitar la explración simultánea de ls resultads En este cntext la prpia estructura de graf, permite que el usuari pueda cn un simple filtrad visual acceder rápidamente a la infrmación experimental relevante; en cambi, la metdlgía tradicinal (pr ejempl, frmat tabular), hace dificults el prces de descubrimient y explración de infrmación bilógica Adicinalmente, su utilización en cnjunt cn el MRCM de la sección 35, facilitó la identificación de términs bilógicamente infrmativs, dand una rápida visión general de ls resultads del experiment El métd resaltó autmáticamente nds y ramas del graf que tuviern relevancia bilógica para nuestr cntext experimental Más aún, la vista de expresión permitió extender el análisis a ramas cmpletamente sbre subexpresadas, aprtand infrmación prpia de la bilgía al investigadr Así, la metdlgía prpuesta facilita la inspección del graf, evitand la búsqueda en detalle y ahrrand tiemp de análisis El reprte prpuest para recuperación de infrmación (cnsulta simultánea a bases de dats) y visualización, cm una herramienta de MD, permite fácilmente ver infrmación cntextual enfatizand ls nds ptencialmente

173 36 Visualización y explración de ls resultads 147 relevantes mediante la cdificación de clres, es decir, identificand infrmación nvel en el panrama que presenta el graf Pr ejempl, la rama enriquecida de actividad regulada pr vltaje de canales de clrur de la figura 318, resultó tener un elevad grad de imprtancia para el experiment de Girtti et al (2011) Esta rama n hubiera sid identificada utilizand DAVID/RDAVIDWebService cn sus parámetrs pr defect (excluye términs cn mens de 3 genes) Est es especialmente imprtante en estudis de prteómica dnde, en el ejempl mstrad, un términ que cntiene sl ds genes (CLIC4 y CLIC1) resultó enriquecid, a pesar de que estas prteínas/genes se encntrarn presentes diferencialmente en varias isfrmas del gel de melanma

174

175 Capítul 4 Aplicacines En este capítul se muestra cóm a partir de la aplicación de las metdlgías desarrlladas en esta tesis, descritas en el capítul 3, ha sid psible encntrar infrmación bilógica en diferentes cntexts experimentales, mstrand la utilidad práctica de las mismas En el experiment de Lreti et al (2013) se evalúa el impact funcinal de la hrmna flícul estimulante (FSH) en humans La actividad bilógica de la FSH se encuentra dada pr las diferentes cnfiguracines que puede adptar dicha prteína, l cual a su vez depende de la etapa del cicl flicular Además, la abundancia de las distintas cnfiguracines se ve alterada entre la pre y pstmenpausia La imprtancia de la FSH en clínica médica radica en que sól se utiliza la cnfiguración de mayr actividad bilógica para tratamients de inseminación artificial En este cntext, ls autres evaluarn el impact funcinal de las diferentes cnfiguracines de FSH En particular se extiende la idea del MRCM presentad en la sección 35, para cmparar diferentes cntrastes de tratamients (preguntas bilógicas) btenids cn RDAVIDWebService (sección 34) desde un punt de vista funcinal Lueg, se utilizan ls reprtes btenids del cntraste ntlógic (sección 36), a ls efects de asistir a la explración del impact funcinal de las diferentes variantes de FSH En el experiment de Denninghff et al (2014) se investiga el efect prtectr/reparadr del aceite de pescad sbre una lesión renal aguda inducida pr dieta en un mdel de ratón En particular, ls autres están interesads en encntrar vías metabólicas relacinadas cn efect terapéutic del aceite de pescad sbre el riñón 149

176 150 Capítul 4 Aplicacines y evaluar psibles efects claterales en hígad En este cntext, se prfundiza sbre la explración multivariada utilizand lmdme cm se presentó en la sección 33, a ls efects de inspeccinar ls diferentes biplts en búsqueda de existencia de patrnes de asciación entre genes y tratamients Adicinalmente, se integran/cntrastan funcinalmente ls diferentes tratamients y órgans a través del MRCM y reprtes del cntraste ntlógic (sección 35 y 36), siguiend una estrategia similar a la utilizada sbre ls dats de Lreti et al (2013) 41 Impact funcinal de variantes de FSH El crecimient de ls flículs várics es un prces cmplej regulad pr gnadtrpinas, esterides y factres de crecimient (Richards et al, 2002) La hrmna flícul estimulante (FSH), juega un papel esencial durante la fliculgénesis várica y sus accines tienen cnsecuencias imprtantes en la fertilidad, ya que ls ratnes hembra cn deficiencia de subunidades β de FSH receptr de FSH sn infértiles (Abel et al, 2000; Kumar et al, 1997) Esta gnadtrpina n sól regula la prliferación de células de la granulsa y la prducción de estradil, sin que también previene la apptsis de las células de la granulsa y la atresia flicular (Chun et al, 1996; Rbker y Richards, 1998) Al igual que tras hrmnas glucprteicas, la FSH se cmpne de una familia de variantes de glicsilación que difieren entre sí en la estructura del ligsacárid incluyend la finalización de la síntesis de la rama, grad de ramificación y el cntenid de ácid siálic En mdels in vitr se ha demstrad que las variantes de glicsilación de la FSH tienen accines cmplementarias y específicas sbre ls flículs en desarrll, y que se requiere un balance específic de glicfrmas para un óptim desarrll del flícul (Barris-de Tmasi et al, 2006; Ulla-Aguirre et al, 1999; Vitt et al, 1998) Pr tr lad, el grad de biactividad de la FSH es inversamente prprcinal al cntenid de ácid siálic (Zambran et al, 1996) En este cntext, el bjetiv prpuest pr Lreti (2012) y Lreti et al (2013) fue determinar el psible impact funcinal de la cmplejidad de ligsacárids y cntenid de ácid siálic en FSH recmbinante humana (FSHrh), sbre células de granulsa humana en cultiv

177 41 Impact funcinal de variantes de FSH Entendimient de dats El mdel bilógic baj estudi fue una línea celular tumral, similar a una granulsa humana (KGN), la cual mantiene la expresión funcinal del receptr de FSH y la capacidad de prducir esterides y expresar las subunidades α y βa inhibinas (Nishi et al, 2001) Las inhibinas sn cmplejs prtéics que regulan a la baja la síntesis de FSH e inhiben la secreción de FSH Esta línea celular es estimulada cn un medi de cultiv que psee diferentes aislamients btenids de la FSHrh cmercial (NICHD, NIH; USA): Análgs de carga: mediante iselectrenfque, se cmbinarn las fraccines recuperadas de diferentes preparads cn ph 2,56 a 4,00 para btener una mezcla más ácida (FSHrh-AC) y análga en carga de ácid siálic A su vez, las fraccines cn un ph >5,00 se cmbinarn para btener una mezcla más básica (FSH-BA), cm se describe para ambas preparacines en Lreti et al (2013) Isfrmas cn distinta cmplejidad de ligsacárids: mediante crmatgrafía en Cncanavalina A se separarn tres grups de variantes glicsiladas de FSHrh de acuerd a la cmplejidad de sus ligsacárids retenids pr lectina: N retenids (NR): FSHrh cn glicfrmas que pseen cmplejs, triantenaris y bisectrices de ligsacárids Débilmente retenids (DR): FSHrh cn glicfrmas que pseen cadenas de carbhidrats biantenaris Fuertemente retenidas (FR): FSHrh cn glicfrmas que pseen un elevad cntenid de ligsacárids de mansa de tip híbrid De ls tres grups anterires sól se utilizarn las preparacines que n retienen (FSHrh-NR) y aquellas fuertemente retenidas (FSHrh-FR), cm se describe en Lreti et al (2013) Las células de KGN se cultivarn en un medi cn la FSHrh cmercial nativa, ds aislamients de ácid siálic (FSHrh-AC y FSHrh-BA) y ds aislamients de cmplejs de ligsacárids (FSHrh-NR y FSHrh-FR), empleand una dsis de 20 ng/ml de cada preparad y ds réplicas bilógicas pr cada tratamient durante

178 152 Capítul 4 Aplicacines 24 hras Lueg se extraj, purificó e hibridizó el ARN utilizand el micrarregl Human Gene 10 ST de Affymetrix R siguiend el prtcl del fabricante Se utilizó el sftware del fabricante, Expressin Cnsle 11, para btener ls niveles de expresión de genes y las medidas de calidad/detectabilidad (call) del fabricante Una vez btenids ls valres de expresión del experiment, se abrdarn las diferentes etapas del KDD descriptas en el capítul 2, utilizand el fluj de trabaj de la sección 31: La cnversión e integridad de antación utilizó el aprte de la sección 32, empleand la antación del fabricante en cnjunt cn el paquete de Bicnductr del fabricante y una actualización de ls dats asciads a ls IDs cn e-utiles El filtrad de dats cnsideró sól aquellas sndas que pseen antación, que cdifican alguna prteína y que han sid detectadas en la ttalidad de ls micrarregls, según las métricas del fabricante btenidas pr Expressin Cnsle R, dad que se pseen sól ds réplicas bilógicas pr tratamient La nrmalización de ls dats n ha sid necesaria, dad que se utilizó el algritm RMA-SKETCH para btener la señal de intensidad de las sndas Este algritm aplica una transfrmación a ls valres de intensidad de manera de dejar a tds ls micrarregls cn la misma distribución (Affymetrix, 2004) La reducción, pryección e integración de dats, fue llevada a cab mediante el ajuste del mdel lineal de la ecuación (41) para cada gen del micrarregl presente en esta etapa: y ij = β 0i + β 1i τ AC (i) + β 2i τ BA (i) + β 3i τ NR (i) + β 4i τ F R (i) + ε ij (41) i = 1,, N; j = 1, 2 ε ij N(0, σ 2 i ) Cv(ε ij, ε kl ) = 0 i k j l (42) dnde: y ij es el valr lg 2 de expresión del i-ésim gen, para la j-ésima réplica β 0i representa el nivel de expresión para el cntrl de FSHrh cmercial β 0i, β 1i,, β 4i y σi 2 sn parámetrs descncids del mdel a estimar,

179 41 Impact funcinal de variantes de FSH 153 ε ij es el errr aleatri nbservable, sujet a ls supuests de (42) τ AC (i), τ BA (i), τ NR (i) y τ F R (i) sn variables binarias para indicar la pertenencia n (1 0), del i-ésim gen al tratamient FSHrh-AC, FSHrh-BA, FSHrh-NR y FSHrh-FR respectivamente El mdel (41) se ajustó cn la librería limma de R, utilizand una crrección empírica de Bayes (Smyth et al, 2011) Se seleccinarn aquells genes expresads diferencialmente entre cada un de ls tratamients respect de la situación de cntrl, es decir, H0 : β ki = 0 cntra H1 : β ki 0 para k = 1,, 4 i Adicinalmente, se cmpararn ls tratamients cn diferente ácid siálic y cmplejidad de ligsacárids En tds ls cass se utilizó un valr p < 0,05 y β ki de crte, que permitiera una crrecta separación de ls mapas de calr de ls diferentes pares de cntraste de tratamients y suficiente infrmación ( 400 genes) para la etapa de mdelad cm se describe en Fresn et al (2012) En la figura 41 se muestran ls resultads btenids en la etapa de reducción, pryección e integración de expresión para ls diferentes tratamients En el panel (a) se bservan ds diagramas de Venn, cn ls genes diferenciales btenids para las cmparacines de interés bilógic respect del cntrl (FSHrh) En este sentid, el diagrama superir cmpara la diferencia de genes candidats según el cntenid de ácid siálic (FSHrh-AC vs FSHrh-BA), mientras que en el inferir ls genes atribuids a la cmplejidad de ligsacárids (FSHrh-NR vs FSHrh-FR) En tds ls tratamients se btuv una cantidad de genes en el rden de 400 individus y una distribución similar de genes sbre subexpresads Nte que para ambs diagramas, ls tratamients cmparten en el rden de 1/4 de ls genes seleccinads Una lista cmpleta de ls genes, descripción y valres de expresión se puede encntrar en el material suplementari de Lreti et al (2013) y en la página web wwwbdmgcm ar/?page_id=251 En la figura 41(b) se muestran ds mapas de calr, un para verificar el cntenid de ácid siálic y el segund para la cmplejidad de ligsacárids En estas figuras, las filas representan ls tratamients y en clumnas ls genes de ls micrarregls, para ls tratamients FSHrh-BA y FSHrh-FR respect del cntrl (FSHrh) En ambs mapas de clr se aprecia el crrect agrupamient de las réplicas bilógicas de cada tratamient Además se puede ver el cambi en el nivel de expresión de un

180 154 Capítul 4 Aplicacines FSHrh-AC FSHrh-BA FSHrh-NR FSHrh-FR (a) Genes diferenciales FSHrh-BA FSHrh-BA FSHrh FSHrh FSHrh-FR FSHrh-FR FSHrh FSHrh (b) Mapas de calr Figura 41: Reducción, pryección e integración de genes diferenciales (a) Diagrama de Venn cn ls genes candidats para las diferentes cmparacines de interés bilógic, respect de la cndición de cntrl (FSHrh) Las flechas indican el sentid de sbre subexpresión de ls genes (b) Mapas de calr para la cmprbación visual el agrupamient de las réplicas bilógicas para el criteri de selección utilizad Adaptación de imágenes de Lreti et al (2013)

181 PB/FM/CC 41 Impact funcinal de variantes de FSH 155 mism gen atribuid al cambi de tratamient, es decir, pasa de sbre a subexpresión viceversa Un cmprtamient similar presentan ls trs ds tratamients respect del cntrl, ls cuales n sn mstrads en la figura 41(b) 412 Mdelad La etapa de mdelad se llevó a cab mediante el MRCM presentad en la sección 35 En este sentid, se utilizó la idea de btener cncimient bilógic pr el cnsens/discrepancia del enriquecimient de diferentes listas de referencias (LRs), per en este cas sbre resultads funcinales btenids de listas de genes prvenientes de diferentes cntrastes de tratamients El MRCM se utiliza de frma habitual para realizar el análisis ntlógic-funcinal de cada una de las listas de genes empleand las tres LRs prpuestas: el genma de la especie (LR-I), ls genes impress en el micrarregl (LR-II) y aquells detectads de manera cnfiable (LR-III) Psterirmente, se btiene el graf de enriquecimient para cada LR a ls efects de integrar ls resultads en un graf ampliad, perand pr clumnas sbre ls grafs que pseen un mism clr (verde, azul naranja), cm se muestra en la figura 42 para ls cntrastes que invlucran diferentes cnte- FSHrh-AC vs FSHrh FSHrh-BA vs FSHrh FSHrh-AC vs FSHrh-BA LR-I LR-II LR-III + + = + + = + + = + + = MRCM MRCM MRCM MRCM para cmparar ls variantes de FSHrh Figura 42: Cntrastes de enriquecimient funcinal de las variantes de FSHrh relacinadas a diferente cntenid de ácid siálic: ácidas (FSHrh-AC), cntrl (FSHrh) y básicas (FSHrh-BA) Imagen adaptada de Fresn et al (2012)

182 156 Capítul 4 Aplicacines nids de ácid siálic (FSHrh-AC, FSHrh-BA y FSHrh) De esta manera, la ttalidad de infrmación de enriquecimient de un mism cntraste es integrada en un únic graf Un esquema similar de prcesamient se utilizó para ls tratamients que pseen diferente cmplejidad de ligsacárids (FSHrh-NR, FSHrh-FR y FSHrh) Una vez btenid el graf que integra ls resultads funcinales de las tres LRs para cada lista de genes, se busca cmparar a nivel funcinal aquells cntrastes de interés bilógic Para ell se emplea la misma idea del MRCM, dnde ahra el cnsens/discrepancia se aplica sbre la última fila de la figura 42, es decir, sbre la suma de ls resultads parciales btenids para las clumnas (grafs ampliads de cntrastes de variantes de FSHrh) Ahra el patrón de clres permitirá identificar visualmente la especificidad funcinal del diferente cntenid de ácid siálic cmplejidad de ligsacárid de la/s variante/s de FSHrh utilizadas Justamente, la psibilidad de integrar infrmación funcinal de diferentes listas de genes candidats, n se encuentra dispnible en ninguna de las herramientas biinfrmáticas presentadas en la sección 13 Esta es una característica nvel del MRCM, dnde, a través de ls reprtes del Cntraste Ontlógic de la sección 36, es psible explrar de una manera rápida, visual y eficaz ls resultads de las diferentes variantes glicsiladas de la FHSrh, sin que ell se trne en una tarea tedisa para el investigadr, cm se describió en el capítul Evaluación El us cnjunt del MRCM y ls reprtes del Cntraste Ontlógic, mstrarn que en el análisis de enriquecimient funcinal tant cntenid de ácid siálic cm cmplejidad de ligsacárids, mdulan la expresión de genes implicads en la actividad funcinal de las células KGN cm se describe en Lreti et al (2011), Lreti (2012) y Lreti et al (2013) En la figura 43 se muestran ls resultads del cntraste funcinal para diferente cntenid de ácid siálic en el graf de PB de GO En la figura se aprecia que cn el MRCM fue psible descubrir ramas funcinales asciadas a la FSHrh-AC (en clr azul), nds hja que se diferencian entre las variantes ácidas y básicas (en clr naranja), ramas y nds hja asciadas a la FSHrh-BA (en clr verde) y uns pcs nds cnsensuads pr tdas las variantes (en clr rj) Esta visualización

183 41 Impact funcinal de variantes de FSH 157 AC vs basal AC vs Basal & BA vs Basal AC vs BA AC vs BA & BA vs Basal BA vs basal AC vs BA & AC vs Basal N enriquecid AC vs BA & AC vs Basal & BA vs Basal Figura 43: Adaptación del MRCM para cntrastar el enriquecimient funcinal de Prcess Bilógics de Gene Ontlgy, de las variantes de FSHrh cn diferente cntenid de ácid siálic: ácid (FSHrh-AC), cntrl (FSHrh) y básic (FSHrh-BA) Imagen extraída de Lreti et al (2011)

184 158 Capítul 4 Aplicacines es de gran utilidad para la búsqueda de patrnes, desde una perspectiva de la MD, dnde la estructura de GO y ls clres permiten una visión funcinal glbal de las variantes de FSHrh asciadas al cntenid de ácid siálic En particular se encntrarn diferentes nds enriquecids pr la FSHrh-AC cm hmestasis celular, rganización del nuclesma, ensamblad de esterides y transprte de ines de hierr, ls cuales están relacinads cn el mdel bilógic baj estudi A su vez, la cntraparte cn menr cntenid de análgs de ácid siálic (FSHrh-BA), se asció a términs de GO enriquecids principalmente en aspects imprtantes del prces de reprducción tales cm generación de gamets, regulación de la diferenciación celular (factres de crecimient) y regulación de la secreción celular Ests términs sprtan las bservacines de Zambran et al (1996) dnde el grad de biactividad de la FSH es inversamente prprcinal al cntenid de ácid siálic Un graf similar se btuv para las FM de GO y el diferente cntenid de ácid siálic En este sentid la FSHrh-AC se asció a términs enriquecids en actividad esteride deshidrgenasa, actividad transmembrana de glucsa, actividad de canales de calci, unión de esterides y ácid nucleic y actividad de receptres nucleares dependiente del ligand, ls cuales sn rápidamente identificads de frma visual en el graf Baj la misma metdlgía de explración, ls términs enriquecids pr la FSHrh-BA fuern: ligand de factres de crecimient, unión de ines de calci, actividad regulada pr la síntesis de óxid nítric, actividad del inhibidr de endpeptidasa del tip de serina y actividad de la prteína tirsina quinasa En este graf ls nds cnsenss y aquells asciads entre las variantes ácidas y básicas, sn nds interns a la estructura, pr l que sn explicads pr alguns de aquélls bilógicamente más específics de FSHrh-AC FSHrh-BA nmbrads cn anteriridad La explración de la cmplejidad de ligsacárids a nivel funcinal fue la que brindó mayr cantidad de infrmación sbre el mdel bilógic baj estudi En este sentid, ls grafs cntenids en el reprte del Cntraste Ontlógic pseen una cantidad elevada de nds enriquecids Est se atribuye directamente al grad de especificidad funcinal de las variantes invlucradas en la cmplejidad de ligsacárids A ls efects de la evaluación, en la figura 44 se muestran aquells nds

185 41 Impact funcinal de variantes de FSH 159 Figura 44: Extract del graf de enriquecimient funcinal asciad a la cmplejidad de ligsacárids En el panel A se presenta para Prcess Bilógics y en el B para Funcines Mleculares M En clr amarill ls nds enriquecids para tdas las variantes de FSHrh y en celeste, aquells específicamente relacinads a ligsacárids n retenids pr lectina (FSHrh-NR) Imagen extraída de Lreti et al (2013) relacinads específicamente cn la FSHrh-NR para PB y FM en el panel A y B respectivamente En ests grafs el MRCM resalta ls nds enriquecids cmunes a las diferentes variantes de FSHrh en clr amarill, mientras que en celeste resalta ls específics de FSHrh-NR En el panel A se resaltan ls nds de apptsis así cm la respuesta inflamatria aguda y la adhesión célula-célula dependiente de calci vinculads a la FSHrh-NR A su vez, en el panel B la misma variante enriquece ls términs de actividad de liasa de carbn-carbn, unión de ines de calci y actividad de receptres de vaspresina, cm se describe en Lreti et al (2013) Pr tra parte, en el panel A de la figura 45 se bserva cóm la variante de FSHrh- FR afecta genes que enriquecen nds de PB cm la bisíntesis de esterides,

186 160 Capítul 4 Aplicacines (a) Prcess bilógics (b) Funcines mleculares Figura 45: Extract del graf de enriquecimient funcinal asciad a la cmplejidad de ligsacárids En el panel A se presenta para Prcess Bilógics y en el B para Funcines mleculares M En clr amarill, ls nds enriquecids para tdas las variantes de FSHrh y en vileta, aquells específicamente relacinads a ligsacárids fuertemente retenids pr lectina (FSHrh-FR) Imagen extraída de Lreti et al (2013)

187 41 Impact funcinal de variantes de FSH 161 la respuesta a estímuls de estrógen, punt de cntrl de dañ intra-s en el ADN, desarrll del flículváric y metablism del clesterl Ls nds enriquecids pr esta variante en FM, se encuentran asciads a unión de ATPasas, unión a receptres de interleukina-7 y unión de xígen cm se muestra en el panel B de la figura 45 Curisamente, en las figuras 44 y 45 las ramas enriquecidas cmunes a tdas las cndicines experimentales estudiadas terminan en el nd hja de la vía de señalización de receptres de prteínas-g acplads en el graf de PB en la actividad de receptres de prteínas-g acplads para el graf de FM; es decir, que tant las variante del cntenid de ácid siálic cm la de cmplejidad de ligsacárids enriquecen dichs nds De hech, esta bservación fue detectada en el graf que incluye la ttalidad de variantes de cmplejidad de ligsacárids, que pr raznes de tamañ del graf n ha sid incluid y que a Lreti et al (2013) les sugiere un par de hipótesis para explrar en trabajs futurs Ls resultads btenids para ls grafs de CC asciads a las diferentes variantes glicsiladas de FSHrh n fuern cncluyentes En este sentid, n fue psible detectar patrnes desde la MD sbre las vistas de enriquecimient de expresión del reprte de Cntraste Ontlógic que fueran de utilidad para generar nuev cncimient sbre el cmprtamient de las KGN A partir de ls resultads anterires y del cncimient bilógic previ del mdel bilógic, Lreti et al realizarn un selección sbre ls nds hjas enriquecids sbre PB para elegir genes candidats para la psterir validación bilógica En este cntext, se seleccinó el nd de bisíntesis de esterides relacinad cn actividad específica de la FSHrh-FR cm se muestra en el panel A de la figura 45 Dentr de este nd se realizó una selección de ptenciales candidats, mediante la explración del reprte de Cntraste Ontlógic mstrad en la sección 361 En este sentid, se tuv en cuenta la integración de infrmación de expresión de las diferentes variantes glicsiladas de FSHrh y la evidencia de artículs científics relacinads ls mdels de las células KGN, siguiend ls vínculs de PubMed incluids en el reprte De esta manera, resultarn cm candidats ls genes cn ls símbls STAR, HSD3B2, CYP19A1 y HSD17B para validación pr RT-PCR (sección 25) Para tds ls candidats seleccinads, se btuviern resultads de expresión simi-

188 162 Capítul 4 Aplicacines lares a ls reprtads para la expresión realizada pr micrarregls, cm se describe en detalle para cada un de ells en Lreti et al (2013) 414 Cmentaris finales La integración de la infrmación experimental, expresión y ntlógica-funcinal utilizand ls aprtes de esta tesis en l que refiere al MRCM y Cntraste Ontlógic presentads en la sección 35 y 36, ha demstrad ser de mucha utilidad para el estudi del funcinamient de la línea celular tumral, similar a una granulsa humana En este cntext, el experiment de Lreti et al (2013) es el primer en el cual ha sid psible estudiar el impact funcinal en PB y FM tant del cntenid de ácid siálic, cm de la cmplejidad de ligsacárids que pseen la familia de variantes de glicsilación de la FSHrh A través de ls grafs de enriquecimient, el MRCM permitió identificar fácilmente las cndicines experimentales asciadas a determinads términs bilógics relevantes al funcinamient de las células de granulsa Justamente, la psibilidad de integrar y explrar resultads prvenientes de diferentes análisis de tip SEA n se encuentra dispnible en ninguna de las herramientas presentadas en la sección 13 Esta integración, en cnjunt cn las vistas tant de enriquecimient cm de expresión de ls reprtes del Cntraste Ontlógic presentads en la sección 361, permiten una explración amigable e integral de ls resultads del diseñ experimental, expresión y ntlógic-funcinal A partir de la explración fue psible identificar nds candidats y una psterir selección de genes candidats Ests genes fuern seleccinads pr su nivel de expresión diferencial entre las variantes glicsiladas de FSHrh y existente evidencia en la literatura para su psterir validación bilógica, cm se describe en detalle en Lreti (2012) y Lreti et al (2013) Ls resultads btenids a partir de ls diferentes aprtes metdlógics intrducids en esta tesis, apyan aún más el cncept de que el cntenid de glican específic en la estructura mlecular de la FSH influencia selectivamente la expresión de ls genes necesaris para una adecuada función y crecimient de ls flículs várics humans Se están realizand nuevs estudis para determinar el impact que pueda tener el aspect nvel de la acción de la hrmna en el desarrll flicular y la calidad de ls vcits

189 42 Efect prtectr del aceite de pescad en la insuficiencia renal aguda Efect prtectr del aceite de pescad en la insuficiencia renal aguda En las últimas décadas las investigacines relacinadas cn enfermedades críticas se han centrad cada vez más en el prnóstic y ls resultads a larg plaz Pcs estudis han descrit el desenlace a larg plaz de la insuficiencia renal aguda (IRA), a pesar de ser un trastrn cmún entre ls pacientes hspitalizads Ella representa entre 3 7 % de ls pacientes que ingresan al hspital y un % de ls pacientes en la unidad de cuidads intensivs (Bagshaw, 2006; Brenner, 2004) Si bien tant el tratamient cm la gestión técnica de la IRA han cambiad drásticamente en las últimas décadas, la tasa de mrtalidad parece haber permanecid sin cambis, en alrededr de un 50 % (Bellm, 2006; Ympa et al, 2005) Alguns pacientes nunca van a recuperar pr cmplet la función renal, derivand en una insuficiencia renal crónica, que requiere diálisis de pr vida inclus un trasplante de riñón (Webb y Dbb, 2007) Ls mecanisms referids a la etilgía, al igual que a la prgresión de enfermedades renales, n se cmprenden en su ttalidad En este cntext, el psible rl patgénic de ls cambis en ls lípids renales ha sid estudiad repetidamente, sin clara evidencia de una crrelación entre un cambi lipídic en particular y la histlgía renal asciada Nbstante, se sabe que la cantidad y calidad de lípids de la dieta pueden mdular las lesines renales en ratas alimentadas cn una dieta deficiente en clina (Fewster y Hall, 1967; Mnserrat et al, 1974; Simn et al, 1968) El aceite de cc es ric en ácids grass saturads y tiene un efect prtectr que se ascia cn su cntenid de ácid mirístic El aceite de pescad también es ric en ácid mirístic y además psee ácid eicsapentaenic y dcsahexaenic Ests ácids pueden influir en la cmpsición de ácids grass renal y en el metablism del ácid araquidónic, el cual desempeña un papel clave en la fisipatlgía renal (Currèges et al, 2002; Mnserrat et al, 2000, 1995; O Neal et al, 1961) En este cntext, el bjetiv prpuest pr Denninghff et al (2014) fue investigar el psible efect prtectr del aceite de pescad en riñnes, basad en un mdel nutricinal de IRA Adicinalmente, se incluyen ls resultads n publicads de Denninghff et al, dnde al análisis se agrega el psible efect clateral del aceite de pescad en hígad

190 164 Capítul 4 Aplicacines 421 Entendimient de dats El mdel bilógic baj estudi fuern 24 ratas Wistar machs de 21 días recién destetadas, las cuales se dividiern en cuatr grups Cada grup se alimentó cn la misma dieta específica pr seis días antes que ls animales se sacrificaran, cm se describe en Denninghff et al (2014) Las dietas cmprenden una estructura de tratamients de ds factres cn ds niveles cada un: Clina: un preparad deficiente en clina (CD) y tr suplementad en clina (CS) Aceite: un preparad cn aceite vegetal (AV) y tr cn aceite de pescad (AP/AM) Cabe destacar que en este mdel alimentici, la dieta nrmal cmprende la cmbinación de CS y AV (CSAV), mientras que la ausencia de clina en la dieta (CDAV) desarrlla IRA cn alteracines mrflógicas, que cmprenden desde necrsis tubular fcal hasta necrsis crtical masiva y, en la mayría de ls cass, muerte pr IRA (Mnserrat et al, 1981) En cada grup de ratas se extraj suer para cuantificar diferentes bimarcadres y muestras de tejid del riñón izquierd, para validación bilógica del mdel experimental y cmprbación de la histpatlgía de la IRA, cm se describe en Denninghff et al (2014) El riñón derech e hígad se utilizarn para analizar el nivel de expresión génica Para ell, para cada cmbinación de clina aceite se extraj el ARN de cada tejid y se crearn ds preparads (pl en inglés) cn las muestras de tres ratnes cada un, dnde ls preparads n se encuentran apareads entre ls ds tejids Lueg se extraj, purificó e hibridizó el ARN utilizand el micrarregl Rat Gene 10 ST de Affymetrix R siguiend el prtcl del fabricante Para cada cmbinación de tratamients se hibridizarn tres chips para hígad y ds para riñón, debid a restriccines de calidad en la btención en la muestra pr presencia de necrsis renal Ls dats de micrarregls de riñón pueden ser accedids en Gene Expressin Omnibus (GEO) utilizand el códig de acces GSE34139, mientras que ls dats de hígad aún n se encuentran publicads en el repsitri Ls valres de intensidad de expresión de las sndas se btuviern utilizand el sftware Expressin Cnsle R 11 En el cas del chip Rat Gene 10 ST, n es psible btener las medidas de calidad/detectabilidad (call) del fabricante cm

191 42 Efect prtectr del aceite de pescad en la insuficiencia renal aguda 165 usualmente se btienen cn el algritm MAS5, dad que este chip n psee las sndas aprpiadas Sin embarg, este sftware permite prcesar las sndas a nivel de exnes, a ls efects de tener una estimación del ruid que hay en la señal De esta manera, es psible calcular l que se cnce cm puntaje DABG (Detectin Abve Backgrund en inglés), a partir del cual se pueden btener las medidas de calidad/detectabilidad Así, una vez adquirids ls valres de expresión y calidad del experiment, se abrdan las diferentes etapas del KDD descriptas en el capítul 2, utilizand el fluj de trabaj de la sección 31 cn pequeñas mdificacines debidas a la btención de dats a nivel de exnes: La cnversión e integridad de antación utilizó el aprte de la sección 32, empleand la antación del fabricante del micrarregl a nivel de exnes N bstante, psterir a ls filtrads pr cntrl de calidad y antación, la señal es resumida a nivel de genes, siend necesari incrprar la infrmación del fabricante a nivel de genes y una actualización de ls dats asciads a ls IDs cn e-utiles El filtrad de dats cnsideró sól aquellas sndas a nivel de exnes que: 1 Pseen antación en la base de dats EntreZ Gene ID (sección 232) 2 Se encuentran en la base de cncimient de DAVID (sección 13) 3 Cdifican alguna prteína, es decir, n pertenecen a ningún cntrl 4 N presentan hibridación cruzada, es decir, sn únicas (sección 232) 5 Se encuentran cnfiablemente presentes en la ttalidad de ls micrarregls del riñón (2 de 2 chips) y al mens en 2 de ls 3 chips de hígad, según las métricas del fabricante btenidas a partir del puntaje DABG En el cas de ls micrarregls de hígad que pseen un dat ausente marginal, este se cnsidera cm un valr faltante dad que la intensidad btenida pr el escáner n es cnfiable La integración de infrmación cntempló cnslidar/resumir la señal de expresión de las sndas btenida a nivel de exnes que cdifican para un mism gen Para ell se utilizó la antación del fabricante a nivel de genes,

192 166 Capítul 4 Aplicacines para identificar el cnjunt de exnes presentes en cada gen y prmediar ls valres de expresión, resultand en genes La nrmalización de ls dats n ha sid necesaria, dad que se utilizó el algritm RMA-SKETCH para btener la señal de intensidad de las sndas Este algritm aplica una transfrmación a ls valres de intensidad de manera de dejar a tds ls micrarregls cn la misma distribución (Affymetrix, 2004) Cntrl de calidad y explración multivariada Cntinuand cn el entendimient de dats, es psible realizar un cntrl de calidad multivariad de ls dats Para el presente diseñ experimental, se esperaría que las réplicas bilógicas prvenientes de ls misms tratamients (chips) se cmprten de una manera similar Así, es psible crrbrar si la variabilidad ttal de ls genes lgra diferenciar la cmbinación de tejid clina aceite Para ell se prpne realizar un análisis de cmpnentes principales (PCA, Peña (2002)), cnsiderand cm individus a ls chips (tratamients) y atributs a ls genes (va- R 0 H H H H H H H HH R R R RR Clina Deficiente Suplementada PC2(1300%) 100 H H Tejid (H)igad (R)iñn Aceite Pescad Vegetal R R PC1(6093%) Figura 46: Análisis de cmpnentes principales de la transpuesta de la matriz de expresión La gráfica muestra ls dats transfrmads en las ds primeras cmpnentes principales btenids para ls micrarregls (cmbinación de tratamients)

193 42 Efect prtectr del aceite de pescad en la insuficiencia renal aguda 167 riables), es decir, utilizar la transpuesta de la matriz de expresión y explrar el plan de las cmpnentes principales Cabe destacar que este tip de cntrl de calidad n es usual en aplicacines de micrarregls; crrientemente se realiza una cmprbación de ls supuests de nrmalidad, dejand fuera la infrmación del diseñ experimental En la figura 46 se muestran ls chips en el plan de las ds primeras cmpnentes principales que explican, en cnjunt, el 73,93 % de la variabilidad ttal La primera cmpnente, PC1, induce ds agrupamients en dnde se encuentran chips del mism tejid Es decir, en la derecha de la figura están ls chips de riñón (R) y a la izquierda ls crrespndiente a hígad (H) Adicinalmente, la segunda cmpnente (PC2) separa para cada tejid la dieta de clina deficiente (frma de círcul) y aceite vegetal (clr cyan) CDAV, es decir, la dieta que prduce necrsis en riñón y su equivalente en hígad, de las dietas que n prducen necrsis en riñón Más aún, esta separación (variabilidad) es mayr para el cas del órgan blanc (riñón), en cmparación al órgan de cntrl (hígad), prbablemente pr la repercusión de la IRA en hígad, la que usualmente evlucina a hígad gras (Brenner, 2004) Ls resultads del cntrl de calidad de la figura 46 n muestran la existencia de artefacts aparentes en ls diferentes micrarregls Más aún, ls resultads cinciden cn l esperable del diseñ experimental En este sentid, un cntrl multivariad de este tip pdría dejar en evidencia algún defect técnic en algún micrarregl que n es visible en la cmprbación de supuests de nrmalización de ls niveles de expresión En cas de encntrar un chip en un agrupamient incrrect es psible, de frma temprana en el análisis, indagar sbre la génesis de ls dats y, si fuera necesari, excluirl del análisis Una vez cncluid el cntrl de calidad es psible realizar una explración multivariada de la matriz de expresión, para ver cóm se cmprtan ls genes en su cnjunt, frente a ls diferentes efects cntenids en el diseñ experimental baj estudi Para ell se utiliza el aprte de lmdme presentad en la sección 33, dnde el mdel ANOVA de la ecuación (31) equivalente para cada gen en este

194 168 Capítul 4 Aplicacines experiment, se crrespnde cn el presentad en la ecuación (43): y ijklm = µ i + T ejid j + Clina k + Aceite l + T ejid j Clina k + T ejid j Aceite l + Clina k Aceite l + T ejid j Clina k Aceite l + ε ijklm (43) cn i = 1,, N, {j, k, l} = 1, 2 y m = 1,, m(j) dependiend del tejid; dnde y ijklm es el valr lg 2 de expresión del i-ésim gen para el j-ésim tejid (T ejid j ), baj el k-ésim efect de clina Clina k, cn el l-ésim efect de aceite (Aceite l ), para la m-ésima replica bilógica; µ i es el nivel de expresión medi del i-ésim gen; las diferentes cmbinacines dbles de factres (T ejid j Clina k, T ejid j Aceite l y Clina k Aceite l ) y la única cmbinación triple de factres (T ejid j Clina k Aceite l ); pr últim, ε ijklm N(0, σ 2 ) es el términ de errr aleatri A ls diferentes términs de la descmpsición ANOVA (43), cn excepción de la media µ, se les realizó una prueba F para evaluar si algun de ls ceficientes para cada un de ls niveles es diferente de cer (ver sección 331) La tabla 41 muestra ls resultads btenids para un valr p < 0,05 En ella se puede apreciar cóm la inclusión del efect T ejid(t ) cm primer factr, remueve dich efect dad el elevad númer de genes detectads pr la prueba (9643) Nbstante, de ls ds efects principales restantes, el Aceite(A) psee 3890 genes frente a la Clina(C) cn 1826, es decir, el aceite psee un efect bilógic mayr que la clina, dad que se btienen más del dble de genes Adicinalmente, en este mdel se incluyen las interaccines dbles y la única triple cn tejid En la tabla 41 se muestra que existe mayr interacción para T A seguid de T C A y T C cn 1061, 769 y 295 genes respectivamente Pr últim, la única interacción dble dnde n participa el tejid, C A muestra un efect intermedi entre la clina y el aceite, cn 2836 genes Tabla 41: Númer de genes para una prueba F sbre la descmpsición (43) Tejid (T) Clina (C) Aceite (A) T C T A C A T C A Ls genes de la tabla pseen al mens un nivel del factr distint de cer, para un p < 0,05 de la prueba F crrespndiente, cm se describe en la sección 331

195 42 Efect prtectr del aceite de pescad en la insuficiencia renal aguda 169 Utilizand ls genes identificads en la tabla 41, es psible realizar un análisis de tip ASCA, cm se describió en la sección 331 Es decir, realizar un PCA sbre ls ceficientes de cada términ de ls genes identificads En esta prtunidad se han excluid del análisis ls efects principales (Tejid, Clina y Aceite) dad que sól pseen ds ceficientes Ell se debe a que pr restricción del mdel lineal (Graybill, 2000), siempre ls ceficientes pseen signs puests, dejand así ambas flechas del biplt en extrems puests, razón pr la cual la PC1 siempre ls separa En la figura 47 se incluyen ls biplts del análisis ASCA de las interaccines dbles y la única triple del mdel (331) En las interaccines dbles se aprecia que la primera cmpnente explica más del 91 % de la variabilidad en cada biplt A su vez, la segunda cmpnente explica para ests cass mens del 5 % de la variabilidad restante En ls paneles superires de la figura 47 se presentan las interaccines dbles que invlucran al tejid (T:C y T:A) En ellas se bserva en la primera cmpnente cóm la variabilidad del hígad (TH) es menr a la del riñón (TR), ya que aquellas interaccines que invlucran TH:CD/CS TH:AV/AM se encuentran más cerca del rigen (flechas crtas) en las gráficas T:C y T:A respectivamente Pr tra parte, si bien el eje de la PC1 presenta ds agrupamients a la izquierda y derecha del rigen de crdenadas, ests n permiten separar aquellas interaccines cn el mism tejid mism nivel de clina/aceite en ambas gráficas Sin embarg, la PC2 en el panel superir derech de la figura 47 (T:A) agrupa ls diferentes niveles de aceite, separand hacia arriba del rigen el aceite de pescad menhaden (AM) y hacia abaj, el aceite vegetal (AV) En el panel izquierd inferir de la figura 47 se muestra la interacción de clina aceite (C:A) Curisamente la PC1 agrupa, a la derecha del rigen, el efect prtectr del aceite de pescad frente a la falta de clina (CD:AM) junt cn la dieta cntrl (CS:AV), respect de las ds cmbinacines restantes en el agrupamient de la izquierda (CD:AV y CS:AM) En el panel derech inferir de la figura 47 se bserva el biplt de la interacción triple de T ejid Clina Aceite (T:C:A), el cual se encuentra amplificad para una mejr visualización en la figura 48, dnde se bservan ds paneles que emplean la misma cdificación (panel izquierd) cn númers (panel derech) En esta interacción la PC1 explica el 85,35 % de la variabilidad ttal Esta cmpnente agrupa

196 170 Capítul 4 Aplicacines T:C PC1(9148%) PC2(483%) TH:CD TR:CD TH:CS TR:CS T:A PC1(9473%) PC2(439%) TH:AM TR:AM TH:AV TR:AV C:A PC1(95%) PC2(377%) CD:AM CS:AM CD:AV CS:AV T:C:A PC1(8535%) PC2(407%) TH:CD:AM TR:CD:AM TH:CS:AM TR:CS:AM TH:CD:AV TR:CD:AV TH:CS:AV TR:CS:AV Figura 47: Biplts del análisis ASCA de ls términs de interacción dble y el únic triple del mdel (43), para ls genes btenids para la prueba F cn un valr p < 0,05 mstrads en la tabla 41 Nte que la PC1 explica más del 91 % de la variabilidad de cada biplt En particular ls paneles de T:C, T:A y T:C:A muestran una menr variabilidad del hígad (TH) cn flechas más crtas en la PC1 En el panel de C:A se agrupan a la derecha del rigen el cntrl (CS:AV) y el efect prtectr de aceite de pescad (CD:AM)

197 42 Efect prtectr del aceite de pescad en la insuficiencia renal aguda T:C:A PC1(8535%) PC2(407%) TH:CD:AM TR:CD:AM TH:CS:AM TR:CS:AM TH:CD:AV TR:CD:AV TH:CS:AV TR:CS:AV PC1 PC TH:CD:AM TR:CD:AM TH:CS:AM TR:CS:AM TH:CD:AV TR:CD:AV TH:CS:AV TR:CS:AV Figura 48: Biplts para el términ de interacción triple T ejid Clina Aceite En el panel izquierd se muestra una ampliación del biplt de la figura 47 utilizand la cmbinación de tratamients En el panel de la derecha se recdificarn la cmbinación de tratamients cn númer para pder apreciar cuáles se encuentran crrelacinads

198 172 Capítul 4 Aplicacines las cmbinacines que presentan hígad (TH), más cercanas al rigen (menr variabilidad) respect a las del riñón (TR) A su vez para el riñón, se agrupan del lad izquierd las mismas cmbinacines de Clina Aceite presentes en la interacción dble (cntrl y tratamient cn aceite de pescad) cntra las restantes Curisamente, ls misms niveles para el hígad se encuentran en el agrupamientpuest (derech) Ests resultads sugieren, que en la interacción triple se aprecia el efect prtectr vist en la interacción dble de C:A (panel izquierd inferir de la figura 47), per ahra cnsiderand la respuesta tejid-específica del riñón, mientras que el hígad presenta una variabilidad secundaria menr; dad que éste n es el órgan blanc, es esperable que n se agrupen cn las mismas cndicines del riñón Reducción, pryección e integración de dats Mtivads pr ls resultads de la explración cn lmdme, realizams una reducción de dats a ls efects de encntrar aquells genes que tienen diferencias significativas en su expresión, cuand se cmparan ls diferentes efects del diseñ experimental Para ell se utilizó un mdel lineal equivalente al descmpuest pr ANOVA en la ecuación (43), bteniend para cada gen (44): gen ij = β 0i +β 1i T H +β 2i CD+β 3i AM +β 4i T H : CD+β 5i T H : AM +β 6i CD : AM + β 7i T H : CD : AM + ε ij (44) cn i = 1,, N, j = 1,, j(i) dependiend del tejid; dnde gen ij es la expresión de i-ésim gen para la j-ésima replica bilógica; el mdel se ha parametrizad para que la media glbal para cada gen (β 0i ) crrespnda a la cmbinación de factres del cas cntrl, es decir, riñón baj dieta de clina suplementada cn aceite vegetal (TR:CS:AV); β 0i,,7i sn ceficientes a estimar pr máxima versimilitud; TH, CD, AM sn variables indicadras que tman ls valres 0 1 para indicar hígad, clina deficiente y aceite de pescad respectivamente; ε ij N(0, σi 2 ) es el términ de errr aleatri El mdel (44) se ajustó cn la librería limma de R, utilizand una crrección empírica de Bayes (Smyth et al, 2011) Se seleccinarn aquells genes expresads

199 42 Efect prtectr del aceite de pescad en la insuficiencia renal aguda 173 Tabla 42: Cantidad de genes diferenciales dependiend del criteri de crte utilizad (F DR < α) α Azar T C A T:C T:A C:A T:C:A CR AR C:AR CH AH C:AH La clumna α indica el nivel de crte utilizad, mientras que la denminada Azar indica la cantidad de genes esperads pr errr para la ttalidad de las genes baj análisis El rest de las clumnas indican el efect utilizad en la prueba de hipótesis, dnde cada letra indica tejid (T), clina (C), aceite (A) y ls subíndices indican la hipótesis marginal realizada sbre el riñón (R) hígad (H)

200 174 Capítul 4 Aplicacines diferencialmente para el cmprtamient de ls factres principales, interaccines dbles, la única triple y las marginales para cada tejid bajs las hipótesis: H0: la expresión de la cmparación específica es igual a cer H1: la expresión de la cmparación es distinta de cer (gen diferencial) En tds ls cass se utilizó un valr crregid pr cmparacines múltiples, de manera de reducir las tasas de falss psitivs mediante el métd de False Discvery Rate (FDR) (Benjamini y Hchberg, 1995), bteniend ls resultads de la tabla 42 para diferentes valres de crte En este cntext se decidió utilizar α = 0,001, que si bien genera una cantidad de genes diferenciales elevada para ls efects principales del mdel cmplet, la cantidad de genes esperads pr azar es de sól 17 genes Además, para este crte aún se btiene una cantidad de genes sbre ls cntrastes marginales de cada tejid que permite un mdelad aprpiad, es decir, n se cnfunden las cndicines en la cmprbación visual mediante mapas de calr En la figura 49 se muestra el mapa de calr crrespndiente a la prueba de hipótesis de la triple interacción (T:C:A), para ls 312 genes diferenciales reprtads en la tabla 42 En la figura se bservan ds agrupamients de tratamients bien definids: i) aquells pertenecientes a la IRA cn clina deficiente y aceite vegetal en riñón (DVR), ii) el rest de ls tratamients A su vez, en este últim agrupamient se subdivide pr tejid, es decir, tdas las muestras de hígad (DVH, DMH, SMH y SVH) de las restantes de riñón (DMR, SMR, SVR) Cabe destacar que el hígad tiene valres de expresión menres (sn más scurs) en cmparación a ls de riñón Ests resultads cncuerdan cn ls btenids para el análisis ASCA realizad pr el aprte de lmdme prpuest en esta tesis, cm ha sid mstrad cn anteriridad en ls biplts de las figuras 47 y 48 El rest de ls mapas de calr de ls diferentes genes candidats de la tabla 42 mstrarn resultads similares, es decir, que las cndicines experimentales se separan crrectamente en cada cntraste para el valr de crte utilizad

201 42 Efect prtectr del aceite de pescad en la insuficiencia renal aguda 175 Cunt Value TCA FDR<0001 # 312 DMR DMR SMR SMR SVR SVR DVH DVH DVH DMH DMH DMH SMH SMH SMH SVH SVH SVH DVR DVR Clr Key and Histgram Figura 49: Mapa de calr para la triple interacción T ejid Clina Aceite (TCA) para ls genes diferenciales seleccinads para un F DR < 0,001 dand un ttal de 312 genes En clumnas ls genes y en filas, las réplicas bilógicas para cada cndición experimental de clina deficiente (D) suplementada (S), aceite de pescad (M) vegetal (V) y tejid de riñón (R) de hígad (H)

202 176 Capítul 4 Aplicacines 422 Mdelad La etapa de mdelad se llevó a cab de frma iterativa y prgresiva, cm parte del prces de búsqueda de patrnes desde la perspectiva del KDD y MD En este cntext, el diseñ experimental mdelad en (44) es ric en estructura, dad que es un factrial = 2 3 (Walple et al, 1999) Esta particularidad le aprta cmplejidad al análisis, razón pr la cual se cmenzó cn una explración de la distribución de ls genes diferenciales En la figura 410 se muestran cuatr diagramas de Venn crrespndientes a ls genes diferenciales btenids para el crte seleccinad en la tabla 42: 1 Efects principales: T, C y A 2 Interaccines dbles: TC, TA y CA 3 Efects marginales del mdel en riñón: C R, A R y CA R Figura 410: Diagrama de Venn para ls diferentes genes diferenciales btenids cn un F DR < 0,001 según se muestra en la tabla 42

203 42 Efect prtectr del aceite de pescad en la insuficiencia renal aguda Efects marginales del mdel en hígad: C H, A H y CA H A partir de ls resultads de cada un de ls diagramas de Venn, se realizó un análisis de enriquecimientntlógic-funcinal cn el MRCM Así, para ls efects principales mstrads en el panel superir izquierd de la figura 410 se aplicó MRCM sbre ls siguientes genes diferenciales: I Efects principales: # 1 T = 8532 genes, #C = 1141 genes y #A = 2073 genes II Genes pertenecientes exclusivamente a un efect principal: #{T \ (C A)} 2 = 6798 genes, #{C \ (T A)} = 126 genes y #{A \ (C T )} = 490 genes III Genes pertenecientes a sól ds efects principales: #{(T C) \ A} = 324 genes, #{(C A) \ T } = 173 genes y #{(A T ) \ C} = 892 genes IV Genes cmpartids en ls tres efects principales #{T C A} = 518 genes bteniend ls resultads ntlógic-funcinales de la aplicación de diez MRCM Adicinalmente, se utilizó una estrategia similar a la empleada en la aplicación de impact funcinal de variantes de FSH presentada en la sección 41 En este sentid, se realizó el cntraste de ls grafs unificads de ls efects principales de I de a pares (T vs C, T vs A y C vs A) y la única cmparación triple de IV (T vs C vs A) De esta manera, para cada diagrama de Venn de la figura 410 se generan diez reprtes del MRCM, junt cn ls cuatr cntrastes de grafs unificads adicinales, ascendiend a un ttal de 14 reprtes 4 diagramas = 56 reprtes En este punt diagrama la utilización del Cntraste Ontlógic fue crític para manejar de frma eficiente la cmplejidad bilógica y la inmensidad de infrmación prveniente de ls 56 reprtes A partir de la explración de ls diferentes reprtes, ns vims sbrepasads pr la dimensión/cantidad de infrmación dispnible para la explración y cnslidación de cncimient, razón pr la cual se iteró en la etapa de reprtes a ls efects de generar un únic graf que cntuviera tda la infrmación de ls diferentes reprtes 1 El peradr # es el cardinal del cnjunt y devuelve el númer de elements del mism 2 Para ds cnjunts A y B, la peración A \ B devuelve aquells elements que pertenecen al cnjunt A y que n se encuentran en el cnjunt B Ls peradres y representan la intersección y unión de cnjunts respectivamente

204 178 Capítul 4 Aplicacines Si bien este graf lgró su fin, es decir, cntiene la ttalidad de ls resultads, la psterir inspección n reveló un patrón bilógic que fuera cncluyente sbre el efect prtectr del aceite de pescad Nbstante, existiern indicis de diferentes términs de GO cmpartids en cmbinacines específicas de clina aceite y que n necesariamente se veían enriquecids en ls reprtes de las crrespndientes interaccines Más aún, si pensams que en riñón la deficiencia de clina es una precndición que debe existir para dar lugar a la IRA, en cnjunt al cmplement de aceite de vegetal frente a su ptencial prtectr (pescad) De esta manera, se decidió iterar sbre el mdelad a ls efects de cmparar de a pares las cuatr diferentes dietas en riñón: CSAV (cntrl), CDAV (IRA), CSAP y CDAP Justamente, las iteracines planteadas en las diferentes etapas del KDD y MD al igual que la aplicación de ls diferentes aprtes de esta tesis (lmdme, MRCM y Cntraste Ontlógic), permitiern dilucidar el mecanism de prtección del AP cm se presenta en la sección de evaluación 423 Evaluación La validación bilógica del mdel nutricinal baj estudi se realizó mediante la determinación de las alteracines histpatlógicas, para establecer la presencia ( n) de necrsis tubular crtical en el riñón izquierd de cada rata Ls resultads mstrarn que las ratas pertenecientes a ls grups de las dietas CSAV, CSAP y CDAP n mstrarn alteracines renales, mientras que las de CDAV presentarn necrsis renal crtical, cm se describe en Denninghff et al (2014) Pr tra parte, se midió en suer la cncentración de hmcisteina, vitamina B 12 y ácid fólic Se encntrarn diferencias significativas en hmcisteina (valr p < 0,05) para ratas alimentadas cn AP (cn y sin clina), niveles elevads de vitamina B 12 en CDAV y n hub diferencia en ácid fólic entre ls grups de ratas (Denninghff et al, 2014) Validad el mdel nutricinal, se prcedió al análisis de las cmparacines de pares de tratamients de clina aceite en riñón, bteniend ls resultads de la tabla 43 y diagrama de Venn de la figura 411 En ambs se aprecia cóm el efect del aceite es marginal en dietas cn CS, es decir, sól 33 y 32 genes se expresan diferencialmente para las cmparacines B1 y B2 respectivamente Est sugiere un

205 42 Efect prtectr del aceite de pescad en la insuficiencia renal aguda 179 Tabla 43: Cmparación de diferentes dietas en riñón Grup A1 A2 A3 B1 B2 B3 CDAV CDAV CDAV CDAP CSAP CDAP Cmparación vs vs vs vs vs vs CSAP CDAP CSAV CSAV CSAV CSAP Genes diferenciales Necrsis Renal X X X Clina deficiencia X X X X Efect prtectr del AP X X X X La dieta se cmpne de la cmbinación de clina deficiente (CD) suplementada (CS), cn aceite vegetal (AV) de pescad (AP) Ls genes han sid seleccinads cn un fdr < 0,01 y lg 2 (F C) > 1,5 Adaptación de Denninghff et al (2014) cmprtamient similar entre CDAP y CSAV (cntrl) y pr ende, una ptencial prtección debida a la presencia de AP en la dieta Pr el cntrari, la CD psee un efect nciv y el AV n prduce mejras (CDAV), cm l sugiere el elevad númer de genes diferenciales al cmpararl cntra el cntrl (CSAV) y dietas similares al cntrl (CDAP y CSAP) En la tabla 43 se muestra que el mayr efect puede estar asciad a necrsis renal, debid a que las cmparacines A1-3 existen 542 genes en cmún, cm se muestra en el diagrama de Venn de la figura 411 Ests genes enriquecen 3 vías metabólicas de KEGG (sección 11) fuertemente relacinadas cn necrsis, cm l sn cascada del cmplement y cagulación (15 genes), interacción de receptres citquina-citquina (14 genes) y adhesión fcal (13 genes) La cmparación también muestra ds subcnjunts de 203 y 18 genes Ests genes se encuentran alterads pr la CDAV, dad que n presentan diferencias cntra CSAV, CDAP y CSAP Una psterir cmprbación sbre el mdel (44) mstró, que ls 203 genes se encuentran influenciads pr el efect principal de aceite A su vez, el subcnjunt de 18 genes se encuentra afectad pr la CD Pr tra parte, existe un subcnjunt adicinal de 30 genes influenciads tant pr el efect de la clina y aceite de pescad, l que sugiere una interacción de tratamients Mtivads pr ls resultads anterires se prcedió a un análisis detallad de cada un de ls grups de la tabla 43 En el anex digital A3 se encuentra una descripción cmpleta de ls genes y reprtes del Cntraste Ontlógic utilizads

206 180 Capítul 4 Aplicacines Figura 411: Diagrama de Venn para ls diferentes genes diferenciales btenids cn un fdr < 0,01 y lg 2 (F C) > 1,5 según se muestra en la tabla 43 La dieta se cmpne de la cmbinación de clina deficiente (CD) suplementada (CS), cn aceite vegetal (VO del inglés Vegetal Oil) de pescad (MO del inglés Menhaden Oil) Imagen extraída de Denninghff et al (2014)

207 42 Efect prtectr del aceite de pescad en la insuficiencia renal aguda 181 para cada grup: A1: La cmparación de CDAV cntra CSAP mstró el efect cmbinad de aceite y clina Si bien el grup cn CSAP n mstró necrsis renal, 879 genes se expresarn de frma diferencial al cmparar su expresión cntra CDAV Denninghff et al (2014) n lgrarn una cnclusión funcinal acerca de este grup, dad el efect cmbinad de ambs factres A2: El cntraste de CDAV cntra CDAP mstró el efect de aceite en CD La cmbinación CDAP n presenta necrsis y se btuviern 836 genes diferenciales cuand se cmparó cntra CDAV, dnde sí existe necrsis El análisis cn el MRCM para este grup, permitió identificar vías metabólicas asciadas a la prevención de la necrsis renal pr adición de AP en la dieta En particular en PB se enriqueciern ls términs relacinads cn bisíntesis de metinina (4 genes), metablism de cisteina (3 genes), transulfuración de tirsina (3 genes), catablism de L-fenilalanina (3 genes) y bisíntesis de NAD (5 genes) La vista de expresión del Cntraste Ontlógic mstró que tds ls genes se encuentran sbrexpresads en AP y a su vez, asciads al gen Glutatin-S-transferasa pi 1 cuy símbl es Gstp1, cm se describe en Denninghff et al (2014) Pr el cntrari, ls genes relacinads cn respuesta inflamatria respuesta inmune se viern sbrexpresads en AV, cm pr ejempl en regulación psitiva de hipersensibilidad tip IIa (9 genes), fagcitsis (13 genes), regulación psitiva de endcitsis (13 genes), regulación de diferenciación de macrófags (3 genes), regulación psitiva de diferenciación de mielides (3 genes) y diferenciación de células gigantes de trmbblast (3 genes) En el graf de FM la sbrexpresión de genes en AV se relacina a nds de interleuquinas y citquinas, mientras que la sbrexpresión en AP a la actividad de ligand ácid-til y algunas funcines asciadas cn el transprte de ines y ligand de glutatin Sin embarg, en CC Denninghff et al (2014) n encntrarn un patrón que permitiera establecer un lugar predminante para ls PBs y FMs de interés A3: El cntraste de CDAV cntra CSAV mstró el efect de clina baj AV El grup alimentad cn la dieta de cntrl (CSAV), n presentó necrsis y se

208 182 Capítul 4 Aplicacines btuviern 724 genes diferenciales al cmpararl cntra CDAV Ls resultads funcinales del MRCM se asciarn a términs genérics de IRA y necrsis renal, ls cuales n permitiern explicar el efect prtectr de AP (n presente en esta cmparación) B1: El cntraste CDAP cntra CSAV mstró el efect cmbinad de aceite y clina En este cas, ambas cndicines experimentales n presentarn necrsis renal y sól existe una diferencia de 33 genes diferenciales Denninghff et al (2014) n lgrarn una cnclusión funcinal acerca de este grup, dad el efect cmbinad de ambs factres y l reducida que es la lista de candidats (sección 122) Nbstante, el AP baj CD lgra un cmprtamient cercan a la dieta de cntrl (CSAV), pr el reducid númer de genes de esta cmparación B2: La cmparación CSAV cntra CSAP mstró el efect del aceite baj CS Ambas cndicines experimentales n presentan necrsis renal y sól hay 32 genes diferenciales (11 sbre-expresads y 21 sub-expresads) cm se describe en Denninghff et al (2014) Éste es el grup bilógicamente relevante dad que ls 32 genes candidats se encuentran slamente influenciads pr el ptencial efect prtectr del AP y n se encuentran enmascarads pr el cambi en clina cm en B1 El análisis del MRCM n mstró términs enriquecids pese a la reducida lista de genes candidats, es decir que ambas cndicines se cmprtan de manera similar a nivel funcinal pr el reducid cambi de expresión en ls genes Mtivads pr ests resultads, Denninghff et al (2014) realizarn una búsqueda en la literatura sbre ls 32 ptenciales blancs terapéutics En este cntext, el cncimient previ sbre el metablism de la clina, permitió identificar al gen Gstp1 y cmprender el rl crucial que su enzima puede tmar en el prces de desintxicación Curisamente, n existe en la literatura redes de interacción que relacinen a el Gstp1 cn el rest de ls 31 genes encntrads en esta cmparación B3: El últim grup cmpara CDAP cntra CSAP, dnde n se presentó diferencia en ls niveles de expresión para el efect clina baj AP Estas ds cndicines n mstrarn necrsis ni diferencias en su transcriptma, inclus relajand el crte a un fdr < 0,05 De esta manera, se pdría hiptetizar que el AP

209 42 Efect prtectr del aceite de pescad en la insuficiencia renal aguda 183 ptencialmente prtege la CD en este mdel, tant a nivel mrflógic cm genétic La ingesta de AP en la dieta pdría cmpensar la CD, l que pdría implicar que el AP prtege tempranamente al riñón, previniend la necrsis renal debid a la CD Cnsecuentemente, ambas cndicines experimentales se cmprtan de manera similar en cuant a la expresión de genes Este resultad puede ser de relevancia clínica en pacientes cn IRA A partir de ls resultads anterires, se vlvió al mdel (44) a ls efects de btener ls valres de expresión esperads del Gstp1 en cada una de las cmbinacines de tratamients de clina aceite, ls cuales se muestran en la figura 412 En este cntext, el gen psee un valr de expresión basal en la situación de cntrl (CSVO) el cual se ve incrementad en una dieta CD (CDVO), y srprendentemente mayr en presencia de AP (MO) cn sin clina En ests últims ds tratamients la hmcisteína en suer se ve aumentada, psiblemente pr diferencia en el cntenid de agentes exógens y endógens (Verhef, 2007), prduct de la ingesta de AP También se puede atribuir a la síntesis endógena de clina a través de una triple metilación de fsfatidiletanlamina pr la S-adensilmetinina y la alteración en la vía metabólica de la tran-sulfuración (Denninghff et al, 2014) Además, la sbreexpresión de Gstp1 se crrelacina prprcinalmente cn ls elevads niveles Figura 412: Nivel de expresión esperad del gen Gstp1 en escala lg 2, para las diferentes cmbinacines de clina deficiente (CD) suplementada (CS), cn aceite vegetal (VO) de pescad (MO) Nte que la diferencia de niveles de CSVO cntra CDVO y CDVO cntra CSMO CDMO sn diferentes cn un valr p < 0,01 Imagen extraída de Denninghff et al (2014)

Trabajo Práctico Redes Neuronales Artificiales

Trabajo Práctico Redes Neuronales Artificiales Universidad Tecnlógica Nacinal Facultad Reginal La Plata - Añ 2015 Trabaj Práctic de RNA Trabaj Práctic Redes Neurnales Artificiales 1. Objetiv Cmprender las particularidades de la implementación de un

Más detalles

Notificaciones Telemáticas Portal del Ciudadano MANUAL DE USUARIO. Versión 1.2

Notificaciones Telemáticas Portal del Ciudadano MANUAL DE USUARIO. Versión 1.2 20 Ntificacines Telemáticas Prtal del Ciudadan MANUAL DE USUARIO Versión 1.2 Manual de Usuari ÍNDICE 1. DESCRIPCIÓN GENERAL... 3 1.1. Alcance...3 1.2. Fluj de navegación...4 2. DESCRIPCIÓN FUNCIONAL...

Más detalles

Procedimiento P7-SIS Revisión 2 24-04-13

Procedimiento P7-SIS Revisión 2 24-04-13 Prcedimient P7-SIS Revisión 2 24-04-13 Gestión y mantenimient de Sistemas Objet Describir cóm se gestina y administra tda la infraestructura de sistemas infrmátics del Institut así cm las actividades de

Más detalles

Guía del usuario: Perfil País Proveedor

Guía del usuario: Perfil País Proveedor Guía del usuari: Perfil País Prveedr Qué es? El Perfil del País Prveedr es una herramienta que permite a ls usuaris cntar cn una primera aprximación a la situación pr la que atraviesa un país miembr de

Más detalles

Registro de Autorización Empresa Venta y Asistencia Técnica de Comunidades Autónomas

Registro de Autorización Empresa Venta y Asistencia Técnica de Comunidades Autónomas Registr de Autrización Empresa Venta y Asistencia Técnica de Cmunidades Autónmas Manual de Us Versión: 1.3 28/05/2013 Cntrl de cambis Versión Fecha Revisad Resumen de ls cambis prducids 1.2 15-09-2010

Más detalles

MANUAL DE USUARIO DEL VISOR URBANÍSTICO

MANUAL DE USUARIO DEL VISOR URBANÍSTICO MANUAL DE USUARIO DEL VISOR URBANÍSTICO Manual Públic de usuari del Visr Urbanístic Versión: 1.0.85 Diciembre 2010 Página 1 PAGINA EN BLANCO Manual Públic de usuari del Visr Urbanístic Versión: 1.0.85

Más detalles

TSI 4. Método T-Check

TSI 4. Método T-Check TSI 4 Métd T-Check Agenda Métd T-Check Cas de Estudi SSO en Web Services Marc Cnceptual Aplición del métd Trabajs futurs Cnclusines INCO - Facultad de Ingeniería Mntevide, Uruguay 2 Métd T-Check Es un

Más detalles

MEDICIÓN DEL TAMAÑO DEL SOFTWARE EN APLICACIONES SOA CON PUNTOS DE FUNCIÓN COSMIC. Mirella Pérez Falcón

MEDICIÓN DEL TAMAÑO DEL SOFTWARE EN APLICACIONES SOA CON PUNTOS DE FUNCIÓN COSMIC. Mirella Pérez Falcón MEDICIÓN DEL TAMAÑO DEL SOFTWARE EN APLICACIONES SOA CON PUNTOS DE FUNCIÓN COSMIC Mirella Pérez Falcón CONTENIDO Cncepts básics de SOA Principis de SOA Cmpnentes de la arquitectura SOA Tips de servicis

Más detalles

Conjunto de servicios de los módulos funcionales. Entre los servicios que se ofrecen, destacamos:

Conjunto de servicios de los módulos funcionales. Entre los servicios que se ofrecen, destacamos: Cnjunt de servicis de ls móduls funcinales Entre ls servicis que se frecen, destacams: Cmpnente DRI Cmpnente encargad de la rquestación de ls diferentes servicis lógics que cmpnen el nd de frma que permita

Más detalles

REPRESENTACIÓN GRÁFICA DE FUNCIONES REALES

REPRESENTACIÓN GRÁFICA DE FUNCIONES REALES Unidad didáctica 7. Funcines reales de variable real Autras: Glria Jarne, Esperanza Minguillón, Trinidad Zabal REPRESENTACIÓN GRÁFICA DE FUNCIONES REALES CRECIMIENTO Y DECRECIMIENTO Dada una función real

Más detalles

Estudio ICANN sobre la prevalencia de los nombres de dominio registrados con un servicio proxy o de privacidad entre los 5 gtlds más destacados

Estudio ICANN sobre la prevalencia de los nombres de dominio registrados con un servicio proxy o de privacidad entre los 5 gtlds más destacados Estudi ICANN sbre la prevalencia de ls nmbres de dmini registrads cn un servici prxy de privacidad entre ls 5 gtlds más destacads RESUMEN EJECUTIVO: Ls titulares de nmbres registrads tienen la psibilidad

Más detalles

DERIVADA DE UNA FUNCIÓN REAL

DERIVADA DE UNA FUNCIÓN REAL Unidad didáctica 7 Funcines reales de variable real Autras: Glria Jarne, Esperanza Minguillón, Trinidad Zabal DERIVADA DE UNA FUNCIÓN REAL CONCEPTOS BÁSICOS Dada una función real y f( ) y un punt D en

Más detalles

SISTEMAS OPERATIVOS. Pág. 1

SISTEMAS OPERATIVOS. Pág. 1 Un Sistema perativ es un sftware que actúa de interfaz entre ls dispsitivs de Hardware y las aplicacines (prgramas) utilizads pr el usuari para manejar un equip infrmátic. Es el respnsable de gestinar

Más detalles

Manual de usuario para la Publicación de Becas a través de la página web institucional

Manual de usuario para la Publicación de Becas a través de la página web institucional Manual de usuari para la Publicación de Becas a través de la página web institucinal 1 PARA QUÉ SIRVE ESTA APLICACIÓN? El bjet de esta aplicación es publicar, directamente pr las unidades respnsables en

Más detalles

La información no es de valor hasta que un número es asociado con ella. o Benjamín Franklin.

La información no es de valor hasta que un número es asociado con ella. o Benjamín Franklin. Histria de la Medición en el Sftware La infrmación n es de valr hasta que un númer es asciad cn ella. Benjamín Franklin. N puedes cntrlar l que n puedes medir. Si crees que el cst de la medición es alt,

Más detalles

CASO 9187 Se corrige falla que borra el SLA de los casos relacionados entre sí luego de que se ejecute una regla que modifique casos relacionados.

CASO 9187 Se corrige falla que borra el SLA de los casos relacionados entre sí luego de que se ejecute una regla que modifique casos relacionados. NOMBRE DEL PRODUCTO: ARANDA SERVICE DESK WINDOWS VERSIÓN DE ACTUALIZACIÓN QUE SE LIBERA: 8.1.13 LISTADO DE ARCHIVOS Nmbre de Archiv Versión Tamañ (En Bytes) Destin del Archiv (Ruta) ServiceDesk.exe 8.1.12.18

Más detalles

Lo que se pretende conseguir es proporcionar información detallada sobre. algunos ejemplos de software diseñados para implementar la Minería de Datos.

Lo que se pretende conseguir es proporcionar información detallada sobre. algunos ejemplos de software diseñados para implementar la Minería de Datos. SISTEMAS Y HERRAMIENTAS DE MINERÍA DE DATOS. EJEMPLOS: L que se pretende cnseguir es prprcinar infrmación detallada sbre alguns ejempls de sftware diseñads para implementar la Minería de Dats. Librerías:

Más detalles

Usando su ERP para la gestión de inventarios.

Usando su ERP para la gestión de inventarios. Artícul > Usand su ERP para la gestión de inventaris. Artícul Usand su ERP para la gestión de inventaris. 1 Cntenid Sumari Ejecutiv. 3 Asunts práctics cn la gestión de inventaris en tiemp real... 4 Cnclusión.

Más detalles

También. os. de formación. tendencias. Explica cómo se y la función de. Pág.1

También. os. de formación. tendencias. Explica cómo se y la función de. Pág.1 E-learning Técnic de frmación 110 HORAS ON-LINE CONTENIDOS Fundaments de la frmación a distancia Bases cnceptuales. Características de la frmación a distancia Se realiza una aprximación histórica al fenómen

Más detalles

MANUAL DE USUARIO MODELO WEB DESPACHO IDEAL - MODO SIMULACIÓN

MANUAL DE USUARIO MODELO WEB DESPACHO IDEAL - MODO SIMULACIÓN MANUAL DE USUARIO MODELO WEB DESPACHO IDEAL - MODO SIMULACIÓN INTRODUCCIÓN Esta primera versión del mdul Web para el cálcul del Despach Ideal que XM pne a dispsición de tds ls agentes generadres del Mercad

Más detalles

FUNCIONES DE LA ADMINISTRACIÓN DE REDES

FUNCIONES DE LA ADMINISTRACIÓN DE REDES FUNCIONES DE LA ADMINISTRACIÓN DE REDES 1. Cnfiguración Un administradr de red sirve a ls usuaris: crea espacis de cmunicación, atiende sugerencias; mantiene las herramientas y el espaci requerid pr cada

Más detalles

PROCEDIMIENTO DE FORMACION EN PREVENCION DE RIESGOS LABORALES

PROCEDIMIENTO DE FORMACION EN PREVENCION DE RIESGOS LABORALES 1 www.larija.rg Gbiern de La Rija 0 Página 1 de 5 PROCEDIMIENTO DE FORMACION EN PREVENCION DE RIESGOS Realizad pr: Servici de Prevención de Prevención de Riesgs Labrales del SERIS Fecha y firma: Abril

Más detalles

Cómo escribir el Trabajo Fin

Cómo escribir el Trabajo Fin Cóm escribir el Trabaj Fin de Grad TRABAJO FIN DE GRADO Grad Magisteri Educación Infantil/Primaria/Educación Scial 0 0 Cóm escribir el Trabaj Fin de Grad CURSO DE ADAPTACIÓN El Trabaj Fin de Grad debe

Más detalles

Tema 4B. Inecuaciones

Tema 4B. Inecuaciones 1 Tema 4B. Inecuacines 1. Intrducción Una inecuación es una desigualdad en la que aparecen númers y letras ligads mediante las peracines algebraicas. Ls signs de desigualdad sn: , Las inecuacines

Más detalles

GUÍA RÁPIDA DE USO. Requisitos tecnológicos para el correcto funcionamiento de Bot PLUS 2.0.

GUÍA RÁPIDA DE USO. Requisitos tecnológicos para el correcto funcionamiento de Bot PLUS 2.0. GUÍA RÁPIDA DE USO NOVEDADES DE Bt PLUS 2.0 2014 Cóm se instala, accede y cnfigura? Requisits tecnlógics para el crrect funcinamient de Bt PLUS 2.0. Aplicación cmpatible cn ls siguientes sistemas perativs:

Más detalles

1. Objetivo de la aplicación

1. Objetivo de la aplicación 1. Objetiv de la aplicación El bjetiv de esta aplicación es el de dispner de un canal de participación ciudadana en el que recibir preguntas de interés para ls ciudadans. Desde la página principal del

Más detalles

TEMARIO 5 Proceso contable. Sesión 5. Sistematización de la Contabilidad

TEMARIO 5 Proceso contable. Sesión 5. Sistematización de la Contabilidad TEMARIO 5 Prces cntable Sesión 5. Sistematización de la Cntabilidad 5. Sistematización de la Cntabilidad. INTRODUCCION: El papel de la cntabilidad en la ecnmía mderna es la presentación de estads financiers

Más detalles

PROYECTO EN FAVOR DE LA CONSERVACIÓN DE LA BIODIVERSIDAD ONU FUNDACIÓN AIRBUS ADEAC

PROYECTO EN FAVOR DE LA CONSERVACIÓN DE LA BIODIVERSIDAD ONU FUNDACIÓN AIRBUS ADEAC ONU FUNDACIÓN AIRBUS ADEAC ACTIVIDADES DE ECOAUDITORÍA PARA EL ALUMNADO DE PRIMARIA Este material pretende Este material pretende cmplementar la ecauditría sbre bidiversidad i dirigida en mayr medida al

Más detalles

Universidad Nacional de Tucumán

Universidad Nacional de Tucumán Universidad Nacinal de Tucumán Licenciatura en Gestión Universitaria Asignatura: Taller de Infrmática Aplicada a la Gestión Índice. Ncines Generales. (sistemas, pensamient sistémic, sistemas de infrmación).

Más detalles

Cloud Computing: Relevamiento y clasificación de Servicios de Bases de Datos

Cloud Computing: Relevamiento y clasificación de Servicios de Bases de Datos Clud Cmputing: Relevamient y clasificación de Servicis de Bases de Dats PAPI 2009 Fabrici Alvarez, Raul Ruggia InC Fing - UDELAR Clud Cmputing Qué es? Un tip de servici de TI de cálcul y almacenamient

Más detalles

tupaginaweben5dias.com

tupaginaweben5dias.com Que es un siti web? tupaginaweben5dias.cm Qué es un siti web? Qué es una página web de Internet? Dcument de la Wrld Wide Web (www.) que típicamente incluye text, imágenes y enlaces hacia trs dcuments de

Más detalles

Guía General. Central Directo. Negociación de divisas en MONEX

Guía General. Central Directo. Negociación de divisas en MONEX Guía General Central Direct Negciación de divisas en MONEX Añ: 2011 NEGOCIACION DE DIVISAS - MONEX La presente guía ha sid elabrada pr el Banc Central de Csta Rica (BCCR) y frece infrmación básica para

Más detalles

DIRECCIÓN DE SISTEMAS DE INFORMACIÓN DEPARTAMENTO CERES ÁREA DE REGISTRO

DIRECCIÓN DE SISTEMAS DE INFORMACIÓN DEPARTAMENTO CERES ÁREA DE REGISTRO DIRECCIÓN DE SISTEMAS DE INFORMACIÓN DEPARTAMENTO CERES ÁREA DE REGISTRO GESTIÓN DE CERTIFICADOS PARA EL PERSONAL AL SERVICIO DE LA ADMINISTRACIÓN PÚBLICA EMITIDOS POR LA FNMT RCM BAJO LA DENOMINACIÓN

Más detalles

Guía General Central Directo. Ingreso a la Plataforma

Guía General Central Directo. Ingreso a la Plataforma Guía General Central Direct Ingres a la Platafrma Añ: 2015 La presente guía ha sid elabrada pr el Banc Central de Csta Rica (BCCR) y frece infrmación básica para facilitar a ls participantes de Central

Más detalles

BUEN USO DEL CORREO ELECTRÓNICO

BUEN USO DEL CORREO ELECTRÓNICO BUEN USO DEL CORREO ELECTRÓNICO 2011 Secretaría de Infrmática Judicial Pder Judicial de San Luis 1 ÍNDICE 1. Intrducción. 2. Recmendacines cntra el Crre Basura SPAM 3. Otras Recmendacines para el us del

Más detalles

1.1. Qué entiende por el concepto de generalización de una red neuronal artificial?

1.1. Qué entiende por el concepto de generalización de una red neuronal artificial? UNIVERSIDAD CARLOS III DE MADRID In g e n i e r í a In f r m á t i c a, 3 º Cu r s Ex a m e n d e In f r m á t i c a T e ó r i c a II P a r t e d e t e r í a ( 2 p u n t s ) Se p t i e m b r e d e 2 0

Más detalles

CURSO DE ADAPTACION A GRADO EDUCACIÓN SOCIAL FACULTAD DE CIENCIAS SOCIALES DE TALAVERA CURSO 2015-16

CURSO DE ADAPTACION A GRADO EDUCACIÓN SOCIAL FACULTAD DE CIENCIAS SOCIALES DE TALAVERA CURSO 2015-16 CURSO DE ADAPTACION A GRADO EDUCACIÓN SOCIAL FACULTAD DE CIENCIAS SOCIALES DE TALAVERA CURSO 2015-16 PLANIFICACIÓN DE LAS ENSEÑANZAS: DATOS DEL CURSO, COMPETENCIAS /escial/adaptacin.asp DATOS DEL TÍTULO

Más detalles

Calidad de modelos BIM (Building Information Modeling) aplicados al Patrimonio. Universidades de Granada, Jaén y Sevilla

Calidad de modelos BIM (Building Information Modeling) aplicados al Patrimonio. Universidades de Granada, Jaén y Sevilla Calidad de mdels BIM (Building Infrmatin Mdeling) aplicads al Patrimni Universidades de Granada, Jaén y Sevilla 1 2 Calidad de mdels BIM (Building Infrmatin Mdeling) aplicads al Patrimni 3 Agencia de Obra

Más detalles

Construcción de un módulo de seguridad integrado en una arquitectura SOA Open Source

Construcción de un módulo de seguridad integrado en una arquitectura SOA Open Source Cnstrucción de un módul de seguridad integrad en una arquitectura SOA Open Surce Víctr Ayllón, Juan Manuel Reina NOVAYRE - www.nvayre.es C/Lenard Da Vinci 18, 5ª Planta Parque Tecnlógic Cartuja - 41092

Más detalles

65 HORAS. documentos. describe el. información. de la suite. Pág.1

65 HORAS. documentos. describe el. información. de la suite. Pág.1 Micrsft Access 2010 (Cmplet) 65 HORAS ON-LINE CONTENIDOS Intrducción a Office 2010 Intrducción a Office Intrducción a la suite fimática Micrsft Office 2010, presentand ls prgramas que la frman. Se describee

Más detalles

Plataforma de formación. Guía de navegación

Plataforma de formación. Guía de navegación Platafrma de frmación Guía de navegación Acceder a la platafrma Para acceder a la Platafrma de Frmación escribe la siguiente dirección en tu navegadr web: ics-aragn.cm A cntinuación verás la página de

Más detalles

I. INTRODUCCIÓN... 2 II. REQUERIMIENTOS... 2 III. SECCIÓN USUARIOS... 4. Objetivo...4. Acceso...4. Consulta de estado de pedimento...

I. INTRODUCCIÓN... 2 II. REQUERIMIENTOS... 2 III. SECCIÓN USUARIOS... 4. Objetivo...4. Acceso...4. Consulta de estado de pedimento... Manual del Usuari Sistema de Cnsulta de Estad de Pediment en WEB Administración General de Aduanas Méxic 2002 Sistema de Cnsulta de Estad de Pediment en Web INDICE I. INTRODUCCIÓN... 2 II. REQUERIMIENTOS...

Más detalles

Guía buscador de licitaciones MercadoPublico.cl

Guía buscador de licitaciones MercadoPublico.cl Guía buscadr de licitacines MercadPublic.cl Octubre 2011 I. Intrducción El buscadr de licitacines de MercadPublic.cl tiene el bjetiv de encntrar las licitacines públicas (en estad publicadas, cerradas,

Más detalles

Administración Local Soluciones

Administración Local Soluciones SISTEMA INTEGRADO DE GESTIÓN DE EXPEDIENTES MODULAR (SIGM) MANUAL DE CONFIGURACIÓN DEL PAGO TELEMÁTICO SIGM v3 Administración Lcal Slucines Cntrl de versines Versión Fecha edición Cambi prducid Autr 01

Más detalles

GUÍA PARA LA PRESENTACIÓN DE PONENCIAS.

GUÍA PARA LA PRESENTACIÓN DE PONENCIAS. GUÍA PARA LA PRESENTACIÓN DE PONENCIAS. 1. PROPUESTAS DE INVESTIGACIÓN: Sn aquells pryects que se encuentran en su fase inicial y n han iniciad la reclección de la infrmación. Ests serán presentads a manera

Más detalles

QUÉ ES LO QUE DEBE SABER SOBRE EL CONTRATO EN PRÁCTICAS?

QUÉ ES LO QUE DEBE SABER SOBRE EL CONTRATO EN PRÁCTICAS? QUÉ ES LO QUE DEBE SABER SOBRE EL CONTRATO EN PRÁCTICAS? Si ahra en el veran está pensad en cntratar a jóvenes titulads a través del cntrat de prácticas, debe saber que la finalidad de este cntrat es que

Más detalles

Equipos de respaldo de energía eléctrica UPS, SPS

Equipos de respaldo de energía eléctrica UPS, SPS Equips de respald de energía eléctrica UPS, SPS Intrducción Pág. 1 Sistema UPS Pág. 2 Funcinamient Pág. 2 Sistema SPS Pág. 2 Funcinamient Pág. 3 Diferencias Técnicas Principales Pág. 3 Cnclusión Pág. 4

Más detalles

Procedimiento: Diseño gráfico y reproducción de medios impresos y/o digitales Revisión No. 00 Fecha: 06/10/08

Procedimiento: Diseño gráfico y reproducción de medios impresos y/o digitales Revisión No. 00 Fecha: 06/10/08 Prcedimient: Diseñ gráfic y reprducción de medis impress y/ digitales Revisión N. 00 Secretaría de Planeación y Desarrll Institucinal Unidad de Infrmática Área de Diseñ Gráfic CONTENIDO 1. Prpósit 2. Alcance

Más detalles

Instrucción de trabajo I7-CYA Revisión 1 01-Feb-10

Instrucción de trabajo I7-CYA Revisión 1 01-Feb-10 Instrucción de trabaj I7-CYA Revisión 1 01-Feb-10 Creación y Activación de usuaris y recurss Objet Describir cm se realiza la creación de nuevs usuaris y recurss de us cmún del Institut, así cm el prces

Más detalles

Gestión de Servicios de TI Gestión de Problemas ( menos y menores incidencias)

Gestión de Servicios de TI Gestión de Problemas ( menos y menores incidencias) ITSM SOFTWARE Gestión de Servicis de TI Gestión de Prblemas ( mens y menres incidencias) www.espiralms.cm inf@espiralms.cm PractivaNET Hy hablarems de Cóm implantar una nueva Gestión de Prblemas a partir

Más detalles

PROGRAMA DE DOCTORADO DE MEDICINA, 2013/2014 (REAL DECRETO 99/2011) ACTIVIDADES FORMATIVAS DEL PROGRAMA DE DOCTORADO DE MEDICINA:

PROGRAMA DE DOCTORADO DE MEDICINA, 2013/2014 (REAL DECRETO 99/2011) ACTIVIDADES FORMATIVAS DEL PROGRAMA DE DOCTORADO DE MEDICINA: ACTIVIDADES FORMATIVAS DEL PROGRAMA DE DOCTORADO DE MEDICINA: Ls prgramas de dctrad incluirán aspects rganizads de frmación investigadra que n requerirán su estructuración en crédits ECTS y cmprenderán

Más detalles

PROGRAMA FORMATIVO AvANZA

PROGRAMA FORMATIVO AvANZA Asesría y Organización de Frmación Cntinua Prgramación páginas web: servidr (PHP) Aplicacines Web Mdalidad: e-learning Duración: 56 Hras Códig: CAT00140 Objetiv Curs de desarrll de aplicacines web. Para

Más detalles

SIMASC. Documento de Especificaciones de Arquitectura: Versión 1.1

SIMASC. Documento de Especificaciones de Arquitectura: Versión 1.1 SIMASC Dcument de Especificacines de Arquitectura: Versión 1.1 Revisión Fecha Versión Descripción Autr 21 de Juli de 2015 1.0 21 de Juli de 2015 1.1 Dcumentación prpuesta arquitectura SIMASC Cambis de

Más detalles

Créditos tributarios por gastos de cuidado de menores y dependientes

Créditos tributarios por gastos de cuidado de menores y dependientes Crédits tributaris pr gasts de cuidad de menres y dependientes Ayuda cn ls gasts de cuidad de niñs El crédit federal pr gasts de cuidad de menres y dependientes es una desgravación fiscal que frece el

Más detalles

Plataforma de formación. Guía de navegación

Plataforma de formación. Guía de navegación Platafrma de frmación Guía de navegación Acceder a la platafrma Para acceder a la Platafrma de Frmación escribe la siguiente dirección en tu navegadr web: www.ics-aragn.cm A cntinuación verás la página

Más detalles

ecompetició Inscripciones Para acceder: http://www.fecapa.cat > Serveis Fecapa > Intranet ecompetició

ecompetició Inscripciones Para acceder: http://www.fecapa.cat > Serveis Fecapa > Intranet ecompetició ecmpetició Inscripcines Para acceder: http://www.fecapa.cat > Serveis Fecapa > Intranet ecmpetició También se puede acceder directamente al servidr pr la URL http://www.fecapa.cm:9080/ecmpetici, per es

Más detalles

A continuación presentamos un posible modelo del contenido de un plan de mercadeo:

A continuación presentamos un posible modelo del contenido de un plan de mercadeo: Mdel del cntenid del plan de mercade Existe una gran variedad de mdels de planes de mercade que reflejan n slamente la rientación y las perspectivas que tienen las empresas de vender en diferentes mercads,

Más detalles

POLITICA DE ELIMINACION Y DESTRUCCION POLITICA DE ELIMINACION Y DESTRUCCION

POLITICA DE ELIMINACION Y DESTRUCCION POLITICA DE ELIMINACION Y DESTRUCCION Códig POL GSI 033 POLITICA DE ELIMINACION Y DESTRUCCION Tip de Dcument: Códig : POLITICA POL GSI 033 I. AUTORIZACIONES. Área(s) y Puest(s): Nmbre(s) y Firma(s): Elabrad pr: Cnsultr / Extern Manuel Benítez

Más detalles

Curso de PowerPoint 2007

Curso de PowerPoint 2007 Curs de PwerPint 2007 1. Objetivs El curs de PwerPint está destinad a la realización de presentacines cn diapsitivas, cn el fin de dar a cncer una idea, un nuev prduct, etc. Esta herramienta también está

Más detalles

CRITERIOS DE EVALUACIÓN

CRITERIOS DE EVALUACIÓN CRITERIOS DE EVALUACIÓN PROGRAMA DE APOYO A PROYECTOS DE INVESTIGACIÓN DE LA CONSEJERÍA DE EDUCACIÓN DE LA JUNTA DE CASTILLA Y LEÓN MODALIDAD B: Grups de investigación nveles LÍNEA 1: Pryects de investigación

Más detalles

Localizador Uniforme de Recursos

Localizador Uniforme de Recursos Lcalizadr Unifrme de Recurss De Wikipedia, la enciclpedia libre (Redirigid desde Dirección de Internet) Saltar a navegación, búsqueda URL significa Unifrm Resurce Lcatr, es decir, lcalizadr unifrme de

Más detalles

INDICE. Servicios Informáticos. Guía básica del usuario de Symantec Endpoint Protection Windows Página 1 de 11

INDICE. Servicios Informáticos. Guía básica del usuario de Symantec Endpoint Protection Windows Página 1 de 11 Servicis Infrmátics Guía básica del usuari de Symantec Endpint Prtectin Windws Página 1 de 11 INDICE 1. Intrducción...2 2. Acerca del icn de Symantec Endpint...3 3. La cnsla principal y la ventana Estad...4

Más detalles

Manual General de Usuario del Proceso. P36 Recuperación de CFDI de Recibos Timbrados de. Nóminas Extraordinarias

Manual General de Usuario del Proceso. P36 Recuperación de CFDI de Recibos Timbrados de. Nóminas Extraordinarias Manual General de Usuari del Prces P36 Recuperación de CFDI de Recibs Timbrads de Nóminas Extrardinarias Cntenid 1 Definición 1.1 Objetiv 1.2 Rles 1.3 Fluj 2 Tarea 01 Inici del prces Recuperación de Archivs

Más detalles

Cartas de presentación

Cartas de presentación Cartas de presentación El bjetiv de la carta de presentación es dble: Pr un lad, pretende suscitar el interés de quien va a recibir tu candidatura, de manera que lea tu Curriculum Vitae cn la atención

Más detalles

RESOLUCION DE CUESTIONES PLANTEADAS

RESOLUCION DE CUESTIONES PLANTEADAS RESOLUCION DE CUESTIONES PLANTEADAS A. Frmats 1. La dcumentación cmplementaria en A3 debe estar relacinada cn la dcumentación técnica a que se refiere y únicamente deberá cntener esquemas gráfics que n

Más detalles

El agente de software de Dr.Web SaaS

El agente de software de Dr.Web SaaS El agente de sftware de Dr.Web SaaS Antes de empezar Antes de instalar el sftware en el rdenadr dispsitiv móvil, tenga en cuenta que cada suscripción tiene su prpi agente de sftware, que debe ser descargad

Más detalles

SGNTJ INTCF. Manual de Solicitud de Alta en el Sistema de Relación de Empresas (SRE) del Instituto Nacional de Toxicología y Ciencias Forenses (INTCF)

SGNTJ INTCF. Manual de Solicitud de Alta en el Sistema de Relación de Empresas (SRE) del Instituto Nacional de Toxicología y Ciencias Forenses (INTCF) Manual de Slicitud de Alta en el SGNTJ INTCF Manual de Slicitud de Alta en el Sistema de Relación de Empresas (SRE) del Institut Nacinal de Txiclgía y Ciencias Frenses (INTCF) Manual de Slicitud de Alta

Más detalles

Cómo configurar el aula en Moodle?

Cómo configurar el aula en Moodle? Cóm cnfigurar el aula en Mdle? La platafrma Mdle les da a ls tutres pcines para cnfigurar un curs cn el fin de que puedan diseñar a su gust el espaci en el que publicarán sus cntenids. La función de cnfiguración

Más detalles

UNIVERSIDAD FRANCISCO DE PAULA SANTANDER PROGRAMA DE INGENEIRIA DE SISTEMAS ANÁLISIS Y DISEÑO DE SISTEMAS. Enfoques para Modelado del Negocio

UNIVERSIDAD FRANCISCO DE PAULA SANTANDER PROGRAMA DE INGENEIRIA DE SISTEMAS ANÁLISIS Y DISEÑO DE SISTEMAS. Enfoques para Modelado del Negocio MODELO DEL NEGOCIO Intrducción Las Organizacines intentan cnjuntar ds visines para realizar su negci: Visión del negci: Especificar y mejrar sus prcess (análisis del negci) Visión de TI: Infrmatizarls

Más detalles

Microsoft Exchange 2010

Microsoft Exchange 2010 División de Sistemas y Tecnlgía ANEXO I: Micrsft Exchange 2010 Plan de pryect de migración de versión División de Sistemas y Tecnlgía Página 1 de 7 División de Sistemas y Tecnlgía Fecha Versión Descripción

Más detalles

Análisis de arquitecturas para un Core IP/MPLS

Análisis de arquitecturas para un Core IP/MPLS Análisis de arquitecturas para un Cre I/MLS Abreu, Marcel Universidad de Mntevide Resumen En la estructura de redes cnvergentes actuales, ls equips de núcle sn de vital imprtancia. A través de ells transita

Más detalles

Una nueva propuesta: cambio de fecha, entrada libre y nuevo formato

Una nueva propuesta: cambio de fecha, entrada libre y nuevo formato Infrmación Cntext La actividad agrícla argentina mantiene una cnstante evlución en la tecnlgía aplicada, cn la mirada puesta en aumentar la precisión, el autmatism y la prductividad. Mantener una capacitación

Más detalles

Perceptrón Adaline. ( Desarrollado en el entorno Eclipse en el lenguaje JAVA ) Jose Alberto Benítez Andrades 71454586A

Perceptrón Adaline. ( Desarrollado en el entorno Eclipse en el lenguaje JAVA ) Jose Alberto Benítez Andrades 71454586A Perceptrón Adaline ( Desarrllad en el entrn Eclipse en el lenguaje JAVA ) Jse Albert Benítez Andrades 71454586A Redes Neurnales y Algritms Genétics Universidad de León Manual de usuari PerAda JABA 2.0

Más detalles

Guía SERVICIOS WEB PARA BIBLIOTECAS EN DICCIONARIO. (19 julio 2012)

Guía SERVICIOS WEB PARA BIBLIOTECAS EN DICCIONARIO. (19 julio 2012) Guía SERVICIOS WEB PARA BIBLIOTECAS EN DICCIONARIO (19 juli 2012) ÍNDICE 1. DESCRIPCIÓN GENERAL... 4 2. INTEGRAR DOCUMENTOS EN BIBLIOTECAS EN DICCIONARIO... 4 2.1. DEFINICIÓN DE LOS MÉTODOS... 5 2.2. EJEMPLOS

Más detalles

CONTRALORÍA GENERAL DE LA REPÚBLICA PROGRAMA DE CONTABILIDAD GENERAL DE LA NACIÓN SECTOR MUNICIPAL NIVEL 1

CONTRALORÍA GENERAL DE LA REPÚBLICA PROGRAMA DE CONTABILIDAD GENERAL DE LA NACIÓN SECTOR MUNICIPAL NIVEL 1 CURSO DE CONTABILIDAD GENERAL DE LA NACIÓN SECTOR MUNICIPAL NIVEL 1 Cntenid 1. DESCRIPCIÓN GENERAL DEL CURSO... 2 a) DURACIÓN... 2 b) PERFIL DEL POSTULANTE... 3 c) SELECCIÓN... 3 2. OBJETIVOS DEL CURSO:...

Más detalles

Manual de Usuario- Vendedores. Uso del Portal

Manual de Usuario- Vendedores. Uso del Portal Manual de Usuari- Vendedres Us del Prtal Manual de usuari- Prtal Página 1 de 14 Autr Cntrl de cambis Vers. Fecha Karla Alfar Sánchez Dcument inicial 1,1 25/06/2011 Karla Alfar Sánchez Actualizacines 1,2

Más detalles

MANUAL MANUAL. DE MICROSOFT PowerPoint 2007

MANUAL MANUAL. DE MICROSOFT PowerPoint 2007 MANUAL DE MANUAL DE MICROSOFT MICROSOFT WORD EXCEL 2007 2007 PwerPint 2007 Page1 Page2 Índice Cntenids SISTEMA DE TRÁMITES VERSIÓN 2... 3 Intrducción... 3 Ingres... 3 Menú... 5 Funcines Principales del

Más detalles

UNIVERSIDAD MAYOR DE SAN SIMÓN FACULTAD DE CIENCIAS AGRÍCOLAS, PECUARIAS FORESTALES Y VETERINARIAS DR. MARTÍN CÁRDENAS

UNIVERSIDAD MAYOR DE SAN SIMÓN FACULTAD DE CIENCIAS AGRÍCOLAS, PECUARIAS FORESTALES Y VETERINARIAS DR. MARTÍN CÁRDENAS UNIVERSIDAD MAYOR DE SAN SIMÓN FACULTAD DE CIENCIAS AGRÍCOLAS, PECUARIAS FORESTALES Y VETERINARIAS DR. MARTÍN CÁRDENAS PROGRAMA DE CURSO PROPEDEUTICO PLAN GLOBAL MATERIA: MATEMATICAS Ing. Hug Castellón

Más detalles

Instalación y Configuración de la interfaz de TPV. www.chefexact.es

Instalación y Configuración de la interfaz de TPV. www.chefexact.es Instalación y Cnfiguración de la interfaz de TPV INSTALACIÓN Una vez descargad el ficher de la Interfaz se instalara en el mism rdenadr dnde este TPVFacil instalada, haga dble clic para cmenzar la instalación,

Más detalles

Características Generales de SQL

Características Generales de SQL Características Generales de SQL Ricard Enrique Lags Mendza Cámara de Cmerci MARZO 2015 Cntenid 1. Presentación 2. Que es Micrsft SQL Server? 3. A quien le sirve Micrsft SQL Server? 4. Características

Más detalles

5. PERFIL DINAMIZADOR DE LAS TIC EN EL CENTRO 5.1 Descripción y objetivos

5. PERFIL DINAMIZADOR DE LAS TIC EN EL CENTRO 5.1 Descripción y objetivos 5. PERFIL DINAMIZADOR DE LAS TIC EN EL CENTRO 5.1 Descripción y bjetivs En este apartad se definen cuales sn las principales características, cncimients y herramientas TIC que debe tener el Perfil de Dinamizadr/a

Más detalles

Realizar copias de seguridad de archivos

Realizar copias de seguridad de archivos Autr: Micrsft Licencia: Cita Fuente: Ayuda de Windws Realizar cpias de seguridad de archivs Para asegurarse de n perder sus archivs, debe realizar cpias de seguridad regulares de ls misms. Puede cnfigurar

Más detalles

PROJECT CONTROLS. Proyecto Técnico

PROJECT CONTROLS. Proyecto Técnico PROJECT CONTROLS Pryect Técnic Pedr Ascz Agustín Germán E. López Sánchez Francesc Penalba García Marc Prósper i Serra 25/05/2009 may-09 Prject Cntrls Tabla de cntenids 1 DOCUMENTO IDENTIFICACIÓN...1 2

Más detalles

Syllabus Asignatura : Métodos cualitativos de investigación de mercados

Syllabus Asignatura : Métodos cualitativos de investigación de mercados Syllabus Asignatura : Métds cualitativs de investigación de mercads Master Universitari en Gestión cmercial y Master en Dirección de marketing Curs 2011/2012 Prfesr/es: Perid de impartición: Tip: Idima

Más detalles

6.1. PROFESORADO. csv: 95730395832081194841730

6.1. PROFESORADO. csv: 95730395832081194841730 6.1. PROFESORADO Al tratarse de un títul al que dan servici diverss Departaments, se describe a cntinuación el cnjunt del prfesrad de la Facultad de Ciencias Humanas y Sciales, en el que se encuentra ubicad

Más detalles

Sesiones 2-3: Transformación de datos

Sesiones 2-3: Transformación de datos Curs de intrducción a Stata Jrdi Muñz (UAB) Sesines 2-3: Transfrmación de dats Hasta ahra hems vist ls elements básics de stata, y cóm inspeccinar ls dats que tenems. A partir de ahra vams a trabajar sbre

Más detalles

Guía de integración del módulo de Redsys en WooCommerce

Guía de integración del módulo de Redsys en WooCommerce Guía de integración del módul de Redsys en WCmmerce Versión: 2.6 25/08/2015 Referencia RS.ED.IND.MAN.0033 Redsys C/ Francisc Sancha, 12 28034 Madrid ESPAÑA Versión: 2.6 i Guía de integración Redsys en

Más detalles

Servicio de Registro de Solicitud de Acreditaciones para Dirigir u Operar Instalaciones de Radiodiagnóstico Médico

Servicio de Registro de Solicitud de Acreditaciones para Dirigir u Operar Instalaciones de Radiodiagnóstico Médico Servici de Registr de Slicitud de Acreditacines para Dirigir u Operar Instalacines de Radidiagnóstic Médic Manual de Versión: 1.0 25/06/2009 Cntrl de cambis Versión Fecha Revisad Resumen de ls cambis prducids

Más detalles

Contenido. Lineamientos para la gestión de proyectos Versión: 0. 1/oct/2012 Pág. 7

Contenido. Lineamientos para la gestión de proyectos Versión: 0. 1/oct/2012 Pág. 7 Cntenid Intrducción... 2 1. Objetivs... 2 2. Audiencia... 2 3. Lineamients Generales para la creación y administración de crngramas... 3 3.1 Alcance del crngrama... 3 3.3 Marc cnceptual de ls y de ls crngramas...

Más detalles

MANUAL DE UTILIZACIÓN DE LA APLICACIÓN DE GENERACIÓN DE GUÍAS DOCENTES A TRAVÉS DE CAMPUS VIRTUAL

MANUAL DE UTILIZACIÓN DE LA APLICACIÓN DE GENERACIÓN DE GUÍAS DOCENTES A TRAVÉS DE CAMPUS VIRTUAL MANUAL DE UTILIZACIÓN DE LA APLICACIÓN DE GENERACIÓN DE GUÍAS DOCENTES A TRAVÉS DE CAMPUS VIRTUAL El Campus Virtual del a UC ha incrprad una nueva funcinalidad que pretende facilitar la cnfección y actualización

Más detalles

10a Edición Earned Value Management Implementad cn Micrsft Prject Abril 2015 Presencial y Online (en tiemp real, a través de Internet) Earned Value Management Aplicad cn Micrsft Prject Un curs rientad

Más detalles

Software por Uso. (SaaS) Software as a Service. Software como un servicio más, conéctate y úsalo

Software por Uso. (SaaS) Software as a Service. Software como un servicio más, conéctate y úsalo Sftware pr Us (SaaS) Sftware as a Service Sftware cm un servici más, cnéctate y úsal Intrducción: En la actualidad existen tres frmas de dispner de una tecnlgía cmpetitiva para las grandes empresas, Pymes

Más detalles

Servicio de Solicitud de Inscripción en el Registro Oficial de Empresas Externas del Consejo de Seguridad Nuclear

Servicio de Solicitud de Inscripción en el Registro Oficial de Empresas Externas del Consejo de Seguridad Nuclear Servici de Slicitud de Inscripción en el Registr Oficial de Empresas Externas del Cnsej de Seguridad Nuclear Manual de Versión: 1.3 27/05/2013 Cntrl de cambis Versión Fecha Revisad Resumen de ls cambis

Más detalles

INTRASTOCK. Las operaciones son alimentadas y asignadas diariamente en forma automática.

INTRASTOCK. Las operaciones son alimentadas y asignadas diariamente en forma automática. INTRASTOCK INTRASTOCK es una aplicación desarrllada para mantener el cntrl de las peracines de renta variable desde que se pacta la peración cn el cliente (rden) hasta que es liquidada, tant en blívares

Más detalles

El diseño de las Wikis en Mediación Virtual

El diseño de las Wikis en Mediación Virtual El diseñ de las Wikis en Mediación Virtual Unidad de Apy a la Dcencia mediada pr TIC (METICS) Manual: El diseñ de las Wikis en Medicación Virtual /METICS. 1.ed. San Jsé, CR: Vicerrectría de Dcencia, Universidad

Más detalles

Evaluación de los volúmenes pulmonares por pletismografía para el diagnóstico clínico y el seguimiento de la fibrosis pulmonar idiopática

Evaluación de los volúmenes pulmonares por pletismografía para el diagnóstico clínico y el seguimiento de la fibrosis pulmonar idiopática Evaluación de ls vlúmenes pulmnares pr pletismgrafía para el diagnóstic clínic y el seguimient de la fibrsis pulmnar idipática 1. Preguntas de evaluación 1.1. Diagnóstic En pacientes cn fibrsis pulmnar

Más detalles

TDR Soporte Dataprotector 2010 Pág. 1/6 06/01/2010, 3:22

TDR Soporte Dataprotector 2010 Pág. 1/6 06/01/2010, 3:22 Banc Multisectrial de Inversines Gerencia de Operacines y Tecnlgía Términs de Referencia Servicis de Sprte Data Prtectr Ener 2010 TDR Sprte Dataprtectr 2010 Pág. 1/6 06/01/2010, 3:22 Banc Multisectrial

Más detalles

MÁSTER UNIVERSITARIO IO en QUÍMICA MASTER EN INDUSTRIA E INVESTIGACIÓN QUÍMICA

MÁSTER UNIVERSITARIO IO en QUÍMICA MASTER EN INDUSTRIA E INVESTIGACIÓN QUÍMICA MÁSTER UNIVERSITARIO IO en QUÍMICA MASTER EN INDUSTRIA E INVESTIGACIÓN QUÍMICA El Máster en Industria e Investigación Química incluye ests ds perfiles itineraris. Perfil investigadr, diseñad para aquells

Más detalles

PRESENTACIÓN PROYECTO

PRESENTACIÓN PROYECTO PRESENTACIÓN PROYECTO Jsé León Gómez Rsari, 10-1º 06490 - Puebla de la Calzada (Badajz) E-mail: jselen@extremaduraregin.cm Tfn.: 629.41.04.93 EL PROBLEMA En la actualidad ls niveles de exigencia de ls

Más detalles