Estimación del punto isoeléctrico de péptidos empleando descriptores moleculares y máquinas de soporte vectorial

Transcripción

1 Centro de Ingeniería Genética y Biotecnología Estimación del punto isoeléctrico de péptidos empleando descriptores moleculares y máquinas de soporte vectorial Tesis presentada en opción al título de Maestro en Ciencias en Tendencias de la Biotecnología Contemporánea. Mención Investigación de Nuevos Productos Autor: Ing. Enrique Audain Martínez Tutor (es): DrC. Kathya R. de la Luz Hernández DrC. Yasset Perez-Riverol Centro de Inmunología Molecular La Habana, febrero de 2014

2 Agradecimientos Agradecimientos A mi familia, especialmente a mami, por su apoyo en cada momento, A mis tutores, En general, a todas aquellas personas por su apoyo incondicional, De corazón, muchas gracias

3 Dedicatoria Dedicatoria A mi madre y hermana, por todo, A mi familia, especialmente a mis dos abuelas, por todo el apoyo brindado, A mis dos padres, Enrique y Jesús Martínez Mesa, gracias, A mis amigos, por la confianza, A todos los que hicieron posible la realización de este trabajo.

4 Glosario de términos y abreviaturas Glosario de términos y abreviaturas API Interfaz para la programación de aplicaciones (del inglés Application Programming Interface) CDK Bibliotecas de clases para análisis químico (del inglés Chemical Development Kit) CID Disociación inducida por colisión (del inglés Collisioninduced Dissociation) Cofactor Algoritmo de Cargile para la estimación del pi ESI Electro-nebulización (del inglés Electrospray) FS Selección de características (del inglés Feature Selection) FT Transformada de Fourier (del inglés Fourier Transform) HPLC Cromatografía Líquida de Alta Eficacia (del inglés High Performance Liquid Chromatography) ICR Resonancia ciclotrónica de iones (del inglés Ion Cyclotron Resonance) IEF Isoelectroenfoque (del inglés Isoelectric Focusing) IPG Gradiande de ph inmobilizado (del inglés Immobilized ph Gradient ) IT Trampa de iones (del inglés Ion Trap) JDK Herramientas para el desarrollo de aplicaciones en Java (del inglés Java Development Kit) JRE Entorno de ejecución de aplicaciones Java (del inglés Java Runtime Enviroment) JVM Máquina Virtual de Java (del inglés Java Virtual Machine) Kernel Núcleo de transformación k-means Algoritmo de las medianas LIT Trampa de iones lineal (del inglés Lineal Ion Trap) LTQ Cuadrupolo de confinamiento lineal (del inglés Linear Trap Quadrupole) MALDI Ionización por desorción láser asistida por matriz (del inglés Matrix-Assisted Laser Desorption/Ionization) MS Espectrometría de masas (del inglés Mass Spectrometry) MS/MS Espectrometría de masas en sucesión (del inglés Tandem

5 Glosario de términos y abreviaturas Mass Spectrometry) pi Punto isoeléctrico pk Logaritmo negativo de la constante de disociación. Q Cuadrupolo (del inglés Quadrupole) QQQ Triple Cuadrupolo QSAR Relación cuantitativa entre estructura y actividad (del inglés Quantitative Structure-Activity Relationship) RMSE Error cuadrático medio (del inglés Root Mean Square Error) RP Fase reversa (del inglés Reverse Phase) SCX Intercambio catiónico fuerte (del inglés Strong CationeXchange) SD Desviación estándar (del inglés Standar Desviation) SMO Optimización mínima secuencial (del inglés Sequential Minimal Optimization) SVM Máquina de Soporte Vectorial (del inglés Support Vector Machine) TOF Analizador de tiempo de vuelo (del inglés Time of Flight ) WEKA Entorno para Análisis del Conocimiento de la Universidad de Waikato (del inglés Waikato Environment for Knowledge Analysis) XML Lenguaje de marcas extensibles (del inglés extensible Markup Language)

6 Resumen Resumen El fraccionamiento de mezclas de péptidos utilizando geles con gradiente de ph inmovilizado se utiliza con frecuencia como el primer paso de separación en experimentos de proteómica. Esta técnica produce un incremento tanto en el rango dinámico como en la resolución de la separación de péptidos previo al análisis por Cromatografía Líquida- Espectrometría de Masas. Los valores de punto isoeléctrico (pi) experimental obtenidos en combinación con la información de los espectros de fragmentación pueden ser utilizados para mejorar las identificaciones de péptidos. Por lo tanto, la estimación precisa del valor de pi basado en la secuencia de aminoácidos constituye un punto crítico en este tipo de experimentos. En la actualidad, el pi se estima fundamentalmente mediante modelos basados en el estado de carga de la molécula, y/o el algoritmo Cofactor. Sin embargo, ninguno de estos métodos es capaz de calcular el valor de pi de péptidos básicos con precisión. En este trabajo, presentamos un enfoque nuevo que puede mejorar la estimación del pi significativamente, mediante el uso de máquinas de soporte vectorial (SVM), un descriptor experimental de aminoácidos tomado de la base de datos AAIndex y el punto isoeléctrico predicho por un modelo basado en el estado de carga. Los resultados obtenidos en dos conjuntos de datos experimentales mostraron una alta correlación ( ) entre valores estimados y observados de pi, con una desviación estándar de unidades de ph.

7 Índice Introducción... 1 Capítulo 1. Revisión Bibliográfica Proteómica: conceptos básicos Fraccionamiento del proteoma. Técnicas electroforéticas y cromatográficas Espectrometría de masas Asignación de secuencia de péptidos a espectros de fragmentación Validación de la identificación de las proteínas utilizando las propiedades físico-químicas de los péptidos Algoritmos para la estimación del punto isoeléctrico Algoritmos iterativos para la estimación del pi Algoritmo de Gauci para la estimación del pi Algoritmo de Cargile (Cofactor) para la estimación del pi Utilización del punto isoeléctrico en la validación de datos en experimentos de proteómica Aprendizaje Computacional. Máquinas de Soporte Vectorial Pre-procesamiento de los datos en el aprendizaje computacional Representación de la estructura molecular mediante descriptores moleculares Técnicas de Selección de Variables Máquinas de Soporte Vectorial Lenguajes de programación y entorno de desarrollo integrado Capítulo 2. Materiales y Métodos Obtención de los péptidos teóricos del proteoma de D. Melanogaster Obtención del pi experimental de los péptidos... 29

8 2.3 Procesamiento de los datos biológicos Programa readpeptidexml Diseño experimental Cálculo de descriptores de AAindex Implementación del modelo final basado en SVM utilizando WEKA Capítulo 3. Resultados y discusión Selección de descriptores moleculares Pre-procesamiento de los datos de entrada del modelo final Remoción automática de valores atípicos Normalización de los datos Implementación del algoritmo pi-svm utilizando WEKA Detección de falsas identificaciones con el algoritmo pi-svm Implementación de los algoritmos Bjellqvist y Cofactor Evaluación de los algoritmos de Bjellqvist, Cofactor y pi-svm en datos experimentales Conclusiones Recomendaciones Referencias bibliográficas... 58

9 Introducción Introducción La proteómica se define como el conjunto de metodologías y técnicas analíticas para el estudio del proteoma, el cual representa el total de las proteínas expresadas en un organismo, un tejido o línea celular, en un momento determinado (Aebersold y Mann 2003). Esta disciplina del conocimiento puede ser utilizada para estudiar las funciones biológicas de las proteínas, las localizaciones en los diferentes organelos celulares, las modificaciones post-traduccionales y las interacciones entre estas. El avance vertiginoso en el campo de la proteómica en los últimos años, se debe fundamentalmente a los avances en la instrumentación en la Espectrometría de Masas (MS, del inglés Mass Spectrometry), las mejoras en las metodologías experimentales y el desarrollo de nuevas herramientas computacionales que mejoran el análisis de los datos obtenidos (Ahrens y cols., 2010; Perez-Riverol Y y cols., 2013; Perez-Riverol Y y cols., 2013). Las mejoras tecnológicas en los espectrómetros de masas - fundamentalmente en la velocidad de adquisición de los datos, la resolución, la precisión y la sensibilidad (Domon y Aebersold 2006)- han impuesto un reto en el análisis computacional de los grandes volúmenes de datos derivados de un experimento de proteómica. La estrategia más utilizada para la asignación de una secuencia peptídica a un espectro de fragmentación (MS/MS) es la metodología de búsqueda en bases de datos de secuencias (Eng y cols., 2011). Otras metodologías utilizadas con este propósito son la secuenciación de novo (Seidler y cols., 2010), la secuencia etiqueta (Tabb DL y cols., 2003; Tabb DL y cols., 2008; Perez-Riverol Y y cols., 2013) y la búsqueda en bibliotecas de espectros de masas experimentales (Lam 2011; Lam y Aebersold 2011). Consecuentemente, el desarrollo de nuevas herramientas computacionales para la identificación de péptidos y proteínas, y su validación estadística, constituyen un campo de investigación en constante crecimiento (Mujezinovic y cols., 2010; Nesvizhskii 2010). 1

10 Introducción Recientemente, la utilización de las informaciones complementarias generada durante un experimento de proteómica, tales como el punto isoeléctrico (pi) (Cargile BJ y Stephenson JL 2004) y el tiempo de retención (Norbeck AD y cols., 2005; Moruz L y cols., 2012) en un sistema cromatográfico determinado, han sido explorados para la validación de las identificaciones de péptidos y proteínas (Heller y cols., 2005; Nesvizhskii y cols., 2007; Perez-Riverol y cols., 2011). Todas estas estrategias requieren la estimación precisa de diferentes propiedades físico-químicas de péptidos y proteínas, tales como el tiempo de retención, el punto isoeléctrico, el índice de Gravy, la masa molecular o la detectabilidad del péptido. Estas estimaciones están basadas en dos componentes fundamentales: algoritmos y descriptores moleculares. Se han reportado en la literatura varios modelos (basados en aprendizaje computacional) para la estimación del tiempo de retención (Petritis y cols., 2006; Pfeifer y cols., 2007) y la detectabilidad de péptidos (Kuster y cols., 2005; Mallick y cols., 2007) que derivan de la información contenida en la estructura primaria. Sin embargo, este enfoque ha sido menos utilizado en los algoritmos para la predicción del punto isoeléctrico. El punto isoeléctrico (pi) puede ser definido como el punto en una curva de titulación en el cual la carga neta superficial de un péptido o proteína es igual a cero (Righetti 2004). El pi experimental es obtenido como información complementaria durante el fraccionamiento por isoelectroenfoque, electroforesis libre de gel, electroforesis capilar y electroforesis en gel utilizando tiras con gradiente de ph inmovilizado. La separación electroforética de péptidos ha sido adaptada a una amplia variedad de plataformas de proteómica. El punto fundamental es que el paso de separación reduce la complejidad del proteoma bajo estudio (Heller y cols., 2005; Cargile y cols., 2008; Gauci y cols., 2008). La combinación de la separación electroforética de péptidos y los espectros de fragmentación (espectros MS/MS) proporcionan un método de análisis ortogonal para filtrar los resultados obtenidos por búsquedas en bases de datos o la validación de los péptidos identificados (Perez-Riverol y cols., 2011) en diferentes flujos de trabajos. El éxito de utilizar el pi como criterio 2

11 Introducción para validar los resultados en experimentos de proteómica involucra la habilidad de dos elementos fundamentales: (i) las técnicas resolutivas para obtener valores experimentales del pi con precisión, y (ii) los algoritmos para estimar el pi con buena precisión. La ecuación de Henderson-Hasselbach se ha utilizado para estimar valores de pi, esta relaciona el ph de la solución con los valores de pk (logaritmo negativo de la constante de disociación) de los aminoácidos. Una primera aproximación para la estimación de valores de pi fue descrita por David Tabb (DL. 2003). El método utiliza la ecuación antes mencionada para el cálculo de pi y el conjunto de valores de pk de los grupos ionizables de las cadenas laterales de los aminoácidos propuesto por Bjellqvist (Bjellqvist y cols., 1993). Los algoritmos actuales para estimar el pi de péptidos y proteínas dependen primeramente del modelo propuesto por Bjellqvist y colaboradores (Bjellqvist y cols., 1993). Este modelo está basado en las diferencias de pk entre inmobilinas estrechamente relacionadas, enfocando la misma muestra en gradientes de ph solapados. Subsecuentes mejoras en la metodología (especialmente hacia la determinación de los valores de pk) han sido propuestas recientemente para diferentes sistemas electroforéticos. Gauci y colaboradores (Gauci y cols., 2008) propusieron un algoritmo para la estimación del pi de péptidos utilizando un nuevo conjunto de valores de pk tanto para péptidos modificados como para péptidos no modificados. Siguiendo otra metodología, el algoritmo propuesto por Cargile y colaboradores (Cargile y cols., 2008) toma en cuenta el efecto de aminoácidos adyacentes sobre los residuos cargados del ácido aspártico y el ácido glutámico y el efecto sobre el C-terminal libre, aplicando también un término de corrección a los valores de pk correspondientes. Los métodos de Gauci y Cargile logran una alta correlación entre el valor de pi experimental y teórico. Sin embargo, la desviación estándar que se obtiene para los valores de pi es relativamente alta con ambos métodos, especialmente en las fracciones más básicas, lo cual plantea una limitación 3

12 Introducción para el uso del pi (calculado por estos métodos) como criterio de validación en las identificaciones de péptidos. Los elementos anteriormente expuestos plantean la necesidad de disponer de métodos de estimación lo más exactos posibles que permitan elevar la confiabilidad de los resultados obtenidos por MS cuando se utiliza el pi como criterio de validación. Esta cuestión adquiere una importancia relevante cuando se utilizan en el proceso de identificación espectrómetros de masas de baja resolución. Teniendo en cuenta los elementos anteriormente descritos en este trabajo nos planteamos como: Objetivo General Desarrollar y validar un método bioinformático de estimación del punto isoeléctrico de péptidos utilizando descriptores de secuencia y máquinas de soporte vectorial. Objetivos Específicos 1. Implementar herramientas bioinformáticas para el pre-procesamiento de datos proteómicos y el cómputo y selección de descriptores moleculares de péptidos. 2. Obtener una función para el cálculo del punto isoeléctrico utilizando métodos de aprendizaje computacional. 3. Evaluar el uso del punto isoeléctrico en la identificación de falsos positivos en experimentos de proteómica. 4. Comparar la función obtenida con otros métodos para el cálculo del punto isoeléctrico reportados en la literatura. Tareas experimentales 1. Implementación de herramientas computacionales para el preprocesamiento de los datos experimentales y el cálculo de descriptores 4

13 Introducción moleculares utilizando la base de datos AAindex y las bibliotecas Chemaxon y CDK. 2. Implementación de técnicas de selección de variables para discriminar los descriptores más relevantes en el desarrollo del modelo predictor. 3. Pre-procesamiento de los datos para la construcción del modelo final basado en la remoción automática de valores atípicos en el conjunto de datos y la utilización de técnicas de normalización de datos. 4. Desarrollo de una función para el cálculo teórico del punto isoeléctrico de péptidos basada en máquinas de soporte vectorial. 5. Comparación de la función obtenida con los métodos actuales de cálculo de pi en varios conjuntos de datos experimentales, a partir de la correlación (pi teórico vs. pi experimental ) y la desviación estándar de la media. 5

14 Revisión Bibliográfica Capítulo 1. Revisión Bibliográfica 1.1 Proteómica: conceptos básicos A partir del genoma de una especie, podemos inferir las proteínas expresadas con cierto grado de confiabilidad. Sin embargo, dicho conocimiento no permite entender en su totalidad la función biológica de los genes ya que especies con genomas muy similares muestran características fenotípicas diferentes. Del análisis de los resultados de los proyectos genómicos emprendidos por diferentes grupos de investigación (Collins y cols., 2003; Olson y Varki 2003), se ha aprendido que el genoma de una especie no correlaciona con la complejidad del mismo, y que tal complejidad morfológica y funcional depende de la regulación de la expresión genética y de las interacciones entre sus proteínas (Puente y cols., 2005). Las proteínas son moléculas orgánicas complejas que se encuentran en todos los organismos. Están formadas por aminoácidos ordenados en largas cadenas polipeptídicas mantenidas por enlaces químicos entre el grupo amino (NH 2 ) de un aminoácido y el grupo carboxilo (COOH) del siguiente aminoácido. La secuencia en que estos aminoácidos se encuentran es única para cada proteína y determina su estructura tridimensional y función biológica. Debido a su heterogeneidad estructural, las proteínas participan en varios procesos celulares como la respuesta inmune, la transducción de señales, el mantenimiento de la homeostasis y el ciclo celular, entre otros (Lehninger y cols., 2005). El proteoma, que es un complemento del genoma de un organismo, es un elemento altamente dinámico y responde a múltiples factores de naturaleza metabólica, fisiológica, nutricional y ambiental. En consecuencia, la proteómica es la ciencia que estudia el conjunto de proteínas (proteoma) que se expresa en la célula o fluido biológico a partir del genoma de un 6

15 Revisión Bibliográfica organismo en un momento dado (Banks y cols., 2000; Aebersold y Mann 2003). La investigación proteómica es el resultado de la aplicación de técnicas analíticas para el análisis de muestras biológicas. Entre otras, las más utilizadas son: las técnicas electroforéticas y las cromatográficas para el fraccionamiento de la muestra biológica y la espectrometría de masas (MS) para la identificación de biomoléculas Fraccionamiento del proteoma. Técnicas electroforéticas y cromatográficas El éxito en el análisis de un proteoma es altamente dependiente de la calidad del método de fraccionamiento empleado previo al análisis por MS. La reducción de la complejidad de la muestra a través del uso de métodos de fraccionamientos eficientes (fundamentalmente utilizando métodos electroforéticos y cromatográficos) simplifica y potencia la identificación de péptidos y proteínas. La electroforesis es un método analítico semipreparativo, en el cual se separan biomoléculas en dependencia de su carga y talla, bajo la acción de un campo eléctrico (Garcia 2000). Muchas moléculas biológicas de interés, tales como aminoácidos, péptidos, proteínas, nucleótidos y ácidos nucleicos, poseen grupos ionizables y, por lo tanto, existen en solución como especies eléctricamente cargadas a un ph determinado (Wilson y Walker 2000). Las técnicas electroforéticas están fundamentadas por la migración de estos solutos iónicos bajo la acción de un campo eléctrico donde las partículas migran hacia el cátodo o el ánodo (electrodos) en dependencia de su carga, peso molecular y estructura tridimensional. La velocidad de migración ( ) de los componentes moleculares es directamente proporcional a la carga efectiva ( ) y al gradiente del campo eléctrico ( ), e inversamente proporcional al coeficiente de fricción ( ) según expresa la fórmula siguiente: 7

16 Revisión Bibliográfica Existen básicamente dos modalidades de electroforesis: Electroforesis libre, en la cual el campo eléctrico es aplicado a disoluciones o suspensiones; y la Electroforesis de zona (o convencional), en la que el campo eléctrico se aplica a un medio o soporte estabilizante (típicamente un gel). La técnica electroforética más utilizada para la separación de proteínas en experimentos de proteómica es la electroforesis bidimensional en geles de poliacrilamida. En este gel, las proteínas son separadas en una dimensión basándose en su velocidad de electromigración (determinada por su peso molecular) y en la otra dimensión por el punto isoeléctrico. Como resultado, se obtiene el valor aproximado de peso molecular y del punto isoeléctrico de la proteína (Garcia 2000; Gygi y cols., 2000). El fraccionamiento de las muestras complejas de proteínas presenta serias limitaciones tecnológicas debido a la alta masa molecular e hidrofobicidad de las mismas. Por esto, la proteómica se ha movido hacia el fraccionamiento e identificación de los péptidos derivados de estas mediante digestión enzimática. Estos péptidos contienen información útil para la identificación y la cuantificación de las proteínas a la vez que no presentan tantos inconvenientes tecnológicos para su análisis (Ly y Wasinger 2011). Para un análisis a nivel de péptido, se combinan típicamente el intercambio catiónico (SCX, del inglés strong cation-exchange) y la fase reversa (RP, del inglés reversed-phase). No obstante, recientemente el isoelectroenfoque en geles con gradiente de ph inmovilizado (IPG IEF, del inglés immobilized ph gradient isoelectric focusing), se ha incluido como alternativa al SCX en experimentos de proteómica (Cargile y Stephenson 2004; Cargile y cols., 2004). Comparado con SCX, este método proporciona mayor resolución en la separación, y el pi obtenido experimentalmente puede ser utilizado como criterio de validación de los datos adquiridos (Cargile y cols., 2004; Cargile y cols., 2004). Una limitación principal de este método radica en la complejidad del procesamiento de las muestras focalizadas, que requiere cortar en 8

17 Revisión Bibliográfica pequeñas secciones los geles para luego extraer y desalar los péptidos de las piezas obtenidas. En contraste con IPG IEF, la electroforesis en solución (Electroforesis OFFGEL) combina el isoelectroenfoque tradicional en geles con gradiente de ph inmovilizado con un sistema basado en fase líquida (Figura 1). En este sistema, los péptidos o proteínas migran a través del gel hasta alcanzar su punto isoeléctrico y luego de completar la corrida, las muestras pueden ser extraídas fácilmente en solución para su posterior análisis (Heller y cols., 2005; Heller y cols., 2005). Este método puede ser combinado con relativa facilidad con métodos de immunodepleción, digestión de proteínas y cromatografía líquida para la separación multidimensional de muestras complejas (Horth y cols., 2006). Figura 1. Diagrama de un sistema para el fraccionamiento de péptidos y proteínas utilizando Isoelectroenfoque en solución Espectrometría de masas El análisis de una muestra biológica por MS comprende la ionización de los componentes de la muestra, la separación de las especies iónicas resultantes de acuerdo a la relación de su masa con su carga eléctrica (m/z) utilizando campos eléctricos y/o magnéticos en el vacío y la posterior identificación del compuesto. Para la implementación de esta técnica el instrumento utilizado es el espectrómetro de masas. Estos instrumentos poseen tres componentes básicos: un sistema de ionización, un analizador de masas y un detector de iones. 9

18 Revisión Bibliográfica El desarrollo de sistemas de ionización suaves, como ESI (del inglés, Electrospray Ionization) y MALDI (del inglés, Matriz Assisted Laser Desorption/Ionization), han permitido el análisis de macromoléculas, algo que fue un factor limitante en la técnica hasta hace poco tiempo ya que solamente sustancias de bajo peso molecular y relativamente volatilizables podían ser sometidas a una ionización en fase gaseosa. Para fines prácticos, la diferencia fundamental de los métodos de ionización es que el sistema MALDI utiliza muestras disueltas en matrices sólidas, mientras que el sistema ESI utiliza muestras en fase líquida para la generación de iones. (Watson y Sparkman 2007). Los analizadores de masas tienen múltiples funciones que varían de acuerdo a su tecnología; fundamentalmente se refieren al control de los campos electromagnéticos aplicados, que involucra la separación de iones, la resolución de cargas a nivel isotópico, la fragmentación del analito y la capacidad de operación en polaridades diferentes. Los analizadores de masas más utilizados son los de Tiempo de Vuelo o TOF (del inglés, time of flight), la trampa de iones tridimensional o IT (del inglés, ion trap), la trampa de iones lineal o LIT (del inglés, linear ion trap), el cuadrupolo o Q (del inglés, quadrupole), y el triple cuadrupolo (QQQ). Actualmente, debido al rápido desarrollo de la tecnología en el campo de la espectrometría de masas y de la proteómica, existen espectrómetros de masas que tienen más de un analizador de iones; éstos se denominan espectrómetros híbridos, como TOF-TOF, LIT-Orbitrap, Q-TOF, LIT-QQQ, entre otras variantes. Estos equipos presentan mejor resolución, exactitud, sensibilidad y versatilidad en el análisis de péptidos y proteínas. Por ello, son utilizados para secuenciar y cuantificar proteínas, identificar modificaciones posttraduccionales y, en general, en el estudio de muestras biológicas complejas (Watson y Sparkman 2007; Ekman y cols., 2008). Los detectores tienen como función detectar el flujo iónico liberado por el analizador, amplificarlo y transmitir esta señal a la computadora, donde se registra en forma de un espectro de masas. El espectro de masas evidencia el número de componentes en la muestra y el peso molecular de cada componente (Watson y Sparkman 2007; Ekman y cols., 2008). 10

19 Revisión Bibliográfica Asignación de secuencia de péptidos a espectros de fragmentación La identificación y cuantificación de proteínas existentes en un tejido es frecuentemente el paso principal en muchas investigaciones proteómicas. La Espectrometría de Masas en sucesión (MS/MS) es la herramienta analítica más robusta para la identificación de péptidos y proteínas. La precisión y velocidad del proceso de identificación de péptidos son algunas de las características principales que diferencian a la MS en sucesión de otras metodologías utilizadas para el análisis de mezclas de proteínas. El principio de identificación de péptidos utilizando espectros MS/MS es relativamente simple. Un péptido es ionizado y este ión molecular es luego disociado obteniéndose su espectro de fragmentación (o espectro MS/MS). La diferencia de masas entre los fragmentos iónicos resultantes permite dilucidar la secuencia de aminoácidos del ión molecular. La calidad de los espectros MS/MS se puede medir tomando en cuenta varias características espectrales como por ejemplo la frecuencia y abundancia de los iones b y los iones y (Nesvizhskii y Aebersold 2005; Ning y cols., 2010). Consecuentemente, la secuencia peptídica se puede determinar por las diferencias de las masas de los picos adyacentes en cada una de las dos series de fragmentación. No obstante, en la práctica, varios factores complican el problema. Entre estos se incluyen: los contaminantes presentes en la muestra bajo estudio, la fragmentación incompleta del analito, la fragmentación simultánea de dos analitos diferentes, las modificaciones post-traduccionales y la baja relación señal-ruido que pudiera tener el espectro de masa resultante (Nesvizhskii y cols., 2007; Nesvizhskii 2010). Por otra parte, varias señales pueden ausentarse del espectro mientras que aparecen otras inesperadas correspondientes a fragmentaciones inespecíficas. Esto hace significativamente difícil la identificación de péptidos a través de MS/MS de manera automática (Xu y Ma 2006), conllevando a que en un experimento típico solo sean asignados a secuencias de péptidos del 5 al 30% de los espectros generados (Mujezinovic y cols., 2010; Nesvizhskii 2010). 11

20 Revisión Bibliográfica Varios programas computacionales han sido desarrollados para la identificación de péptidos a partir de los espectros MS/MS. Estos pueden ser clasificados en cuatro grupos fundamentales: (a) buscadores en bases de datos (Eng y cols., 2011), (b) secuenciación de novo (Seidler y cols., 2010), (c) búsqueda en biblioteca de espectros de masas experimentales (Lam 2011; Lam y Aebersold 2011) y (d) búsqueda a partir de marcas o identificadores (Tabb DL y cols., 2003; Tabb DL y cols., 2008; Perez- Riverol Y y cols., 2013). Dado un espectro MS/MS, los algoritmos de búsqueda en base de datos hallan la mejor identidad entre el espectro experimental y el espectro teórico del péptido obtenido en una base de datos de secuencias de proteínas. Siguiendo otra metodología, los algoritmos de búsqueda en bibliotecas de espectros se basan en la comparación con espectros de masas experimentales obtenidos en experimentos previos. Los algoritmos de secuenciación de novo obtienen la secuencia del péptido únicamente a partir de la información contenida en el espectro de masas; y la metodología de secuenciación por identificadores obtiene una secuencia parcial (secuencia marcada) primeramente por secuenciación de novo y luego realiza una búsqueda en base de datos utilizando la secuencia marcada. Varios estudios han demostrado que la confiabilidad de la identificación se incrementa combinando diferentes estrategias de búsquedas (Nesvizhskii 2010; Perez-Riverol Y y cols., 2013) Validación de la identificación de las proteínas utilizando las propiedades físico-químicas de los péptidos La medición del grado de similitud entre espectros teóricos y experimentales a partir de la asignación de puntuaciones a las identificaciones realizadas por búsquedas en bases de datos de proteínas, representan solamente un grupo de características útiles para discriminar entre identificaciones correctas e identificaciones incorrectas. Inferir un resultado basándose solamente en esta información, dificultaría separar con precisión las identificaciones falsas de las verdaderas. La discriminación puede ser mejorada si se toma en cuenta la información 12

21 Revisión Bibliográfica auxiliar generada coincidentemente en el transcurso del experimento de proteómica. Esta información incluye: la precisión de la masa -que establece la diferencia entre la masa medida y la calculada para el ión molecular (disponible en la primera etapa de la espectrometría de masas, MS 1 )-, el tiempo de retención -obtenido en la etapa de separación por cromatografía líquida-, o el valor de punto isoeléctrico -obtenido en el paso donde la muestra es fraccionada utilizando la técnica de focalización isoeléctrica- (Nesvizhskii y cols., 2007; Nesvizhskii 2010; Ning y cols., 2010). Adicionalmente, poder predecir si un péptido identifica a una única proteína y si es detectable en una plataforma experimental determinada, constituye una herramienta útil en el planteamiento de estrategias experimentales para responder hipótesis previamente planteadas (por ejemplo, en proteómica cuantitativa) (Mallick y cols., 2007). En cualquier caso, la estrategia de validación planteada que incluya uno o varios de estos parámetros, requiere del diseño de algoritmos y modelos que puedan predecir con exactitud las variables involucradas (ejemplo, el tiempo de retención y el punto isoeléctrico). 1.2 Algoritmos para la estimación del punto isoeléctrico El punto isoeléctrico de una proteína o péptido se define como aquel valor de ph al cual la molécula no posee carga eléctrica y es incapaz de desplazarse en un campo eléctrico (Lehninger y cols., 2005). A este valor de ph la molécula muestra un mínimo de solubilidad y no existe repulsión electrostática entre moléculas vecinas. Debido a que las proteínas difieren en el contenido de aminoácidos con grupos laterales ionizables, estas poseen diferentes valores de pi, por lo que este parámetro puede ser utilizado como criterio de separación de proteínas y péptidos. La separación de péptidos y proteínas sobre la base de su carga eléctrica depende de sus propiedades ácido-básicas, las cuales se hallan determinadas por el número y el tipo de grupos ionizables de sus cadenas polipeptídicas. El punto isoeléctrico está determinado por el número y los 13

22 Revisión Bibliográfica valores de pk (constantes de ionización) de los grupos que se ionizan. Este valor será relativamente elevado (por encima de ph = 7.0) si la cadena peptídica posee un contenido elevado de aminoácidos básicos (Lisina, Histidina y Arginina), y relativamente bajo (inferior a ph = 7.0) si la proteína posee una preponderancia de aminoácidos ácidos (Aspártico y Glutámico) (Lehninger y cols., 2005) Algoritmos iterativos para la estimación del pi Los algoritmos iterativos para el cálculo del pi se basan únicamente en la estructura primaria de la proteína (secuencia de aminoácidos) sin tener en cuenta las interacciones entre grupos laterales cargados y diferentes modificaciones post-traduccionales. La ecuación de Henderson- Hasselbalch ( ) es utilizada para aproximar el valor de pi basado en los valores de pk de los grupos laterales ionizables: [ ] [ ] Para las cadenas laterales ácidas, las especies en el numerador pueden tener carga negativa, mientras que para las cadenas laterales básicas las especies en el denominador pueden tener carga positiva. A partir de la ecuación ( ) la magnitud de la carga de los grupos laterales ácidos se obtiene como sigue: [ ] y para las cadenas laterales básicas se define como: [ ] Estas ecuaciones proporcionan una vía para predecir la magnitud de la carga de la fracción de un aminoácido a un ph dado. Obteniendo las cargas del total de grupos laterales ionizables presente en cada especie, 14

23 Revisión Bibliográfica es posible determinar la carga neta de la proteína entera a un ph determinado. Un simple procedimiento iterativo, como el descrito por Tabb (DL. 2003), puede ser utilizado para calcular el punto isoeléctrico. No obstante, es importante tener en cuenta que el valor de pi estimado por este procedimiento no considera por ejemplo, las alteraciones introducidas por los potenciales de ionización locales como resultado de la estructura de la proteína Algoritmo de Gauci para la estimación del pi Para el cálculo del punto isoeléctrico de péptidos, Gauci y colaboradores desarrollaron un programa escrito en Java y lo denominaron picalculator (Gauci y cols., 2008). Como parámetros de entrada la herramienta toma una lista de péptidos con sus aminoácidos fosforilados marcados. El usuario puede adicionalmente, seleccionar el conjunto de valores de pk reportados en estudios previos o especificados por el mismo. El cálculo del pi se realiza tomando en cuenta la carga asociada a cada péptido a un ph específico. Como salida del programa, se obtiene una gráfica con la distribución de los valores de pi y una tabla en el formato de Microsoft Excel con su forma tabular. Gauci y colaboradores evaluaron un conjunto de valores de pk optimizados estableciendo una comparación con otros tres conjuntos de valores de pk reportados en la literatura, disponibles en ExPASy (Gasteiger y cols., 2003), los descritos por Skoog y Wichmann (Skoog y Wichman 1986) y los propuestos por Bjellqvist y colaboradores (Bjellqvist y cols., 1993). Para el conjunto de valores de pk de ExPASy y Bjellqvist se obtuvieron mejores resultados que cuando se utilizaron los de Skoog y Wichmann. Los resultados mostraron que con el uso del conjunto de valores de pk optimizado se obtiene una mejor correlación y menor desviación estándar que cuando se utilizan los otros conjuntos de valores de pk (Gauci y cols., 2008). 15

24 Revisión Bibliográfica Algoritmo de Cargile (Cofactor) para la estimación del pi Para el desarrollo de este algoritmo, Cargile y colaboradores utilizaron una función genética para calcular el efecto de los aminoácidos adyacentes sobre los residuos cargados en los péptidos trípticos (Cargile y cols., 2008). El uso de péptidos trípticos simplifica grandemente el cálculo del pi, ya que estos péptidos están definidos por un C-terminal en los residuos de los aminoácidos Arginina y Lisina, un N-terminal libre y son generalmente péptidos de pequeña longitud. En este estudio, los autores trabajaron exclusivamente en el intervalo de ph entre 3.5 y 4.5 utilizando un gel con gradiente de ph inmovilizado. El programa para el cálculo de los valores de pi, solo toma en cuenta los efectos de los aminoácidos cargados asociados al Aspártico (D), el Glutámico y los C-terminales libres de los péptidos trípticos. El efecto de ± 3 aminoácidos adyacentes es calculado para corregir los valores de pk de D, E y el C-terminal libre y la correspondiente carga neta es determinada utilizando la ecuación: Donde y representan el número de residuos ácidos y básicos respectivamente. Los términos de pk no solo son corregidos para las interacciones de carga, sino también para los efectos atribuidos por los grupos hidrofóbicos. Todas las condiciones de optimización se formularon a partir de funciones independientes que describen la interacción de los residuos cargados (D, E y C-terminal libre) con solo un aminoácido. Los factores de correcciones individuales a los valores de pk basados en el efecto de los aminoácidos adyacentes son accesibles en el trabajo reportado por Cargile y colaboradores (Cargile y cols., 2008). 16

25 Revisión Bibliográfica Utilización del punto isoeléctrico en la validación de datos en experimentos de proteómica Heller y colaboradores utilizaron los criterios de punto isoeléctrico e índice de hidrofobicidad como criterio de validación de los datos obtenidos por MS/MS, obteniendo resultados satisfactorios (Heller y cols., 2005). Por otro lado, Krijgsveld y colaboradores redujeron de péptidos iniciales a utilizando el pi como estrategia de filtrado. Lo más significativo en este experimento, fue que lograron reducir de 2.7% a 2.0% el número de falsos positivos (Krijgsveld y cols., 2006). El algoritmo propuesto por Uwaje y colaboradores, denominado pifilter, correlaciona los valores de punto isoeléctrico experimental con los teóricos calculados (Uwaje y cols., 2007). La estimación teórica del pi se realizó utilizando un algoritmo implementado en la herramienta computacional BioJava ( con el cual se obtienen resultados similares a los obtenidos utilizando el algoritmo de Bjellqvist y colaboradores. Ellos mostraron que el algoritmo desarrollado reduce significativamente el total de falsos positivos obtenidos por el análisis de datos proteómicos. 1.3 Aprendizaje Computacional. Máquinas de Soporte Vectorial El rápido desarrollo de la computación y las tecnologías de la información permite la generación de grandes cantidades de datos en una amplia variedad de disciplinas, entre ellas se encuentran la medicina y la biología. El desafío para interpretar los datos obtenidos ha llevado al desarrollo de nuevas herramientas en el campo de la estadística y las ciencias de la computación y ha generado nuevos campos de investigación tales como la minería de datos, el reconocimiento de patrones y la Bioinformática (Saeys y cols., 2007). En contraste, el aprendizaje computacional consiste en la implementación de algoritmos cuyo objetivo es producir hipótesis generales (modelos) a partir de un número finito de datos de entrenamiento de 17

26 Revisión Bibliográfica distribución desconocida (fenómeno). El aprendizaje computacional supervisado, en particular, genera dichas hipótesis utilizando ejemplos con clase conocida; a su vez dichas hipótesis servirán para hacer predicciones ante nuevos ejemplos con clases desconocidas (Al 2008). El objetivo del aprendizaje supervisado (tanto binario como multiclase) es dividir el espacio de objetos en regiones en donde la mayoría de los casos estén agrupados en la misma clase; dicha división es la que servirá para predecir la clase de los nuevos objetos. En general, se puede definir que una máquina aprende de sus entradas o como respuesta a la información externa y cambia su estructura en función de obtener un mejor rendimiento en el futuro. Las máquinas de aprendizaje son computadoras programadas para optimizar el rendimiento de un criterio utilizando datos novedosos o experiencias pasadas. Esto consta del modelado con parámetros definidos y datos de entrenamientos. El aprendizaje está basado en la ejecución de un programa para optimizar los parámetros del modelo utilizando datos de entrenamiento o experiencia pasada. En la máquina de aprendizaje, primero, se necesitan algoritmos eficientes para solucionar el problema de optimización, y también para el almacenamiento y procesamiento de las grandes cantidades de datos de entrenamiento. Segundo, en cuanto el modelo ha aprendido, su representación y solución algorítmica para la inferencia tienen que ser eficientes, en espacio y en tiempo (Al 2008) Pre-procesamiento de los datos en el aprendizaje computacional En varios campos de las ciencias de la computación, como la minería de datos, el reconocimiento de patrones, y el aprendizaje computacional; el pre-procesamiento de los datos bajos estudio constituye un paso fundamental (Rodríguez 2004). En este tipo de algoritmos, por lo general, la veracidad de los datos estimados, dependen en gran medida de la correcta distribución de los datos de entrada y la eliminación de valores incorrectos que propician la pérdida de rendimiento del algoritmo en 18

27 Revisión Bibliográfica cuestión. La etapa de preparación de los datos comprende aquellas técnicas para el análisis y el manejo de los datos de entrada (reducción, transformación y limpieza) tal que se obtengan datos adecuados previo a la construcción del modelo. En este paso, la normalización de los datos y la remoción de los valores atípicos son procedimientos usualmente utilizados para preparar los datos de forma adecuada (Rodríguez 2004) Remoción de valores atípicos Un valor extremo (o valor atípico) es una medición desviada del conjunto de mediciones obtenidas de una variable, que sugiere haberse obtenido por un mecanismo diferente (Hawkins 1980). La detección de valores atípicos es una tarea importante en algoritmos de minería de datos y aprendizaje computacional. Aunque en determinados estudios los valores atípicos contenidos en un conjunto de mediciones pueden contener información útil para la caracterización del fenómeno bajo estudio; frecuentemente, estos son removidos para mejorar la precisión de los modelos predictores (Thongkam y cols., 2008) Normalización de los datos La normalización es un proceso de transformación de los datos de entrada que puede mejorar la precisión y la eficiencia de los algoritmos en el aprendizaje computacional. Estos algoritmos proporcionan mejores resultados si los datos analizados son normalizados, es decir, re-escalados en un intervalo que usualmente se define entre 0 y 0.1. La normalización es particularmente útil en clasificadores basados en redes neuronales, en máquinas de soporte vectorial y en algoritmos basados en distancias métricas entre sus variables. Entre los métodos descritos con este propósito, dos de los más utilizados son: la normalización basada en el mínimo y el máximo valor de la serie de datos, y la normalización basada en la media y la desviación estándar (Al Shalabi y Shaaban 2006; Al 2008). 19

28 Revisión Bibliográfica Representación de la estructura molecular mediante descriptores moleculares Entre las diferentes representaciones moleculares propuestas; algunas de las más utilizadas son: representación 3D en el espacio Euclidiano, representación 2D basada en la teoría de grafos y representación vectorial donde la frecuencia de varios fragmentos moleculares son memorizados. Por ejemplo, la representación utilizada con mayor frecuencia para describir los péptidos y las proteínas, es a través de cadenas de letras que representan los 20 aminoácidos naturales. Sin embargo, tanto los nombres de los aminoácidos como sus abreviaturas son representaciones humanas sin información útil sobre las características físico-químicas de cada aminoácido. En décadas pasadas, varios trabajos han estudiado cómo convertir por vía teórica la información química codificada en la estructura molecular en uno o más números llamados descriptores moleculares para establecer relaciones cuantitativas entre la estructura y las propiedades, la actividad biológica y otras propiedades experimentales (Bonchev 2005). Consonni y Todeschini definieron el término de descriptor molecular como: el resultado final de un procedimiento lógico y matemático que transforma la información química codificada en una representación simbólica de una molécula en un número útil o el resultado de varios experimentos normalizados (Todeschini y Consonni 2000). El cálculo de los descriptores moleculares está fundamentado por diferentes teorías de química cuántica, de química orgánica, de la teoría de grafos, de matemática discreta, entre otras; y son aplicados en el modelado de varias propiedades moleculares en diversos campos como la toxicología, la química analítica, la química-física, la medicina, la química farmacéutica y la biología (Todeschini y Consonni 2000). La gran cantidad de descriptores moleculares propuestos hasta hoy, evidencia el creciente interés por la comunidad científica en esta área. Más de 2000 descriptores son actualmente definidos y varios programas computacionales han sido desarrollados para su cálculo (Hinselmann y cols., 2011; Truszkowski y cols., 2011; Yap 2011; Cao y cols., 2013). Cada 20

29 Revisión Bibliográfica descriptor molecular toma en cuenta una pequeña parte de toda la información química contenida en la molécula real, y como consecuencia, conforme aumenta la complejidad del sistema químico, aumenta el número de descriptores moleculares para su análisis. La predicción de las propiedades físico-químicas de una molécula (ejemplo, un péptido) o su función biológica utilizando algoritmos de aprendizaje computacional, involucra un paso de parametrización (en un vector n-dimensional de propiedades) de la estructura utilizando descriptores moleculares. Si no se conoce la naturaleza de las interacciones mediante la cual una molécula expresa sus propiedades y actividad biológica, el cálculo preciso mediante esta vía es imposible. El procedimiento está basado en la representación de la molécula en un formato computacional entendible a través del cálculo de descriptores moleculares. Otro aspecto importante en este procedimiento es la naturaleza de la información de entrada del modelo, que se traduce en conocer cuáles y cuantos descriptores moleculares son válidos para la construcción del mismo, problema al cual se le da solución mediante métodos de selección de características (Saeys y cols., 2007; Cao y cols., 2011; Eyers y cols., 2011) Herramientas computacionales para el cálculo de descriptores moleculares Plataforma computacional ChemAxon ChemAxon es una plataforma integrada de programas y herramientas para tareas quimioinformáticas fundamentalmente. Incluye un conjunto de componentes especializados en la búsqueda en bases de datos químicas, en la edición y visualización de las estructuras químicas, en la predicción de las propiedades físico-químicas de moléculas y otras herramientas para la manipulación de estructuras químicas. Varios de estos componentes pueden ser accedidos a través de la Interfaz gráfica de usuarios, la Interfaz para la programación de aplicaciones (API, del inglés Application 21

30 Revisión Bibliográfica Programming Interface) o la línea de comandos. Específicamente, contiene el módulo cxcalc, utilizado en este trabajo para el cálculo de descriptores como la carga de la molécula, la constante de ionización, clogp, entre otros. Una descripción más detallada de este producto se puede encontrar en el sitio Web Biblioteca de clases CDK Chemical Developer Kit (CDK) es una biblioteca (código fuente abierto) escrita en Java para Quimioinformática y Bioinformática básicamente. Se distribuye bajo la Licencia Pública General y desde su invención (año 2000) varios grupos de trabajo han contribuido a su desarrollo, lo cual la ha convertido en una biblioteca de alta funcionalidad. CDK permite la generación de diagramas de moléculas 2D, la visualización de las moléculas en 3D, soporta disímiles formatos de archivos químicos, permite el cálculo de propiedades físico- químicas de moléculas entre otras funciones. Es una herramienta multiplataforma y está habilitada para su uso en el sitio Base de datos AAindex La base de datos AAindex (Kawashima y cols., 2008) es el resultado de varios experimentos y estudios teóricos que han podido determinar una amplia variedad de propiedades de aminoácidos. Cada una de estas propiedades puede ser representada por un conjunto de 20 valores numéricos de aminoácidos referidos como índices de aminoácidos. Nakai y colaboradores coleccionaron un total de 222 índices de aminoácidos publicados en la literatura y hallaron su relación utilizando técnicas de agrupamiento. Tomii y Kanehisa enriquecieron dicha colección adicionándole otros índices de aminoácidos. Como resultado del trabajo de los autores anteriormente citados quedó conformada una base de datos (denominada AAIndex) de índices de aminoácidos online que es actualizada constantemente (Kawashima y cols., 2008). AAIndex ha sido utilizada en diversos proyectos de bioinformática tales como, la predicción de la localización subcelular de proteínas, la determinación de los sitios de las modificaciones post-traduccionales en proteínas y otros estudios sobre 22

31 Revisión Bibliográfica la estructura y los enlaces de péptidos. La base de datos AAIndex está habilitada en el sitio Web La base de datos AAIndex está dividida en tres secciones: AAIndex1 para índices de amino ácidos, AAIndex2 para las matrices de sustitución de aminoácidos y AAIndex3 para los potenciales de contactos entre aminoácidos. Para la conformación de los descriptores moleculares de AAIndex utilizados en este estudio solo se utilizó la primera sección de esta base de datos (AAIndex1). Esta sección contiene 544 índices de aminoácidos y cada entrada está determinada por un código, una corta descripción del índice, la referencia bibliográfica y el valor numérico para la propiedad de los 20 aminoácidos. Kawashima y colaboradores construyeron un árbol de índices de aminoácidos basado en el procedimiento descrito por Tomii para la conformación de AAIndex1. En la figura 2 se muestra una sección de AAIndex1. Figura 2. Sección de la base de datos experimentales AAindex Técnicas de Selección de Variables La naturaleza de los datos que describen los sistemas o fenómenos del mundo real (por ejemplo, los datos obtenidos por la tecnología de 23

32 Revisión Bibliográfica microarreglos (que describen la expresión génica de un sistema biológico) o los datos obtenidos por espectrometría de masas), demanda el desarrollo de procedimientos especiales para su análisis y correcta interpretación. La tarea principal de estos procedimientos es identificar aquellas características que sean más relevantes para caracterizar el sistema y su comportamiento. En consecuencia, la selección de características (FS, del inglés Feature Selection) se realiza basándose en uno o varios criterios y básicamente se reduce el número de características, removiendo aquellas que sean irrelevantes o redundantes en la descripción del sistema de interés (Saeys y cols., 2007). Figura 3. Diagrama de un proceso (general) de selección de características. La figura 3 ilustra un procedimiento general de selección de características. Como se puede observar, este proceso consta de dos fases fundamentalmente: (1) la selección de características, (2) y la prueba del modelo y la evaluación del rendimiento. La fase 1 consta de tres pasos esencialmente: (i) la generación de un subconjunto de características para 24

33 Revisión Bibliográfica la representación del problema, (ii) la evaluación del subconjunto de características seleccionadas en el paso anterior, (iii) y se verifica si el subconjunto seleccionado satisface el criterio de evaluación. La segunda fase es un proceso de validación donde se verifica la calidad del subconjunto de características que se ha determinado. Según la manera en que se determina el nuevo subconjunto a evaluar, los métodos de selección de las características se clasifican en completos donde se exploran todos los posibles subconjuntos en el espacio de entrada (se asegura encontrar el óptimo pero es una metodología de muy alto costo computacional) ; o heurísticos donde no se evalúan todos los subconjuntos las de características (aumenta la velocidad del proceso debido a la reducción del espacio de búsqueda pero no se asegura encontrar el subconjunto óptimo) (Saeys y cols., 2007; Al 2008). Desde el punto de vista de la función de evaluación los métodos para la selección de las características se dividen generalmente en dos grupos: los métodos de filtraje y los métodos de retroalimentación Métodos de filtraje. Agrupamiento por correlaciones Este tipo de método evalúa la utilidad de las características sin involucrar ningún algoritmo de aprendizaje. La evaluación se realiza teniendo en cuenta varios parámetros (distancia, información, dependencia y consistencia) y solo las variables mejor categorizadas son seleccionadas, las variables restantes son eliminadas. Este tipo de algoritmo tiene una estructura simple y utiliza estrategias de búsquedas relativamente sencillas. Otra de sus ventajas es que son algoritmos rápidos y de fácil implementación (Saeys y cols., 2007; Al 2008). Entre los métodos pertenecientes a este grupo se encuentra el algoritmo de las medianas (K-mean), que es un método sencillo y computacionalmente eficiente. Tiene como entrada, el número de agrupamiento a detectar y, la cantidad de iteraciones a realizar. Los 25

34 Revisión Bibliográfica pasos fundamentales de esta metodología son: (i) elegir aleatoriamente k- centroides (por ejemplo, valores de correlación entre variables), (ii) clasificar cada objeto según el centroide más cercano, (iii) recalcular los centroides como la media muestral del agrupamiento correspondiente, e iterar desde el segundo paso hasta que no hayan cambios en la clasificación o hasta m iteraciones. En este trabajo se implementó este método para eliminar aquellos descriptores fuertemente correlacionados Métodos de retroalimentación Este tipo de métodos busca el mejor subconjunto de características en combinación con un método de clasificación. La validez de un subconjunto es determinada utilizando métodos de validación interna (ejemplo, validación cruzada). Debido a que explorar todo el espacio de búsqueda tiene un alto costo computacional, se han desarrollado varios métodos de optimización para la búsqueda del mejor subconjunto. Entre otros se encuentran: los métodos de selección por adicción recursiva de variables (del inglés, Forward selection), los métodos de selección por eliminación recursiva de variables (del inglés, Backward elimination) y los algoritmos genéticos. En general, estos métodos exploran el espacio de búsqueda comenzando con todas las características o con una selección aleatoria de estas (Saeys y cols., 2007; Al 2008) Máquinas de Soporte Vectorial Las Máquinas de Soporte Vectorial (SVM, del inglés Support Vector Machine) fueron introducidas por Vapnik en 1997 (Vapnik y cols., 1997), para dar solución principalmente a problemas de clasificación y regresión. La SVM realiza una transformación de los datos de entrada producto al cual estos son representados en un espacio de mayor dimensión mediante 26

35 Revisión Bibliográfica el uso de una función o Kernel. Con una transformación no lineal apropiada de los datos, estos pueden ser separados en dos (o más) categorías por un hiperplano. Los Kernel normalmente utilizados para este tipo de transformación son: el Lineal, el Polinomial y las Funciones de Base Radial. La dimensión del nuevo espacio de características puede ser arbitraria, limitada en la práctica fundamentalmente por recursos computacionales (Larranaga y cols., 2006). Específicamente, en el campo de la biología, los algoritmos basados en SVM han sido utilizados para la predicción de la localización sub-celular de proteínas (Sarda y cols., 2005), en la construcción de redes de interacción proteína-proteína (Zhou y cols., 2013), en la predicción de epitopos T (Zhao y cols., 2003), en la estimación de sitios de cortes de proteasas (Nanni y Lumini 2005), la predicción de péptidos proteotípicos (Webb-Robertson y cols., 2010; Eyers y cols., 2011), entre otros. 1.4 Lenguajes de programación y entorno de desarrollo integrado Las herramientas computacionales para el procesamiento de los datos obtenidos por espectrometría de masas, el cálculo de los descriptores moleculares de péptidos, la implementación de las técnicas de selección de variables y la construcción de un modelo de predicción se desarrollaron utilizando dos lenguajes de programación: Java y R. Java (desarrollado por Sun Microsystems) es un lenguaje de programación cuya filosofía es totalmente orientada a objetos. Las aplicaciones desarrolladas en Java son típicamente compiladas por la Máquina Virtual de Java (JVM, del inglés Java Virtual Machine) en un código binario, que es un intérprete intermedio entre el código fuente de la aplicación y el código máquina que entiende el dispositivo destino. Esta cuestión constituye una de las principales limitaciones del lenguaje ya que reduce el rendimiento y la velocidad de las aplicaciones. Sin embargo, tal característica, permite la independencia de plataforma de las aplicaciones implementadas, lo cual significa que los programas escritos en Java 27

36 Revisión Bibliográfica pueden ejecutarse en cualquier tipo de arquitectura. Java es un lenguaje que ofrece seguridad, portabilidad y robustez a sus aplicaciones, no obstante no ofrece acceso directo a la arquitectura de la PC, ni al espacio de direcciones de memoria y no soporta la expansión de código ensamblador (aunque las aplicaciones puedan acceder a las características de bajo nivel utilizando biblioteca de clases nativas) (Eckel 2006). Para el desarrollo de las aplicaciones Java utilizadas en este estudio fue utilizado el entorno de desarrollo integrado NetBeans IDE versión y el Kit de Desarrollo en Java (JDK, que incluye el JRE (Java Runtime Enviroment) y JVM) versión 1.6. El lenguaje de programación R (desarrollado en Bell Labs de AT&T) es una implementación libre, independiente y de código abierto del lenguaje S. Es un lenguaje Script potenciado en el análisis estadístico y gráfico. Proporciona un amplio conjunto de herramientas estadísticas (modelos lineales y no lineales, pruebas estadísticas, análisis de series temporales, algoritmos de clasificación y agrupamiento, y otros algoritmos para tareas de clasificación y regresión) y permite la generación de gráficos de alta calidad. Es un lenguaje multiplataforma y permite desarrollar bibliotecas dinámicas en los lenguajes de programación C, C++ y Fortran. El sitio Web principal de R es: Tanto R como Java son actualmente distribuidos bajo la Licencia Pública General de GNU (del inglés, GNU General Public License (GNU GPL)), que es una licencia creada por la Fundación de Software Libre y está orientada principalmente a proteger la libre distribución, modificación y uso de software. 28

37 Materiales y Métodos Capítulo 2. Materiales y Métodos 2.1 Obtención de los péptidos teóricos del proteoma de D. Melanogaster Las secuencias del proteoma de Drosophila Melanogaster se extrajeron de la base de datos Flybase Drosophila Databank (19389 secuencias de proteínas indexadas) (actualización 4.3, disponible desde junio de 2007). Las secuencias se digirieron in silico con tripsina utilizando la biblioteca de algoritmos InSilicoSpectro (Colinge y cols., 2006), y cada péptido se asoció con el identificador de su proteína. Todos los péptidos redundantes se removieron. 2.2 Obtención del pi experimental de los péptidos Para el desarrollo, entrenamiento y prueba del modelo de predicción de pi basado en SVM se emplearon los datos experimentales obtenidos por medio de una colaboración entre el Departamento de Proteómica del Centro de Ingeniería Genética y Biotecnología (Cuba) y el laboratorio del profesor Ruedi Aebersold (Suiza). Los péptidos se obtuvieron por un estudio llevado a cabo con la línea celular Kc167 de D. Melanogaster, donde se utilizó la técnica de isoelectroenfoque en solución (OFFGEL electrophoresis) como primer paso de separación de la mezcla de péptidos. Cada fracción obtenida se analizó en un espectrómetro de masas LTQ-FT-ICR acoplado a una fuente de ionización por nanoelectrospray (Perez-Riverol y cols., 2011). 2.3 Procesamiento de los datos biológicos Los espectros MS/MS se interpretaron por el programa X!Tandem (Craig y Beavis 2004) utilizando la base de datos de proteínas Flybase 29

38 Materiales y Métodos ( Para el análisis se consideraron las modificaciones post-traduccionales cisteína carbamidometilada (como modificación fija) y sulfóxido de metionina (como modificación variable). Los resultados obtenidos por la búsqueda en la base de datos se validaron utilizando PeptideProphet (Ma y cols., 2012), que evalúa y asigna una probabilidad a cada identificación correcta realizada por X!Tandem Programa readpeptidexml El programa readpeptidexml se desarrolló (en Java) para el análisis de las identificaciones validadas por PeptideProphet, del cual se obtienen los péptidos identificados con la probabilidad asignada en archivos con formato XML. La cantidad de archivos XML obtenidos depende de las fracciones analizadas provenientes de la etapa experimental. Las dos funciones básicas de readpeptidexml son: (i) eliminar los péptidos repetidos en una misma fracción, procedimiento mediante el cual se obtienen péptidos únicos por fracciones (se elimina información redundante) y (ii) eliminar los péptidos que aparecen en más de una fracción, problema frecuente en la técnica de Isoelectroenfoque debido a la focalización incorrecta de varios péptidos. Ambos procedimientos contribuyen en la construcción del modelo de predicción del punto isoeléctrico teórico de los péptidos debido a que eliminan información en los datos experimentales que pueden dar lugar a interpretaciones incorrectas. El sistema toma como parámetro de entrada los archivos XML (resultantes del análisis de cada fracción) con los péptidos identificados; como salida se obtienen archivos XML procesados según las funciones descritas anteriormente. 2.4 Diseño experimental El flujo de trabajo seguido para la construcción de un modelo basado en SVM para la predicción del pi es resumido en la figura 4. A partir de los 30

39 Materiales y Métodos datos experimentales obtenidos en experimentos de proteómica (donde la muestra es fraccionada utilizando Isoelectroenfoque), se extrajeron los péptidos únicos por cada fracción experimental. La etapa de cálculo de descriptores de secuencia, a partir de la lista de péptidos inicial, se realizó utilizando la plataforma computacional ChemAxon, la biblioteca de clases CDK y la base de índices experimentales de aminoácidos AAindex. Figura 4. Flujo de trabajo seguido para el desarrollo de un modelo predictor de pi utilizando descriptores moleculares y SVM. Se introdujo un paso de selección de variables para eliminar los descriptores más correlacionados. Posteriormente se combinó un algoritmo de eliminación recursiva de variables con el algoritmo basado en SVM para evaluar los descriptores más significativos. En esta etapa de prueba, se evaluaron varias funciones de transformación de los datos de entrada y se 31

40 Materiales y Métodos ajustaron los parámetros fundamentales de la Máquina de Soporte Vectorial. Tomando en cuenta los resultados en los pasos anteriores se implementó en WEKA el modelo final para la predicción del pi. Adicionalmente, se implementaron los algoritmos de Bjellqvist (Bjellqvist y cols., 1993) y Cargile (Cargile y cols., 2008), los cuales siguen metodologías diferentes para la estimación del punto isoeléctrico. Ambos algoritmos y el modelo desarrollado en este trabajo se evaluaron en dos conjuntos de datos experimentales. 2.5 Cálculo de descriptores de AAindex Cada descriptor de AAIndex ( ) fue calculado según la fórmula: Donde es el número de aminoácidos en la cadena peptídica y es el valor del índice para cada aminoácido individual. Por ejemplo, para el péptido GWRAK, el índice de hidrofobicidad de AAIndex ( ) (figura 2) sería igual a: La herramienta AAIndexDescriptor (desarrollada en Java) se empleó para el cómputo de todos los descriptores moleculares. Los parámetros de entrada de la herramienta son: el fichero de secuencia de pépticos a analizar (formato texto) y la base de datos AAIndex, como salida del sistema se obtiene el valor de los 544 descriptores de AAIndex para cada uno de los péptidos del archivo de entrada. 32

41 Materiales y Métodos 2.6 Implementación del modelo final basado en SVM utilizando WEKA El modelo final para la predicción del pi se implementó en Java utilizando la biblioteca de clases Weka, la cual soporta varias tareas y algoritmos de minería de datos; especialmente, el preprocesamiento de los datos, los algoritmos de agrupamiento (clustering), las tareas de clasificación y regresión y la selección de variables. Todas las técnicas de Weka se fundamentan en la asunción de que los datos están disponibles en un fichero plano (sin formato) o una base de datos, en la que cada registro de datos está descrito por un número fijo de atributos (normalmente numéricos o nominales, aunque también se soportan otros tipos). En este trabajo, los datos de entrada se representaron utilizando la clase de Weka Instances, la cual permite definir el tipo y el número de atributos (descriptores) y el atributo clase (punto isoeléctrico experimental) para un número determinado de instancias (péptidos). La clase SMOreg se utilizó para construir el clasificador basado en SVM. Esta clase implementa un algoritmo de optimización mínima secuencial (SMO, del inglés Sequential Minimal Optimization) propuesto por Alex Smola y Bernhard Scholkopf (Smola y Schölkopf 2004). El algoritmo permite variar explícitamente varios parámetros que definen el comportamiento de la SVM. Los parámetros C y σ se ajustaron durante la etapa de entrenamiento del clasificador utilizando varios ciclos de validación cruzada. El RMSE (error cuadrático medio) se utilizó como criterio para la optimización de los valores de ambos parámetros. El parámetro C puede ser definido como un parámetro de regularización que puede ser ajustado en la formulación de la SVM. En la búsqueda del mejor rendimiento del clasificador, C tomó valores en el intervalo entre 1 y 100 (con paso 1). El ajuste de este parámetro establece un balance entre la maximización del margen entre los vectores de soporte y la penalización en el proceso de regresión en el espacio de las características. El RMSE se evaluó para valores de igual a 1.0, 0.8, 0.5, 0.3, 0.2, 0.1, 0.05, 0.01, y El parámetro regula la siguiente expresión: 33

42 Materiales y Métodos ( ) ( [ ] ) donde el espacio de entrada ( ) es conformado por los componentes de un vector de entrada y el espacio de características ( ) es conformado por componentes ( ) de un vector ( ) representa la transformación vía la función Kernel (en este caso, la función de base radial o gaussiana). La selección de los valores de ambos parámetros se realizó teniendo en cuenta el menor RMSE alcanzado. 34

43 Resultados y Discusión Capítulo 3. Resultados y Discusión Los algoritmos de aprendizaje supervisado (y no supervisado) se han empleado en la última década con excelentes resultados en el campo de la Bioinformática y la química computacional (Melville y cols., 2009; Xiaohua 2011). Los algoritmos de predicción de funcionalidad a partir del conocimiento de la estructura de las moléculas químicas (QSAR), y los algoritmos de predicción de la estructura química de las proteínas son dos de los campos de la química computacional donde los algoritmos de aprendizaje supervisado constituyen la única forma de obtener resultados de alta precisión y eficacia. En proteómica, la predicción del tiempo de retención de los péptidos y las proteínas, así como la validación de los espectros de masas son dos de las áreas donde el empleo de algoritmos evolutivos, las redes neuronales y las Máquinas de Soporte Vectorial (SVM) han sido exploradas y utilizadas para obtener funciones óptimas de puntuación (Petritis y cols., 2006; Pfeifer y cols., 2007; Liu y cols., 2010). El punto isoeléctrico de los péptidos y las proteínas como valor experimental dentro de la electroforesis bidimensional y de una sola dimensión, es una de las variables más utilizadas para validar las identificaciones de las proteínas en mezclas complejas. En la actualidad, el fraccionamiento de muestras biológicas utilizando las técnicas electroforéticas (con la subsecuente obtención de los valores experimentales de pi), no solo se emplea en la separación de la muestra bajo estudio para reducir su complejidad, sino que además, la combinación con valores teóricos de pi se ha explorado en la reducción de falsas identificaciones y la validación de los resultados obtenidos por espectrometría de masas (elemento más relevante cuando se utilizan en el proceso de identificación espectrómetros de masas de baja resolución) (Heller y cols., 2005; Uwaje y cols., 2007; Cargile y cols., 2008). En este contexto, toma relevante importancia el desarrollo de algoritmos de estimación del punto isoeléctrico que reduzcan la diferencia entre el valor experimental y el teórico de un péptido y mejore su correlación. 35

44 Resultados y Discusión El empleo de descriptores moleculares y de algoritmos de aprendizaje supervisado para ajustar y optimizar respectivamente la función de cálculo del punto isoeléctrico no ha sido explorado con anterioridad por la comunidad científica. En este capítulo mostraremos los resultados del empleo de los descriptores moleculares en combinación con máquinas de soporte vectorial para la obtención de una función optimizada para la estimación del punto isoeléctrico. Los resultados se compararon con los obtenidos utilizando las funciones precedentes de cálculo de punto isoeléctrico en varios conjuntos de datos experimentales. 3.1 Selección de descriptores moleculares Empleando el programa realizado en Java y las bibliotecas CDK y ChemAxon, así como la base de datos AAIndex se calcularon un conjunto de 644 descriptores moleculares para cada péptido. El mayor grupo de descriptores moleculares calculados corresponde a los 544 descriptores experimentales de AAIndex. Los 100 descriptores restantes provenientes de las bibliotecas CDK y ChemAxon se pueden agrupar en los siguientes grupos: los electrostáticos, los geométricos y los composicionales. Los algoritmos de selección de variables son numerosos y se pueden clasificar en tres grupos fundamentales: los algoritmos de filtrado, los embebidos y los envueltos. Dentro de estos tres grupos, los métodos de filtrado resultan muy eficientes para la reducción de la dimensionalidad en etapas tempranas del desarrollo de algoritmos de aprendizaje. Estos algoritmos, que se emplean además para reducir el espacio de variables (cuando se trabaja con grandes volúmenes de datos), no necesitan la evaluación del modelo matemático a optimizar y trabajan sobre la naturaleza propia de los descriptores moleculares (y no con la relación del modelo que se desea optimizar). Dentro de los algoritmos de filtrado, los algoritmos de agrupamiento son los más extensamente empleados. Los algoritmos de agrupamiento y en especial el algoritmo de las medianas (kmeans) han sido muy utilizados para el filtrado de propiedades y 36

45 Resultados y Discusión descriptores moleculares en los estudios de modelos QSAR (Gonzalez y cols., 2008; Gonzalez-Diaz 2012). El algoritmo de las medianas se empleó en este trabajo para calcular las correlaciones entre todos los descriptores bajo estudio y agrupa aquellas variables fuertemente correlacionadas. En la figura 5 se muestran los agrupamientos en una matriz de correlación para los descriptores provenientes de las bibliotecas CDK y ChemAxon. Figura 5. Matriz de correlación de descriptores moleculares de CDK y ChemAxon previo al procedimiento de selección de características con el algoritmo de las medianas (k-mean). La matriz de correlación antes de ejecutar el algoritmo de selección de variables identifica dos grupos de variables perfectamente diferenciados. El segundo de los grupos se encuentra densamente poblado. Para complementar el análisis con el algoritmo k-means, se incorporó un conjunto de restricciones al algoritmo a partir de la información consultada en la literatura. Liu y colaboradores establecieron previamente la relación directa que existe entre el punto isoeléctrico del amino ácido de forma individual y los siguientes descriptores moleculares: la polaridad, la 37

46 Resultados y Discusión refractividad, la superficie molecular y la cantidad de átomos donores y aceptores de hidrógeno (Liu y cols., 2004). Con el objetivo de reducir la dimensionalidad del espacio de los descriptores moleculares, disminuir la redundancia de información y la dependencia lineal entre diferentes descriptores; se seleccionaron aquellos descriptores moleculares más próximos a los centroides de los agrupamientos. Como resultado se eliminaron todas las propiedades que tenían un índice de correlación mayor a 0.80, manteniendo aquellas propiedades identificadas previamente como posibles variables correlacionadas con el punto isoeléctrico. La figura 6 representa la matriz de correlación resultante de la aplicación del algoritmo k-means al conjunto inicial de descriptores (correlación entre las 19 variables resultantes). Figura 6. Matriz de correlación de los descriptores de ChemAxon y CDK luego de aplicar el algoritmo de K-means. En la figura 6 se pueden definir 3 grupos, siendo el segundo el más densamente poblado. Estos grupos contienen las variables que se emplearon como criterios de inclusión a partir de la bibliografía consultada. Los descriptores clogp (logaritmo del coeficiente de partición octanol/agua), el índice de Balaban y la energía del péptido según el 38

47 Resultados y Discusión campo de fuerza MMF94 son los descriptores menos correlacionados en la matriz. Descriptores como la refractividad y la superficie polar de la molécula son los más correlacionados de la matriz. Luego de obtener las propiedades de los péptidos estimadas con las librerías ChemAxon y CDK se utilizó la misma estrategia para analizar los descriptores calculados a partir de la base de datos AAIndex. La base de datos AAIndex contiene 544 descriptores experimentales calculados para los 20 aminoácidos naturales. Con el programa AAIndexDescriptor se calcularon todos los descriptores de AAIndex para cada péptido, realizándose una normalización según la cantidad de aminoácidos en la molécula. La figura 7 muestra la distribución final de las correlaciones según la matriz de correlación. Figura 7. Matriz de correlación de los descriptores de AAIndex luego de aplicar el algoritmo de k-means. 39

48 Resultados y Discusión La figura 7 no muestra ningún grupo densamente poblado. Entre las variables seleccionadas (de la base de datos AAindex) se encuentran descriptores relacionados con el punto isoeléctrico, la refractividad, el tiempo de retención, el índice de flexibilidad de la estructura del péptido, entre otros. Todos estos descriptores muestran una correlación menor a 0.6. Este procedimiento contribuye a eliminar los descriptores que pudiesen tener cierta irrelevancia para el modelo predictivo. El problema de la selección de variables en la predicción de los modelos matemáticos es un tópico que genera en la actualidad un número importante de trabajos científicos. El empleo de algoritmos de agrupamiento como métodos de selección de variables para reducir la dimensionalidad son muy utilizados en los problemas donde se utilizan muchas variables (Saeys y cols., 2007; Pereira y cols., 2009; Cao y cols., 2011). Una vez seleccionados los 58 descriptores moleculares resultantes del uso de los algoritmos de agrupamiento, se realizó una segunda selección de descriptores utilizando un simple algoritmo de eliminación recursiva, el cual constituye una técnica mucho más exhaustiva para reducir la cantidad de variables en combinación con el modelo basado en SVM. 3.2 Núcleos de transformación (Kernel) y eliminación recursiva de variables Las Máquinas de Soporte Vectorial son un conjunto de algoritmos de aprendizaje supervisado desarrollados por Vapnik (Vapnik y cols., 1997). Estos métodos están propiamente relacionados con problemas de clasificación y regresión. El problema clásico puede representarse como un conjunto de ejemplos de entrenamiento (de muestras), a partir del cual podemos identificar las clases y entrenar una Máquina de Soporte Vectorial para construir un modelo que prediga la clase de una muestra nueva. El paso de selección de variables (entre los 58 descriptores seleccionados) en combinación con el algoritmo basado en SVM fue implementado en R utilizando el paquete de funciones Caret ( Los 7391 péptidos (extraídos de los 40

49 Resultados y Discusión datos experimentales) fueron aleatoriamente divididos en dos subconjuntos de datos: un subconjunto de entrenamiento (75%) y un subconjunto de prueba (25%), ambos utilizados para construir el modelo predictor. El paso de selección de variables en el algoritmo es un método recursivo simple de eliminación de variables, donde S representa una secuencia de valores numéricos ordenados (S 1 > S 2,...), los cuales son candidatos al número de variables a ser retenidas para construir el modelo en cada iteración del algoritmo. Finalmente, el subconjunto S i con el cual se obtiene mejor rendimiento es utilizado en el modelo final. El algoritmo basado en SVM junto a un Kernel específico se aplicó para evaluar las variables seleccionadas y generar el modelo final. La representación por medio de las funciones de transformación (Kernel) de las variables de entrada ofrece una solución al problema de la representación de las características sobre el espacio. Un Kernel no es más que la proyección de la información a un espacio de características de mayor dimensión el cual aumenta la capacidad computacional de las máquinas de aprendizaje lineal. Para poder determinar cuáles de los Kernels más utilizados en la actualidad ofrece un modelo óptimo se probaron cuatro variantes fundamentales. Tabla 1. Funciones de transformación (Kernels) evaluadas en función del número de variable en el modelo final. Kernel Nº de descriptores RMSE R 2 Polinomial Lineal Exponencial Radial La tabla 1 muestra las funciones evaluadas. La variable que se emplea para escoger el mejor Kernel es el error cuadrático medio (RMSE). El Kernel con el cual se obtuvieron mejores resultados (valores más bajos de RMSE) fue el de Base Radial (o función Gaussiana). En 17 conjuntos de 41

50 Resultados y Discusión variables evaluados por el algoritmo de selección, los mejores resultados fueron para la combinación del punto isoeléctrico estimado con la función de Bjellqvist y colaboradores y el índice de punto isoeléctrico de Zimmerman y colaboradores (Figura 8). El índice de Zimmerman representa experimentalmente el punto isoeléctrico de cada aminoácido en la naturaleza. En contraste con resultados previos (Liu y cols., 2004), las propiedades físico-químicas como la polaridad y la refractividad de la molécula no mostraron relación con el pi. La relación entre las variables seleccionadas y el problema bajo estudio confirmó que el modelo empleado de selección de variables y de SVM es adecuado y óptimo. Figura 8. RMSE obtenido según el número de variables utilizadas en el modelo predictivo. 3.3 Pre-procesamiento de los datos de entrada del modelo final La etapa del estudio de las variables más significativas en el modelo final y la búsqueda de una función de transformación adecuada para la representación de los datos en un espacio de características de mayor dimensión, son cruciales en la construcción del modelo basado en SVM. 42

51 Resultados y Discusión No obstante, se ha descrito ampliamente que el preprocesamiento de datos es un paso fundamental en el desarrollo de los métodos de aprendizaje computacional (Al Shalabi y Shaaban 2006; Al 2008; Thongkam y cols., 2008). La calidad de los datos de entrenamiento y de los datos de prueba están fuertemente relacionados con el rendimiento y la precisión de las predicciones del modelo empleado. Esto se debe a que los datos obtenidos de sistemas del mundo real pueden contener ruido, valores incorrectos (o irrelevantes) y valores ausentes que pueden ocultar patrones útiles para caracterizar el sistema de interés. Por ejemplo, en datos provenientes de experimentos electroforéticos, se detectan normalmente péptidos fuera de la fracción correspondiente. Este fenómeno está gobernado por parámetros como el tiempo de focalización, la abundancia de los péptidos, la interacción péptido-péptido y la composición de la muestra (Cargile y cols., 2004). En este trabajo, los datos estudiados fueron procesados teniendo en cuenta dos criterios fundamentales: la remoción automática de valores átipicos y la normalización de los datos Remoción automática de valores atípicos A partir del conjunto de los péptidos identificados en cada fracción y su correspondiente pi experimental, se obtiene un conjunto de datos con atributos y instancias. Cada atributo ( ) corresponde a los descriptores incluidos en el modelo final y el atributo clase fue definido para el valor experimental de pi, cada instancia ( ) corresponde a los péptidos identificados en cada fracción. La remoción de los valores atípicos (en este estudio se refiere a péptidos con pi desviado de su fracción experimental) se realizó tomando en cuenta el pi teórico estimado por el algoritmo de Bjellqvist. El criterio seguido para remover los péptidos con pi desviado fue el siguiente: ( ) 43

52 RMSE RMSE Resultados y Discusión Donde corresponde a la media de los valores de pi de la fracción, es el pi calculado con el algoritmo de Bjellqvist para cada péptido y corresponde a la desviación estándar del pi en la fracción analizada. A valores atípicos - valores atípicos Iteraciones B valores atípicos - valores atípicos Iteraciones Figura 9. Efecto de la remoción de valores atípicos de los datos experimentales en el rendimiento del clasificador medido por el RMSE. Se muestran 10 corridas del clasificador en dos conjuntos de datos diferentes (A y B). datos con valores atípicos removidos, datos con valores atípicos sin remover. La figura 9 muestra los valores de RMSE obtenidos para 10 corridas del modelo basado en SVM en los dos conjunto de datos experimentales 44

53 # de péptidos identificados % de péptidos con pi desviado Resultados y Discusión estudiados. En ambos casos, se pudo observar que por la remoción de aproximadamente el 2% del total de valores atípicos, disminuye el RMSE, lo que se puede traducir en un aumento del rendimiento del clasificador. Esto indica que el método implementado es adecuado también en datos provenientes de experimentos electroforéticos, elemento no reportado antes en la literatura. El mayor por ciento de péptidos con pi desviado de la fracción experimental correspondiente se concentró en las fracciones más básicas; típicamente, donde focalizan menor cantidad de péptidos que a la vez tienen mayor probabilidad de migrar hacia fracciones incorrectas. Del total de los péptidos identificados en las tres fracciones más básicas, el número de péptidos desviados osciló entre 5% y 10% (Figura 10). Otros estudios han reportado la eliminación de hasta un 10% de péptidos con pi desviado previo al análisis de los resultados obtenidos en experimentos electroforéticos (Lengqvist y cols., 2011). Adicionalmente, se evaluó otra técnica para remover valores extremos basado en el Rango Interquartilo, pero los resultados obtenidos no mostraron relevancia para el modelo final péptidos identificados % de péptidos con pi desviado Fracciones Figura 10. Número de péptidos identificados en cada fracción y el porcentaje de péptidos con pi desviado de su fracción correspondiente. El mayor por ciento de péptidos con pi desviado se encontró en las fracciones más básicas (10-19). 45

54 RMSE Resultados y Discusión Normalización de los datos Otra transformación aplicada a los datos de entrada fue la normalización. Se ha reportado en varios estudios la importancia de eliminar el posible desbalance que pudiera existir entre las variables utilizadas para construir un modelo predictor. Los atributos en los datos se normalizan en las escalas [0, 1] y [-1, 1] utilizando transformaciones lineales (generalmente) basadas en la media y la desviación estándar. En este caso, los descriptores estudiados son de diferente naturaleza (por ejemplo, la masa molecular puede tomar valores en el orden de los miles de Da mientras las escalas de hidrofobicidad son representadas en el orden de las decenas). Sin embargo, como puede observarse en la figura 11, la normalización no tuvo un impacto significativo en el rendimiento del clasificador (medido por la RMSE). Esto pudiera deberse a que ambos descriptores incluidos en el modelo final son de naturaleza semejante Valores normalizados Valores no normalizados Iteraciones Figura 11. Efecto de la normalización de los datos de entrada en el rendimiento del clasificador. 46

55 Resultados y Discusión 3.4. Implementación del algoritmo pi-svm utilizando WEKA Como se describió en los acápites anteriores, las etapas de selección de los descriptores moleculares y el desarrollo del modelo predictor de pi basado en Máquinas de Soporte Vectorial se desarrollaron utilizando el lenguaje de programación R. Este lenguaje de programación (especializado en el análisis estadístico), posee amplias capacidades gráficas y posibilita la evaluación de un gran número de condiciones sin una excesiva carga computacional. No obstante, es menos adecuado para usuarios finales con menos habilidades en programación. Teniendo en cuenta estos elementos, el modelo final determinado en esta primera etapa de desarrollo se implementó en Java utilizando la biblioteca de clases WEKA (Frank y cols., 2004). El objetivo principal de este paso, fue obtener un algoritmo que fuese relativamente fácil de expandir como una aplicación (siguiendo el paradigma de la programación orientada a objetos). Desde este punto de vista, el método desarrollado en este trabajo, puede ser utilizado relativamente fácil, puede ejecutarse sobre varias plataformas (Linux, Windows y Mac) y puede ser incluido por otros desarrolladores en programas para la predicción de propiedades físicoquímicas de los péptidos y las proteínas. La figura 12 muestra el diagrama de flujo del modelo final. A partir de una lista de péptidos con su correspondiente pi experimental los datos son preprocesados y aleatorizados para luego dividirse en dos subconjuntos: los datos para entrenar el modelo y los datos para probar el modelo. Adicionalmente, la etapa de prueba incluye un paso de validación cruzada del algoritmo. El criterio de selección del mejor clasificador es el RMSE para i-iteraciones del algoritmo. Tomando en cuenta los resultados de varias corridas, el número de iteraciones se fijó en 10, ya que con este número de iteraciones el algoritmo converge relativamente rápido y es posible obtener un modelo óptimo para predecir el pi de nuevos péptidos. 47

56 Resultados y Discusión Figura 12. Diagrama de flujo del algoritmo para obtener el clasificador basado en SVM. En cada iteración i se almacena el clasificador con menor RMSE i. En la i-ésima iteración se obtiene el clasificador con menor RMSE (modelo final). 3.5 Detección de falsas identificaciones con el algoritmo pi-svm La utilización del punto isoeléctrico como una variable ortogonal en la identificación de péptidos y proteínas ha sido recientemente explorada (Cargile y cols., 2004; Heller y cols., 2005; Horth y cols., 2006; Perez- Riverol y cols., 2011). Cargile y colaboradores sentaron las bases teóricas para la identificación de los péptidos y las proteínas basada en este nuevo paradigma. La metodología planteada por estos autores utiliza la masa molecular y el punto isoeléctrico como criterios para la identificación, y representa un cambio en el enfoque de las metodologías actuales utilizadas en el proceso de identificación (Cargile y Stephenson 2004). Por 48

57 Resultados y Discusión otra parte, se ha reportado previamente la posibilidad de identificar teóricamente péptidos y proteínas empleando diferentes propiedades experimentales (Perez-Riverol y cols., 2011). No obstante, la utilización del punto isoeléctrico como información complementaria para reducir el número de falsas identificaciones (falsos positivos) ha sido una variante menos explotada. Tabla 2. Relación entre la (a) probabilidad asignada por PeptideProphet y el (d) porcentaje de péptidos con pi (calculado por el algoritmo pi-svm) fuera del intervalo estimado (media de la fracción ±2 SD), (b) el número de péptidos identificados para cada probabilidad, (c) el número de péptidos no redundantes para cada probabilidad y (e) el número de identificaciones no redundantes que caen fuera del intervalo predicho en al menos una fracción. El total de péptidos con pi estimado desviado fue 750. Probabilidad a Péptidos b identificados Péptidos no c redundantes % péptidos d No e redundantes En la tabla 2 se puede observar la relación entre la predicción del punto isoeléctrico (utilizando el algoritmo basado en SVM) y la probabilidad asignada por PeptideProphet (Ma y cols., 2012). El intervalo de punto isoeléctrico determinado para una fracción se definió como la media del pi estimado para la fracción ±2 veces la desviación estándar (SD). Un estudio previo demostró que para diferentes algoritmos de búsquedas, ±2 pi SD tuvo un efecto más significativo que ±1 pi SD (Heller y cols., 2005). Los resultados muestran que un bajo número de péptidos (0.2%) caen fuera del intervalo de pi predicho para probabilidades altas (1.0) asignadas por PeptideProphet. El efecto opuesto fue encontrado para péptidos con baja probabilidad asignada (Figura 13). Esto significa que el método de predicción de pi puede detectar el número de falsos positivos en cada fracción. 49

58 Resultados y Discusión Figura 13. El porcentaje de péptidos con pi desviado del intervalo fijado tiende a disminuir cuando aumenta la probabilidad asignada por PeptideProphet. El gráfico se obtuvo a partir de los valores tabulados en las entradas (a) y (d) de la Tabla 2. En estudio previo, Heller y colaboradores hallaron que para las identificaciones con altas probabilidades asignadas por PeptideProphet, el 2.9% eran falsos positivos cuando utilizaron el algoritmo para el cálculo del pi de Bjellqvist como filtro. Pero cuando adicionaron el tiempo de retención, ellos encontraron que el 8.4% de las identificaciones podrían ser falsas (Heller y cols., 2005). Cuando se aplicó el algoritmo basado en SVM (pi- SVM) a los datos utilizados en el estudio de Heller, se detectó 4.1% de falsos positivos para las identificaciones con altas probabilidades asignadas, lo cual Heller y colaboradores no pudieron detectar utilizando el método de predicción de pi únicamente. La precisión del modelo basado en SVM permitió encontrar 44 identificaciones de péptidos no redundantes como probables falsos positivos, los cuales tienen altas probabilidades asignadas por PeptideProphet (probabilidades: 1, 0.9). Además, para identificaciones con probabilidades más bajas (probabilidades: ), el algoritmo detectó aproximadamente 700 péptidos con valor teórico de pi fuera de la fracción 50

59 Resultados y Discusión correspondiente. Por lo tanto, el método implementado en este trabajo pudiera ser utilizado para clasificar los péptidos identificados utilizando información ortogonal, como ha sido sugerido en previos estudios (Cargile y Stephenson 2004; Perez-Riverol y cols., 2011). 3.6 Implementación de los algoritmos Bjellqvist y Cofactor Las bases teóricas de los algoritmos propuestos por Bjellqvist y Cargile, pueden ser verificadas en el Capítulo 1 de Revisión Bibliográfica (acápites y 1.2.3). Ambos algoritmos se implementaron como parte de este trabajo para el cálculo del pi de péptidos. La figura 14 muestra el diagrama de flujo general en el cual se basan los dos algoritmos. Figura 14. Flujo general de un algoritmo iterativo para el cálculo del pi. * Las constantes de pk predefinidas son diferentes en los algoritmos de Bjellqvist y Cargile. 51