Tema 4: Alineamiento Múltiple y Filogenias (1) Motivos y Perfiles Dr. Oswaldo Trelles Universidad de Málaga Los motivos o perfiles son pequeños fragmentos, trozos o zonas conservadas presentes en un grupo de secuencias. Normalmente el motivo está asociado a una función y por ello de su conservación. En otros casos puede ser un elemento diferenciador de una familia de secuencias y su presencia en una nueva secuencia permite asegurar que pertenece a la familia (patrones diagnóstico).
Motivos, Perfiles y Dominios Señales presentes en todas las secuencias de un conjunto relacionado Aplicaciones Detección de homólogos remotos Predicción de función Clasificación de familias de secuencias FA9_BOVIN ------YNSG NKVVCSCTDG YRLAEDQKSC EPAVPFPCGR VSVSHISKKL TRAETIFSNT GEDAERGQFP IYSHMFCAGY HEGGKDSCQG KYGI---VSR YVNWIKEKTK LT FA9_SHEEP ---------- ---------- ---------- ---------R ASVLHTSKKL TRAETIFSNM GEDAARGQFP IYNHMFCAGY HEGGKDSCQG KYGI-TKVSR YEV------- -- FA9_HUMAN LNRPKRYNSG NKVVCSCTEG YRLAENQKSC EPAVPFPCGR VSVSQTS-KL TRAEAVFPDV GEDAKPGQFP IYNNMFCAGF HEGGRDSCQG KYG--TK-SR YVNWIKEKTK LT FA9_RABIT --------TV NKIICSCTEG YRLAENQKSC EPAVPFPCGR VSVSHASKKI TRATTIFSNT GENAKPGQFP IYNNMFCAGF DVGGKDSCEG KYGVYTRVSW YVNWIKEKTK LT FA9_CANFA LSRPKRYNSG NKVVCSCTTG YQLAEDQRSC EPAVPFPCGR VSVPHISMTR TRAETLFSNM GKDAKPGQFP IYNNMFCAGF HEGGKDSCQG KYGIYTK-SR YVNWIKEKTK LT FA9_PIG ---------- ---------- ---------- ---------- ---SHSPTTL TRAEIIFSNM GENAKPGQFP IYSNMFCAGF HEGGKDSCLG KYGIYTK--R YVNW------ -- FA9_MOUSE LTRPKRYNSG NKVICSCTEG YQLAEDQKSC EPTVPFPCGR ASISYSSKKI TRAETVFSNM GENAKPGQIP TYNNMFCAGY REGGKDSCEG KYAIYTKVSR YVNWIKEKTK LT FA9_RAT ---------- ---------- ---------- ---------R VSVAYNSKKI TRAETVFSNT GENAKPGQIP IYNNMFCAGY REGGKDSCEG KYAIYTK-SR YVNW------ -- FA9_CAVPO ---------- ---------- ---------- ---------R VSIPSVSKEH NRANAIFSRM GEDAKPGQFP IYNNMFCAGF HEGGRDSCQG KYA--TKVSR YVNW------ -- Algunas regiones de las secuencias se conservan más que otras, porque guardan relación directa con la estructura o función de la proteína, por ejemplo: sitios de unión, centros activos de enzimas, etc. Su extensión es reducida y su conservación no es perfecta, por tanto son difíciles de detectar en alineamientos de parejas de secuencias
Motivos: Expresiones regulares Secuencias originales Secuencias alineadas MGARNSVLRGLKHIWANEL -MGARNSVLRGLKHI-WANEL QMGARNSVLLKHIVWAE QMGARNSVL--LKHIVWA-E- MGAKALRGLKHLVWA -MGAK-A-LRGLKHLVWA--- MGRNSVLRLKHIVRAKL -MG-RNSVLR-LKHIVRAK-L El uso de expresiones regulares fue la primera forma de expresar los motivos. Para ello se acordaron una reglas de sintaxis (ver recuadro inferior izquierdo) de forma que se pudieran describir inequívocamente, ser y preprar programas para identificar su presencia en las secuencias; en L-K-H-[L I ] Reglas de sintaxis particular, en grupos relacionados de secuencias, de Una letra por amino ácido tal forma que pudieran ser Cualquier aa: X usados como elementos Ambigüedad: [ALT] Ala, Leu, o Thr. {AM} cualquiera excepto Ala y Met predictivos de relación entre secuencias. Guión: separa símbolos Repetición: entre paréntesis x(3) = x-x-x x(2,4) = x-x, x-x-x o x-x-x-x. Ejemplos N-terminal < [AC]-x-V-x(4)-{ED}. C-terminal > [Ala o Cys]-any-Val-any-any-any-any-{any excepto Glu o Asp} Fin de patrón punto <A-x-[ST](2)-x(0,1)-V. N-terminal, Ala-any-[Ser o Thr]-[Ser o Thr]-(any or none)-val
Motivos: Obtención n y Almacenamiento PROSITE: http://www.expasy.ch Objetivo: Tan corto y conservado como sea posible, con alta sensibilidad (TP) y especificidad (TN) Sensibilidad: Capacidad de no incorporar falsos negativos Especificidad: Capacidad de no incorporar falsos positivos Calidad del Patrón : f(tp, TN, FP, FN) Obtención Publicaciones + control de calidad + mejoras (capacidad de predicción) Grupos de secuencias: AM, buscar regiones importantes para la función Enzyme catalytic sites, Prostethic group attachment sites, Amino acids involved in binding a metal ion, Cysteines involved in disulfide bonds, Regions involved in binding a molecule or another protein). 1.- CORE: Zona corta y conservada (4-5 aa) con residuos importantes 2.- DBsrch sobre swissprot 3.- Evaluar Calidad 4.- En general: variaciones graduales del motivo (evitar FP) [repetir: 2]
(profiles, Position Perfiles Position-Specific Weight Score Matrix) Un perfil es una tabla de pesos específica por posición (columna) para cada residuo incluyendo las penalizaciones por interrupciones. Esta representación proporciona información sobre relaciones que (potencialemente) aun no se han detectado. F K L L S H C L L V F K A F G Q T M F Q Y P I V G Q E L L G F P V V K E A I L K F K V L A A V I A D L E F I S E C I I Q F K L L G N V L V C A -18-10 -1-8 8-3 3-10 -2-8 C -22-33 -18-18 -22-26 22-24 -19-7 D -35 0-32 -33-7 6-17 -34-31 0 E -27 15-25 -26-9 23-9 -24-23 -1 F 60-30 12 14-26 -29-15 4 12-29 G -30-20 -28-32 28-14 -23-33 -27-5 H -13-12 -25-25 -16 14-22 -22-23 -10 I 3-27 21 25-29 -23-8 33 19-23 K -26 25-25 -27-6 4-15 -27-26 0 L 14-28 19 27-27 -20-9 33 26-21 M 3-15 10 14-17 -10-9 25 12-11 N -22-6 -24-27 1 8-15 -24-24 -4 P -30 24-26 -28-14 -10-22 -24-26 -18 Q -32 5-25 -26-9 24-16 -17-23 7 R -18 9-22 -22-10 0-18 -23-22 -4 S -22-8 -16-21 11 2-1 -24-19 -4 T -10-10 -6-7 -5-8 2-10 -7-11 V 0-25 22 25-19 -26 6 19 16-16 W 9-25 -18-19 -25-27 -34-20 -17-28 Y 34-18 -1 1-23 -12-19 0 0-18 A tiene peso más bajo que M, que no aparece, porque M es físico-químicamente más parecido a L, I, V y F Contiene información para todos los residuos, incluso para aquellos que no aparecen en el AM, y se calculan con las frecuencias de sustitución MAYOR SENSIBILIDAD QUE LOS MOTIVOS
Hidden Markov Models (HMMs) Describe el patrón como un modelo estadístico de la generación de la secuencia lo que vemos es resultado de un proceso oculto del que tenemos un modelo Actividad: Describa la formulación de los HMMs, su obtención y uso
Bases de Datos: Motivos, Perfiles y HMMs Pattern dbase Data source Stored Information PROSITE Swiss-prot Regular expressions (patterns) PRINTS Swiss-prot+TrEMBL Raw aligned motifs (fingerprints) Profiles Swiss-prot Gapped weight matrices (profiles) Pfam Swiss-prot+TrEMBL Gapped domain alignments (HMMs) Blocks PROSITE+PRINTS Weighted aligned motifs (blocks) IDENTIFY Blocks+PRINT Permisive regular expressions (patterns) Alinment dbase Data source Stored Information ProDom Swiss-prot Domains SBASE Swiss-prot Domains ProtoMap Swiss-prot Families PIR-ALN PIR Superfamilies, families and domains PROT-FAM PIR Superfamilies, families and domains ProClass Swiss-Prot+PIR Superfamilies, families and domains DOMO Swiss-Prot+PIR Domains and Repeats PIMA Entrez Domains
Comentarios Finales 1er Paso: Búsquedas en Bases de Datos Uso de heurísticos (FASTA, BLAST) Exploración exhaustiva (Prog. Dinámica) Ajuste de parámetros (pesos, penalizaciones, relajación de umbrales) 2do Paso: AM de secuencias relacionadas Evidenciar zonas conservadas Mejorar la definición de las características de los grupos Repetir 1er paso con secuencias consenso o perfiles (extended BLAST) Homologías remotas: Detección de zonas conservadas (motivos, perfiles, HMMs) Qué secuencias comparten un patrón? Que otros patrones hay en mi secuencia? Donde buscar?: Existe una plétora de bases de datos La semejanza a nivel de secuencia es sólo una pista inicial. El conocimiento de las herramientas y de su diseño ayuda a interpretar los resultados
Un ejemplo de uso A la izquierda: (1) Identificación de fragmentos mediante búsquedas en BdeD, Blast; (2) ordenamos los fragmentos según donde aparecen el la secuencia desconocida; (3) se identifican concentraciones de fragmentos; (4) agrupamos fragmentos semejantes, (5) construimos un perfil de conservación; para finalmente en (6) refinar los bordes Lectura propuesta: Rodríguez, A.; Carazo, J.M. and A., Trelles O. (2005), "Mining Association Rules from Biological Databases", Journal of the American Society for Information Science and Technology 56(5):493 504, 2005 Cuando los métodos de predicción (comparación y búsquedas de secuencias homólogas) no dan resultados podemos probar con métodos de minería de datos (ver tema 8). Podemos usar la secuencia desconocida como semilla para buscar pequeñas semejanzas (palabras) en otras secuencias de la base de datos. Si ordenamos la posición de dichos fragmentos observaremos concentraciones que nos indicas zonas conservadas. A partir de allí y usando métodos de agrupamiento y reglas de asociación podemos asociar los patrones a anotaciones funcionales y dar pistas sobre la función de la proteína
La versión ampliada de este tema se encuentra en los apuntes del Tema 4: Alineamiento Múltiple y Filogenia, accesibles a través de la plataforma Web de aprendizaje virtual de la UNIA. Consulta estos materiales para completar tus conocimientos