Bioinformática Clásica



Documentos relacionados
Análisis de secuencias. Patrones, perfiles y dominios.

SAQQARA. Correlación avanzada y seguridad colaborativa_

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Programas para Alineamientos Múltiples

Trabajo final de Ingeniería

Cualitativos Caso de Aplicación

Además se recomienda su uso como herramienta de trabajo dentro de las actividades habituales de gestión.

Parte I: Introducción

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Análisis de Secuencias, Familias de Proteínas. Masters en Bioinformática Madrid Michael Tress Protein Design Group

Data Mining Técnicas y herramientas

11.2-DISCUSIÓN Prueba rápida

Es de aplicación a todas aquellas situaciones en las que se necesita desplegar un objetivo para obtener una visión clara de cómo debe ser alcanzado.

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

Base de datos II Facultad de Ingeniería. Escuela de computación.

Inteligencia de Negocio

ANEXO TRES INSTRUCTIVO PARA EL LLENADO DE LA FICHA TÉCNICA DEL INDICADOR

Enginyeria del Software III

4 m. Sabemos que las caras de las pirámides son proporcionales. Los triángulos son equiláteros y la base es un cuadrado.

Diseño Estructurado de Algoritmos

GUIA SOBRE LOS REQUISITOS DE LA DOCUMENTACION DE ISO 9000:2000

Capítulo IV. Manejo de Problemas

Martes 28. Alineamientos múltiples. Cedric Notredame (CRG) Lunes 17 Dominios de proteínas y homología remota. Viernes 7 Miércoles 12.

Validation. Validación Psicométrica. Validation. Central Test. Central Test. Centraltest CENTRAL. L art de l évaluation. El arte de la evaluación

Sistemas de Información Geográficos (SIG o GIS)

Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción.

El Proceso Unificado de Desarrollo de Software

Bases de datos biológicas

Calidad Escuela de Ingeniería de Sistemas y Computación Desarrol o de Software II Agosto Diciembre 2007

ARCHIVOS CON SERIES DEL BOLETÍN ESTADÍSTICO Manual de Usuario

Consultas con combinaciones

ANÁLISIS DE ESCENARIOS PARA EL SALÓN DE CLASES: GUÍA DEL FACILITADOR

Metadatos en Plataformas ECM

PRUEBA RAPIDA EN EMBARAZADAS (n=62, Junio 2010) NO REACTIVO n=218 REACTIVO INDETERMINADO. Tabla 9: Resultados Prueba rápida

Microsoft SQL Server Conceptos.

O jeto de apre r ndizaje

Contacto. Primeros pasos en MiAulario. Curso de Formación. Primeros pasos en MiAulario

ÁRBOL DE PROBLEMA Y ÁREAS DE INTERVENCIÓN

La base de datos Panel de Innovación Tecnológica (PITEC) Mayo 2011

República Dominicana

ANALIZANDO GRAFICADORES

MODELOS DE INVENTARIO

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

RESUMEN CUADRO DE MANDO

ESTIMACIÓN. puntual y por intervalo

Informàtica i Comunicacions Plaça Prnt. Tarradellas, FIGUERES (Girona) Tel Fax

SOLUCION DE MODELOS DE PROGRAMACION LINEAL EN UNA HOJA DE CALCULO. PROBLEMAS DE TRANSPORTE Y ASIGNACION.

CAPITULO 6 SISTEMA DE DETECCION DE INTRUSOS

Pruebas rápidas r. Estrategias preventivas. Propuesta de nuevas estrategias preventivas

Este capítulo describirá la metodología usada para realizar la evaluación de la aplicación

PROGRAMA FIDES-AUDIT

Práctica 2: Alineamiento múltiple e Identificación y búsqueda de Motivos.

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Estimación de una probabilidad

SCGDoc. SisConGes & Estrategia

COBIT 5. Niveles de Capacidad Desafío de formalización de procesos Costos y Beneficios. A/P Cristina Borrazás, CISA, CRISC, PMP

Jaume Aragonés Ferrero Sergio Luján Mora Departamento de Lenguajes y Sistemas Informáticos

Tecnologías de logística y transporte

DISEÑOS DE INVESTIGACIÓN

CAPÍTULO 3 Servidor de Modelo de Usuario

Indicadores del Sector Público. marzo de 2011

Introducción a la plataforma Moodle Aníbal de la Torre Plataforma Moodle. Accediendo a los contenidos

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos

CATÁLOGO DE INFERENCIAS

INDICADORES PRESENTADO POR: LUIS DARÍO TÉLLEZ RAMÍREZ

Cómo se sabe si una metodología científica es confiable y válida?

ESCUELA PROFESIONAL SAN FRANCISCO

Figure 7-1: Phase A: Architecture Vision

CLASIFICACIÓN DE RESULTADOS DE ENFERMERÍA (NOC) Y CLASIFICACIÓN DE INTERVENCIÓN DE (NIC) Profa. Ana Rosado RN, MSN

FACULTAD DE CIENCIAS EXACTAS Y TECNOLOGIA (UNT) PROGRAMACIÓN II (E11) EJEMPLO TEORÍA

Preguntas Frecuentes. La SIM Móvil Éxito la puedo usar en cualquier equipo terminal móvil?

WE ARE EXPERTS IN DATA PROCESSING & ANALYTICS IDATHA. DARK DATA White Paper - IDATHA. Octubre IDATHA.COM

APLICACIÓN PRÁCTICA EN ESPAÑA DE LA NORMATIVA "SEPA" EN PROGRAMAS MDG

Cambio de tendencia Página 8 Longitud mínima de la figura Indicadores de calidad

COMISIÓN DE METROLOGÍA LEGAL MINISTERIO DE INDUSTRIA, TURISMO Y COMERCIO

Funciones, x, y, gráficos

2. LOS SISTEMAS DE COSTOS

Guía rápida del usuario. Disco duro virtual.

Las funciones trigonométricas

sistema aseguramiento calidad proveedores, división auto

CALIDAD DEL SOFTWARE TESTS DE EXAMEN ACTUALIZADO SEP TEMA 4 MODELOS, METODOLOGÍAS Y ESTÁNDARES: ESTRATEGIAS PARA ALCANZAR LA CALIDAD

Base de datos en Excel

Portal de Compras del Gobierno del Estado de Baja California ( A. Antecedentes

Portafolio de Servicios y Productos

ANÁLISIS DE DATOS DE MICROARRAY 2ª PRÁCTICA OBLIGATORIA

Nivel de Lectura: Qué son las puntuaciones Estanina?

El participante puede llevar a cabo el proceso de auto-comparación y sobre esa base reforzar los aspectos menos consistentes.

ENCUESTA CALIDAD DE LOS SERVICIOS DEL SISTEMA DE BIBLIOTECAS UCM

Estadística 2º curso del Grado en Ciencias de la Actividad Física y el Deporte. ---o0o--- Introducción a la Inferencia Estadística

Relaciones binarias. ( a, b) = ( c, d) si y solamente si a = c y b = d

crmitv.com Que es crmitv.com?

PROCESO GESTION ADMINISTRATIVA PROCEDIMIENTO VERIFICACION, REGISTRO Y DISTRIBUCIÓN Y CLASIFICACION DE DOCUMENTOS DIGITALES

FICHEROS Y BASES DE DATOS (E44) 3º INGENIERÍA EN INFORMÁTICA. Tema 8. Elementos Básicos

Apuntes de ACCESS. Apuntes de Access. Campos de Búsqueda:

MÓDULO 2: TRATAMIENTO DE DATOS CON HOJA DE CÁLCULO. Tema 1: Gestión de listas de datos y tablas dinámicas. Leire Aldaz, Begoña Eguía y Leire Urcola

Servicios TIC. Propuesta educación Universidad

Testing. Tipos, Planificación y Ejecución de Pruebas

Técnicas para identificar la causa-raíz de los problemas

Enfoque propuesto para la detección del humo de señales de video.

Administración Colaborativa de Riesgos

Transcripción:

Tema 4: Alineamiento Múltiple y Filogenias (1) Motivos y Perfiles Dr. Oswaldo Trelles Universidad de Málaga Los motivos o perfiles son pequeños fragmentos, trozos o zonas conservadas presentes en un grupo de secuencias. Normalmente el motivo está asociado a una función y por ello de su conservación. En otros casos puede ser un elemento diferenciador de una familia de secuencias y su presencia en una nueva secuencia permite asegurar que pertenece a la familia (patrones diagnóstico).

Motivos, Perfiles y Dominios Señales presentes en todas las secuencias de un conjunto relacionado Aplicaciones Detección de homólogos remotos Predicción de función Clasificación de familias de secuencias FA9_BOVIN ------YNSG NKVVCSCTDG YRLAEDQKSC EPAVPFPCGR VSVSHISKKL TRAETIFSNT GEDAERGQFP IYSHMFCAGY HEGGKDSCQG KYGI---VSR YVNWIKEKTK LT FA9_SHEEP ---------- ---------- ---------- ---------R ASVLHTSKKL TRAETIFSNM GEDAARGQFP IYNHMFCAGY HEGGKDSCQG KYGI-TKVSR YEV------- -- FA9_HUMAN LNRPKRYNSG NKVVCSCTEG YRLAENQKSC EPAVPFPCGR VSVSQTS-KL TRAEAVFPDV GEDAKPGQFP IYNNMFCAGF HEGGRDSCQG KYG--TK-SR YVNWIKEKTK LT FA9_RABIT --------TV NKIICSCTEG YRLAENQKSC EPAVPFPCGR VSVSHASKKI TRATTIFSNT GENAKPGQFP IYNNMFCAGF DVGGKDSCEG KYGVYTRVSW YVNWIKEKTK LT FA9_CANFA LSRPKRYNSG NKVVCSCTTG YQLAEDQRSC EPAVPFPCGR VSVPHISMTR TRAETLFSNM GKDAKPGQFP IYNNMFCAGF HEGGKDSCQG KYGIYTK-SR YVNWIKEKTK LT FA9_PIG ---------- ---------- ---------- ---------- ---SHSPTTL TRAEIIFSNM GENAKPGQFP IYSNMFCAGF HEGGKDSCLG KYGIYTK--R YVNW------ -- FA9_MOUSE LTRPKRYNSG NKVICSCTEG YQLAEDQKSC EPTVPFPCGR ASISYSSKKI TRAETVFSNM GENAKPGQIP TYNNMFCAGY REGGKDSCEG KYAIYTKVSR YVNWIKEKTK LT FA9_RAT ---------- ---------- ---------- ---------R VSVAYNSKKI TRAETVFSNT GENAKPGQIP IYNNMFCAGY REGGKDSCEG KYAIYTK-SR YVNW------ -- FA9_CAVPO ---------- ---------- ---------- ---------R VSIPSVSKEH NRANAIFSRM GEDAKPGQFP IYNNMFCAGF HEGGRDSCQG KYA--TKVSR YVNW------ -- Algunas regiones de las secuencias se conservan más que otras, porque guardan relación directa con la estructura o función de la proteína, por ejemplo: sitios de unión, centros activos de enzimas, etc. Su extensión es reducida y su conservación no es perfecta, por tanto son difíciles de detectar en alineamientos de parejas de secuencias

Motivos: Expresiones regulares Secuencias originales Secuencias alineadas MGARNSVLRGLKHIWANEL -MGARNSVLRGLKHI-WANEL QMGARNSVLLKHIVWAE QMGARNSVL--LKHIVWA-E- MGAKALRGLKHLVWA -MGAK-A-LRGLKHLVWA--- MGRNSVLRLKHIVRAKL -MG-RNSVLR-LKHIVRAK-L El uso de expresiones regulares fue la primera forma de expresar los motivos. Para ello se acordaron una reglas de sintaxis (ver recuadro inferior izquierdo) de forma que se pudieran describir inequívocamente, ser y preprar programas para identificar su presencia en las secuencias; en L-K-H-[L I ] Reglas de sintaxis particular, en grupos relacionados de secuencias, de Una letra por amino ácido tal forma que pudieran ser Cualquier aa: X usados como elementos Ambigüedad: [ALT] Ala, Leu, o Thr. {AM} cualquiera excepto Ala y Met predictivos de relación entre secuencias. Guión: separa símbolos Repetición: entre paréntesis x(3) = x-x-x x(2,4) = x-x, x-x-x o x-x-x-x. Ejemplos N-terminal < [AC]-x-V-x(4)-{ED}. C-terminal > [Ala o Cys]-any-Val-any-any-any-any-{any excepto Glu o Asp} Fin de patrón punto <A-x-[ST](2)-x(0,1)-V. N-terminal, Ala-any-[Ser o Thr]-[Ser o Thr]-(any or none)-val

Motivos: Obtención n y Almacenamiento PROSITE: http://www.expasy.ch Objetivo: Tan corto y conservado como sea posible, con alta sensibilidad (TP) y especificidad (TN) Sensibilidad: Capacidad de no incorporar falsos negativos Especificidad: Capacidad de no incorporar falsos positivos Calidad del Patrón : f(tp, TN, FP, FN) Obtención Publicaciones + control de calidad + mejoras (capacidad de predicción) Grupos de secuencias: AM, buscar regiones importantes para la función Enzyme catalytic sites, Prostethic group attachment sites, Amino acids involved in binding a metal ion, Cysteines involved in disulfide bonds, Regions involved in binding a molecule or another protein). 1.- CORE: Zona corta y conservada (4-5 aa) con residuos importantes 2.- DBsrch sobre swissprot 3.- Evaluar Calidad 4.- En general: variaciones graduales del motivo (evitar FP) [repetir: 2]

(profiles, Position Perfiles Position-Specific Weight Score Matrix) Un perfil es una tabla de pesos específica por posición (columna) para cada residuo incluyendo las penalizaciones por interrupciones. Esta representación proporciona información sobre relaciones que (potencialemente) aun no se han detectado. F K L L S H C L L V F K A F G Q T M F Q Y P I V G Q E L L G F P V V K E A I L K F K V L A A V I A D L E F I S E C I I Q F K L L G N V L V C A -18-10 -1-8 8-3 3-10 -2-8 C -22-33 -18-18 -22-26 22-24 -19-7 D -35 0-32 -33-7 6-17 -34-31 0 E -27 15-25 -26-9 23-9 -24-23 -1 F 60-30 12 14-26 -29-15 4 12-29 G -30-20 -28-32 28-14 -23-33 -27-5 H -13-12 -25-25 -16 14-22 -22-23 -10 I 3-27 21 25-29 -23-8 33 19-23 K -26 25-25 -27-6 4-15 -27-26 0 L 14-28 19 27-27 -20-9 33 26-21 M 3-15 10 14-17 -10-9 25 12-11 N -22-6 -24-27 1 8-15 -24-24 -4 P -30 24-26 -28-14 -10-22 -24-26 -18 Q -32 5-25 -26-9 24-16 -17-23 7 R -18 9-22 -22-10 0-18 -23-22 -4 S -22-8 -16-21 11 2-1 -24-19 -4 T -10-10 -6-7 -5-8 2-10 -7-11 V 0-25 22 25-19 -26 6 19 16-16 W 9-25 -18-19 -25-27 -34-20 -17-28 Y 34-18 -1 1-23 -12-19 0 0-18 A tiene peso más bajo que M, que no aparece, porque M es físico-químicamente más parecido a L, I, V y F Contiene información para todos los residuos, incluso para aquellos que no aparecen en el AM, y se calculan con las frecuencias de sustitución MAYOR SENSIBILIDAD QUE LOS MOTIVOS

Hidden Markov Models (HMMs) Describe el patrón como un modelo estadístico de la generación de la secuencia lo que vemos es resultado de un proceso oculto del que tenemos un modelo Actividad: Describa la formulación de los HMMs, su obtención y uso

Bases de Datos: Motivos, Perfiles y HMMs Pattern dbase Data source Stored Information PROSITE Swiss-prot Regular expressions (patterns) PRINTS Swiss-prot+TrEMBL Raw aligned motifs (fingerprints) Profiles Swiss-prot Gapped weight matrices (profiles) Pfam Swiss-prot+TrEMBL Gapped domain alignments (HMMs) Blocks PROSITE+PRINTS Weighted aligned motifs (blocks) IDENTIFY Blocks+PRINT Permisive regular expressions (patterns) Alinment dbase Data source Stored Information ProDom Swiss-prot Domains SBASE Swiss-prot Domains ProtoMap Swiss-prot Families PIR-ALN PIR Superfamilies, families and domains PROT-FAM PIR Superfamilies, families and domains ProClass Swiss-Prot+PIR Superfamilies, families and domains DOMO Swiss-Prot+PIR Domains and Repeats PIMA Entrez Domains

Comentarios Finales 1er Paso: Búsquedas en Bases de Datos Uso de heurísticos (FASTA, BLAST) Exploración exhaustiva (Prog. Dinámica) Ajuste de parámetros (pesos, penalizaciones, relajación de umbrales) 2do Paso: AM de secuencias relacionadas Evidenciar zonas conservadas Mejorar la definición de las características de los grupos Repetir 1er paso con secuencias consenso o perfiles (extended BLAST) Homologías remotas: Detección de zonas conservadas (motivos, perfiles, HMMs) Qué secuencias comparten un patrón? Que otros patrones hay en mi secuencia? Donde buscar?: Existe una plétora de bases de datos La semejanza a nivel de secuencia es sólo una pista inicial. El conocimiento de las herramientas y de su diseño ayuda a interpretar los resultados

Un ejemplo de uso A la izquierda: (1) Identificación de fragmentos mediante búsquedas en BdeD, Blast; (2) ordenamos los fragmentos según donde aparecen el la secuencia desconocida; (3) se identifican concentraciones de fragmentos; (4) agrupamos fragmentos semejantes, (5) construimos un perfil de conservación; para finalmente en (6) refinar los bordes Lectura propuesta: Rodríguez, A.; Carazo, J.M. and A., Trelles O. (2005), "Mining Association Rules from Biological Databases", Journal of the American Society for Information Science and Technology 56(5):493 504, 2005 Cuando los métodos de predicción (comparación y búsquedas de secuencias homólogas) no dan resultados podemos probar con métodos de minería de datos (ver tema 8). Podemos usar la secuencia desconocida como semilla para buscar pequeñas semejanzas (palabras) en otras secuencias de la base de datos. Si ordenamos la posición de dichos fragmentos observaremos concentraciones que nos indicas zonas conservadas. A partir de allí y usando métodos de agrupamiento y reglas de asociación podemos asociar los patrones a anotaciones funcionales y dar pistas sobre la función de la proteína

La versión ampliada de este tema se encuentra en los apuntes del Tema 4: Alineamiento Múltiple y Filogenia, accesibles a través de la plataforma Web de aprendizaje virtual de la UNIA. Consulta estos materiales para completar tus conocimientos