Breve lección de bioinformática (4)



Documentos relacionados
Bioinformática Clásica Tema 3: Análisis de Secuencias (1) Los Fundamentos

Bioinformática Clásica

Unidad 1. Fundamentos en Gestión de Riesgos

Introducción. Metadatos

Bases de datos biológicas

Curso de Verano 2003 Ramón Alonso-Allende

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Sistemas de Gestión de Calidad. Control documental

Sistemas de información

Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008

Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre.

Administración del conocimiento y aprendizaje organizacional.

Tema: Gestión del Conocimiento y Comercio Electrónico. Profesor: Lic. Rosa Oralia Saenz Hernández.

5.2. PROYECTO RODA. (6/07/04).

Mesa de Ayuda Interna

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

Sesión No. 10. Contextualización: Nombre de la sesión: ClickBalance segunda parte PAQUETERÍA CONTABLE

Ingeniería de Software en SOA

A continuación resolveremos parte de estas dudas, las no resueltas las trataremos adelante

CONSTRUCCIÓN DEL PROCESO MESA DE AYUDA INTERNA. BizAgi Process Modeler

LA COORDINACIÓN DE ACTIVIDADES EMPRESARIALES (CAE) APLICACIÓN PRÁCTICA APLICACIÓN PRÁCTICA LA COORDINACIÓN DE

MANUAL DE AYUDA HERRAMIENTA DE APROVISIONAMIENTO

GUIA SOBRE LOS REQUISITOS DE LA DOCUMENTACION DE ISO 9000:2000

Seminario Electrónico de Soluciones Tecnológicas sobre VPNs de Extranets

Introducción a la Firma Electrónica en MIDAS

Autor: Jorge Bustos. Germán Poo. Versión: Programa Haz un Hacker! Página 1/6

Manual de uso de la plataforma para monitores. CENTRO DE APOYO TECNOLÓGICO A EMPRENDEDORES -bilib

MANUAL DE AYUDA TAREA PROGRAMADA COPIAS DE SEGURIDAD

Cómo sistematizar una experiencia?

Página principal de Ensembl. Especies para las que mantiene información.

Los servicios más comunes son como por ejemplo; el correo electrónico, la conexión remota, la transferencia de ficheros, noticias, etc.

ADT CONSULTING S.L. PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS

Nombre de la sesión: Intelisis Business Intelligence segunda parte

Orientación acerca del enfoque basado en procesos para los sistemas de gestión de la calidad

Procesos Críticos en el Desarrollo de Software

TeCS. Sistema de ayuda a la gestión del desarrollo de producto cerámico

Sesión No. 7. Contextualización: Nombre de la sesión: Intelisis Business Intelligence PAQUETERÍA CONTABLE

Definiciones sencillas para

INTRANET DE UNA EMPRESA RESUMEN DEL PROYECTO. PALABRAS CLAVE: Aplicación cliente-servidor, Intranet, Área reservada, Red INTRODUCCIÓN

NOTAS TÉCNICAS SOBRE EL SIT: Definición y Configuración de Usuarios

ARQUITECTURA DE DISTRIBUCIÓN DE DATOS

Servicio de consulta 121 Interfaz personalizable Adaptación por industria vertical Equipo interno de desarrollo

Cómo hacer un mapa conceptual paso a paso

EL CUADRO DE MANDO INTEGRAL

SOLUCIÓN HOSPEDADA. Introducción a los modelos de asociación de partners de Microsoft Dynamics CRM

Visual Studio 2008 es el conjunto de herramientas de

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente

CORPORACIÓN MEXICANA DE INVESTIGACIÓN EN MATERIALES, S.A. DE CV

EL SEGURO E INTERNET Impacto limitado

CAPÍTULO II. Gráficos Dinámicos.

CAPÍTULO 1 Instrumentación Virtual

Ventajas del software del SIGOB para las instituciones

Guía de uso del Cloud Datacenter de acens

Qué es SPIRO? Características

Buscadores basados en agentes inteligentes

El importe de las ofertas no podrá exceder de un total de IVA incluido. En este importe se incluirá cualquier otro gasto.

Control del Stock, aprovisionamiento y distribución a tiendas.

Sistema informatizado de Trazabilidad alimentaria

2.1 Clasificación de los sistemas de Producción.

ARC 101 Architecture Overview Diagram

CONCEPTOS DE LA FUERZA

Capítulo 5. Cliente-Servidor.

DOCENTES FORMADORES UGEL 03 PRIMARIA

Utilidades de la base de datos

El almacén de indicadores de proceso de negocio en ejecución

FUENTES SECUNDARIAS INTERNAS

REQUERIMIENTOS DE INGRESO A LOS PROGRAMAS DE EDUCACIÓN PROFESIONAL EN CONTADURÍA (Revisada)

Planes de Gestión Medioambiental en obras

COPPEL MANUAL TÉCNICO MCC DE SISTEMAS PROGRAMACIÓN DESCRIPCIÓN DEL PROCESO DE ARQUITECTURA DE SOFTWARE

MANUAL DE AYUDA MANEJO DE SHAREPOINT CON GOTELGEST.NET

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

M odelo de tutoría virtual (e moderating) de Gilly Salmon 1

Infraestructura Tecnológica. Sesión 12: Niveles de confiabilidad

Xaguar Soluciones PORTALES PORTALES

10775 Administering Microsoft SQL Server 2012 Databases

CAPÍTULO 3 Servidor de Modelo de Usuario

Ejemplo de EVS (v 1.0). 1. Ámbito y alcance del proyecto. 2. Lista de usuarios participantes.

CAPITULO 2 - POR QUÉ NECESITAN LAS EMPRESAS UN CUADRO DE MANDO INTEGRAL?

3.1 INGENIERIA DE SOFTWARE ORIENTADO A OBJETOS OOSE (IVAR JACOBSON)

Usos de los Mapas Conceptuales en Educación

Vicerrectoría Económica Dirección General de Contabilidad

BASES DE DATOS DE INTERÉS EN BIOQUÍMICA

Guía de Planificación Estratégica de la Informática Educativa

Mª Luisa Gutiérrez Acebrón División de Informática y Tecnologías de la Información Ministerio de Justicia

Servidores Donantonio

Nos encargamos del tuyo, tú disfruta

Convergencia, Interoperabilidad y. Fernando González-Llana Gerente de Cuenta AGE T-Systems

understanding documents Digitalización y Captura Inteligente de Documentos

LOGISTICA D E COMPRAS

Workflows? Sí, cuántos quiere?

QUÉ ES UN SERVIDOR Y CUÁLES SON LOS PRINCIPALES TIPOS DE SERVIDORES? (PROXY, DNS, WEB, FTP, SMTP, ETC.) (DV00408A)

UNIVERSIDAD DE SALAMANCA

Práctica del paso de generación de Leads

Windows Server 2012: Infraestructura de Escritorio Virtual

LINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN

Business Process Management(BPM)

Gestión de Permisos. Bizagi Suite. Copyright 2014 Bizagi

Infraestructura Tecnológica. Sesión 8: Configurar y administrar almacenamiento virtual

Importancia de las tecnologías de información en las organizaciones

Haga clic en los recuadros donde indica la mano y regrese al inicio del capítulo al hacer clic en el título de la sección donde se encuentra

Transcripción:

Breve lección de bioinformática (4) Diversidad, heterogeneidad y dispersión ots@ac.uma.es Los grandes volúmenes de datos se citan como una de las características mas relevantes de la bioinformática debido a sus tasas exponenciales de crecimiento. Sin embargo, hoy en día la característica más saltante quizá sea la dispersión, heterogeneidad y diversidad de las fuentes de datos y de los servicios para acceder a ellos y procesarlos. El reto de bioinformática actual está en la integración de esas fuentes de información para dar una visión más completa de los procesos biológicos.

Adquisición masiva de datos La bioinformática ha sido definida como una ciencia rica en datos y ello se debe a que las técnicas de secuenciación han pasado de descifrar la secuencia de un gen a descifrar genomas completos. Pero este efecto no solo se aprecia en las secuencias, sino en rastreo (screening) masivo de mutaciones (SNPs) y en la capacidad de estudiar el comportamiento de miles de genes bajo diferentes condiciones experimentales Las tasas de crecimiento de datos son explosivas, llegándose a duplicar el volumen cada año. Por ello se requieren de los ordenadores para poderlos procesar.

Dispersión y heterogeneidad Pero no solo es una ciencia rica en datos de secuencias, sino que lo es también en diversos tipos de datos (estructuras, expresión, masas de proteínas, rutas metabólicas, interacciones, dominios, etc). Es decir hay gran diversidad de datos. Desafortunadamente ha sido algo caótico y así encontramos que la misma secuencia puede estar almacenada en diferente formato ; y que los sitios donde se encuentran están dispersos alrededor del mundo. Incluso cada laboratorio puede tener su pequeño conjunto de datos. Hoy en día, la dispersión y heterogeneidad de los datos es posiblemente la característica que mejor define la bioinformática. Introducción a la Bioinformática

Bioinformática: trabajo basado en web Debido a esta dispersión de los datos, buena parte de la bioinformática que hacemos se basa en aplicaciones que ejecutan en la web. Cada proveedor de servicios, junto a los datos que desea hacer visibles, expone unos programas (interfases web) que permiten a los usuarios incluir sus datos y solicitar un procesamiento

Diversidad, dispersión, heterogeneidad de los datos y servicios en bioinformática Las iniciativas del tipo Genoma Humano, los avances en tecnologías de alto rendimiento como la secuenciación masiva de ADN, los microarrays de genes, el muestreo masivo de poblaciones, etc. nos han llevado a la aserción común de que la biología molecular es una ciencia rica en datos que crecen a tasas exponenciales. Sin embargo, desde la perspectiva computacional la característica clave de los datos biológicos no es tanto su volumen sino su diversidad, heterogeneidad y dispersión, lo que impide o dificulta la explotación integrada de esta plétora de información. (ver referencias en la siguiente página)

Diversidad, dispersión, heterogeneidad de los datos y servicios en bioinformática Referencias (Acceder a ellas) [1] Collins, F.S., et al. (1998). New goals for the U.S. Human Genome Project. Science 282, 5389, 682-689. [2] Houle et al. (2000), Database mining in the human genome initiative (white paper), http://www.biodatabases.com/whitepaper01.html [3] Venter, J.Craig et al. (2001), The sequence of the human genome, Science, vol 291, Issue 5507, 1304-1351 [4] Schena M, Shalon D, Davis RW, Brown PO (1995), Quantitative monitoring of gene expression patterns with a complementary DNA microarray. Science 1995 Oct 20;270(5235):467-70 [5] Zimdahl, H., et al. (2004) A SNP Map of the Rat Genome generated from cdna sequences, Science Vol 303, Feb 2004 [6] NCBI, National Center for Biotechnology Information (1999) Genebank statistics. http://www.ncbi.nlm.nih.gov/genbank/genbankstats.html [7] Expasy server: Swiss-prot protein knowledgeable statistics: http://ca.expasy.org/sprot/relnotes/relstat.html [8] EBI; European Bioinformatics Institute, Statistics: http://www3.ebi.ac.uk/services/dbstats [9] Genome databases: http://gdbwww.gdb.org/

Diversidad, dispersión, heterogeneidad de los datos y servicios en bioinformática Actualmente existen más de 600 bases de datos biológicas [1] distribuidas, replicadas, en distintos formatos, de diversa calidad, y relacionadas en mayor o menor medida. Esto significa que los mismos conceptos a nivel de datos pueden estar representados de forma diferente. Por ejemplo, el objeto quizá más usado en bioinformática sean las secuencias biológicas, que estrictamente- se define como una cadena ordenada y finita de símbolos del alfabeto de los aminoácidos o de los nucleótidos. Sin embargo, para un usuario puede significar la ficha completa de la secuencia (incluyendo anotaciones), estar en diferentes formatos (fasta, Genbank, EMBL, o incluso nativo), estar codificada en una o tres letras por símbolo, etc.. Este caso es tan frecuente que ya existen procesos especializados que son capaces de transformar diversos tipos de formatos Revise: [1] Infobiogen: Catalog of Databases: http://www.infobiogen.fr/services/dbcat

LOCUS AL009126 4214814 bp circular BCT 10-MAY-1999 ID 100K_RAT STANDARD; PRT; 889 AA. DEFINITION Bacillus subtilis complete genome. AC Q62671; ACCESSION AL009126 DT 01-NOV-1997 (Rel. 35, Created) SOURCE Bacillus subtilis. DT 15-JUL-1999 (Rel. 38, Last annotation update) DE 100 KD PROTEIN (EC 6.3.2.-). ORGANISM Bacillus subtilis OS Rattus norvegicus (Rat). Eubacteria; Firmicutes; Low G+C gram-positive bacteria; Bacillaceae; Bacillus. OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Mammalia; REFERENCE 1 (bases 1 to 4214814) OC Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Rattus. AUTHORS Kunst,F., Ogasawara,N., Moszer,I., RN Albertini,A.M., [1] Alloni,G., Azevedo,V., Bertero,M.G., Bessieres,P., RP SEQUENCE Bolotin,A., FROM N.A. Borchert,S., Borriss,R., Boursier,L., Brans,A., RC Braun,M., STRAIN=WISTAR; TISSUE=TESTIS; TITLE The complete genome sequence of the RX gram-positive MEDLINE; 92253337. bacterium Bacillus subtilis JOURNAL Nature 390 (6657), 249-256 (1997) RA MUELLER D., REHBEIN M., BAUMEISTER H., RICHTER D.; FEATURES Location/Qualifiers RT "Molecular characterization of a novel rat protein structurally RT related to poly(a) binding proteins and the 70K protein of the U1 source 1..4214814 RT small nuclear ribonucleoprotein particle (snrnp)."; /organism="bacillus subtilis" Introducción a la Bioinformática /db_xref="taxon:1423" gene 410..1750 /gene="dnaa" /db_xref="embl:2632267" CDS 410..1750 /gene="dnaa" Genbank /function="initiation of chromosome CC THEN replication DIRECTLY TRANSFERS (DNA THE synthesis)" UBIQUITIN TO TARGETED SUBSTRATES (BY CC SIMILARITY). THIS PROTEIN MAY BE INVOLVED IN MATURATION AND/OR /note="alternate gene name: dnah, dnaj, dnak" CC POST-TRANSCRIPTIONAL REGULATION OF MRNA. /codon_start=1 CC ---------------------------------------------------------------------- /transl_table=11 CC This SWISS-PROT entry is copyright. It is produced through... /protein_id="cab11777.1" CC --------------- ------------------------------------------------------- /db_xref="gi:2632268" DR EMBL; X64411; CAA45756.1; -. /translation="menildlwnqalaqiekklskpsfetwmkstkahslqgdtlti DR PFAM; PF00632; HECT; 1. gene 1939..3106 /gene="dnan... RL Nucleic Acids Res. 20:1471-1475(1992). RN [2] RP ERRATUM. RA MUELLER D., REHBEIN M., BAUMEISTER H., RICHTER D.; RL Nucleic Acids Res. 20:2624-2624(1992). CC -!- FUNCTION: E3 UBIQUITIN-PROTEIN LIGASE WHICH ACCEPTS UBIQUITIN FROM CC AN E2 UBIQUITIN-CONJUGATING ENZYME IN THE FORM OF A THIOESTER AND DR PFAM; PF00658; PABP; 1. APNEFARDWLESRYLHLIADTIYELTGEELSIKFVIPQNQDVEDFMPKPQVKKAVKED KW Ubiquitin conjugation; Ligase. TSDFPQNMLNPKYTFDTFVIGSGNRFAHAASLAVAEAPAKAYNPLFIYGGVGLGKTHL FT DOMAIN 77 88 ASP/GLU-RICH (ACIDIC). MHAIGHYVIDHNPSAKVVYLSSEKFTNEFINSIRDNKAVDFRNRYRNVDVLLIDDIQF DOMAIN 127 150 PRO-RICH. FT DOMAIN 579 590 ASP/GLU-RICH (ACIDIC). LAGKEQTQEEFFHTFNTLHEESKQIVISSDRPPKEIPTLEDRLRSRFEWGLITDITPP FT BINDING 858 858 UBIQUITIN (BY SIMILARITY). DLETRIAILRKKAKAEGLDIPNEVMLYIANQIDSNIRELEGALIRVVAYSSLINKDIN SQ SEQUENCE 889 AA; 100368 MW; DD7E6C7A CRC32; LSREMTDSSLPKIGEEFGGRDHTTVIHAHEKISKLLADDEQLQQHVKEIKEQLK MMSARGDFLN YALSLMRSHN DEHSDVLPVL DVCSLKHVAY VFQALIYWIK AMNQQTTLDT PQLERKRTRE LLELGIDNED SEHENDDDTS QSATLNDKDD ESLPAETGQN HPFFRRSDSM VYEYVRKYAE HRMLVVAEQP LHAMRKGLLD VLPKNSLEDL TAEDFRLLVN GCGEVNVQML ISFTSFNDES GENAEKLLQF KRWFWSIVER MSMTERQDLV YFWTSSPSLP ASEEGFQPMP SITIRPPDDQ HLPTANTCIS RLYVPLYSSK QILKQKLLLA IKTKNFGFV // SwissProt- EMBL Formato de los datos Incluso en los sitios de referencia (u oficiales) como el EMBL, NCBI o el EBI, mantienen para el mismo tipo de datos (secuencias biológicas en el ejemplo) distinto formato (GenBank, EMBL/Swissprot), ; lo que dificulta tanto la interpretación humana como la automatización.

Ontologías Para podernos referir a los mismos objetos biológicos, con independencia del lugar y formato en que se encuentren almacenados necesitamos un esquema de referencia superior a ellos: una ontología de datos, en el que se establezca su significado semántico y la cual podamos usar como referencia general para integrar datos provenientes de distintas fuentes.

Arquitecturas para la integración de datos, servicios y capacidad de cálculo Para poder usar los datos y los servicios de forma uniforme se necesitan arquitecturas de integración que permitan que, servicios web existentes y de nueva creación- que hospeden datos, herramientas y/o oferten capacidad computacional a la comunidad científica en el contexto de la bioinformática puedan: Disponer de un esquema común de representación de datos que permita la identificación (i.e. sintaxis compartida) y mantenimiento de un conjunto disperso y heterogéneo de datos para facilitar su integración. Disponer de un esquema que permita el entendimiento automático del significado de los datos (i.e.semántica compartida) Proporcionar métodos de acceso manuales y automáticos para la identificación de datos relacionados y servicios apropiados (i.e. infraestructura de identificación de recursos) que permita la interoperabilidad de los recursos vía la semántica compartida soportada por una sintaxis común. Estas arquitecturas deben permitir la ejecución integrada de servicios, entendiéndose por ello la capacidad de los servicios para entender los datos provenientes de otros servicios y poder actuar coherentemente sobre ellos de forma automática.

Flujos de tareas: Una nueva forma de hacer bioinformática Las arquitecturas de integración nos deben permitir la definición de flujos de tareas mediante el cableado de distintos servicios que proporcionen una visión más completa de los procesos biológicos bajo estudio. La integración de datos incluye las fuentes bibliográficas en lo que se ha dado en llamar text mining así como las diversas fuentes de datos tradicionales que hemos visto.

La versión ampliada de este tema se encuentra en los apuntes del Módulo 1:Breve lección de bioinformática, accesibles a través de la plataforma Web de aprendizaje virtual de la UNIA. Estos temas además forman el núcleo de la formación que ofrece este curso y por tanto serán desarrollados en detalle en los siguientes módulos. Consulta estos materiales para completar tus conocimientos