Introducción a la Bioinformática Gene prediction
|
|
- Guillermo Méndez Cabrera
- hace 8 años
- Vistas:
Transcripción
1 Introducción a la Bioinformática Gene prediction Bioinformática - curso de posgrado Instituto de Investigaciones Biotecnológicas UNSAM
2 Gene prediction Qué significa buscar/predecir genes? Dada una secuencia de DNA no caracterizada, encontrar: qué región codifica para una proteína que hebra codifica el gen cuál es el marco de lectura donde comienza y termina el gen donde comienza y termina un intron/exon (euk) (opcional) donde se encuentran las regiones regulatorias del gen
3 Procariotas vs Eucariotas Procariotas Genomas pequeños Alta densidad de genes Sin intrones Identificación de genes relativamente simple (~99%) Eucariotas Genomas grandes Baja densidad de genes Intrones y exones Identificación de genes es un problema complejo (~50%) Problemas ORFs solapados genes cortos encontrar promotores y TSS Problemas muchos
4 Estructura de los genes
5 Gene finding: distintas estrategias Métodos basados en similitud de secuencias (extrínsecos) Usan similitud con secuencias anotadas: proteínas cdnas ESTs Genómica comparativa Alinear secuencias genómicas de distintas especies Ab initio gene finding (intrínseco) Estrategias que integran los anteriores
6 Métodos basados en similitud Usan herramientas de alineamiento local (SW, BLAST, FASTA) para buscar proteínas, cdna y ESTs No identifica genes que no estén en bases de datos (identifica sólo ~50%) Los límites de las regiones de similitud no están bien definidas
7 Similitud contra ESTs y cdnas Gran cantidad de ESTs disponibles. En vertebrados hay una gran cobertura Los cdnas y algunos ESTs cubren más de un exon detección precisa de los límites intron/exon 1-5% de los EST s contienen intrones (splicing incompleto)
8 Bacterial gene prediction: ORFs Para genes procarióticos las técnicas más simples se basan en identificación de marcos de lectura abiertos (ORFs) Los ORFs se utilizan en búsquedas contra bases de datos de proteínas (blastx) Esto usualmente basta para cubrir densamente un genoma bacteriano Genes codificantes de trnas y rrnas se detectan por separado usando trnascan o blastn
9 Gene prediction: ORFs NCBI ORF Finder
10 Gene prediction: ORFs NCBI ORF Finder
11 Genómica comparativa Se basa en la suposición de que las secuencias codificantes están más conservadas que las nocodificantes Dos estrategias: intra-genómica (familias de genes) inter-genómica (cross-species) Alineamiento de regiones homólogas Difícil delinear los límites de similitud Difícil definir una distancia evolutiva óptima (la conservación difiere entre loci)
12 Genómica comparativa
13 Resumen métodos extrínsecos Pros Se basan en información biológica pre-existente, deberían producir predicciones relevantes Contras Limitado a información biológica pre-existente Errores en las bases de datos Difícil definir los límites de un gen en base a similitud Es más rápido correr un programa de predicción ab initio que comparar contra GenBank usando blastx!
14 ab initio gene finding Input: una cadena de DNA {A,C,G,T} Output: una anotación de la cadena que diga para cada nucleótido, si es codificante o no Usando sólo información de secuencia AAAGCATGCATTTAACGAGTGCATCAGGACTCCATACGTAATGCCG Gene finder AAAGC ATG CAT TTA ACG A GT GCATC AG GA CTC CAT ACG TAA TGCCG (6,39), (101,256), (325,407),
15 ab initio gene finding Qué se busca? Información que permita identificar genes Estructura regular Longitud de exones/intrones Composición de nucleótidos Señales biológicas Ejemplo de estructura regular:
16 Tipos de exones Se definen 3 tipos de exones, por conveniencia: exones iniciales, se extienden desde un codon de inicio hasta el primer sitio dador de splicing exones internos se extienden desde un sitio aceptor hasta el próximo sitio dador de splicing exones finales se extienden desde el último sitio aceptor hasta el codon stop single exons (sólo ocurren en genes intronless) se extienden desde un codon de inicio hasta el codon stop
17 Métodos estadísticos Se basan en medidas de distintos estimadores a partir de la secuencia Ejemplo: Análisis de la secuencia en los 6 marcos de lectura Distribución de codones de inicio y stop Selección del marco con menor número (densidad) de stops
18 Secuencias codificantes: propiedades Una característica universal presente en cualquier genoma es el uso desigual de codones en las regiones codificantes uso desigual de aminoácidos en proteínas uso desigual de codones sinónimos (se correlaciona con la abundancia de los trnas correspondientes) Podemos usar esta característica para diferenciar entre regiones codificantes y no codificantes del genoma Coding statistics: función que para una dada secuencia de DNA calcula la posibilidad de que la secuencia sea codificante
19 Coding statistics / Feature sensing Señales / Signals Cortas, de longitud definida: codones START, STOP, sitios de splicing Regiones con contenido biológico Regiones de longitud variable: exones, intrones Como medir/sensar estos dos tipos de features? Señales: scanear la secuencia (sliding window) Contenido: asignar un score para regiones entre señales Cómo caracterizar regiones de longitud variable? uso de codones (CUTG) frecuencia de hexámeros (hexamer) Azar/No-azar (testcode) contenido de GC periodicidad de nucleótidos
20 Predicción del codon de inicio Ciertos nucleótidos prefieren ciertas posiciones alrededor de un codon de inicio ATG A C G T Esta desviación de la distribución al azar es información! Cuál de estas dos secuencias tiene mayor probabilidad de ser un codon de inicio? CACCATGGC TCGAATGTT
21 Como evaluar sitios informativos Matemáticamente F i (X): frecuencia del residuo X (A,C,G,T) en la posición i El puntaje de una cadena de ADN (ej: CACCATGGC) se calcula como: log ( F i /(X) / 0.25) A C G T ATG CACCATGGC: log(58/0.25) + log(49/0.25) + log(40/0.25) + log(50/0.25) + log(43/0.25) + log(39/0.25) = TCGAATGTT: log(6/0.25) + log(6/0.25) + log(15/0.25) + log(16/0.25) + log(13/0.25) + log(14/0.25) = 9.8
22 Bacterial gene structure Transcription factor binding site. Promoters Termination 35 sequence (T82T84G78A65C54A45) bases 10 sequence (T80A95T45A60A50T96) 5-9 bases Start of transcription : initiation start: Purine (sometimes it s the A in CAT) Translation binding site (shine-dalgarno) 10 bp upstream of AUG (AGGAGG) One or more Open Reading Frames start-codon (unless sequence is partial) until next in-frame stop codon on that strand Separated by intercistronic sequences
23 Bacterial gene structure
24 Signal sensors Signal - una región en el ADN reconocida por la maquinaria celular
25 Signal sensors
26 Secuencias consenso Ejemplo: obtenidas por selección de la base más frecuente en cada posición de un alineamiento múltiple Producen pérdida de la información Pueden producir muchos falsos positivos o falsos negativos Consenso Consenso IUPAC TACGAT TATAAT TATAAT GATACT TATGAT TATGTT TATAAT TATRNT
27 Matrices Positional weight matrix Se calcula midiendo la frecuencia de cada elemento para cada posición en el sitio El score para cada sitio putativo es la suma de los valores de la matriz (convertidos en probabilidades) para esa secuencia Desventajas Se necesita un cut-off value supone independencia entre bases adjacentes TACGAT TATAAT TATAAT GATACT TATGAT TATGTT A C G T
28 Codon usage Tablas de uso de codones
29 Codon usage plots b-globin gene
30 Codon Usage Database Codon Usage Database Derivada de secuencias codificantes de DDBJ/EMBL/GenBank
31 Testcode Fickett, 1982 Evalúa el azar posicional en una secuencia en secuencias codificantes, la tercera base tiende a ser la misma con más frecuencia que la esperada por azar (non-random) Esto es debido al uso preferencial de ciertos codones Es una propiedad universal testcode (GCG), testcode (perl)
32 Cómo se integra todo esto? Coding statistics y signal sensors se integran en un modelo global usando machine learning (HMMs, árboles de decisión, redes neurales) discriminant analysis (distintas funciones: lineales, cuadráticas) Son capaces de predecir genes en ambas hebras simultáneamente genes parciales o muchos gernes en una secuencia exones subóptimos
33 Generalized Hidden Markov Model En cada uno de los estados hay un sensor El sensor evalúa la probabilidad de que la secuencia de ADN se encuentre en ese estado. Content Signal September 17, 2012
34 HMMs Nucleótidos {A,C,G,T} son las observaciones Diferentes estados generan nucleótidos con distintas frecuencias Un HMM simple para genes sin intrones: AAAGC ATG CAT TTA ACG AGA GCA CAA GGG CTC TAA TGCCG La secuencia de estados es una anotación de la cadena generada. Cada nucleótido se genera en un estado: intergénico, start/stop o codificante.
35 HMMs Estructura exon/intron modelada por un HMM Modelo simple que no incluye estados para señales de splicing, etc Intron Exon Intron E I Exon Intron
36 Un ejemplo simple de HMM Reconocimiento de sitio de splicing aceptor 5 3 estados Probabilidades de emisión Probabilidades de transición Modo emisión Genera secuencia El camino está escondido Modo analítico Dada una secuencia Encontrar el mejor camino P(S, HMM,Θ) La probabilidad de que un HMM con Θ parámetros y un camino genere una secuencia S dada es el producto de todas las probabilidades usadas What is a Hidden Markov Model? S Eddy. Nature Biotechnology 22: 1315 (2004)
37 Un ejemplo simple de HMM: cont. Encontrar el mejor camino Enumerarlos todos, calculando las probabilidades correspondientes Computacionalmente intensivo O usar un método más inteligente Dynamic Programming Viterbi algorithm
38 Combinar varios scores Discriminant analysis Linear discriminant analysis: simplemente suma todos los scores y produce un score único O una probabilidad de que la predicción sea correcta dado un determinado score En general se ponderan diferencialmente los scores, para obtener mejores predicciones P(true) score cutoff
39 Combinar varios scores Quadratic Discriminant analysis (usado en MZEF) funciones discriminantes lineal no-lineal
40 Combinar varios scores Usando una red neural (Grail)
41 Gene parses: ORF graphs Parse = analizar sintácticamente Luego de identificar señales en una región genómica, podemos usar las reglas sintácticas para construir un gen Conectando señales en un ORF graph El grafo representa todos los gene parses posibles (c/u tiene un score) Un camino a través del grafo es un gene parse
42 Como encontrar el mejor gene parse? Encontrar el mejor camino entre varios posibles Algoritmos?
43 Algunos ejemplos FGENES función discriminante lineal para contenido y signal sensors y dynamic programming para encontrar la combinación óptima de exones GeneMark HMMs combinados con reconocimiento de RBS Genie redes neurales para splicing, HMMs para coding sensors. La estructura final se modela con un HMM Genscan weight matrix y árboles de decisión como signal sensors. HMMs como sensores de contenido. HMM para el modelo final MZEF función discriminante cuadrática, predice sólo exones internos
44 Genscan Desarrollado en 1997 por Chris Burge (MIT) Uno de los gene finders (ab initio) más precisos Modela en forma explícita la duración dentro de los estados del HMM (distintas longitudes de exones) El modelo tiene distintos parámetros para regiones con distinto contenido de GC HMMs para exones, intrones e intergénicos Weight Matrix para sitios de splicing (acceptor, branch point), polya y promotores Decision trees para sitio donor de splicing
45 Predecir genes ab initio es difícil Genes separados por regiones intergénicas largas Genes no son continuos, están partidos en regiones codificantes pequeñas, separadas por regiones no codificantes más largas Las señales (secuencias) esenciales para la identificación de la estructura de un gen son degeneradas y altamente inespecíficas Splicing alternativo Elementos repetitivos: algunos contienen regiones codificantes
46 Problemas No cuentan con evidencia biológica En secuencias largas, puede haber muchos falsos positivos (overprediction) La precisión de las predicciones es alta, pero no es suficiente
47 Evaluación de los resultados Evaluar la precisión de las predicciones Varios estudios Burset & Guigó (1996), genes de vertebrados Pavy et al. (1999), Arabidopsis Rogic et al. (2001), genes de mamíferos Todos necesitan un set de datos (test) validado experimentalmente genes para los cuales se conoce exactamente la estructura (promotor/exones/intrones) y formas de splicing
48 Evaluación de los resultados Al nivel de la secuencia TN FN TP FP TN FN TP FN TN REALITY PREDICTION Sensibilidad Sn TP TP FN No de exones correctos No total de exones reales Especificidad Sp TP TP FP No de exones correctos No total predicciones de exones
49 Evaluación de los resultados Al nivel de los exones Incorrect Correct Missing Reality Prediction Sensibilidad ESn C ER No de exones correctos No total de exones reales Especificidad ESp C TP No de exones correctos No total predicciones de exones
50 Evaluación de resultados Rogic et al., 2001 Generación de un nuevo set de datos para validación HMR195 Características de las secuencias human - mouse - rat DNA genómico relativamente cortos tomados de GenBank Un gen por secuencia Se excluyeron secuencias que fueron utilizadas para entrenar a los distintos programas
51 Evaluación de los resultados Filtrado Codones START y STOP canónicos Sitios de splicing canónicos (AG - GT) Dataset no redundante: secuencias similares eliminadas Confirmación de localización de exones por alineamiento con mrna
52 Resultados
53 Verificación adicional Evaluación de los resultados en función de la secuencia y de las características de la predicción contenido de GC longitud de exones tipo de exones tipo de exones y señales presentes probabilidad de exones y scores especificidad filogenética
54 Estrategias integradoras Algunos programas integran análisis de similitud con métodos ab initio GenomeScan, FGENESH+, Procrustes Algunos programas utilizan la sintenía entre organismos (comparative genomics) Rosetta, SLAM Combinar predicciones de diferentes programas (combination of experts, wisdom of crowds)
55 Cómo combinar las predicciones? Hay que usar un método Burset & Guigó (1996) Investigaron la correlación entre 9 programas de gene finding 99% de los exones encontrados por todos los programas eran correctos 1% de los exones no fueron detectados por ningún programa Murakami & Tagaki (1998) 5 métodos para combinar las predicciones de 4 programas
56 Métodos: AND vs OR exon 1 exon 2 unión intersección
57 Combinar Genscan y HMMgene Son los mejores candidatos: alta precisión de las predicciones Genscan HMMgene Genscan predice el 77% de los exones correctamente HMMgene el 75% Ambos el 87%
58 Métodos: EUI (exon union/intersection) Unión en exones con p 0.75 Intersección en exones con p < 0.75 Regla especial para exones iniciales
59 Métodos: GI (gene intersection) Aplicar método EUI a exones que pertenezcan en forma completa a genes GI
60 Métodos: EUI frame EUI + reading frame consistency Asigna probabilidades a los genes GI. Determina la posición de sitios aceptores y donores en un marco de lectura El gene GI con la más alta probabilidad impone el marco de lectura. Elige los exones EUI contenidos en genes GI que se encuentran en el marco de lectura elegido
61 Resumen métodos de integración Para el dataset HMR195 Sp incrementada 3.2% Esn incrementada 2.6% Esp incrementada 11.7% El número de exones incorrectos decrece significativamente!
62 Recordar La mayoría de los métodos ab initio se entrenan sobre secuencias particulares van a funcionar mejor en la predicción de genes similares a los del set de entrenamiento Muchos métodos tienen un requerimiento absoluto de predicción de un comienzo y fin concreto para un gen van a cometer errores frente a genes truncados o multiples genes Exsiten genes que no tienen una estructura canónica NTT (non-coding transcript in T cells), IPW (involucrada en imprinting y asociada al síndrome Prader-Willi) no pueden ser detectados por ningún método actual
63 Recordar: Bases/Suposiciones de los métodos No se detectan genes solapados No se detectan genes anidados No se aceptan frame shifts o errores de secuencia Generalmente se anota/predice el parse óptimo Dificil predecir splicing alternativo No se aceptan codones de inicio partidos (ATGT..AGG) No se aceptan codones de stop partidos (TGT..AGGA) No se acepta TGA como codon para selenocisteina No se aceptan bases ambiguas (Y, R, N, etc.) September 17, 2012
Predicción computacional de genes (Gene finding)
Predicción computacional de genes (Gene finding) Predicción de genes (Gene finding) El genoma humano tiene 3.2 GB de nucleótidos, y poco más de 20.000 genes ccgtacgtacgtagagtgctagtctagtcgtagcgccgtagtcgatcgtgtgggt
ANÁLISIS DE DATOS NO NUMERICOS
ANÁLISIS DE DATOS NO NUMERICOS ESCALAS DE MEDIDA CATEGORICAS Jorge Galbiati Riesco Los datos categóricos son datos que provienen de resultados de experimentos en que sus resultados se miden en escalas
Enfermedad Mendeliana. Búsqueda en bases de datos con proteínas homólogas. Clonaje in silico del gen. Gen candidato
Enfermedad Mendeliana Defecto determinado por métodos bioquímicos Sin pistas bioquímicas Identificación proteína Clonaje funcional del gen Búsqueda en bases de datos con proteínas homólogas Clonaje in
UPR RECINTO DE RÍO PIEDRAS FACULTAD DE CIENCIAS NATURALES DEPARTAMENTO DE BIOLOGÍA LABORATORIO DE BIOTECNOLOGÍA (BIOL. 3365)
UPR RECINTO DE RÍO PIEDRAS FACULTAD DE CIENCIAS NATURALES DEPARTAMENTO DE BIOLOGÍA LABORATORIO DE BIOTECNOLOGÍA (BIOL. 3365) Análisis del gen AmyE mediante el uso de herramientas de bioinformática A. Objetivos
Introducción a la Bioinformática Centro de Bioinformática Instituto de Biotecnología Universidad Nacional de Colombia
Introducción a la Bioinformática Centro de Bioinformática Instituto de Biotecnología Universidad Nacional de Colombia Andrés M. Pinzón cphd - Universidad de los Andes 7'000.000 de habitantes Capital Mundial
Curso Comparabilidad de resultados
Curso Comparabilidad de resultados Director: Gabriel A. Migliarino. Docente: Evangelina Hernández. Agenda Introducción. n. Protocolos iniciales de comparación de métodos. m * EP9-A2. CLSI. * Comparación
Genómica y transcriptómica para la generación de datos en Evolución
recuadro Genómica y transcriptómica para la generación de datos en Evolución Gabriela Bedó Genómica. Sus objetivos Compilar todas las secuencias de un organismo Establecer la localización de los genes
Instituto de Biomedicina y Biotecnología de Cantabria (IBBTEC) SERVICIO DE SECUENCIACIÓN MASIVA
1. DESCRIPCIÓN DEL SERVICIO El servicio de Secuenciación Masiva tiene como finalidad el proporcionar asesoramiento y soporte técnico a los grupos de investigación interesados en realizar proyectos de ultrasecuenciación.
ÁRBOL DE PROBLEMA Y ÁREAS DE INTERVENCIÓN
METODOLOGIAS E INSTRUMENTOS PARA LA FORMULACIÓN, EVALUACIÓN Y MONITOREO DE PROGRAMAS SOCIALES ÁRBOL DE PROBLEMA Y ÁREAS DE INTERVENCIÓN Rodrigo Martínez Andrés Fernández Documento de uso exclusivo para
SISTEMAS INTELIGENTES
SISTEMAS INTELIGENTES T11: Métodos Kernel: Máquinas de vectores soporte {jdiez, juanjo} @ aic.uniovi.es Índice Funciones y métodos kernel Concepto: representación de datos Características y ventajas Funciones
Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007
Enunciado Se desea efectuar el testing funcional de un programa que ejecuta transferencias entre cuentas bancarias. El programa recibe como parámetros la cuenta de origen, la de cuenta de destino y el
Control de Calidad en Laboratorios
Metodos de control de calidad en laboratorios Funcionar bien en las pruebas de suficiencia (homologación). Funcionar bien en los ensayos de colaboración Un aspecto importante del sistema de gestión de
Tutorial - Parte 2: Scoring
Introducción Tutorial - Parte 2: Scoring En este segundo tutorial aprenderá lo que significa un modelo de Scoring, verá cómo crear uno utilizando Powerhouse Analytics y finalmente a interpretar sus resultados.
Genoma y Ensamblado Seminario de Modelos y Métodos cuantitativos (Bioinformática)
Genoma y Ensamblado Seminario de Modelos y Métodos cuantitativos (Bioinformática) Rodrigo Fernández Cristián Maureira Gabriel Zamora Universidad Técnica Federico Santa María 18 de noviembre de 2010 Genoma
Introducción al @RISK
Introducción al @RISK Ariadna Berger Noviembre 2004 Introducción al @RISK El análisis de riesgo implica cuatro etapas: Desarrollo del modelo Identificación de las fuentes de riesgo Análisis con simulación
TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones.
TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones. La herramienta que nos indica si el proceso está o no controlado o Estado de Control son
Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción. www.fundibeq.org
DIAGRAMA MATRICIAL 1.- INTRODUCCIÓN Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción. Muestra su potencial, como herramienta indispensable para la planificación
1.1. Introducción y conceptos básicos
Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................
Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322
Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción
Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología
Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología La metodología para el desarrollo de software es un modo sistemático de realizar, gestionar y administrar un proyecto
DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT
DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT REACCIONES ADVERSAS DE LOS MEDICAMENTOS Los fármacos por naturaleza
SISTEMAS DE INFORMACIÓN II TEORÍA
CONTENIDO: EL PROCESO DE DISEÑO DE SISTEMAS DISTRIBUIDOS MANEJANDO LOS DATOS EN LOS SISTEMAS DISTRIBUIDOS DISEÑANDO SISTEMAS PARA REDES DE ÁREA LOCAL DISEÑANDO SISTEMAS PARA ARQUITECTURAS CLIENTE/SERVIDOR
Estimación de una probabilidad
Estimación de una probabilidad Introducción En general, la probabilidad de un suceso es desconocida y debe estimarse a partir de una muestra representativa. Para ello, deberemos conocer el procedimiento
2 Congreso Colombiano de Bioinformática y biología computacional.
2 Congreso Colombiano de Bioinformática y biología computacional. Presentación y evaluación de ABMS (Automatic Blast for Massive Annotation) Nelson Perez nelsonp@correo.udistrital.edu.co Cristian Rojas
Instituto de Biomedicina y Biotecnología de Cantabria (IBBTEC) SERVICIO DE SECUENCIACIÓN MASIVA
1. DESCRIPCIÓN DEL SERVICIO El servicio de Secuenciación Masiva tiene como finalidad el proporcionar asesoramiento y soporte técnico a los grupos de investigación interesados en realizar proyectos de ultrasecuenciación.
Práctica 2: Alineamiento múltiple e Identificación y búsqueda de Motivos.
Introducción a la Bioinformática Práctica 2: Alineamiento múltiple e Identificación y búsqueda de Motivos. El alineamiento múltiple es una de las técnicas bioinformáticas más usadas, ya que por medio de
Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.
Diagrama de Flujo La presentación gráfica de un sistema es una forma ampliamente utilizada como herramienta de análisis, ya que permite identificar aspectos relevantes de una manera rápida y simple. El
Módulo Presupuesto SP 3.0
Módulo Presupuesto SP 3.0 Versión 3.14.001 06/2008 Contenido 1. GESTION DE COMPOSICIONES (desde Datos Básicos)... 3 1.1. Crear composiciones (tarjetas) partiendo de un registro vacío... 3 1.2. Crear composiciones
8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión...
Tema 8 Análisis de dos variables: dependencia estadística y regresión Contenido 8.1. Introducción............................. 1 8.2. Dependencia/independencia estadística.............. 2 8.3. Representación
Parte I: Introducción
Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one
Entender el funcionamiento de los relojes permitiría lidiar con ciertas patologías en humanos. 28 ACTUALIDAD EN I+D RIA / Vol. 41 / N.
28 ACTUALIDAD EN I+D RIA / Vol. 41 / N.º 1 Entender el funcionamiento de los relojes permitiría lidiar con ciertas patologías en humanos Abril 2015, Argentina 29 Relojes biológicos en plantas Ajustar el
TransUnion República Dominicana. Preguntas frecuentes sobre los modelos de score de TransUnion
TransUnion República Dominicana Preguntas frecuentes sobre los modelos de score de TransUnion Los modelos de score de TransUnion El siguiente es un resumen para ayudarle a entender mejor cómo se puede
Seminario Bioinformática: The ten most wanted solutions in protein bioinformatics. Problem 1
Seminario Bioinformática: The ten most wanted solutions in protein bioinformatics. Problem 1 Gloria Inés Alvarez V. Departamento de Ciencias e Ingeniería de la Computación Pontificia Universidad Javeriana
Matemáticas 2º BTO Aplicadas a las Ciencias Sociales
Matemáticas 2º BTO Aplicadas a las Ciencias Sociales CONVOCATORIA EXTRAORDINARIA DE JUNIO 2014 MÍNIMOS: No son contenidos mínimos los señalados como de ampliación. I. PROBABILIDAD Y ESTADÍSTICA UNIDAD
Data Mining Técnicas y herramientas
Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos
CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)
CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE
TEORÍA CLÁSICA DE MEDICIÓN TC Y TEORÍA DE RESPUESTA AL ITEM TRI
TEORÍA CLÁSICA DE MEDICIÓN TC Y TEORÍA DE RESPUESTA AL ITEM TRI UNIVERSIDAD DE CHILE VICERRECTORÍA DE ASUNTOS ACADÉMICOS Departamento de Evaluación, Medición y Registro Educacional DEMRE ABRIL DE 2005
2014 Néstor A. Jiménez J. Derechos reservados. Celular 3155003650
Diplomado Práctico en NORMAS INTERNACIONALES DE INFORMACIÓN FINANCIERA (NIIF) Tema 24: Estados financieros separados NIC 27 Estados financieros consolidados NIIF 10 Estados financieros separados y consolidados
PRIMAVERA RISK ANALYSIS
PRIMAVERA RISK ANALYSIS CARACTERÍSTICAS PRINCIPALES Guía de análisis de riesgo Revisión del programa Plantilla de riesgo instantáneo Asistente para registro de riesgo Registro de riesgo Análisis de riesgo
ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos
Descargado desde www.medwave.cl el 13 Junio 2011 por iriabeth villanueva Medwave. Año XI, No. 2, Febrero 2011. ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos Autor:
Covarianza y coeficiente de correlación
Covarianza y coeficiente de correlación Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también
Tema 1: Test de Distribuciones de Probabilidad
Tema 1: Test de Distribuciones de Probabilidad 1.- Una compañía de seguros tiene 1000 asegurados en el ramo de accidentes. Si la el modelo mejor para el número de siniestros en un año es: a) Normal (5;,3).
GUÍA RÁPIDA DEL PROCESO DE IDENTIFICACIÓN Y ANÁLISIS FILOGENÉTICO DE RECURSOS GENÉTICOS, BASADO EN LA COMPARACIÓN DE SECUENCIAS DE ADN.
1 GUÍA RÁPIDA DEL PROCESO DE IDENTIFICACIÓN Y ANÁLISIS FILOGENÉTICO DE RECURSOS GENÉTICOS, BASADO EN LA COMPARACIÓN DE SECUENCIAS DE ADN. CASO PARTICULAR DE BACTERIAS. Programas CHROMAS, DNA Star, EZ-TAXON,
TEMA 2: Representación de la Información en las computadoras
TEMA 2: Representación de la Información en las computadoras Introducción Una computadora es una máquina que procesa información y ejecuta programas. Para que la computadora ejecute un programa, es necesario
Credit scoring. por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar)
Credit scoring por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar) En base a que los bancos modernos otorgan tarjetas de crédito y créditos personales o los niegan? Qué límite de crédito le
Enfoque del Marco Lógico (EML)
Enfoque del Marco Lógico (EML) Qué es el EML? Es una herramienta analítica que se utiliza para la mejorar la planificación y la gestión de proyectos tanto de cooperación al desarrollo como de proyectos
TABLA DE DECISION. Consideremos la siguiente tabla, expresada en forma genérica, como ejemplo y establezcamos la manera en que debe leerse.
TABLA DE DECISION La tabla de decisión es una herramienta que sintetiza procesos en los cuales se dan un conjunto de condiciones y un conjunto de acciones a tomar según el valor que toman las condiciones.
Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.
Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. 2.1 Revisión sistema reconocimiento caracteres [9]: Un sistema de reconocimiento típicamente esta conformado por
Primera Aproximación para un Instrumento de Cernimiento de Autismo y de Validación en Puerto Rico
Primera Aproximación para un Instrumento de Cernimiento de Autismo y de Validación en Puerto Rico Yahaira I. Rosario Morales, Dr. Luis R. Pericchi Guerra, colaboración del personal de FILIUS y el Dr. Linares
NORMA INTERNACIONAL DE AUDITORÍA 520
NORMA INTERNACIONAL DE AUDITORÍA 520 PROCEDIMIENTOS ANALíTICOS (En vigor para auditorías de estados financieros por periodos que comiencen en, o después del, 15 de diciembre de 2004)* CONTENIDO Párrafo
CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de
CAPITULO 4 JUSTIFICACION DEL ESTUDIO En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de estudios previos y los alcances que justifican el presente estudio. 4.1. Justificación.
ANÁLISIS DISCRIMINANTE
ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE 1. Introducción 2. Etapas 3. Caso práctico Análisis de dependencias introducción varias relaciones una relación 1 variable dependiente > 1 variable dependiente
ANÁLISIS DINÁMICO DEL RIESGO DE UN PROYECTO
ANÁLISIS DINÁMICO DEL RIESGO DE UN PROYECTO Por: Pablo Lledó Master of Science en Evaluación de Proyectos (University of York) Project Management Professional (PMP) Profesor de Project Management y Evaluación
Medidas de tendencia central o de posición: situación de los valores alrededor
Tema 10: Medidas de posición y dispersión Una vez agrupados los datos en distribuciones de frecuencias, se calculan unos valores que sintetizan la información. Estudiaremos dos grandes secciones: Medidas
Modelos de Puntuación Puntaje de Originación
Modelos de Puntuación Puntaje de Originación 1 INTRODUCCIÓN Concepto y Objetivo Mecanismo de Puntaje de Originación 2 Concepto y Objetivo Puntaje de Originación o de Solicitud Es la conversión de información
LA MEDIDA Y SUS ERRORES
LA MEDIDA Y SUS ERRORES Magnitud, unidad y medida. Magnitud es todo aquello que se puede medir y que se puede representar por un número. Para obtener el número que representa a la magnitud debemos escoger
Métodos y Diseños utilizados en Psicología
Métodos y Diseños utilizados en Psicología El presente documento pretende realizar una introducción al método científico utilizado en Psicología para recoger información acerca de situaciones o aspectos
Análisis de secuencias. Patrones, perfiles y dominios.
Análisis de secuencias. Patrones, perfiles y dominios. Curso de verano de Bioinformática y Biología Computacional de la UCM, Madrid 2004 Federico Abascal Museo Nacional de Ciencias Naturales Recordatorio
Índice de contenidos INTRODUCCIÓN... 1 OBJETIVOS... 5 HIPÓTESIS... 5 MARCO TEÓRICO... 6. Genes superpuestos... 6
Índice de contenidos INTRODUCCIÓN... 1 OBJETIVOS... 5 HIPÓTESIS... 5 MARCO TEÓRICO... 6 Genes superpuestos... 6 Marcos de lectura abiertos (Open Reading Frame, ORFs) alternativos... 7 MATERIALES Y MÉTODOS...
CRM Gestión de Oportunidades Documento de Construcción Bizagi Process Modeler
Bizagi Process Modeler Copyright 2011 - Bizagi Tabla de Contenido CRM- Gestión de Oportunidades de Venta... 4 Descripción... 4 Principales Factores en la Construcción del Proceso... 5 Modelo de Datos...
UNIDADES DE ALMACENAMIENTO DE DATOS
1.2 MATÉMATICAS DE REDES 1.2.1 REPRESENTACIÓN BINARIA DE DATOS Los computadores manipulan y almacenan los datos usando interruptores electrónicos que están ENCENDIDOS o APAGADOS. Los computadores sólo
TEMA 1. Introducción
TEMA 1. Introducción Francisco José Ribadas Pena, Santiago Fernández Lanza Modelos de Razonamiento y Aprendizaje 5 o Informática ribadas@uvigo.es, sflanza@uvigo.es 28 de enero de 2013 1.1 Aprendizaje automático
Anexo 12-a. Plantillas de lectura crítica del SIGN
Anexo 12-a. Plantillas de lectura crítica del SIGN Plantilla de Lectura crítica nº 1: Ensayo clínico aleatorizado (ECA) Identificación del estudio (Referencia bibliográfica del estudio, formato Vancouver)
BASES DE DATOS DE INTERÉS EN BIOQUÍMICA
BASES DE DATOS DE INTERÉS EN BIOQUÍMICA Las técnicas de alto rendimiento desarrolladas en las últimas décadas han permitido la adquisición masiva de información de biología molecular que se depositan en
PROCESO: GESTION INFORMÁTICA PROCEDIMIENTO: GESTION DE CONFIGURACIONES
PROCESO: GESTION INFORMÁTICA PROCEDIMIENTO: GESTION DE CONFIGURACIONES Objetivo del Procedimiento: Identificar y definir los componentes de configuración de los sistemas del SENA, registrando e informando
CAPÍTULO 4: ALGORITMOS DE APRENDIZAJE
Capítulo 4 Algoritmos de Aprendizaje 26 CAPÍTULO 4: ALGORITMOS DE APRENDIZAJE En este capítulo se proporcionan las descripciones matemáticas de los principales algoritmos de aprendizaje para redes neuronales:
ADMIRAL MARKETS AS. Normas de Ejecución Óptima. medida en que ha actuado de acuerdo con las correspondientes instrucciones del cliente.
ADMIRAL MARKETS AS Normas de Ejecución Óptima 1. Disposiciones Generales 1.1. Estas Normas de Ejecución Óptima (de aquí en adelante Normas ) estipularán los términos, condiciones y principios sobre los
Análisis Estadístico de Datos Climáticos
Análisis Estadístico de Datos Climáticos Análisis de agrupamiento (o clusters) (Wilks, Cap. 14) Facultad de Ciencias Facultad de Ingeniería 2013 Objetivo Idear una clasificación o esquema de agrupación
Control Estadístico del Proceso. Ing. Claudia Salguero Ing. Alvaro Díaz
Control Estadístico del Proceso Ing. Claudia Salguero Ing. Alvaro Díaz Control Estadístico del Proceso Es un conjunto de herramientas estadísticas que permiten recopilar, estudiar y analizar la información
Cualitativos Caso de Aplicación
Validación n de Métodos M Cualitativos Caso de Aplicación Agenda Introducción Definiciones Clasificación Validación Evaluación de Métodos Cualitativos Caso de Aplicación Conclusiones Introducción La validación
Qué es un gen? Helen Pearson : Genetics: What is a gene? (Nature 441, )
Qué es un gen? 'Gene' is not a typical four-letter word. It is not offensive. It is never bleeped out of TV shows. And where the meaning of most four-letter words is all too clear, that of gene is not.
35 Facultad de Ciencias Universidad de Los Andes Mérida-Venezuela. Potencial Eléctrico
q 1 q 2 Prof. Félix Aguirre 35 Energía Electrostática Potencial Eléctrico La interacción electrostática es representada muy bien a través de la ley de Coulomb, esto es: mediante fuerzas. Existen, sin embargo,
Estadística descriptiva con Excel (Cálculo de medidas)
Universidad Pedagógica Experimental Libertador Instituto Pedagógico de Miranda José Manuel Siso Martínez Departamento de Ciencias Naturales y Matemáticas Cátedra: Estadística aplicada a la educación Estadística
TEMA 4: Introducción al Control Estadístico de Procesos
TEMA 4: Introducción al Control Estadístico de Procesos 1 Introducción 2 Base estadística del diagrama de control 3 Muestreo y agrupación de datos 4 Análisis de patrones en diagramas de control 1. Introducción
Lección n 5. Modelos de distribución n potencial de especies
Lección n 5. Modelos de distribución n potencial de especies 1. Elaboración de modelos de distribución de especies. a. Planteamiento. El modelado del nicho ambiental se basa en el principio de que la distribución
CRITERIOS ESPECÍFICOS PARA EVALUAR LA INCERTIDUMBRE EN PROCESOS DE MEDICIÓN EN LABORATORIOS QUIMICOS
Página 1 de 6 TITULO: CRITERIOS ESPECIFICOS PARA EVALUAR LA INCERTIDUMBRE DE UN PROCESO DE MEDICIÓN EN LABORATORIOS QUÍMICOS Resumen: El presente documento contiene los criterios en lo referente a la evaluación
Documento diseño de evaluación en términos de comparabilidad entre grupos de tratamiento y control
SEPTIEMBRE 2012 Tercer Informe Documento diseño de evaluación en términos de comparabilidad entre grupos de tratamiento y control ÍNDICE 1. Introducción...4 2. La base de datos del PRONABES....5 3. Selección
Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012
Bases de Datos Documentales Curso 2011/2012 Miguel Ángel Rodríguez Luaces Laboratorio de Bases de Datos Universidade da Coruña Introducción Hemos dedicado la primera mitad del curso a diseñar e implementar
QFD (Despliegue de la función de Calidad)
QFD (Despliegue de la función de Calidad) El despliegue de la función de la calidad: Quality Function Deployment (QFD), es relacionado comúnmente con la voz de los clientes, o con la casa de la calidad.
Capítulo 9. Archivos de sintaxis
Capítulo 9 Archivos de sintaxis El SPSS permite generar y editar archivos de texto con sintaxis SPSS, es decir, archivos de texto con instrucciones de programación en un lenguaje propio del SPSS. Esta
Aula Banca Privada. La importancia de la diversificación
Aula Banca Privada La importancia de la diversificación La importancia de la diversificación La diversificación de carteras es el principio básico de la operativa en mercados financieros, según el cual
LA LOGÍSTICA COMO FUENTE DE VENTAJAS COMPETITIVAS
LA LOGÍSTICA COMO FUENTE DE VENTAJAS COMPETITIVAS Los clientes compran un servicio basandose en el valor que reciben en comparacion con el coste en el que incurren. Por, lo tanto, el objetivo a largo plazo
Salud de Activos Reflejo de la Estrategia de Mantenimiento
Salud de Activos Reflejo de la Estrategia de Mantenimiento Mucho se ha dicho y escrito acerca de como medir la efectividad de una estrategia de mantenimiento, sin embargo, al momento solo porciones de
REGRESION simple. Correlación Lineal:
REGRESION simple Correlación Lineal: Dadas dos variable numéricas continuas X e Y, decimos que están correlacionadas si entre ambas variables hay cierta relación, de modo que puede predecirse (aproximadamente)
Métodos Heurísticos en Inteligencia Artificial
Métodos Heurísticos en Inteligencia Artificial Javier Ramírez rez-rodríguez Ana Lilia Laureano-Cruces Universidad Autónoma Metropolitana Métodos Heurísticos en Inteligencia Artificial Los problemas de
Principales Cambios de la ISO 9001:2015
INTRODUCCIÓN La nueva versión disponible de ISO 9001:2015, actualmente en su versión DIS, muestra una gran cantidad de cambios respecto de su predecesora. Muchos de estos cambios están en línea con otros
GUIA SOBRE LOS REQUISITOS DE LA DOCUMENTACION DE ISO 9000:2000
1 INTRODUCCIÓN Dos de los objetivos más importantes en la revisión de la serie de normas ISO 9000 han sido: desarrollar un grupo simple de normas que sean igualmente aplicables a las pequeñas, a las medianas
CONFIDENCIAL. Sistema (software) de Gestión de Compras, Ventas, Inventario y producción.
Sistema (software) de Gestión de Compras, Ventas, Inventario y producción. 1.1.- Módulos del Sistema: El software esta implementado en Visual Foxpro para Windows. Se compone de los módulos o funciones
Análisis de Regresión Múltiple con Información Cualitativa: Variables Binarias o Ficticias
Análisis de Regresión Múltiple con Información Cualitativa: Variables Binarias o Ficticias Carlos Velasco 1 1 Departamento de Economía Universidad Carlos III de Madrid Econometría I Máster en Economía
El Banco Nacional de ADN oferta un control de calidad de muestras de ADN y ARN.
PROGRAMA CONTROL DE CALIDAD DE MUESTRAS El Banco Nacional de ADN oferta un control de calidad de muestras de ADN y ARN. El programa completo de control de calidad de muestras de ADN y ARN engloba diferentes
Página principal de Ensembl. Especies para las que mantiene información.
EL GENOMA HUMANO VISTO POR ENSEMBL El objetivo de estas prácticas consistirá en analizar una región del genoma humano de aproximadamente 1 Mb de extensión. Se indicará, entre otras cosas, las características
Administración de Empresas. 11 Métodos dinámicos de evaluación de inversiones 11.1
Administración de Empresas. 11 Métodos dinámicos de evaluación de inversiones 11.1 TEMA 11: MÉTODOS DINÁMICOS DE SELECCIÓN DE INVERSIONES ESQUEMA DEL TEMA: 11.1. Valor actualizado neto. 11.2. Tasa interna
Lo que miden los niveles de dominio
NIVELES DE DESEMPEÑO PISA XI. ESTANDARES CURRICULARES Y APRENDIZAJES ESPERADOS XI.1. PISA. Un referente internacional El Programa para la Evaluación Internacional de Alumnos de la OCDE (PISA, por sus siglas
Introducción a la Computación TFA
Introducción a la Computación TFA Departamento de Informática Facultad de Ciencias Físico, Matemáticas y Naturales- UNSL Lenguaje de Diseño de Algoritmos Estructura de Control Condicional Simple y Múltiple
Asesoramiento genético para el estudio del cáncer de mama y ovario hereditario
Asesoramiento genético para el estudio del cáncer de mama y ovario hereditario Cuándo debemos sospechar que un cáncer puede ser hereditario? El cáncer es una enfermedad muy frecuente, es fácil que en una
1. Construcción de Planes de Acción Sectoriales (PAS)
1. Construcción de Planes de Acción Sectoriales (PAS) La construcción de los PAS es la prioridad de trabajo de la ECDBC en el 2013. Los PAS estarán constituidos por diferentes medidas de mitigación (políticas,
CORRELACIONES CON SPSS
ESCUEL SUPERIOR DE INFORMÁTIC Prácticas de Estadística CORRELCIONES CON SPSS 1.- INTRODUCCIÓN El concepto de relación o correlación entre dos variables se refiere al grado de parecido o variación conjunta
Auditorías Energéticas
Auditorías Energéticas IMPORTANTES RESULTADOS SE OBTIENEN CON LA REALIZACION DE AUDITORIAS ENERGETICAS APLICADAS A LOS SISTEMAS DE GENERACION, DISTRIBUCION Y CONSUMO DE VAPOR. LA REDUCCION DE COSTOS ES
Guía de Preparación de Muestras para PLASTICOS para el Software de Formulación de Datacolor
Guía de Preparación de Muestras para PLASTICOS para el Software de Formulación de Datacolor 1. Generalidades 2. Qué se necesita para comenzar? 3. Qué hacer para sistemas opacos y translúcidos? 4. Qué hacer