Problema: interpretación de grandes conjuntos de datos

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Problema: interpretación de grandes conjuntos de datos"

Transcripción

1 Problema: interpretación de grandes conjuntos de datos En biología molecular: tecnologías de alto rendimiento (todas las -ómicas), análisis globales (e.g. de escala genómica, de evolución, etc.) Trabajo práctico Data Mining Tarea: identificar clusters de genes con el mismo patrón de expresión, a partir de datos reales de transcriptómica (microarrays y RNA-seq). Realizar anotación funcional de grupos de genes identificados

2 Diagrama del TP ) Grandes conjuntos de datos biológicos. Ejemplo: series temporales de expresión génica (microarrays y NGS) Actividad: examinar archivos, reconocer formatos 2) Introducción al software / lenguaje R. Actividad : Ejercicios en la consola de R 3) Clustering, reducción de dimensionalidad y visualización. Actividad I (opcional): Para un conjunto de datos de juguete, cálculo a mano de matriz de distancia euclídea entre genes, clustering jerárquico y confección de dendograma. Actividad II: identificar patrones de expresión / clusters de genes a partir de datos de transcriptómica. Evaluación y visualización de resultados. ) Introducción al análisis de enriquecimiento funcional (vías metabólicas y otros procesos celulares, funciones moleculares, localización sub-celular, etc.). Evaluación estadística del enriquecimiento. Actividad: Detectar anotaciones funcionales enriquecidas en los clusters de genes identificados previamente, utilizando las herramientas web DAVID.

3 Trabajos seminales de transcriptómica con microarrays de ADN: * Exploring the Metabolic and Genetic Control of Gene Expression on a Genomic Scale. Joseph L. DeRisi, Vishwanath R. Iyer, Patrick O. Brown. Science (997) Serie temporal de expresión de genes de Saccharomyces cerevisiae (~6K) en 7 momentos durante el salto metabólico de fermentación a respiración * The Transcriptional Program in the Response of Human Fibroblasts to Serum, Iyer V et al. Science (999) Serie temporal de expresión génica de fibroblastos humanos (~8.6K) en respuesta al suero ( momentos)

4 Trabajos seminales de transcriptómica con microarrays de ADN: * Exploring the Metabolic and Genetic Control of Gene Expression on a Genomic Scale. Joseph L. DeRisi, Vishwanath R. Iyer, Patrick O. Brown. Science (997) Serie temporal de expresión de genes de Saccharomyces cerevisiae (~6K) en 7 momentos durante el salto metabólico de fermentación a respiración * The Transcriptional Program in the Response of Human Fibroblasts to Serum, Iyer V et al. Science (999) Serie temporal de expresión génica de fibroblastos humanos (~8.6K) en respuesta al suero ( momentos) Trabajos recienes de transcriptómica por RNA-seq (secuenciación masiva de transcriptomas) * The developmental dynamics of the maize leaf transcriptome, Pinghua Li et al. Nature Genetics (2) 2K genes (~8% del transcriptoma anotado) expresados en la hoja en desarrollo, medidos en zonas de hoja desde la base a la punta. Trabajaremos con el conjunto de 6K genes con expresión diferencial.

5 * Examinar archivos en editor de texto o planilla de cálculo * Determinar número de variables (condiciones/experimentos), de registros o filas (genes), tipos de datos (identificadores, descriptores, medidas de nivel de expresión: fold-change, log2(fold-change), z-score, RPKM, percentilos, etc.). * Análisis descriptivo mediante estadísticos y gráficos para caracterizar cada variable por separado (distribuciones, dispersión, presencia de valores faltantes y atípicos, etc.) y tomadas de a pares (matriz de correlaciones, diagramas de dispersión) NAMES YGR38C YPR6C YOR23W YAL8C YBR287W YCL7W col geneid GRMZM2G8227 GRMZM2G688 GRMZM2G3963 GRMZM2G29 GRMZM2G99 GRMZM2G7897 col col3 col col col6 col description CHY, putative, expressed delta3,-delta2,-dienoyl-coa L-asparaginase 3 precursor, adenosylhomocysteinase, putat adenosylhomocysteinase, putat O-succinylhomoserine sulfhydr RPKM-base RPKM-cm RPKM+ cm RPKMtip

6 2) introducción al lenguaje R Presentación software / lenguaje, qué es R? por qué usar R? ayuda?? Operaciones básicas con números, vectores Data frames e Importación de datos Manipulación de datos: extracción y filtrado de datos, estandarización / transformaciones, reformateo y fusión de tablas. Estadísticas descriptivas y Gráficos Exportación de datos Extendiendo la funcionalidad mediante la instalación de paquetes: lattice (visualización de datos multivariados) y cluster (clustering)

7 2) introducción al lenguaje R Qué es R? R es software de análisis de datos: analistas, estadísticos, científicos que necesitan darle sentido a los datos usan R para hacer análisis estadísticos, visualización, modelado, etc. R es un lenguaje de programación: uno analiza datos escribiendo scripts y funciones en el lenguaje R. Es un lenguaje completo, interactivo, orientado a objetos diseñado por estadísticos, para estadísticos. El lenguaje provee objetos, operadores y funciones que hacen natural el proceso de exploración, modelado y visualización de datos. Frecuentemente pueden representarse analisis de datos completos con unas pocas líneas de código. R es un entorno para analisis estadístico: en R están disponibles funciones para prácticamente cualquier manipulación, modelo estadístico o gráfico que uno podría necesitar. Ya que la mayor parte de la investigación en estadística y modelado se hace en R, usualmente las técnicas más novedosas están disponibles primero en R. (entorno: sistema planeado y coherente vs. acumulación de herramientas altamente específicas e inflexibles) R es un proyecto de software open-source: podés descargar y usar R gratuitamente y el código fuente está disponible para ser inspeccionado y modificado. Como otros proyectos open-source (Linux, MySQL, etc.), R se ha beneficiado por más de años del trabajo de una comunidad en mejorar el código, logrando un estándar de calidad y precisión numérica extremadamente altos. Además, como otros sistemas opensource, R tiene interfaces abiertas lo que permite ser fácilmente integrado en otras aplicaciones y sistemas (eg. Software como SAS, SPSS, Infostat. Lenguajes: Python, Perl, Java, etc.) R es una comunidad. Fue creado por Ross Ihaka y Robert Gentleman en la Universidad de Auckland en 993, y desde entonces el liderazgo del proyecto creció para incorporar mas de 2 estadísticos e informáticos de diferentes partes del mundo (R development core-team, incluyendo a Chambers, el creador de S, antecesor comercial de R). Además otros cientos han contribuido al lenguaje con funcionalidad adicional creando paquetes que se usan por 2 millones de usuarios en todo el mundo. Como resultado, hay una fuerte y activa comunidad on-line de usuarios de R, con un conjunto de recursos mantenidos por la comunidad para usuarios de todos los niveles.

8 Hay mucho software disponible para analizar datos Qué hace a R diferente? R es gratuito y de código abierto: chau suscripciones, licencias, límites de usuarios, software ilegal emparchado y con errores, etc. (multiplataforma!) R es un lenguaje. Se trabaja escribiendo funciones y scripts, no haciendo clicks. La curva de aprendizaje es más pronunciada, pero una vez familiarizado permite una enorme flexibilidad. Al ser interactivo, facilita y promueve la experimentación. Un script documenta el trabajo desde el acceso a los datos hasta el reporting, permitiendo la re-ejecución inmediatamente (es más fácil detectar y corregir errores, actualizar los resultados cuando los datos cambian, etc.). Gráficos y Visualización: uno de los principios de diseño de R fue que la visualización de los datos mediante gráficos es parte esencial del proceso de análisis. Como resultado existen excelentes herramientas para crear gráficos. Un entorno muy flexible. Todas las herramientas de análisis están escritas en lenguaje R, desde el acceso a los datos en diversos formatos, manipulación de datos (transformaciones, uniones, combinaciones de tablas) hasta los modelos estadísticos tradiciones y modernos (regresión, ANOVA, GLM, árboles, etc.). Todos ellos en un framework orientado a objetos que facilita extraer y combinar programáticamente la información que uno necesita de los resultados, mas que tener que andar copiando y pegando información de reportes estáticos. Acceso a herramientas de análisis cutting-edge. La mayoría de los investigadores en la academia usan R para desarrollar los últimos métodos en estadística, aprendizaje automático, modelado predictivo, etc. Existen más de 2 paquetes para extender R en cada dominio de conocimiento (eg con gran crecimiento en finanzas y bioinformática) disponibles gratuitamente, y en constante expansión. La activa comunidad. Con cientos de contribuyentes de código y más de 2M usuarios en el mundo, ante una duda, alguien va a responder. Cantidad enorme de recursos (tutoriales, foros, etc.) en la web, para cada dominio.

9 Recursos útiles R-project.org noticias oficiales del proyecto, links a documentación (muchos buenos tutoriales), mailing lists, FAQs, etc. The Comprehensive R Archive Network R-Reference Card Quick-R Repositorio de Gráficos StackOverflow Alguna pregunta sobre R? Seguro que alguien ya preguntó lo mismo y le respondieron (buscar r tag) R bloggers Flujo constante de noticias, tips y artículos relativos a R CRAN Task View La lista de 2+ paquetes puede ser intimidante. Esta clasificación agrupa los más importantes por áreas específicas (eg Finanzas, Ensayos clínicos, Machine Learning). Crantastic.org. Búsqueda y review comunitario de paquetes Rseek R stuff search engine

10 Programando en R Basic R GUI: R GUI/Console, R Commander R IDE: R Studio (http://rstudio.org/) Editores de Texto: Vim + vim-r, Emacs + ESS ( Interactivo (en consola R): $ R >rnorm(,mean=,sd=) [] [8] vs. Scripting ( $ echo rnorm(,mean=,sd=) > mi_script.r ) desde consola R: >source( mi_script.r ) O bien por línea de comando: shell>r vanilla < mi_script.r

11 data(iris) head(iris) str(iris) : secuencia = : c(,2,3) iris[,:] iris[:,] iris$sepal.length iris$sepal.length> iris[iris$sepal.length >,] mean(iris$sepal.length) var(iris$sepal.length) summary(iris) mean(iris$sepal.length[iris$species == setosa ])

12 Gráficos univariados hist(iris$sepal.length) hist(iris$sepal.length[iris$species == setosa ]) hist(iris$sepal.length[iris$species == setosa ]) hist(scale(iris$sepal.length[iris$species == setosa ]) boxplot(iris[,-]) iris.std = scale(iris[,-]) summary(iris.std) boxplot(iris.std) Exportando a PDF pdf( salida.pdf ) boxplot(iris[,-],col= gray ) dev.off() Gráficos bivariados plot(iris$sepal.length,iris$sepal.width) with(iris,plot(sepal.length,sepal.width)) plot(iris$sepal.length,iris$sepal.width,col=ifelse(iri s$sepal.length >, blue, brown )) cor(x,y); cor(iris[,-]); cor.test(x,y)

13 Gráficos multivariados library(lattice) heatmap(as.matrix(iris[,-]) #se ven clusters? with(iris,parallel(~iris[:] Species)) Importando datos read.table("diauxic.txt",nrows=2) diauxic <- read.table("diauxic.txt",sep= \t )

14 Ayuda, historial, Woring Dir, Paquetes help(rnorm) # ayuda, idem?rnorm,??distribution Getwd() # muestra directorio de trabajo setwd("directoryname"). # cambiarlo R guarda todos los comandos ejecutados en un historial history(), loadhistory(.rhistory ), savehistory( HistorialBK ) CTRL+R # búsqueda en el historial ls() ls.str() str(objeto) Paquetes: expandiendo la funcionalidad R puede hacer muuchos tipos de análisis. Éstos se organizan en paquetes o bibliotecas (packages/libraries). Con la instalación estandar se instalan los paquetes más comunes. : >library() # listar paquetes instalados >library(cluster) # cargar paquete cluster >install.packages("rgl") # instalar paquete rgl >library(rgl) # cargar paquete rgl >plot3d(x,x+rnorm(),x+rnorm(), col="red", size=3) # función del paquete recién instalado

15 3) Introducción a Clustering, reducción de dimensionalidad y visualización de datos multivariados Analisis de clusters / clustering: agrupamiento de entidades u objetos de manera tal que las entidades pertenecientes a un mismo grupo o cluster sean mas parecidas entre si que a entidades pertenecientes a otros clusters.

16 3) Introducción a Clustering, reducción de dimensionalidad y visualización de datos multivariados Analisis de clusters / clustering: agrupamiento de entidades u objetos de manera tal que las entidades pertenecientes a un mismo grupo o cluster sean mas parecidas entre si que a entidades pertenecientes a otros clusters. Definir parecido! * Para entidades descriptas por presencia o ausencia de caracteres: típicamente índices o coeficientes de similitud, por ejemplo, en botánica el índice de Sørensen-Dice para comparar muestras. QS=2C/A+B A:#especies en muestra A, B: #especies en muestra B, C: #especies en común. Varía entre y

17 3) Introducción a Clustering, reducción de dimensionalidad y visualización de datos multivariados Definir parecido! * Para entidades descriptas por variables contínuas: Se habla de la distancia que las separa en algún espacio geométrico. Ejemplos: * la distancia euclídea * la distancia de Manhattan * basadas en correlación

18 3) Introducción a Clustering, reducción de dimensionalidad y visualización de datos multivariados X Y objeto 2 objeto distancia euclídea

19 3) Introducción a Clustering, reducción de dimensionalidad y visualización de datos multivariados X Y objeto 2 objeto distancia euclídea d ( obj,obj2 ) = ( ( 2 ) 2 + ( 2 )2 ) d ( obj,obj2 )= ( 3 ) ( / 2 )

20 Ahora sabemos medir distancias. Como hacemos el clustering? Al igual que al elegir la medida de distancia, acá hay muchos métdos con ventajas y desventajas frente a diferentes escenarios y que en general van a dar resultados diferentes! Hay que tener herramientas para evaluar la calidad de los esquemas de clustering Uno de los métodos más populares: clustering jerárquico ascendente Dado un conjunto de N () elementos a ser agrupados y una matriz de distancia (o similitud) de N x N: d

21 Clustering Jerárquico Ascendente: el algoritmo Comenzar por asignar cada item a un cluster. Tenemos clusters Sean las distancias entre los clusters las mismas que entre los elementos de cada cluster d

22 Clustering Jerárquico Ascendente: el algoritmo Encontrar el par más cercano de clusters y unirlo en un único cluster. Tenemos clusters d

23 Clustering Jerárquico Ascendente: el algoritmo Calcular las distancias entre el nuevo cluster y los viejos clusters Criterios de agregación ( cómo juntamos los clusters?): usemos single-linkage (vecino más cercano) d 2 3 d Otros criterios de agregación que usaremos son: complete-linkage (vecino más lejano) y Average-linkage (encadenamiento promedio o UPGMA)

24 Clustering Jerárquico Ascendente: el algoritmo Repetir los pasos 2 y 3 hasta que todos los elementos se encuentren en el mismo cluster de tamaño N Actividad 3. Ejercicio de clustering jerárquico a mano usando una tabla muy pequeña de datos inventados

25 Otro método de clustering muy popular: K-means (K-medias) Particional dist. Euclídea requiere # de clusters el algoritmo Ubicar k (2) puntos en el espacio representado por los objetos a ser agrupados. Estos k puntos son los centroides iniciales de cada grupo

26 K-means: el algoritmo Asignar cada objeto al grupo que esté más cercano a su centroide

27 K-means: el algoritmo Recalcular la posición de los k centroides

28 K-means: el algoritmo Repetir pasos 2 y 3 hasta que los prototipos ya no varíen (convergencia, o se haya alcanzado un número máximo de iteraciones arbitrario. En algunos casos es conveniente utilizar más de inicio aleatorio de centroides) De esta manera se minimiza la distancia intracluster según la metrica dada

29 Volviendo a la biología... Siguiendo la guía de TP: * Importar a R los conjuntos de datos de transcritómica (S. cerevisae durante el shift diáuxico, o desarrollo de la hoja de maíz) * Realiza un análisis descriptivo (mediante estadísticos y gráficos) para caracterizar cada variable por separado (distribuciones, dispersión, presencia de valores faltantes y atípicos, etc.). * Aplicar las técnicas de clustering vistas Shift diauxico en S. cerevisiae

30 Comparamos los resultados de variar distancias y diferentes parámetros de los algoritmos. Evaluamos consistencia del agrupamiento: coeficiente de silueta Diagnóstico?

31 Otro ejemplo: fibroblastos humanos en respuesta al suero

32 Otro ejemplo: fibroblastos humanos en respuesta al suero Visualización de datos multivariados: Gráficos cada vez mas complejos, o... reducción de dimensiones!

33 Intuición reducción de dimensión: ACP NAMES YGR38C YPR6C YOR23W YAL8C YBR287W YCL7W... col col col3 col col col6 col Podemos graficar los genes en el plano? Qué variables tomamos? 2% información % información

34 Intuición reducción de dimensión: ACP

35 reducción de dimensión: intuición ACP Diauxic data qué rotación de ejes o cambio de coordenadas maximiza la varianza/información sobre el eje x?

36 Análisis en Componentes Principales (PCA) NAMES YGR38C YPR6C YOR23W YAL8C YBR287W YCL7W... col col col3 col col col6 col % información

37 ) análisis de enriquecimiento funcional Tenemos un grupo de genes (cluster) con alguna característica: patrón de expresión particular, expresión diferencial frente a cierto tratamiento, etc. Aprovechando las anotaciones funcionales de los genomas queremos saber qué términos dentro de alguna ontología están sobre-representados (enriquecidos) en nuestro grupo, respecto a alguna distribución nula (background).

38 ) análisis de enriquecimiento funcional Tenemos un grupo de genes (cluster) con alguna característica: patrón de expresión particular, expresión diferencial frente a cierto tratamiento, etc. Aprovechando las anotaciones funcionales de los genomas queremos saber qué términos dentro de alguna ontología están sobre-representados (enriquecidos) en nuestro grupo, respecto a alguna distribución nula (background). Típicamente interesa evaluar enriquecimiento de funciones moleculares, procesos celulares involucrados, localizaciones sub-celulares (estos 3 de la Gene Ontlogy-GO) y vias metabólicas (KEGG db). Pero se puede evaluar enriquecimiento de cualquier característica de los genes que pueda imaginarse. Por ejemplo: * motivos o señales en las secuencias * punto isoeléctrico de la proteína codificada * dominios proteicos * interacciones proteína-proteína * número de papers que los mencionan

39 De Risi et al 997 Cluster Cluster 2 Cluster 2 Cluster ID conversion/mapping PASOS: * exportamos IDs por cluster * Subimos archivos a DAVID * (Mapeo IDs) * Definición lista de referencia / background * Selección de Ontologías / bases de datos de anotaciones

40 asociaciones estadísticamente significativas? Nucleolus Non-Nucleolus C GEN Las cuentas en la tabla de contingencia, bajo la hipótesis nula de independencia (no hay relación entre Cluster y Nucleolo) siguen una distribución hipergeométrica (k éxitos en n intentos, sin reposición). Se evalúa mediante el Test Exacto de Fisher. En este caso: p-value < e-6 Se rechaza la hipótesis nula de independencia, y se dice hay asociación entre los factores (con una probabilidad de equivocarme menor a ^(-6) ). Y hacemos esto con miles y miles de términos...

41 ) análisis de enriquecimiento funcional Típicamente interesa evaluar enriquecimiento de funciones moleculares, procesos celulares involucrados, localizaciones sub-celulares (estos 3 de la Gene Ontlogy-GO) y vias metabólicas (KEGG db). Pero se puede evaluar enriquecimiento de cualquier característica de los genes que pueda imaginarse. Por ejemplo: * motivos o señales en las secuencias * punto isoeléctrico de la proteína codificada * número de papers que los mencionan 96 tests mas tarde... * cantidad de letras a en el identificador Consideremos un conjunto de genes tomados al azar (sin ninguna relación funcional entre ellos). Si me esfuerzo mucho buscando posibles asociaciones, a la larga las voy a encontrar ( con Fisher Exact Test <.!)

42 ) análisis de enriquecimiento funcional Típicamente interesa evaluar enriquecimiento de funciones moleculares, procesos celulares involucrados, localizaciones sub-celulares (estos 3 de la Gene Ontlogy-GO) y vias metabólicas (KEGG db). Pero se puede evaluar enriquecimiento de cualquier característica de los genes que pueda imaginarse. Por ejemplo: * motivos o señales en las secuencias * punto isoeléctrico de la proteína codificada * número de papers que los mencionan 96 tests mas tarde... * cantidad de letras a en el identificador Consideremos un conjunto de genes tomados al azar (sin ninguna relación funcional entre ellos). Si me esfuerzo mucho buscando posibles asociaciones, a la larga las voy a encontrar ( con Fisher Exact Test p-value <.!). PROBLEMA del testeo múltiple de hipótesis. En general se corrigen los p-valores teniendo en cuenta el número de tests realizados. Procedimientos típicos: Benjamini y Hochberg False Discovery Rate, Bonferroni.

43 Recursos ONLINE *The Database for Annotation, Visualization and Integrated Discovery (DAVID ) *GOrilla *FatiGO Si hay que automatizar: Paquete de R / Bioconductor: topgo

Leonardo Collado Torres Licenciatura en Ciencias Genómicas, UNAM www.lcg.unam.mx/~lcollado/index.php. Cuernavaca, México Oct-Nov, 2008

Leonardo Collado Torres Licenciatura en Ciencias Genómicas, UNAM www.lcg.unam.mx/~lcollado/index.php. Cuernavaca, México Oct-Nov, 2008 Leonardo Collado Torres Licenciatura en Ciencias Genómicas, UNAM www.lcg.unam.mx/~lcollado/index.php Cuernavaca, México Oct-Nov, 2008 1 / 40 Bioconductor 1 2 3 2 / 40 Nuestro problema a reproducir Para

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/ Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy

Más detalles

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1 ÍNDICE Introducción... XV Capítulo 1. El concepto de Data Mining... 1 Introducción... 1 Una definición de Data Mining... 3 El proceso de Data Mining... 6 Selección de objetivos... 8 La preparación de los

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Habilidades y Herramientas para trabajar con datos

Habilidades y Herramientas para trabajar con datos Habilidades y Herramientas para trabajar con datos Marcelo Ferreyra X Jornadas de Data Mining & Business Intelligence Universidad Austral - Agenda 2 Tipos de Datos Herramientas conceptuales Herramientas

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

2 Congreso Colombiano de Bioinformática y biología computacional.

2 Congreso Colombiano de Bioinformática y biología computacional. 2 Congreso Colombiano de Bioinformática y biología computacional. Presentación y evaluación de ABMS (Automatic Blast for Massive Annotation) Nelson Perez nelsonp@correo.udistrital.edu.co Cristian Rojas

Más detalles

Técnicas de análisis multivariante para agrupación

Técnicas de análisis multivariante para agrupación TEMA 2: TÉCNICAS DE ANÁLISIS MULTIVARIANTE PARA AGRUPACIÓN Métodos cluster Técnicas de segmentación Clasificación no supervisada Ana Justel 1 Técnicas de análisis multivariante para agrupación Motivación

Más detalles

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez Curso de Análisis de investigaciones con programas Informáticos 1 UNIVERSIDAD DE JAÉN Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos

Más detalles

1.Instalar el paquete R-cmdr

1.Instalar el paquete R-cmdr ESTADíSTICA INDUSTRIAL Prof: Mathieu Kessler Componentes principales con R En esta práctica, utilizaremos un paquete adicional de R, llamado rgl que sirve para representaciones 3d. Instalaremos además

Más detalles

Capítulo 3. Análisis de Regresión Simple. 1. Introducción. Capítulo 3

Capítulo 3. Análisis de Regresión Simple. 1. Introducción. Capítulo 3 Capítulo 3 1. Introducción El análisis de regresión lineal, en general, nos permite obtener una función lineal de una o más variables independientes o predictoras (X1, X2,... XK) a partir de la cual explicar

Más detalles

APROVECHE AL MÁXIMO EL MEJOR SOFTWARE DE ANÁLISIS DE DATOS, ASISTA A LOS CURSOS DE CAPACITACIÓN DE SPSS CHILE

APROVECHE AL MÁXIMO EL MEJOR SOFTWARE DE ANÁLISIS DE DATOS, ASISTA A LOS CURSOS DE CAPACITACIÓN DE SPSS CHILE TRAINING 2007 APROVECHE AL MÁXIMO EL MEJOR SOFTWARE DE ANÁLISIS DE DATOS, ASISTA A LOS CURSOS DE CAPACITACIÓN DE SPSS CHILE Fundamentos en el Uso y Aplicaciones con SPSS Introducción a la Sintaxis Estadísticas

Más detalles

Puedes descargar este examen en pdf desde esta dirección (busca el enlace Dropbox en la parte inferior de la página):

Puedes descargar este examen en pdf desde esta dirección (busca el enlace Dropbox en la parte inferior de la página): Univ. de Alcalá. Estadística 2014-15 Dpto. de Física y Matemáticas Grado en Biología. Examen final. Miércoles, 21 de Enero de 2015. Apellidos: Nombre: INSTRUCCIONES (LEER ATENTAMENTE). Puedes descargar

Más detalles

DYANE Versión 4 Diseño y Análisis de Encuestas

DYANE Versión 4 Diseño y Análisis de Encuestas DYANE Versión 4 Diseño y Análisis de Encuestas Miguel Santesmases Mestre 1. DESCRIPCIÓN GENERAL DEL PROGRAMA DYANE 1. FINALIDAD Y MÉTODO DEL PROGRAMA DYANE (Diseño y Análisis de Encuestas) es un programa

Más detalles

Curso de Estadística no-paramétrica

Curso de Estadística no-paramétrica Curso de Estadística no-paramétrica Sesión 1: Introducción Inferencia no Paramétrica David Conesa Grup d Estadística espacial i Temporal Departament d Estadística en Epidemiologia i Medi Ambient i Investigació

Más detalles

TRATAMIENTO DE BASES DE DATOS CON INFORMACIÓN FALTANTE SEGÚN ANÁLISIS DE LAS PÉRDIDAS CON SPSS

TRATAMIENTO DE BASES DE DATOS CON INFORMACIÓN FALTANTE SEGÚN ANÁLISIS DE LAS PÉRDIDAS CON SPSS Badler, Clara E. Alsina, Sara M. 1 Puigsubirá, Cristina B. 1 Vitelleschi, María S. 1 Instituto de Investigaciones Teóricas y Aplicadas de la Escuela de Estadística (IITAE) TRATAMIENTO DE BASES DE DATOS

Más detalles

Práctica 2: Alineamiento múltiple e Identificación y búsqueda de Motivos.

Práctica 2: Alineamiento múltiple e Identificación y búsqueda de Motivos. Introducción a la Bioinformática Práctica 2: Alineamiento múltiple e Identificación y búsqueda de Motivos. El alineamiento múltiple es una de las técnicas bioinformáticas más usadas, ya que por medio de

Más detalles

El programa Minitab: breve introducción a su funcionamiento. Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos

El programa Minitab: breve introducción a su funcionamiento. Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos El programa Minitab: breve introducción a su funcionamiento Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos estadísticos en la actualidad, el libro se acompaña, en todo

Más detalles

Carrera: MCM - 0531. Participantes. Representantes de las academias de Ingeniería Mecánica de Institutos Tecnológicos.

Carrera: MCM - 0531. Participantes. Representantes de las academias de Ingeniería Mecánica de Institutos Tecnológicos. 1.- DATOS DE LA ASIGNATURA Nombre de la asignatura: Carrera: Clave de la asignatura: Horas teoría-horas práctica-créditos Probabilidad y Estadística Ingeniería Mecánica MCM - 0531 3 2 8 2.- HISTORIA DEL

Más detalles

GEOGEBRA COMO RECURSO PARA UNAS NUEVAS MATEMÁTICAS ESTADÍSTICA CON GEOGEBRA

GEOGEBRA COMO RECURSO PARA UNAS NUEVAS MATEMÁTICAS ESTADÍSTICA CON GEOGEBRA GEOGEBRA COMO RECURSO PARA UNAS NUEVAS MATEMÁTICAS ESTADÍSTICA CON GEOGEBRA Virgilio Gómez Rubio Mª José Haro Delicado Baeza 2014 1 ESTADÍSTICA DESCRIPTIVA 2 Estadística descriptiva 1. El puntaje de Apgar

Más detalles

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Introducción a selección de atributos usando WEKA Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Contenido 1 Introducción a WEKA El origen Interfaces

Más detalles

CURSO ESTADÍSTICA APLICADA CON R

CURSO ESTADÍSTICA APLICADA CON R CURSO ESTADÍSTICA APLICADA CON R Organizado por: Instituto IMDEA Alimentación Facultad de Ciencias de la Universidad Autónoma de Madrid MADRID, de Septiembre a Diciembre de 2015 Estadística Aplicada con

Más detalles

ÍNDICE DE CONTENIDOS. 6.1 Secuencias... 13

ÍNDICE DE CONTENIDOS. 6.1 Secuencias... 13 ÍNDICE DE CONTENIDOS 1. INTRODUCCIÓN... 1 3. 1 Marco Conceptual... 1 3.1.1 Secuenciamiento de ADN... 1 3.1.2 Sequencing by Synthesis (SBS) desarrollado por SOLEXA... 2 3.1.3 Illumina... 4 3.1.4 RNA-Seq...

Más detalles

Análisis Estadístico de Datos Climáticos

Análisis Estadístico de Datos Climáticos Análisis Estadístico de Datos Climáticos Análisis de agrupamiento (o clusters) (Wilks, Cap. 14) Facultad de Ciencias Facultad de Ingeniería 2013 Objetivo Idear una clasificación o esquema de agrupación

Más detalles

Introducción a la programación en R

Introducción a la programación en R Programación en R 1 Introducción a la programación en R Qué es un programa de ordenador? Un programa de ordenador consiste en una secuencia de instrucciones que un ordenador pueda entender. El procesador

Más detalles

Ambiente de trabajo. Tutorial Ambiente de Trabajo en InfoStat ARCHIVO

Ambiente de trabajo. Tutorial Ambiente de Trabajo en InfoStat ARCHIVO Ambiente de trabajo InfoStat ofrece distintas herramientas para explorar su información de manera sencilla, intuitiva y amigable. Al abrir InfoStat, se visualizará una barra de herramientas localizada

Más detalles

Acercamiento a la Bioinformá0ca 3- Expresión

Acercamiento a la Bioinformá0ca 3- Expresión Acercamiento a la Bioinformá0ca 3- Expresión Rodrigo Santamaría Semana de la Biotecnología 2013 Expresión CONCEPTOS BÁSICOS Dogma central ADN ARN Proteína transcripción traducción expresión Un gen (cadena

Más detalles

Introducción a la Bioinformática Centro de Bioinformática Instituto de Biotecnología Universidad Nacional de Colombia

Introducción a la Bioinformática Centro de Bioinformática Instituto de Biotecnología Universidad Nacional de Colombia Introducción a la Bioinformática Centro de Bioinformática Instituto de Biotecnología Universidad Nacional de Colombia Andrés M. Pinzón cphd - Universidad de los Andes 7'000.000 de habitantes Capital Mundial

Más detalles

MS_10264 Developing Web Applications with Microsoft Visual Studio 2010

MS_10264 Developing Web Applications with Microsoft Visual Studio 2010 Developing Web Applications with Microsoft Visual Studio 2010 www.ked.com.mx Av. Revolución No. 374 Col. San Pedro de los Pinos, C.P. 03800, México, D.F. Tel/Fax: 52785560 Introducción En este curso, los

Más detalles

Instalación e introducción al software estadístico R y la librería R-Commander. Estadística descriptiva.

Instalación e introducción al software estadístico R y la librería R-Commander. Estadística descriptiva. Instalación e introducción al software estadístico R y la librería R-Commander. Estadística descriptiva. Botella-Rocamora, P.; Alacreu-García, M.; Martínez-Beneito, M.A. ÍNDICE Página 1. Instalación e

Más detalles

Cómo abrir las bases de datos de Aspel-NOI 5.0?

Cómo abrir las bases de datos de Aspel-NOI 5.0? Cómo abrir las bases de datos de Aspel-NOI 5.0? 1. Herramientas de administración nativas de Firebird. Firebird cuenta con una herramienta llamada ISQL la cual es una consola de línea de comandos desde

Más detalles

KNime. KoNstanz Information MinEr. KNime - Introducción. KNime - Introducción. Partes de la Herramienta. Editor Window. Repositorio de Nodos

KNime. KoNstanz Information MinEr. KNime - Introducción. KNime - Introducción. Partes de la Herramienta. Editor Window. Repositorio de Nodos KNime - Introducción KNime Significa KoNstanz Information MinEr. Se pronuncia [naim]. Fue desarrollado en la Universidad de Konstanz (Alemania). Esta escrito en Java y su entorno grafico esta desarrollado

Más detalles

Implementación de servicios de análisis usando tecnología Open-Source

Implementación de servicios de análisis usando tecnología Open-Source This is a reprint of Lecturas Matemáticas Volumen 25 (2004), páginas 211 218 Implementación de servicios de análisis usando tecnología Open-Source Alexander García University of Queensland, Australia Lecturas

Más detalles

Anexo No. 02 FICHA TECNICA FONDO FINANCIERO DE PROYECTOS DE DESARROLLO FONADE

Anexo No. 02 FICHA TECNICA FONDO FINANCIERO DE PROYECTOS DE DESARROLLO FONADE Anexo No. 02 FICHA TECNICA FONDO FINANCIERO DE PROYECTOS DE DESARROLLO FONADE Unidad Administrativa Especial de Gestión Pensional y Contribuciones Parafiscales de la Protección Social UGPP Objeto: ADQUISICIÓN

Más detalles

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Verónica Escobar González, Claudio Barrientos Ochoa, Sergio Barrientos Ochoa, Dirección de Modelamiento Geometalúrgico

Más detalles

IBM SPSS Modeler Novedades de la Versión

IBM SPSS Modeler Novedades de la Versión IBM SPSS Modeler Novedades de la Versión 16 Infórmese SPSS Andino se complace en presentar las características innovadoras que se han incluido en la versión 16 de IBM SPSS Modeler, lo invitamos a explorarlas.

Más detalles

Facultad de Ciencias Económicas Universidad Nacional de Córdoba Carrera de Doctorado

Facultad de Ciencias Económicas Universidad Nacional de Córdoba Carrera de Doctorado Facultad de Ciencias Económicas Universidad Nacional de Córdoba Carrera de Doctorado Materia: Estadística Aplicada a la Investigación Profesora: Dra. Hebe Goldenhersh Octubre del 2002 1 Determinación de

Más detalles

Capítulo 1. Introducción

Capítulo 1. Introducción Capítulo 1. Introducción El WWW es la mayor fuente de imágenes que día a día se va incrementando. Según una encuesta realizada por el Centro de Bibliotecas de Cómputo en Línea (OCLC) en Enero de 2005,

Más detalles

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP Universidad Politécnica de Puebla UPP JESÚS ANTONIO GONZÁLEZ BERNAL 1 2 Evolución de la Tecnología BD 1960 s y antes Creación de las BD en archivos primitivos 1970 s hasta principios de los 1980 s BD Jerárquicas

Más detalles

STATGRAPHICS Centurion XVII Software de análisis de datos estadístico y gráfico. Mejoras de la versión 17.1

STATGRAPHICS Centurion XVII Software de análisis de datos estadístico y gráfico. Mejoras de la versión 17.1 STATGRAPHICS Centurion XVII Software de análisis de datos estadístico y gráfico STATGRAPHICS ofrece más de 230 procedimientos de Análisis Exploratorio de Datos, Estadística Descriptiva e Inferencial, Modelos

Más detalles

1 Introducción al SPSS

1 Introducción al SPSS Breve guión para las prácticas con SPSS 1 Introducción al SPSS El programa SPSS está organizado en dos bloques: el editor de datos y el visor de resultados. En la barra de menú (arriba de la pantalla)

Más detalles

CURSO HERRAMIENTAS ESTADISTICAS PARA IMPLEMENTACION DE SIX SIGMA EN EMPRESAS DE PRODUCCION, LOGISTICA Y SERVICIOS

CURSO HERRAMIENTAS ESTADISTICAS PARA IMPLEMENTACION DE SIX SIGMA EN EMPRESAS DE PRODUCCION, LOGISTICA Y SERVICIOS CURSO HERRAMIENTAS ESTADISTICAS PARA IMPLEMENTACION DE SIX SIGMA EN EMPRESAS DE PRODUCCION, LOGISTICA Y SERVICIOS Cnel. R.L. Falcón 1435 C1406GNC 35 Buenos Aires, Argentina Tel.: 054-15-4492-6252 Fax:

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

La bioinformática como herramienta en el descubrimiento de nuevo medicamentos.

La bioinformática como herramienta en el descubrimiento de nuevo medicamentos. La bioinformática como herramienta en el descubrimiento de nuevo medicamentos. Una de las más claras señales del giro de que la biología moderna ha dado es la aparición de la bioinformática, este termino

Más detalles

Métodos y Diseños utilizados en Psicología

Métodos y Diseños utilizados en Psicología Métodos y Diseños utilizados en Psicología El presente documento pretende realizar una introducción al método científico utilizado en Psicología para recoger información acerca de situaciones o aspectos

Más detalles

Procesamiento de Texto y Modelo Vectorial

Procesamiento de Texto y Modelo Vectorial Felipe Bravo Márquez 6 de noviembre de 2013 Motivación Cómo recupera un buscador como Google o Yahoo! documentos relevantes a partir de una consulta enviada? Cómo puede procesar una empresa los reclamos

Más detalles

Ya se definió brevemente lo que es la minería de datos, pero ahora conviene

Ya se definió brevemente lo que es la minería de datos, pero ahora conviene CAPÍTULO 2 Minería de datos y Conceptos generales 2.1 Minería de datos Ya se definió brevemente lo que es la minería de datos, pero ahora conviene elaborar un poco más sobre el tema. Se comentó anteriormente

Más detalles

Temario: Curso de Stata Capacitación

Temario: Curso de Stata Capacitación Objetivo del curso: Nuestro curso de Stata tiene como objetivo el contar con los conocimientos suficientes para: manipular una base de datos para obtener estadísticos descriptivos. Fusionar, colapsar y

Más detalles

Curso. Análisis de datos con R.

Curso. Análisis de datos con R. Análisis de datos con R. Fecha de realización Del 04 de agosto al 02 de septiembre de 2014. Duración 40 horas Inscripciones Hasta el 29 de julio, 5:00 p.m. Enlace http://www.dane.gov.co/ecandane/ new_ecandane/inscripcion/

Más detalles

Capítulo 1. Minería de datos: Conceptos, técnicas y sistemas...

Capítulo 1. Minería de datos: Conceptos, técnicas y sistemas... , INDICE Introducción, ; XVII Capítulo 1. Minería de datos: Conceptos, técnicas y sistemas... Aproximación al concepto de minería de datos... El proceso de extracción del conocimiento... Técnicas de minería

Más detalles

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY)

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) Autor: Lic. Manuel Ernesto Acosta Aguilera Entidad: Facultad de Economía, Universidad de La Habana Dirección: Edificio

Más detalles

Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida. Por: Prof. Elena del C. Coba

Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida. Por: Prof. Elena del C. Coba Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida Por: Prof. Elena del C. Coba Encuestas y estudios aplicados al VIH/sida Definir la fuente de los datos: Datos

Más detalles

Pruebas de Unidad en BlueJ

Pruebas de Unidad en BlueJ Pruebas de Unidad en BlueJ Versión 1.0 para BlueJ versión 1.3.0 Michael Kölling Mærsk Institute University of Southern Denmark Traducido al español por Matías Avallone Instituto de Tecnología Ort Nº 2

Más detalles

Aplicación de los modelos de credit scoring para instituciones microfinacieras.

Aplicación de los modelos de credit scoring para instituciones microfinacieras. Econ. Reynaldo Uscamaita Huillca Aplicación de los modelos de credit scoring para instituciones microfinacieras. OBJETIVO Proporcionar al ejecutivo del sistema financiero un modelo solido que permita tomar

Más detalles

MODULO DE NI-VISION DE LABVIEW GUÍA DE INICIO JONATHAN EDUARDO CRUZ ORTIZ

MODULO DE NI-VISION DE LABVIEW GUÍA DE INICIO JONATHAN EDUARDO CRUZ ORTIZ MODULO DE NI-VISION DE LABVIEW GUÍA DE INICIO JONATHAN EDUARDO CRUZ ORTIZ UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS FACULTAD TECNOLÓGICA TECNOLOGÍA EN ELECTRÓNICA INGENIERÍA EN CONTROL Índice general

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

Cómo abrir las bases de datos en Aspel-COI 6.0?

Cómo abrir las bases de datos en Aspel-COI 6.0? Cómo abrir las bases de datos en Aspel-COI 6.0? 1. Herramientas de administración nativas de Firebird. Firebird cuenta con una herramienta llamada ISQL la cual es una consola de línea de comandos desde

Más detalles

Análisis multivariable

Análisis multivariable Análisis multivariable Las diferentes técnicas de análisis multivariante cabe agruparlas en tres categorías: «Análisis de dependencia» tratan de explicar la variable considerada independiente a través

Más detalles

CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL. Nivel 2. Versión 5 Situación RD 1201/2007 Actualización

CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL. Nivel 2. Versión 5 Situación RD 1201/2007 Actualización Página 1 de 18 CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 2 Código IFC297_2 Versión 5 Situación RD 1201/2007 Actualización

Más detalles

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente En este capítulo definimos los requisitos del modelo para un sistema centrado en la mejora de la calidad del código fuente.

Más detalles

Usando R una visión personal

Usando R una visión personal Usando R una visión personal Edith Seier East Tennessee State University Prof. Emérita de la Universidad Nacional Mayor de San Marcos seier@etsu.edu Resumen R es un lenguaje de programación gratuito para

Más detalles

CONVOCATORIA INVESTIGADOR SÍNDROME DE DRAVET CONVOCA DRAVET SYNDROME FOUNDATION (DELEGACIÓN EN ESPAÑA) COLABORA KUTXABANK

CONVOCATORIA INVESTIGADOR SÍNDROME DE DRAVET CONVOCA DRAVET SYNDROME FOUNDATION (DELEGACIÓN EN ESPAÑA) COLABORA KUTXABANK CONVOCATORIA INVESTIGADOR SÍNDROME DE DRAVET CONVOCA DRAVET SYNDROME FOUNDATION (DELEGACIÓN EN ESPAÑA) COLABORA KUTXABANK BASES DE LA CONVOCATORIA Dravet Syndrome Foundation (Delegación en España), www.dravetfoundation.eu,

Más detalles

Bases de datos biológicas

Bases de datos biológicas Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas 28 de mayo del 2013 Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) 28 de mayo del 2013 1 / 50 1 Introducción Desventajas de las bases de datos biológicas Recuperación

Más detalles

Apéndice A Herramientas utilizadas

Apéndice A Herramientas utilizadas Apéndice A Herramientas utilizadas A.1 Java Media Framework El Java Media Framework (JMF) es una interfaz para el desarrollo de aplicaciones (API) e incorpora el manejo de audio y video en el lenguaje

Más detalles

Cómo abrir la base de datos de Aspel-SAE 5.0?

Cómo abrir la base de datos de Aspel-SAE 5.0? Cómo abrir la base de datos de Aspel-SAE 5.0? 1 Herramientas de administración nativas de Firebird. Firebird cuenta con una herramienta llamada ISQL la cual es una consola de línea de comandos desde la

Más detalles

El Programa estadístico R

El Programa estadístico R El Programa estadístico R R es un lenguaje y entorno que permite realizar manipulación de datos, cálculos y gráficos estadísticos, bajo la modalidad de software libre y puede ser instalado en distintos

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

Para comenzar, abra el programa Inmediatamente aparecerá una ventana llamada editor de datos que tiene la siguiente forma:

Para comenzar, abra el programa Inmediatamente aparecerá una ventana llamada editor de datos que tiene la siguiente forma: 1. Descripción Generales del Paquete Estadístico SPSS. SPSS es un paquete estadístico orientado -en principio- al ámbito de aplicación de las Ciencias Sociales y que lleva en el mercado alrededor de 25

Más detalles

Ruth Vilà, María-José Rubio, Vanesa Berlanga, Mercedes Torrado. Cómo aplicar un cluster jerárquico en SPSS.

Ruth Vilà, María-José Rubio, Vanesa Berlanga, Mercedes Torrado. Cómo aplicar un cluster jerárquico en SPSS. Universitat de Barcelona. Institut de Ciències de l Educació Cómo aplicar un cluster jerárquico en SPSS Ruth Vilà-Baños, María-José Rubio-Hurtado, Vanesa Berlanga-Silvente, Mercedes Torrado-

Más detalles

Desmitificando Big Data:

Desmitificando Big Data: Desmitificando Big Data: Data Mining y Business Intelligence 2.0 Ignacio Bustillo Ignacio.Bustillo@stratebi.com Twitter: @IgnacioBustillo Fecha presentación: 14 de Noviembre de 2014 'Hello world!' Creador

Más detalles

Introducción a la Minería de Datos (Data Mining)

Introducción a la Minería de Datos (Data Mining) a la Minería de Datos (Data Mining) IT-Nova Facultad de Ingeniería Informática y Telecomunicaciones Iván Amón Uribe, MSc Minería de Datos Diapositivas basadas parcialmente en material de Inteligencia Analítica

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

SQL SERVER 2008 R2 BI 07/07/2010 BUSINESS INTELLIGENCE

SQL SERVER 2008 R2 BI 07/07/2010 BUSINESS INTELLIGENCE Todo en la vida comienza con código VII Encuentro Desarrolladores Microsoft BUSINESS INTELLIGENCE Ana María Bisbé York Servicios Profesionales VII Encuentro Desarrolladores Microsoft Todo en la vida comienza

Más detalles

Pág. 7 de 11. SPSS Inc. desarrolla un módulo básico del paquete estadístico SPSS, del que han aparecido las siguientes versiones:

Pág. 7 de 11. SPSS Inc. desarrolla un módulo básico del paquete estadístico SPSS, del que han aparecido las siguientes versiones: Pág. 7 de 11 SPSS Historia Fue creado en 1968 por Norman H. Nie, C. Hadlai (Tex) Hull y Dale H. Bent. Entre 1969 y 1975 la Universidad de Chicago por medio de su National Opinion Research Center estuvo

Más detalles

Data & Text Mining. III Reunión de la RedDES(GT de Tecnología de la BVS6) Exponentes:

Data & Text Mining. III Reunión de la RedDES(GT de Tecnología de la BVS6) Exponentes: Data & Text Mining Exponentes: - Dr. Jorge Bacallao Guerra - Ing. Ramón Martinez - Ing. José Villanueva Agosto del 2012 Introducción o Porqué es necesario utilizar data mining o Que ésdata miningy qué

Más detalles

Statgraphics Centurión

Statgraphics Centurión Facultad de Ciencias Económicas y Empresariales. Universidad de Valladolid 1 Statgraphics Centurión I.- Nociones básicas El paquete Statgraphics Centurión es un programa para el análisis estadístico que

Más detalles

ANÁLISIS ESTADÍSTICO DE LA PRODUCCIÓN DE UNA PLANTA EMPACADORA DE TILAPIA

ANÁLISIS ESTADÍSTICO DE LA PRODUCCIÓN DE UNA PLANTA EMPACADORA DE TILAPIA ANÁLISIS ESTADÍSTICO DE LA PRODUCCIÓN DE UNA PLANTA EMPACADORA DE TILAPIA Villalva Roxana, Ramírez John Resumen. El presente trabajo es realizado a partir de los datos de producción de una planta empacadora

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles

CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos

CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos Anteproyecto de Tesis de Magíster en Ingeniería del Software Tesista: Lic. Matilde

Más detalles

Tutorial de Scribus. Es una herramienta de autoedición para crear revistas, periódicos, carteles, calendarios y trípticos. Ministerio de Educación

Tutorial de Scribus. Es una herramienta de autoedición para crear revistas, periódicos, carteles, calendarios y trípticos. Ministerio de Educación Tutorial de Scribus Es una herramienta de autoedición para crear revistas, periódicos, carteles, calendarios y trípticos. Colección de aplicaciones gratuitas para contextos educativos Ministerio de Educación

Más detalles

Trabajo Practico N 12

Trabajo Practico N 12 Trabajo Practico N 12 Minería de Datos CATEDRA: Actualidad Informática Ingeniería del Software III Titular: Mgter. Horacio Kuna JTP: Lic. Sergio Caballero Auxiliar: Yachesen Facundo CARRERAS: Analista

Más detalles

CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL. Nivel 2. Versión 6. Actualización

CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL. Nivel 2. Versión 6. Actualización Página 1 de 19 CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 2 Código IFC297_2 Versión 6 Situación Contraste externo Actualización

Más detalles

Leica Application Suite. Archive

Leica Application Suite. Archive Leica Application Suite Archive Archivado de LAS para microscopía digital La necesidad de contar con soluciones profesionales, específicas de cada cliente para administrar datos digitales nunca había sido

Más detalles

Curso/Tutorial: Estadística Aplicada en la Investigación Biomédica

Curso/Tutorial: Estadística Aplicada en la Investigación Biomédica Curso/Tutorial: Estadística Aplicada en la Investigación Biomédica Nombre del curso Modalidad Duración Intensidad Certificado Dirigido a Estadística Aplicada en la Investigación Biomédica Virtual 16 sesiones

Más detalles

Curso Práctico de Bioestadística Con Herramientas De Excel

Curso Práctico de Bioestadística Con Herramientas De Excel Curso Práctico de Bioestadística Con Herramientas De Excel Fabrizio Marcillo Morla MBA barcillo@gmail.com (593-9) 4194239 Fabrizio Marcillo Morla Guayaquil, 1966. BSc. Acuicultura. (ESPOL 1991). Magister

Más detalles

Análisis de dominancia usando ruby-statsample. Introducción. Instalación de Ruby y gemas. Windows

Análisis de dominancia usando ruby-statsample. Introducción. Instalación de Ruby y gemas. Windows Análisis de dominancia usando ruby-statsample Introducción El análisis de dominancia(azen y Bodescu, 2003), es un método para determinar la importancia relativa de uno o más predictores en comparación

Más detalles

Tema 5. Reconocimiento de patrones

Tema 5. Reconocimiento de patrones Tema 5. Reconocimiento de patrones Introducción al reconocimiento de patrones y a la clasificación de formas Un modelo de general de clasificador Características discriminantes Tipos de clasificación Clasificadores

Más detalles

Conociendo ILWIS. 1.- Ventana principal. Objetivo Conocer las características generales del software ILWIS.

Conociendo ILWIS. 1.- Ventana principal. Objetivo Conocer las características generales del software ILWIS. Conociendo ILWIS Introducción ILWIS o Sistema de Información Integral de Tierra y Agua (Integrated Land and Water Information System en inglés) es un Sistema de Información Geográfica (SIG) y software

Más detalles

Barcelona, 27 y 28 de Octubre de 2011

Barcelona, 27 y 28 de Octubre de 2011 CURSO DE ANÁLIISIIS ESTADÍÍSTIICO PARA DATOS DE NEXT GENERATIION SEQUENCIING Barcelona, 27 y 28 de Octubre de 2011 Introducción Desde hace unos años, los estudios de genética han empezado a generar datos

Más detalles

SISTEMA DE INFORMACION GERENCIAL. Lic.Patricia Palacios Zuleta

SISTEMA DE INFORMACION GERENCIAL. Lic.Patricia Palacios Zuleta SISTEMA DE INFORMACION GERENCIAL Lic.Patricia Palacios Zuleta Pentaho Open BI Suite La suite Pentaho cubre principalmente las siguientes áreas: integración de datos, reportes, análisis, alertas y dashboards,

Más detalles

CURSOS DE ESPECIALIZACIÓN MICROSOFT EXCEL

CURSOS DE ESPECIALIZACIÓN MICROSOFT EXCEL CURSOS DE ESPECIALIZACIÓN MICROSOFT EXCEL MICROSOFT EXCEL. FÓRMULAS Y FUNCIONES. 6 HORAS Ampliar los conocimientos sobre funciones de Microsoft Excel de forma completa y avanzada, con el fin de mejorar

Más detalles

ANÁLISIS DE DATOS DE MICROARRAY 2ª PRÁCTICA OBLIGATORIA

ANÁLISIS DE DATOS DE MICROARRAY 2ª PRÁCTICA OBLIGATORIA ANÁLISIS DE DATOS DE MICROARRAY 2ª PRÁCTICA OBLIGATORIA OBJETIVO Realizar un estudio de expresión génica relacionado con un tema de interés. Mediante esta práctica se evalúan las siguientes capacidades

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

Pablo Martínez-Camblor Subdirección de Salud de Guipuzcoa, Donosti.

Pablo Martínez-Camblor Subdirección de Salud de Guipuzcoa, Donosti. Métodos Estadísticos sticos para Diagnósticos MédicosM Barcelona, uno de marzo de 2008 Pablo Martínez-Camblor Subdirección de Salud de Guipuzcoa, Donosti. MODULO: Diseño de proyectos y análisis estadístico

Más detalles

Botón menú Objetivo de la Minería de datos.

Botón menú Objetivo de la Minería de datos. Titulo de Tutorial: Minería de Datos N2 Botón menú: Introducción. Las instituciones y empresas privadas coleccionan bastante información (ventas, clientes, cobros, pacientes, tratamientos, estudiantes,

Más detalles