EN SELECCIÓN GENÓMICA.

Tamaño: px
Comenzar la demostración a partir de la página:

Download "EN SELECCIÓN GENÓMICA. gonzalez.oscar@inia.es"

Transcripción

1 MACHINE LEARNING EN SELECCIÓN GENÓMICA Oscar González-Recio Oscar González Recio

2 COLABORADORES y AGRADECIMIENTOS. Broman D. Gianola C. Engelman.A. Weigel G.J.M. Rosa P. Van Raden N. Long. Van Tassell p G. Wiggans S. Avendaño T. Vega A. ranis G. de los Campos H. Naya E. López de Maturana

3 ÍNDICE Introducción Diseño de un sistema de aprendizaje Teoría de la información Regresiones no-paramétricas Regresion no-paramétrica simple RHS Ensemble methods ( Algoritmos de conjunto )

4 Aprendizaje Automático INTRODUCCIÓN Pueden pensar yaprender las máquinas? Aprendizaje = a) realizar cambios útiles en nuestra mente b) cambios en un sistema que nos permiten realizar una determinada tarea de forma más eficiente la próxima vez

5 Aprendizaje automático INTRODUCCIÓN Algoritmos eficientes en ciertas tareas de aprendizaje Ej: Reconocimiento de voz, juegos de estrategia (ajedrez), tratamiento de imágenes, búsquedas web, clasificación de constelaciones, o es, predicción meteorológica, o conducción automática de vehículos. DATA MINING aplicadas a grandes bases de datos (bancarios, financieros, médicos, bio-estadísticos) No va en contra del state of Nature Sí puede ser Bayesiano

6 Aprendizaje automático Campo multidisciplinar INTRODUCCIÓN Aplicado a genética animal, incluye Bio-Informática Estadística Genética cuantitativa Genética molecular Producción animal colaboración

7 Aprendizaje automático INTRODUCCIÓN Evita modelos paramétricos, rígidos yestrictos que puedan estar alejados de la realidad de las observaciones

8 INTRODUCCIÓN Aprendizaje automático (Mitchell) E (datos) T (algoritmo) P (comportamiento) Hay aprendizaje si T mejora P al observar E

9 INTRODUCCIÓN Aprendizaje automático (Elementos básicos) Experiencias o ejemplos (Features or instances) Tarea Medida de comportamiento E (datos) T (algoritmo) P (comportamiento)

10 INTRODUCCIÓN Dado: Una colección de Ejemplos de un concepto, clase, categoría ( ) Producir: Una descripción ió o ecuación (T) que cubra todos, o la mayoría de los ejemplos y que Prediga el valor, clase o categoría de futuros ejemplos

11 ÍNDICE Introducción Diseño de un sistema de aprendizaje Teoría de la información Regresiones no-paramétricas Regresion no-paramétrica simple RHS Ensemble methods ( Algoritmos de conjunto )

12 DISEÑO DE UN SISTEMA DE APRENDIZAJE Training/tunning/testing Datos (E) Validación cruzada tradicional (3-fold CV)

13 DISEÑO DE UN SISTEMA DE APRENDIZAJE Training/tuning/testing Datos (E) TRAINING SET TESTING SET TRAINING SET E (training set) tu uning set TESTING SET T (algoritmo) P (comportamiento en testing set) El tuning set realiza tareas de optimización de variables y parámetros del algoritmo necesarios para realizar las predicciones

14 DISEÑO DE UN SISTEMA DE APRENDIZAJE Antes de empezar: Preguntarnos que queremos responder Que situación cabe esperar Diseñar el training y el testing set en consecuencia

15 DISEÑO DE UN SISTEMA DE APRENDIZAJE Ejemplo (Weigel et al., JDS2009): Vacuno de leche. Generaciones solapadas. Objetivo actual de la selección genómica: PREDECIR EL VALOR GENÉTICO DE ANIMALES JÓVENES A REPRODUCTORES CON MAYOR FIABILIDAD 4703 toros genotipados ( ) 2002) con Illumina bovine 50 beadchip.

16 DISEÑO DE UN SISTEMA DE APRENDIZAJE Ejemplo (Weigel et al., JDS2009): E(3304 toros P(1398 toros nacidos antes T (algoritmo) nacidos despues de 1998) de 1999) 86% hijos de training set 71% nietos del training set La disponibilidad de fenotipos ygenotipos es continua (no se plantea número de generaciones sin fenotipar en las que la selección genómica es válida). Se usa información ió de todas las generaciones (o las más cercana) disponibles para estimar GBV-PTA.

17 DISEÑO DE UN SISTEMA DE APRENDIZAJE Ejemplo (Weigel et al., JDS2009): Predicción del PTA futuro ( y, yˆ), en baja densidad de marcadores (Utilizando Lasso Bayesiano-BL). Selección de 300, 500, 750, 1000, 1250, 1500 y 2000 SNP a) Equidistantes b) Mayor efecto en valor absoluto (media posterior de la estima del coeficiente de regresión) en un análisis previo usando BL con los SNPs. BL con SNPs como referencia

18 DISEÑO DE UN SISTEMA DE APRENDIZAJE Ejemplo (Weigel et al., JDS2009): Altas fiabilidades incluso a lo largo de varias generaciones (fuerte LD, o estructuras genómicas familiares que se mantienen a lo largo de varias generaciones).

19 ÍNDICE Introducción Diseño de un sistema de aprendizaje Teoría de la información Regresiones no-paramétricas Regresion no-paramétrica simple RHS Ensemble methods ( Algoritmos de conjunto )

20 Entropía Teoría de la información Medida de incertidumbre asociada a variables aleatorias (C.E. Shannon, 1948) H(Pr(Y)) = y A Pr(y)log 2 Pr(y) Ver también Long et al. (2007)

21 Teoría de la información Ganancia de información ió Diferencia en entropia de una distribución de probabilidad antes y después de observar los genotipos (i.e. cuanta incertidumbre de la distribucion ib i de los fenotipos se reduce al observar los genotipos de un SNP). N + y N - son el numero de individuos en cada categoria (casos/controles; mejores/peores; mejores/medios/peores)

22 EJEMPLO: Teoría de la información Análisis de asociación con genoma completo en artritis reumatoide en humanos (Gonzalez-Recio et al., 2009) Datos del Consorcio Norteamericano para la Artritis Reumatoide (Plenge et al., 2007). 868 casos y controles Individuos genotipados con el chip 500 Illumina ( SNPs). Objetivo: Reducción de dimensionalidad i d del genotipado para posterior analísis de interacción gen x gen ( x10 6 interacciones potenciales)

23 Teoría de la información Análisis de asociación con genoma completo en artritis reumatoide en humanos (Gonzalez-Recio et al., 2009)

24 Teoría de la información 100 SNPs fuera del HLA (Percentile 99.65) En HLA seleccionamos SNPs (de 1.323) usando wrapper Wrapper: Realiza una selección de SNPs (Ejemplos, covariables) realizando una búsqueda para un set óptimo de SNPs para la clasificación de la variable dependiente (Clasificador Naïve Bayes ) (Long et al., 2007). Ejemplo: Análisis i de asociación ió con genoma completo en artritis reumatoide en humanos (González-Recio et al., 2009)

25 Teoría de la información Ejemplo: Análisis de asociación con genoma completo en artritis reumatoide en humanos (Gonzalez-Recio et al., 2009)

26 Teoría de la información 100 SNPs fuera del HLA (Percentile 99.65) 6 HLA-SNPs seleccionados por el wrapper (de 1.323) Lasso Umbral Bayesiano: Efectos mayores de los 106 SNPs e Interacciones HLA-nonHLA (2.560 efectos) Ejemplo: Análisis de asociación con genoma completo en artritis reumatoide en humanos (Gonzalez-Recio et al., 2009)

27 Teoría de la información Ejemplo: Análisis i de asociación ió con genoma completo en artritis reumatoide en humanos (Gonzalez-Recio et al., 2009)

28 Teoría de la información Ejemplo 2: Predicción de la eficacia de transformación de alimento en broilers (González- Recio et al., 2009). Animales genotipados para 4505 SNPs Selección de 400 SNPs utilizando ganancia de información. FCR Clasificación de individuos según 2 o 3 clases y diferentes percentiles. α= {0.025, , 0.125, 0.15, 0.175, 0.20} Clase media: α= ( )

29 Teoría de la información Ejemplo 2: Eficacia de transformación de alimento en broilers (González-Recio et al., 2009)

30 Limitaciones Teoría de la información Se considera únicamente la información de un SNP, sin tener en cuenta el resto. Se pueden inferir haplotipos (Chanda et al., 2009; Schulz et al., 2009) Necesario clasificar fenotipos. A veces no es fácil el diagnostico.

31 ÍNDICE Introducción Diseño de un sistema de aprendizaje Teoría de la información Regresiones no-paramétricas Regresion no-paramétrica simple RHS Ensemble methods ( Algoritmos de conjunto )

32 Ejemplo: Regresión no-paramétrica simple regresion no paramétrica -4-2 y x

33 Regresión no-paramétrica simple ernel regression y = g( x ) + e i (1,..., n) i i i x i codificación del genotipo del animal i e = e } { i residuos g( x i ) función desconocida que relaciona la variable x (genotipo) del animal i, que representa el valor fenotípico esperado de los animales con dicho genotipo 33

34 Regresión no-paramétrica simple ernel regression y = g( x ) + e i (1,..., n) i i i Nadaraya-Watson estimator (Nadaraya, 1964; Watson, 1964) g( x i ) = g(x) =conditional expectation function. g ( x ) = n 1 yp ( xi, y) ) dy y j h ( X x j ) q nh j= 1 n 1 p (x i ) h ( X x j ) q nh j= 1 yp( x, y) dy p( x)

35 ERNELs. El otro lado... Son funciones que miden similitud ili entre dos ejemplos (x i, x j ) Determina distancias no lineales en el espacio de las características feature space Se pueden formular como el producto escalar en un determinado espacio.

36 Partes básicas de un kernel: ERNELs. h ( x i, x j ) = f ( h 1 dist( x i, x j )) f es una determinada función dist(x( i,x j ) es la distancia i o similitud ili entre los ejemplos x i y x j (genotipos) h es un parámetro optimizable tuneable que regulariza la medida de similitud

37 Ejemplos de kernel: ernel gaussiano ernel triangular ERNELs. h h ( x i, x j ) = exp( h 1 ( x i x ( xi, x j ) = h (1 xi x j )1 j ) 2 x i x j ) ernel Epanechnikov h( xi, x j ) (1 h ( xi x j ) ) 1{( x i x ) 1} = j La regresion es lineal en los kernels, pero puede no ser lineal en el espacio original si el kernel es una función NO lineal (Representación dual; ver Gianola y Van aam, 2008; Wahba 1990,1999). 1999) 4

38 ERNELs. Optimización del parámetro h: ernel gaussiano 2 ( xi x j ) ( x, x ) = exp( ) h= 0.01 h= 100 h i j h Frequency Frequency 4e+04 8e Frequency h= e Individuos emparentados, valor próximo a 1. Individuos no emparentados valor próximo a 0

39 y Frequency Regresión no-paramétrica simple Optimización del parámetro h h= 0.01 Over fitting h= 100 Over smooth quency Freq 04 8e+04 0e+00 4e Frequency h= 3 Parámetro á t h optimizado i

40 Regresión NO-Paramétrica. RADIAL BASIS FUNCTIONS (RBF) Long et al. (2009) Función de kernel radial, no lineal Regresión sobre mega-snps (clusters) Diferente (RBF I) o igual (RBF II) peso (parámetro h) para el kernel de cada mega-snp.

41 REPRODUCING ERNEL HILBERT SPACES (Gianola et al., 2006; Gianola and Van aam, 2008; González-Recio et al., 2008) Espacios de Hilbert con núcleo reproducible. RHS J 1 1 λ 2 [ g( x) λ ] = 2[ y Xβ g( x)] R [ y Xβ g( x)] + 2 g( x) H λ añade variablidad. 2 g( x) H Es una norma en

42 RHS ) ( )] ( [ )] ( [ ] ) ( [ H g g g g J x x X β y R x X β y x 1 λ λ + = α α k k X h h h g ) ( ) ( ) ( 1 M ],...,, [ 1 0 = q α α α α α α k k X h j h h h g = = ) ( ) ( ) ( M =... ), (... ), ( ), ( ), ( j i h n h j h h h x x x x x x x x k q h ) ( ), ( ), ( ), ( ), ( 1 n n h j n h n h j i h h x x x x x x ) (0, ~, 1 1 λ λ h N h α ~ υ α α υ α χ λ s ) (0, ~ R e N ~ e e e e s υ χ υ σ

43 RHS Expresado en forma matricial X' R hr y = µ 1 + Xβ + α + e ' ˆ β αˆ X X X R h λ,hh = 1 1 X 1 1 hr h + 1 λ h λ,h X' R hr y y =matriz de kernels que mide similitud genómica entre individuos en un espacio no Euclideano α =vector de coeficientes no paramétricos λ -1 es la varianza de los coeficientes no paramétricos

44 RHS Matriz de ernels () Individuos (1,t) (1,n) viduos Indiv debe ser semidefinida positiva h ( xi, x j )

45 RHS Equivalencia (reparametrización) (De los Campos et al., 2009) α u GEBV ˆ ˆ = = (1) (2) = + y Z X y u Z Z X Z X Z X X ' ˆ ˆ ' ' λ,h λ,h h e β λ σ = + y R y X R α R X R X R X X R 1 1 h λ,h λ,h h h h h h ' ˆ ˆ ' ' β λ (1) (2) Por conveniencia se usa (1), ya que invertir puede no ser trivial

46 Capacidad predictiva en el carácter mortalidad en broilers (González-Recio et al., GENETICS2008) Predicción del caracter mortalidad en broilers bajo condiciones sanitarias suboptimas. 24 SNPs seleccionados por Long et al. (2007) Métodos BLUP Bayesiano (E-BLUP) Regresión sobre marcadores (LR) ernel regression (kernel trinomial) RHS (kernel exponencial similitud de secuencias) Regresión Bayesiana 5-fold CV en la misma población

47 Capacidad predictiva en el carácter mortalidad en broilers (González-Recio et al., GENETICS2008) 24 SNPs seleccionados por Long et al. (2007) 5-fold CV en la misma población Mejor capacidad predictiva con RHS 200% mayor fiabilidad que BLUP 300% mayor fiabilidad que LR En general, los métodos noparamétricos mejor comportamiento que la regresión lineal Resultados más estables con la regresión Bayesiana.

48 Capacidad predictiva en el carácter FCR en broilers (González-Recio et al., GSE2009) Ejemplo 2: Predicción de la eficacia de transformación de alimento en broilers (González- Recio et al., 2009). Animales genotipados para 4505 SNPs Predicción en futuras generaciones (2-fold CV) Métodos Índice de pedigrí Bayes A RHS

49 Capacidad predictiva en el carácter FCR en broilers (González-Recio et al., GSE2009) Ejemplo 2: Predicción de la eficacia de transformación de alimento en broilers (González-Recio et al., 2009). Animales genotipados para 4505 SNPs Selección de 400 SNPs utilizando ganancia de información. 2-fold CV en generaciones diferentes

50 ÍNDICE Introducción Diseño de un sistema de aprendizaje Teoría de la información Regresiones no-paramétricas Regresion no-paramétrica simple RHS Ensemble methods ( Algoritmos de conjunto )

51 Algoritmos de conjunto (Ensemble methods) Combinación ió de modelos (generalmente sencillos). Forman un comité. Juntos poseen mayor capacidad predictiva que por separado. Poseen propiedades estadísticas conocidas. No son cajas negras. Más usados: Bagging (Breiman, 1996) Boosting (Freund and Schapire 1995, 1996)

52 Algoritmos de conjunto (Ensemble methods) Bagging (Breiman, 1996) Bootstrap aggregating Set de datos Ψ = (y, y X ) 1. Realizamos B muestreos con reposición, generando B nuevos sets de datos. Ψ (b) b=(1,,b) 2. Aplicamos el método de elección sobre los B sets. 3. Promediamos las soluciones.

53 BAGGING Reduce los errores de predicción en un factor 1/B al promediar errores Limitación: i ió se asume independencia d i entre los residuos.

54 BAGGING. Ejemplo. Vida productiva (PL PTA) en vacuno de leche E(3304 toros P(1398 toros nacidos antes T (algoritmo) nacidos despues de 1998) de 1999) 86% hijos de training set 71% nietos del training set LASSO Bayesiano utilizando 500, 1000, 1500 o 2000 SNPs seleccionados por ganancia de información. Predicción en futuras generaciones Bagging sobre LASSO Bayesiano

55 BAGGING Correlación de Pearson ( y, yˆ) en testing set

56 BAGGING Ofrece mayores ventajas cuanto más ruido hay en los datos (reducido número de datos, baja densidad de marcadores,,poblaciones pequeñas, ). Puede mejorar, dificilmente empeorar las predicciones.

57 Algoritmos de conjunto (Ensemble methods) Boosting (Freund and Schapire, 1995, 1996) Las predicciones se realizan a través de un conjunto de predictores o learners que aprenden del comportamiento de los anteriores Originalmente se usó en problemas de clasificación (AdaBoost). Friedman lo extendió a problemas de regresión en 2001.

58 Algoritmos de conjunto (Ensemble methods) Boosting (Freund and Schapire, 1995, 1996) Es uno de los métodos más potentes introducido en el campo del machine learning en los últimos 20 años. Utiliza regresores débiles weak learners, que son aquellos cuyo comportamiento es algo mejor que la asignación aleatoria.

59 BOOSTING Como funciona en problemas de regresión: E (datos) g (x) x 0 r 1 (residuos) g 1 ( x) r 2 (residuos) g ( ) 2 x g m (x) Weak learner i = r m+1 (residuos) yˆ = m i 1 w g i Variable de contracción i ( x) En problemas de clasificación los residuos se sustituyen por una ponderación de las observaciones

60 BOOSTING De gran utilidad para problemas de p>>n. Bühlmann y Yu (2003), con función L2 de pérdidas y realizando selección de covariables Se pueden interpretar como técnicas de descenso de gradiente y también como secuencias de espacios de Hilbert.

61 BOOSTING Como funciona en problemas de gran dimensionalidad (Selección Genómica): 1Iiili 1. Inicialización. ió m=0. 0Dd Dado y, asignamos r m =y 2. Incrementamos m en 1 unidad. Ajustamos el weak learner a r m con cada uno de los SNPs por separado r m =g m (x p )+e 3. Búsqueda unidimensional del SNP p que mejor ajusta los datos (mejor predictor), donde n p = arg min ( r i m x i= 1 2, i, p ) 4. Actualizamos r m+1 = r m -g m (x p ), y se repiten los pasos 2-4 hasta alcanzar un criterio de convergencia.

62 BOOSTING (González-Recio et al., en revisión) Vida productiva (PTA) en vacuno de leche E(3304 toros P(1398 toros nacidos antes T (algoritmo) nacidos despues de 1998) de 1999) Bayesian LASSO vs L 2 -Boosting 86% hijos de training set 71% nietos del training set

63 BOOSTING (González-Recio et al., en revisión) MSE en training set (Inferencia)

64 MSE en testing set BOOSTING (González-Recio et al., en revisión)

65 BOOSTING (González-Recio et al., en revisión) MSE en testing set (Predicción)

66 BOOSTING (González-Recio et al., en revisión) Correlación de Pearson ( y, yˆ ) cor ( y, y ˆ) BL (32611) 0.66 OLS-Boost(1330) 0.63 BL (1330) NP-Boost (92) 0.45 BL (92) 0.39

67 BOOSTING Gran capacidad predictiva Prometedor método en estudios de asociación con genoma completo y selección genómica Eficiente en la selección de SNPs y reducción de la dimensionalidad del problema

68 RESUMEN A tener en cuenta

69 Machine Learning Puede usarse en GWAS y en selección genómica. Permite tratar grandes cantidades de genotipos de manera más flexible, sin tener que hacer asunciones alejadas de la realidad. Alta capacidad predictiva para el comportamiento de futuras generaciones. O. Gonzalez-Recio Machine Learning en selección genómica.

70 Machine Learning en SELECCIÓN GENÓMICA Centrarse en el comportamiento de los métodos: capacidad predictiva. Importancia del diseño del sistema de aprendizaje Validación cruzada. Diseño que se ajuste a la realidad y al problema que queremos resolver. Importancia de usar fenotipos y genotipos de nuestras poblaciones. Conclusiones sacadas de problemas y sistemas biológicos que nos ocupan. O. Gonzalez-Recio Machine Learning en selección genómica.

71 SELECCIÓN GENÓMICA Genotipado de una población es caro. Diseño de genotipado que optimice recursos. Genotipado secuencial. Enfásis en el diseño del primer genotipado (uso del chip más caro). Mucho por hacer (investigación y aplicación). Genotipar poblaciones y aprender de ellas (colaboración y uniónde recursos). <1% del conocimiento? --> Necesitario seguir investigando para mejorar el conocimiento i de los sistemas genéticos y las posibilidades d de la selección genómica. O. Gonzalez-Recio Machine Learning en selección genómica.

72 FUTURO Prometedor Nutrigenómica Proteómica Epigenética Medicina personalizada SELECCIÓN GENÓMICA Acoplamientos genómicos Genomica aplicada a sistemas productivos Otras nuevas tecnologías o conocimientos en unos años Nuevas eras Nuevos métodos Nuevas estrategias avanzar O. Gonzalez-Recio Machine Learning en selección genómica.

73 Bibliografía Breiman, L, 1996 Bagging predictors. Machine Learning 24: Bühlmann, P, B. Yu, 2003 Boosting with the L2 loss: regression and classification. J. Amer. Statist. Assoc. 98: Freund, Y., R. E. Schapire, 1996 Experiments with a new boosting algorithm. In L Saitta (Ed.) Thirteen International conference on Machine Learning, pp Morgan aufmann. Gianola, D., R.L. Fernando, A. Stella, 2006 Genomic-assisted prediction of genetic value with semiparametric procedures. Genetics 173: Gonzalez-Recio O., D. Gianola, N. Long,.A. Weigel, G.J.M. Rosa, S. Avendaño, 2008 Nonparametric methods for incorporating genomic information into genetic evaluations: An application to mortality in broilers. Genetics 178: Gonzalez-Recio O., D. Gianola, G.J.M. Rosa,.A. Weigel, A. ranis, 2009 Genome-assisted prediction of a quantitative trait measured in parents and progeny: application to food conversion rate in chickens. Genetics Selection Evolution 41: 3. Gonzalez-Recio O.,.A. Weigel, D. Gianola, H. Naya, G.J.M. Rosa, en revision L2 Boosting to reduce dimensionality in genomic selection. Genetics. González-Recio O., E. Lopez de Maturana, T. Vega,. Broman, C. Engelman, 2009 Detecting SNP by SNP interactions in rheumatoid arthritis using a two step approach with Machine learning and a Bayesian Threshold LASSO model. BMC GENETICS, (Aceptado) Long, N., D. Gianola, GJM. Rosa, A. Weigel, S. Avendaño, 2007 Machine learning classification procedure for selecting SNPs in genomic selection: Application i to early mortality in broilers. J. Anim. Breed. Genet. 124 (6): Long N, D. Gianola, GJM. Rosa, A. Weigel, A. ranis, O. Gonzalez-Recio. Radial basis function regression methods for predicting quantitative traits using SNP markers.(accepted) Nadaraya, E.A., 1964 On estimating regression. Theor. Probab. Appl. 9: Watson, G. S., 1964 Smooth regression analysis. Sankhya A 26: Weigel,. A., G. de los Campos, O. González-Recio, H. Naya, X. L. Wu, N. Long, G.J.M. Rosa, D. Gianola, 2009 Predictive ability of genomic breeding values computed from selected subsets of single nucleotide polymorphism markers for lifetime net merit in Holstein cattle. J. Dairy Sci. 92:

74 Bibliografía Libros: Bishop Mitchell Hastie,Tibshirani&Friedman

MÁQUINA DE VECTORES DE SOPORTE

MÁQUINA DE VECTORES DE SOPORTE MÁQUINA DE VECTORES DE SOPORTE La teoría de las (SVM por su nombre en inglés Support Vector Machine) fue desarrollada por Vapnik basado en la idea de minimización del riesgo estructural (SRM). Algunas

Más detalles

Técnicas Multivariadas Avanzadas

Técnicas Multivariadas Avanzadas Regresión lineal Universidad Nacional Agraria La Molina 2014-2 Regresión lineal Regresión lineal simple Estimando los coecientes Evaluando la precisión de los coecientes estimados Evaluando la precisión

Más detalles

SISTEMAS INTELIGENTES

SISTEMAS INTELIGENTES SISTEMAS INTELIGENTES T11: Métodos Kernel: Máquinas de vectores soporte {jdiez, juanjo} @ aic.uniovi.es Índice Funciones y métodos kernel Concepto: representación de datos Características y ventajas Funciones

Más detalles

ANÁLISIS DISCRIMINANTE

ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE 1. Introducción 2. Etapas 3. Caso práctico Análisis de dependencias introducción varias relaciones una relación 1 variable dependiente > 1 variable dependiente

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Introducción a selección de atributos usando WEKA Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Contenido 1 Introducción a WEKA El origen Interfaces

Más detalles

Redes de Kohonen y la Determinación Genética de las Clases

Redes de Kohonen y la Determinación Genética de las Clases Redes de Kohonen y la Determinación Genética de las Clases Angel Kuri Instituto Tecnológico Autónomo de México Octubre de 2001 Redes Neuronales de Kohonen Las Redes de Kohonen, también llamadas Mapas Auto-Organizados

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

Clasificación Bayesiana de textos y páginas web

Clasificación Bayesiana de textos y páginas web Clasificación Bayesiana de textos y páginas web Curso de doctorado: Ingeniería Lingüística aplicada al Procesamiento de Documentos Víctor Fresno Fernández Introducción Enorme cantidad de información en

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

SVM: Máquinas de Vectores Soporte. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid

SVM: Máquinas de Vectores Soporte. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid SVM: Máquinas de Vectores Soporte Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Contenido 1. Clasificación lineal con modelos lineales 2. Regresión

Más detalles

Cómo se usa Data Mining hoy?

Cómo se usa Data Mining hoy? Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

EL FILTRO DE KALMAN. Resumen

EL FILTRO DE KALMAN. Resumen EL FILTRO DE KALMAN Carlos Pillajo Universidad Politécnica Salesiana - Ecuador cpillajo@ups.edu.ec Javier E. Sierra Universidad Pontificia Bolivariana Colombia javier.sierra@upb.edu.co Resumen El filtro

Más detalles

Técnicas Cuantitativas para el Management y los Negocios

Técnicas Cuantitativas para el Management y los Negocios Segundo cuatrimestre - 4 Técnicas Cuantitativas para el Management y los Negocios Mag. María del Carmen Romero 4 romero@econ.unicen.edu.ar Módulo III: APLICACIONES Contenidos Módulo III Unidad 9. Análisis

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

Selección Genómica: Una Nueva Era para la Producción Porcina

Selección Genómica: Una Nueva Era para la Producción Porcina Selección Genómica: Una Nueva Era para la Producción Porcina Dr. Armand Sánchez. Director de Vetgenomics S.L. Universidad Autónoma de Barcelona 1-3 octubre 2013 - Isla de A Toxa - España El futuro de las

Más detalles

Modelos predictivos de producción de energías renovables

Modelos predictivos de producción de energías renovables Modelos predictivos de producción de energías renovables José R. Dorronsoro, IIC-UAM IIC 2012 www.iic.uam.es 1 Misión Centro de Investigación + Desarrollo + innovación. Creado en 1989 por ADIC (Asociación

Más detalles

Aprendizaje Computacional. Eduardo Morales y Jesús González

Aprendizaje Computacional. Eduardo Morales y Jesús González Aprendizaje Computacional Eduardo Morales y Jesús González Objetivo General La capacidad de aprender se considera como una de los atributos distintivos del ser humano y ha sido una de las principales áreas

Más detalles

Random Forests. Felipe Parra

Random Forests. Felipe Parra Applied Mathematics Random Forests Abril 2014 Felipe Parra Por que Arboles para Clasificación PERFIL DE RIESGO: definir con qué nivel de aversión al riesgo se toman decisiones Interpretación intuitiva

Más detalles

Línea de trabajo: Control de los Procesos de Manufactura Optimización de los Procesos de Manufactura 48 20 100 168-6

Línea de trabajo: Control de los Procesos de Manufactura Optimización de los Procesos de Manufactura 48 20 100 168-6 Nombre de la asignatura: ESTADISTICA MULTIVARIADA Línea de trabajo: Control de los Procesos de Manufactura Optimización de los Procesos de Manufactura 48 20 100 168-6 DOC: Docencia; TIS: Trabajo Independiente

Más detalles

Desarrollo de un nuevo algoritmo para resolver programas lineales enteros y su aplicación práctica en el desarrollo económico.

Desarrollo de un nuevo algoritmo para resolver programas lineales enteros y su aplicación práctica en el desarrollo económico. Desarrollo de un nuevo algoritmo para resolver programas lineales enteros y su aplicación práctica en el desarrollo económico. 7071 Febrero, 2014 Resumen Es importante señalar que en un entorno social

Más detalles

Las Matemáticas En Ingeniería

Las Matemáticas En Ingeniería Las Matemáticas En Ingeniería 1.1. Referentes Nacionales A nivel nacional se considera que el conocimiento matemático y de ciencias naturales, sus conceptos y estructuras, constituyen una herramienta para

Más detalles

Tema 5. Análisis de regresión (segunda parte) Estadística II, 2010/11

Tema 5. Análisis de regresión (segunda parte) Estadística II, 2010/11 Tema 5 Análisis de regresión (segunda parte) Estadística II, 2010/11 Contenidos 5.1: Diagnóstico: Análisis de los residuos 5.2: La descomposición ANOVA (ANalysis Of VAriance) 5.3: Relaciones no lineales

Más detalles

Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos

Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos I. Barbona - Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos Comparison among

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

Otros aspectos. Procesado de la entrada Procesado de la salida. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid

Otros aspectos. Procesado de la entrada Procesado de la salida. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Otros aspectos Procesado de la entrada Procesado de la salida Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Contenido 1. Procesado de la entrada 1. Motivación y tareas

Más detalles

Análisis de Regresión y Correlación con MINITAB

Análisis de Regresión y Correlación con MINITAB Análisis de Regresión y Correlación con MINITAB Primeras definiciones y conceptos de la regresión El análisis de la regresión es una técnica estadística que se utiliza para estudiar la relación entre variables

Más detalles

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión.

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión. TEMA 9 TÉCNICAS DE INTELIGENCIA ARTIFICIAL PARA EL ANÁLISIS DE LA INFORMACIÓN CONTABLE 9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de

Más detalles

Enfoque propuesto para la detección del humo de señales de video.

Enfoque propuesto para la detección del humo de señales de video. Capítulo 3 Enfoque propuesto para la detección del humo de señales de video. 3.1 Comportamiento del enfoque propuesto. Una visión general del método propuesto se muestra en la figura 2. El método genera

Más detalles

Estimar, descomponer y comparar el error de mala clasificación

Estimar, descomponer y comparar el error de mala clasificación Estimar, descomponer y comparar el error de mala clasificación Evaluando y analizando el comportamiento de algoritmos de inducción de clasificadores Aritz Pérez, Pedro Larrañaga e Iñaki Inza Intelligent

Más detalles

Métodos de promedios. Diplomado en Gestión Estratégica de las Finanzas Públicas MÉTODOS ESTADÍSTICOS PARA LA ESTIMACIÓN DE INGRESOS

Métodos de promedios. Diplomado en Gestión Estratégica de las Finanzas Públicas MÉTODOS ESTADÍSTICOS PARA LA ESTIMACIÓN DE INGRESOS MÉTODOS ESTADÍSTICOS PARA LA ESTIMACIÓN DE INGRESOS La estimación o proyección de ingresos futuros puede llevarse a cabo mediante diferentes métodos estadísticos de extrapolación, entre ellos: sistema

Más detalles

Métodos de agregación de modelos y aplicaciones

Métodos de agregación de modelos y aplicaciones Métodos de agregación de modelos y aplicaciones Model aggregation methods and applications Mathias Bourel 1 Recibido: Mayo 2012 Aprobado: Agosto 2012 Resumen.- Los métodos de agregación de modelos en aprendizaje

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

Puede considerarse un caso especial de l análisis de regresión en donde la variable dependiente es dicotómica («Sí» [1] o «No» [0])

Puede considerarse un caso especial de l análisis de regresión en donde la variable dependiente es dicotómica («Sí» [1] o «No» [0]) Regresión logística Puede considerarse un caso especial de l análisis de regresión en donde la variable dependiente es dicotómica («Sí» [1] o «No» [0]) Se trata de calcular la probabilidad en la que una

Más detalles

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1 ÍNDICE Introducción... XV Capítulo 1. El concepto de Data Mining... 1 Introducción... 1 Una definición de Data Mining... 3 El proceso de Data Mining... 6 Selección de objetivos... 8 La preparación de los

Más detalles

ESTADÍSTICA. [análisis regresivo]

ESTADÍSTICA. [análisis regresivo] ESTADÍSTICA wikipedia.com la estadística es una ciencia con base matemática referente a la recolección, análisis e interpretación de datos, que busca explicar condiciones regulares en fenómenos de tipo

Más detalles

Algoritmos Genéticos.

Algoritmos Genéticos. Algoritmos Genéticos. Miguel Cárdenas Montes, Antonio Gómez Iglesias Centro de Investigaciones Energéticas Medioambientales y Tecnológicas, Madrid, Spain miguel.cardenas@ciemat.es 15-19 de Octubre de 2011

Más detalles

DIPLOMADO EN RELACIONES LABORALES Estadística Asistida por Ordenador Curso 2008-2009

DIPLOMADO EN RELACIONES LABORALES Estadística Asistida por Ordenador Curso 2008-2009 Índice general 6. Regresión Múltiple 3 6.1. Descomposición de la variabilidad y contrastes de hipótesis................. 4 6.2. Coeficiente de determinación.................................. 5 6.3. Hipótesis

Más detalles

Tema 5. Reconocimiento de patrones

Tema 5. Reconocimiento de patrones Tema 5. Reconocimiento de patrones Introducción al reconocimiento de patrones y a la clasificación de formas Un modelo de general de clasificador Características discriminantes Tipos de clasificación Clasificadores

Más detalles

8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión...

8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión... Tema 8 Análisis de dos variables: dependencia estadística y regresión Contenido 8.1. Introducción............................. 1 8.2. Dependencia/independencia estadística.............. 2 8.3. Representación

Más detalles

Conceptos Fundamentales. Curso de Estadística TAE, 2005 J.J. Gómez-Cadenas

Conceptos Fundamentales. Curso de Estadística TAE, 2005 J.J. Gómez-Cadenas Conceptos Fundamentales Curso de Estadística TAE, 2005 J.J. Gómez-Cadenas Análisis de datos en física de partículas Experimento en física de partículas: Observación de n sucesos de un cierto tipo (colisiones

Más detalles

EPD Genómico: El próximo Salto Tecnológico

EPD Genómico: El próximo Salto Tecnológico EPD Genómico: El próximo Salto Tecnológico Ing. Agr. Olga Ravagnolo, Ing. Agr. Ignacio Aguilar, Ing. Agr. Gabriel Ciappesoni, Ing. Agr. Fabio Montossi Programa Nacional de Carne y Lana, INIA Introducción

Más detalles

CURSO ESTADÍSTICA APLICADA CON R

CURSO ESTADÍSTICA APLICADA CON R CURSO ESTADÍSTICA APLICADA CON R Organizado por: Instituto IMDEA Alimentación Facultad de Ciencias de la Universidad Autónoma de Madrid MADRID, de Septiembre a Diciembre de 2015 Estadística Aplicada con

Más detalles

Análisis de expansión de redes de telefonía móvil basándose en indicadores claves de desempeño, utilizando Procesos Gaussianos

Análisis de expansión de redes de telefonía móvil basándose en indicadores claves de desempeño, utilizando Procesos Gaussianos Análisis de expansión de redes de telefonía móvil basándose en indicadores claves de desempeño, utilizando Procesos Gaussianos Jhouben Janyk Cuesta Ramírez. Director: PhD. Mauricio Alexander Álvarez. Facultad

Más detalles

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre: : : lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. 12 6 lemas propios de la. 12 6 lemas propios de la.

Más detalles

METODOS ESTADISTICOS.

METODOS ESTADISTICOS. AREA DE ESTADISTICA E INVESTIGACION DE OPERACIONES PROGRAMA: METODOS ESTADISTICOS. PROYECTO: SERVICIO DE CONSULTORIA ESTADISTICA. SERVICIO DE CONSULTORIA ESTADISTICA. Diseño con propósitos de un posterior

Más detalles

Capítulo 3. Análisis de Regresión Simple. 1. Introducción. Capítulo 3

Capítulo 3. Análisis de Regresión Simple. 1. Introducción. Capítulo 3 Capítulo 3 1. Introducción El análisis de regresión lineal, en general, nos permite obtener una función lineal de una o más variables independientes o predictoras (X1, X2,... XK) a partir de la cual explicar

Más detalles

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Amaro Camargo Erika, Reyes García Carlos A. Instituto Nacional de Astrofísica, Óptica

Más detalles

ANÁLISIS DE ENCUESTAS

ANÁLISIS DE ENCUESTAS ANÁLISIS DE ENCUESTAS TÉCNICAS MULTIVARIANTES 1. Introducción 2. Clasificación de las técnicas 3. Etapas de análisis 4. Supuestos básicos 5. Valores perdidos y anómalos introducción Definición. i ió -

Más detalles

EVALUACIÓN GENÉTICA NACIONAL DEL VACUNO FRISÓN ESPAÑOL

EVALUACIÓN GENÉTICA NACIONAL DEL VACUNO FRISÓN ESPAÑOL Noviembre 2015 EVALUACIÓN GENÉTICA NACIONAL DEL VACUNO FRISÓN ESPAÑOL Las evaluaciones genéticas nacionales del vacuno frisón español son calculadas íntegramente en CONAFE mediante el método BLUP Modelo

Más detalles

código Java Solicitudes Reportes AJI resultados API

código Java Solicitudes Reportes AJI resultados API Analizador Java Inteligente López De Luise María Daniela, miembro IT-Lab de la Universidad de Palermo, mlopez74@palermo.edu Agüero Martín Jorge, miembro IT-Lab de la Universidad de Palermo, agüero.martin@gmail.com

Más detalles

código Java Solicitudes Reportes AJI resultados API

código Java Solicitudes Reportes AJI resultados API Analizador Java Inteligente Agüero Martin Jorge, miembro IT-Lab de la Universidad de Palermo, agüero.marin@gmail.com López De Luise María Daniela, miembro IT-Lab de la Universidad de Palermo, mlopez74@palermo.edu

Más detalles

MÁQUINAS DE VECTORES DE SOPORTE

MÁQUINAS DE VECTORES DE SOPORTE MÁQUINAS DE VECTORES DE SOPORTE Introducción Se tiene información de N individuos codificada de la forma Las variables X son vectores que reúnen información numérica del individuo, las variables Y indican

Más detalles

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez Curso de Análisis de investigaciones con programas Informáticos 1 UNIVERSIDAD DE JAÉN Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos

Más detalles

FACULTAD DE ENFERMERIA MAESTRÌA EN ENFERMERIA PROGRAMA DEL CURSO ESTADÌSTICA AVANZADA CODIGO MC1114 REQUISITOS EG2113 CREDITO: 4

FACULTAD DE ENFERMERIA MAESTRÌA EN ENFERMERIA PROGRAMA DEL CURSO ESTADÌSTICA AVANZADA CODIGO MC1114 REQUISITOS EG2113 CREDITO: 4 FACULTAD DE ENFERMERIA MAESTRÌA EN ENFERMERIA PROGRAMA DEL CURSO ESTADÌSTICA AVANZADA CODIGO MC1114 REQUISITOS EG2113 CREDITO: 4 REQUISITO LICENCIATURA EN ENFERMERÌA PROFESOR 1. Justificación. Se requiere

Más detalles

Métodos no paramétricos para el análisis de la varianza

Métodos no paramétricos para el análisis de la varianza Capítulo 4 Métodos no paramétricos para el análisis de la varianza MÉTODOS PARAMÉTRICOS Y NO-PARAMÉTRICOS Los procedimientos inferenciales que presentan estimaciones con respecto a losparámetrosdelapoblacióndeinteréssellamanmétodos

Más detalles

Algoritmos Genéticos. Introduccion a la Robótica Inteligente

Algoritmos Genéticos. Introduccion a la Robótica Inteligente Algoritmos Genéticos Introduccion a la Robótica Inteligente 7 Marzo 2014 (IRIN) AGs 7/03/2014 1 / 43 Índice 1 Introducción 2 Algoritmos Genéticos 3 Algunos Fundamentos Matemáticos 4 Conclusiones (IRIN)

Más detalles

Distribuciones Multivariantes. Distribuciones Multivariantes. Distribuciones Multivariantes. Objetivos del tema:

Distribuciones Multivariantes. Distribuciones Multivariantes. Distribuciones Multivariantes. Objetivos del tema: Distribuciones Multivariantes Distribuciones Multivariantes Distribución conjunta de un vector aleatorio Objetivos del tema: Distribuciones marginales y condicionadas Al final del tema el alumno será capaz

Más detalles

Neuronas Artificiales

Neuronas Artificiales Modelos básicos b de Redes de Neuronas Artificiales Julián n Dorado Departamento de Tecnologías de la Información n y las Comunicaciones Universidade da Coruña Contenidos Tema 10: Procesado temporal mediante

Más detalles

PROGRAMA EJECUTIVO INTERNACIONAL EN FINANZAS CORPORATIVAS (Administración Financiera)

PROGRAMA EJECUTIVO INTERNACIONAL EN FINANZAS CORPORATIVAS (Administración Financiera) PROGRAMA EJECUTIVO INTERNACIONAL EN FINANZAS CORPORATIVAS (Administración Financiera) Proporcionar las herramientas necesarias para el desarrollo económico financiero y profesional. Muestra herramientas

Más detalles

Minería de datos (Introducción a la minería de datos)

Minería de datos (Introducción a la minería de datos) Minería de datos (Introducción a la minería de datos) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 14-I. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 24

Más detalles

Tema 1: Introducción a la Estadística

Tema 1: Introducción a la Estadística Tema 1: Introducción a la Estadística Estadística. 4 o Curso. Licenciatura en Ciencias Ambientales Licenciatura en Ciencias Ambientales (4 o Curso) Tema 1: Introducción a la Estadística Curso 2009-2010

Más detalles

Introducción a los Algoritmos Genéticos. Tomás Arredondo Vidal 17/4/09

Introducción a los Algoritmos Genéticos. Tomás Arredondo Vidal 17/4/09 Introducción a los Algoritmos Genéticos Tomás Arredondo Vidal 17/4/09 Esta charla trata de lo siguiente: Introducción a algunos aspectos de los algoritmos genéticos. Introducción a algunas aplicaciones

Más detalles

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Introducción al Data Mining Clases 5 Cluster Analysis Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Cluster Análisis 1 El término cluster analysis (usado por primera

Más detalles

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) OFERTAS TECNOLÓGICAS 1) GESTIÓN ORGANIZACIONAL Y LOGÍSTICA INTEGRADA: TÉCNICAS Y SISTEMAS DE INFORMACIÓN 2) GESTIÓN

Más detalles

Deep Learning y Big Data

Deep Learning y Big Data y Eduardo Morales, Enrique Sucar INAOE (INAOE) 1 / 40 Contenido 1 2 (INAOE) 2 / 40 El poder tener una computadora que modele el mundo lo suficientemente bien como para exhibir inteligencia ha sido el foco

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

UNIVERSIDAD DEL SALVADOR PROGRAMA. UNIDAD ACADÉMICA: Campus San Roque González de Santa Cruz. CARRERA: Veterinaria. DIVISIÓN / COMISIÓN: Primer Año

UNIVERSIDAD DEL SALVADOR PROGRAMA. UNIDAD ACADÉMICA: Campus San Roque González de Santa Cruz. CARRERA: Veterinaria. DIVISIÓN / COMISIÓN: Primer Año UNIVERSIDAD DEL SALVADOR PROGRAMA UNIDAD ACADÉMICA: Campus San Roque González de Santa Cruz. CARRERA: Veterinaria DIVISIÓN / COMISIÓN: Primer Año TURNO: Único OBLIGACIÓN ACADÉMICA: ESTADÍSTICA Y DISEÑO

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

Finanzas e Investigación de Mercados"

Finanzas e Investigación de Mercados DIPLOMATURA: "Análisis de Datos para Negocios, Finanzas e Investigación de Mercados" Seminario: Introducción a Data Mining y Estadística Dictado: Sábado 13, 20,27 de Abril, 04 de Mayo en el horario de

Más detalles

PROGRAMA DE ESTUDIO. Horas de Práctica

PROGRAMA DE ESTUDIO. Horas de Práctica PROGRAMA DE ESTUDIO Nombre de la asignatura: MODELADO Y SIMULACIÓN DE PROCESOS Clave: IQM12 Ciclo Formativo: Básico ( ) Profesional (X) Especializado ( ) Fecha de elaboración: 7 DE MARZO DE 2015 Horas

Más detalles

TEMA 1. Introducción al análisis empírico de variables económicas.

TEMA 1. Introducción al análisis empírico de variables económicas. TEMA 1. Introducción al análisis empírico de variables económicas. Profesor: Pedro Albarrán Pérez Universidad de Alicante. Curso 2010/2011. Contenido 1 Datos Económicos Introducción Tipos de Datos. Tratamiento

Más detalles

MODELO PREDICTIVO DE DESERCIÓN ESTUDIANTIL

MODELO PREDICTIVO DE DESERCIÓN ESTUDIANTIL MODELO PREDICTIVO DE DESERCIÓN ESTUDIANTIL APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS Yegny Amaya, Edwin Barrientos, Universidad Francisco de Paula Santander, Colombia Diana Heredia Vizcaíno, Universidad

Más detalles

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013 VivaMéxico sin PRI Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres Facultad de Ciencias de la Computación Benemérita Universidad Autónoma de Puebla Otoño 2013 IMAGENESpemexmorena Adquisición

Más detalles

El Análisis de la Regresión a través de SPSS

El Análisis de la Regresión a través de SPSS El Análisis de la Regresión a través de SPSS M. D olores M artínez M iranda Profesora del D pto. E stadística e I.O. U niversidad de G ranada Referencias bibliográficas. Hair, J.F., Anderson, R.E., Tatham,

Más detalles

PONTIFICIA UNIVERSIDAD CATÓLICA DEL ECUADOR FACULTAD DE CIENCIAS HUMANAS ESCUELA DE SOCIOLOGÍA Y CIENCIAS POLÍTICAS. Estadística.

PONTIFICIA UNIVERSIDAD CATÓLICA DEL ECUADOR FACULTAD DE CIENCIAS HUMANAS ESCUELA DE SOCIOLOGÍA Y CIENCIAS POLÍTICAS. Estadística. PONTIFICIA UNIVERSIDAD CATÓLICA DEL ECUADOR FACULTAD DE CIENCIAS HUMANAS ESCUELA DE SOCIOLOGÍA Y CIENCIAS POLÍTICAS 1. DATOS INFORMATIVOS: MATERIA O MÓDULO: Estadística CÓDIGO: CARRERA: Antropología NIVEL:

Más detalles

Lección n 5. Modelos de distribución n potencial de especies

Lección n 5. Modelos de distribución n potencial de especies Lección n 5. Modelos de distribución n potencial de especies 1. Elaboración de modelos de distribución de especies. a. Planteamiento. El modelado del nicho ambiental se basa en el principio de que la distribución

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Práctica 11 SVM. Máquinas de Vectores Soporte

Práctica 11 SVM. Máquinas de Vectores Soporte Práctica 11 SVM Máquinas de Vectores Soporte Dedicaremos esta práctica a estudiar el funcionamiento de las, tan de moda, máquinas de vectores soporte (SVM). 1 Las máquinas de vectores soporte Las SVM han

Más detalles

Precio del alquiler de pisos durante una serie de meses. Evolución del índice del precio del trigo con mediciones anuales.

Precio del alquiler de pisos durante una serie de meses. Evolución del índice del precio del trigo con mediciones anuales. Series Temporales Introducción Una serie temporal se define como una colección de observaciones de una variable recogidas secuencialmente en el tiempo. Estas observaciones se suelen recoger en instantes

Más detalles

TEMA 3: TRATAMIENTO DE DATOS EN MS. EXCEL (I)

TEMA 3: TRATAMIENTO DE DATOS EN MS. EXCEL (I) VARIABLES Variable: característica de cada sujeto (cada caso) de una base de datos. Se denomina variable precisamente porque varía de sujeto a sujeto. Cada sujeto tiene un valor para cada variable. El

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

DESCRIPCIÓN ESPECÍFICA

DESCRIPCIÓN ESPECÍFICA DESCRIPCIÓN ESPECÍFICA NÚCLEO: COMERCIO Y SERVICIO SUBSECTOR: PRODUCCION Y SALUD OCUPACIONAL Nombre del Módulo: Análisis estadístico de datos. total: 45 HORAS. Objetivo General: Analizar la conformidad

Más detalles

CAPÍTULO 4: ALGORITMOS DE APRENDIZAJE

CAPÍTULO 4: ALGORITMOS DE APRENDIZAJE Capítulo 4 Algoritmos de Aprendizaje 26 CAPÍTULO 4: ALGORITMOS DE APRENDIZAJE En este capítulo se proporcionan las descripciones matemáticas de los principales algoritmos de aprendizaje para redes neuronales:

Más detalles

Cómo obtener un Modelo de Regresión Logística Binaria con SPSS

Cómo obtener un Modelo de Regresión Logística Binaria con SPSS Universitat de de Barcelona. Institut de de Ciències de de l Educació Cómo obtener un Modelo de Regresión Logística Binaria con SPSS Vanesa Berlanga-Silvente y Ruth Vilà-Baños Fecha de presentación:

Más detalles

NOMBRE DE LA ASIGNATURA: Métodos Computacionales en Bioinformática

NOMBRE DE LA ASIGNATURA: Métodos Computacionales en Bioinformática NOMBRE DE LA ASIGNATURA: Métodos Computacionales en Bioinformática CLAVE DE LA ASIGNATURA: 9310 RESPONSABLE DE LA ASIGNATURA: Dr. Ricardo Vázquez Juárez Suplente: Dr. Joaquín Gutiérrez Jagüey PARTICIPANTES:

Más detalles

1 Introducción al SPSS

1 Introducción al SPSS Breve guión para las prácticas con SPSS 1 Introducción al SPSS El programa SPSS está organizado en dos bloques: el editor de datos y el visor de resultados. En la barra de menú (arriba de la pantalla)

Más detalles

NIVEL: CICLO SUPERIOR DE GESTIÓN COMERCIAL Y MARKETING

NIVEL: CICLO SUPERIOR DE GESTIÓN COMERCIAL Y MARKETING ETAPA: FORMACIÓN PROFESIONAL DEPARTAMENTO DE COMERCIO NIVEL: CICLO SUPERIOR DE GESTIÓN COMERCIAL Y MARKETING MATERIA: POLITICAS DE MARKETING OBJETIVOS - Analizar los precios y costes de productos, relacionando

Más detalles

CONTENIDOS MÍNIMOS BACHILLERATO

CONTENIDOS MÍNIMOS BACHILLERATO CONTENIDOS MÍNIMOS BACHILLERATO I.E.S. Vasco de la zarza Dpto. de Matemáticas CURSO 2013-14 ÍNDICE Primero de Bachillerato de Humanidades y CCSS...2 Primero de Bachillerato de Ciencias y Tecnología...5

Más detalles

Estudio de la Empresa Agrícola. Métodos de estudio. Estudio de caso

Estudio de la Empresa Agrícola. Métodos de estudio. Estudio de caso CÁTEDRA DE ADMINISTRACIÓN DE EMPRESAS AGRÍCOLAS TEMA Estudio de la Empresa Agrícola Métodos de estudio Estudio de caso Bibliografía a consultar: GUERRA, Guillermo. 1998. Manual de Empresas Agropecuarias.

Más detalles

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Álvaro J. Méndez Services Engagement Manager IBM SPSS / Profesor Econometría UAM Jecas, 22 Oct 2010 Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Business Analytics software Agenda Minería

Más detalles

Cuadro 1. Promedios productivos nacionales el año 1997 (3.995 lactancias) y el año 2009 (12.309 lactancias).

Cuadro 1. Promedios productivos nacionales el año 1997 (3.995 lactancias) y el año 2009 (12.309 lactancias). MEJORAMIENTO GENÉTICO Y PRODUCCIÓN DE SÓLIDOS EN SISTEMAS PASTORILES Méd. Veterinario M. S. Ph. D. Héctor Uribe M. Departamento de Producción Animal, Universidad de Chile I. Introducción La tendencia mundial

Más detalles

Support Vector Machines

Support Vector Machines Support Vector Machines Separadores lineales Clasificacion binaria puede ser vista como la tarea de separar clases en el espacio de caracteristicas w T x + b > 0 w T x + b = 0 w T x + b < 0 f(x) = sign(w

Más detalles

INTRODUCCIÓN A LA ECONOMETRÍA E INFORMÁTICA MODELOS ECONOMÉTRICOS E INFORMACIÓN ESTADÍSTICA

INTRODUCCIÓN A LA ECONOMETRÍA E INFORMÁTICA MODELOS ECONOMÉTRICOS E INFORMACIÓN ESTADÍSTICA INTRODUCCIÓN A LA ECONOMETRÍA E INFORMÁTICA MODELOS ECONOMÉTRICOS E INFORMACIÓN ESTADÍSTICA Eva Medina Moral (Febrero 2002) EXPRESIÓN DEL MODELO BASICO DE REGRESIÓN LINEAL La expresión formal del modelo

Más detalles

Los modelos que permite construir el ANOVA pueden ser reducidos a la siguiente forma:

Los modelos que permite construir el ANOVA pueden ser reducidos a la siguiente forma: Ignacio Martín Tamayo 25 Tema: ANÁLISIS DE VARIANZA CON SPSS 8.0 ÍNDICE --------------------------------------------------------- 1. Modelos de ANOVA 2. ANOVA unifactorial entregrupos 3. ANOVA multifactorial

Más detalles

Relación de competencias. Resultado de aprendizaje REQUISITOS PREVIOS: MATERIA 2: Estadística 12 créditos (300 horas) 6 Básicos y 6 Obligatorios

Relación de competencias. Resultado de aprendizaje REQUISITOS PREVIOS: MATERIA 2: Estadística 12 créditos (300 horas) 6 Básicos y 6 Obligatorios Planificación del Módulo 4 Denominación: MÉTODOS CUANTITATIVOS PARA LA ECONOMÍA 39 créditos ECTS -21básicos y 18 obligatorios- Este módulo está integrado por tres materias que se imparten en tres cursos

Más detalles

Análisis bayesiano de modelos de riesgo en compañías de seguros

Análisis bayesiano de modelos de riesgo en compañías de seguros Análisis bayesiano de modelos de riesgo en compañías de seguros M. Concepción Ausín, Departamento de Estadística e Investigación Operativa, Universidad Complutense de Madrid. Trabajo conjunto con Juan

Más detalles