Qué es big dimension? Verónica Bolón Canedo 2/30

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Qué es big dimension? Verónica Bolón Canedo 2/30"

Transcripción

1

2 Qué es big dimension? Verónica Bolón Canedo 2/30

3 Big dimension En esta nueva era de Big Data, los métodos de aprendizaje máquina deben adaptarse para poder tratar con este volumen de datos sin precedentes. Análogamente, el término Big Dimension se ha acuñado para referirse al enorme número sin predecentes de características con las que hay que tratar. V. Bolón-Canedo, N. Sánchez-Maroño, A. Alonso-Betanzos Feature Selection for High-Dimensional Data Springer, 2015 Verónica Bolón Canedo 3/30

4 Repasemos algunos conceptos básicos... Verónica Bolón Canedo 4/30

5 Aprendizaje supervisado Terminología: D = {X, Y } es el conjunto de datos (o dataset). Cada fila de X es un ejemplo (o instancia, o muestra). Cada columna de X es una característica (o atributo). Y es el vector de etiquetas (o clases). N es el número de ejemplos. Verónica Bolón Canedo 5/30

6 Aprendizaje supervisado Verónica Bolón Canedo 6/30

7 Hay casos, como por ejemplo cuando tratamos con datos geneticos, donde el numero de caracter ısticas es mucho grande que el de mas ejemplos. Canedo Veronica Bolon 7/30

8 Si echamos un vistazo a los datasets del repositorio UCI Verónica Bolón Canedo 8/30

9 Y si analizamos el repositorio LIBSVM Database 2... Existen conjuntos de datos con más de 29 millones de características (KDD Cup 2010) Varios conjuntos de datos tienen más de 1 millón de características 2 Verónica Bolón Canedo 9/30

10 Aprendizaje supervisado Verónica Bolón Canedo 10/30

11 Aprendizaje supervisado Verónica Bolón Canedo 11/30

12 Selección de características Verónica Bolón Canedo 12/30

13 Reducción de la dimensión Las técnicas de reducción de la dimensión se aplican para reducir la dimensión de los datos originales y, al mismo tiempo, mejorar el aprendizaje. Verónica Bolón Canedo 13/30

14 Técnicas de reducción de la dimensión Extracción de características Transforma las características originales en un subconjunto de nuevas características Selección de características Elimina las características irrelevantes y/o redundantes Verónica Bolón Canedo 14/30

15 Podemos decir como de útil es una característica? Imaginemos que estamos tratando de adivinar el precio de un coche... Relevantes: motor, edad, kilometraje, año de compra, presencia de óxido,... Irrelevantes: color de los limpiaparabrisas, presencia de pegatinas,... Redundantes: edad/año de compra Verónica Bolón Canedo 15/30

16 Por qué aplicar selección de características? Tener más características no implica obtener mejores resultados de aprendizaje. Trabajar con menos características reduce la complejidad del problema y reduce el tiempo de ejecución. Con menos características, se mejora la capacidad de generalización. Obtener los valores para ciertas características pueden ser costoso o difícil. Con menos características, es más fácil comprender el modelo. Verónica Bolón Canedo 16/30

17 Técnicas de selección de características Filtro Embebido Wrapper Verónica Bolón Canedo 17/30

18 Filtros Verónica Bolón Canedo 18/30

19 Medidas de filtrado Medidas de separabilidad. Estiman la separabilidad entre clases: euclídea, Mahalanobis... Por ejemplo, en un problema binario, un proceso de SC basado en este tipo de medidas determina que X es mejor que Y si X induce una diferencia mayor que Y entre las dos probabilidades condicionales a priori entre las clases. Correlación. Los buenos subconjuntos son aquellos que están correlacionados con la clase. f(x 1,..., X M ) = M i=1 M ρ i=1 ic M ρ j=i+1 ij donde ρ ic es el coeficiente de correlación entre la variable S i y la etiqueta c de la clase C y ρ ij es el coeficiente de correlación entre X i y X j Verónica Bolón Canedo 19/30

20 Medidas de filtrado Teoría de la Información. La correlación sólo puede detectar dependencias lineales. Un método más potente es la información mútua. La información mútua I(X 1,...,M ; C) mide la cantidad de incertidumbre que se pierde en la clase C cuando los valores del vector X 1,...,M son conocidos. Debido a que es complejo el cálculo de I, normalmente se usan reglas heurísticas f(x 1,...,M ) = con β = 0.5, por ejemplo M I(X i ; C) β i=1 M M I(X i ; X j ) i=1 j=i+1 Verónica Bolón Canedo 20/30

21 Filtros Ventajas Inconvenientes Ejemplos Independencia del clasificador No interacción con clasificador CFS Bajo coste computacional Consistency-based Rápido INTERACT Buena generalización ReliefF Información mútua Verónica Bolón Canedo 21/30

22 Embebidos Ventajas Inconvenientes Ejemplos Interacción con clasificador Dependiente del clasificador SVM-RFE Coste computacional más bajo que FS-P wrappers Considera dependencias entre características Verónica Bolón Canedo 22/30

23 Wrappers Verónica Bolón Canedo 23/30

24 Wrappers Ventajas Inconvenientes Ejemplos Interacción con clasificador Costoso computacionalmente SFS+SVM Considera dependencias entre características Riesgo de sobreajuste SBS+C4.5 Dependiente del clasificador Verónica Bolón Canedo 24/30

25 Existe otra forma de categorizar los métodos de selección de características de acuerdo a la salida que proporcionan: Métodos que devuelven un subconjunto de características. Métodos que devuelven un ranking de características. Verónica Bolón Canedo 25/30

26 Métodos de subconjunto Devuelven un subconjunto de características optimizado de acuerdo a algún criterio de evaluación. Input: x características, U criterio de evaluación Subconjunto = {} Repetir S k = generarsubconjunto(x) si mejora(s, S k, U) Subconjunto = S k Hasta CriterioParada() Output: Subconjunto de las características más relevantes Verónica Bolón Canedo 26/30

27 Métodos de ranking Devuelven una lista de características ordenadas por un criterio de evaluación. Input: x características, U criterio de evaluación Lista = {} Para cada característica x i, i {1...N} v i = calcular(xi, U) colocar x i en la Lista de acuerdo a v i Output: Lista con las características más relevantes primero Verónica Bolón Canedo 27/30

28 Métodos de ranking Características A1 A2 A3 A4 A5 A6 A7 A8 A9 Ranking A5 A7 A8 A1 A9 A2 A6 A3 A4 A5 A7 A8 A1 A9 A2 (6 características) Verónica Bolón Canedo 28/30

29 Algunos métodos comunmente usados Uni/Multivariado Ranking/Subconjunto Autor y Año Complejidad 3 Chi-Squared Univariado Ranker Liu & Setiono (1995) nm F-score (Fisher score) Univariado Ranker Duda et al. (1999) nm Information Gain Univariado Ranker Quinlan (1986) nm ReliefF Multivariado Ranker Kononenko (1994) n 2 m mrmr Multivariado Ranker Peng et al. (2005) nm 2 SVM-RFE Multivariado Ranker Guyon et al. (2002) max(n, m)m 2 CFS Multivariado Subconjunto Hall (1999) nm 2 FCBF Multivariado Subconjunto Yu & Liu (2003) nm log m INTERACT Multivariado Subconjunto Zhao & Liu (2007) nm 2 Consistency Multivariado Subconjunto Dash & Liu (2003) nm 2 3 n es el número de ejemplos y m el de características Verónica Bolón Canedo 29/30

30 Algunos métodos comunmente usados Uni/Multivariado Ranking/Subconjunto Autor y Año Complejidad 3 Chi-Squared Univariado Ranker Liu & Setiono (1995) nm F-score (Fisher score) Univariado Ranker Duda et al. (1999) nm Information Gain Univariado Ranker Quinlan (1986) nm ReliefF Multivariado Ranker Kononenko (1994) n 2 m mrmr Multivariado Ranker Peng et al. (2005) nm 2 SVM-RFE Multivariado Ranker Guyon et al. (2002) max(n, m)m 2 CFS Multivariado Subconjunto Hall (1999) nm 2 FCBF Multivariado Subconjunto Yu & Liu (2003) nm log m INTERACT Multivariado Subconjunto Zhao & Liu (2007) nm 2 Consistency Multivariado Subconjunto Dash & Liu (2003) nm 2 Estos métodos fueron propuestos hace muchos años... y su complejidad es bastante alta en algunos casos... 3 n es el número de ejemplos y m el de características Verónica Bolón Canedo 29/30

31 Algunos métodos comunmente usados Uni/Multivariado Ranking/Subconjunto Autor y Año Complejidad 3 Chi-Squared Univariado Ranker Liu & Setiono (1995) nm F-score (Fisher score) Univariado Ranker Duda et al. (1999) nm Information Gain Univariado Ranker Quinlan (1986) nm ReliefF Multivariado Ranker Kononenko (1994) n 2 m mrmr Multivariado Ranker Peng et al. (2005) nm 2 SVM-RFE Multivariado Ranker Guyon et al. (2002) max(n, m)m 2 CFS Multivariado Subconjunto Hall (1999) nm 2 FCBF Multivariado Subconjunto Yu & Liu (2003) nm log m INTERACT Multivariado Subconjunto Zhao & Liu (2007) nm 2 Consistency Multivariado Subconjunto Dash & Liu (2003) nm 2 Estos métodos fueron propuestos hace muchos años... y su complejidad es bastante alta en algunos casos... SOLUCIÓN: aprendizaje distribuido 3 n es el número de ejemplos y m el de características Verónica Bolón Canedo 29/30

32 Big dimension Selección de características Verónica Bolón Canedo Department of Computer Science University of A Coruña (Spain) Verónica Bolón Canedo 30/30

Selección de atributos

Selección de atributos Selección de atributos Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Contenido Introducción Clasificación de las técnicas Esquema General Evaluadores

Más detalles

Métodos para Determinar el Atributo Distinguido en Multiredes Bayesianas

Métodos para Determinar el Atributo Distinguido en Multiredes Bayesianas Métodos para Determinar el Atributo Distinguido en Multiredes Bayesianas Andrés Cano Utrera Fco. Javier García Castellano Andrés R. Masegosa Arredondo Serafín Moral Callejón Uncertainty Treatment in Artificial

Más detalles

Tema 12. Selección de Variables

Tema 12. Selección de Variables Tema 12. Selección de Variables Pedro Larrañaga, Iñaki Inza, Abdelmalik Moujahid Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Euskal Herriko Unibertsitatea

Más detalles

Métodos de Inteligencia Artificial

Métodos de Inteligencia Artificial Métodos de Inteligencia Artificial L. Enrique Sucar (INAOE) esucar@inaoep.mx ccc.inaoep.mx/esucar Tecnologías de Información UPAEP Agentes que Aprenden: Clasificador Bayesiano Clasificación Clasificador

Más detalles

Ricardo Aler Mur SELECCIÓN Y GENERACIÓN DE ATRIBUTOS-I

Ricardo Aler Mur SELECCIÓN Y GENERACIÓN DE ATRIBUTOS-I Ricardo Aler Mur SELECCIÓN Y GENERACIÓN DE ATRIBUTOS-I En esta clase se habla de una parte importante del preprocesado de datos: la selección y generación de atributos. La selección de atributos consiste

Más detalles

Selección estable de variables independientes con RFE

Selección estable de variables independientes con RFE Selección estable de variables independientes con RFE Mauro Di Masso y Pablo M. Granitto CIFASIS Centro Internacional Franco Argentino de Ciencias de la Información y Sistemas UPM (Francia) / UNR CONICET

Más detalles

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores Análisis de Datos Introducción al aprendizaje supervisado Profesor: Dr. Wilfrido Gómez Flores 1 Conceptos básicos Reconocimiento de patrones (RP): clasificar objetos en un número de categorías o clases.

Más detalles

Métodos actuales en machine learning

Métodos actuales en machine learning Métodos actuales en machine learning Gracias a los organizadores! Pablo M. Granitto Dr. en Física Docente FCEIA UN Rosario Investigadador en CIFASIS (CONICET) Lucas C. Uzal Dr. en Física Docente FCEIA

Más detalles

Un Framework de Selección de Características basado en la Teoría de la Información para Big Data sobre Apache Spark

Un Framework de Selección de Características basado en la Teoría de la Información para Big Data sobre Apache Spark Un Framework de Selección de Características basado en la Teoría de la Información para Big Data sobre Apache Spark S. Ramírez-Gallego 1, Héctor Mouriño-Talín 2, David Martínez-Rego 2, Verónica Bolón-Canedo

Más detalles

Aprendizaje para Clasificación con Factorización Matricial Basado en Listwise para Filtrado Colaborativo

Aprendizaje para Clasificación con Factorización Matricial Basado en Listwise para Filtrado Colaborativo 2012 Aprendizaje para Clasificación con Factorización Matricial Basado en Listwise para Filtrado Colaborativo Iván López Espejo 22/04/2012 2 Aprendizaje para Clasificación con Factorización Matricial Basado

Más detalles

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Tareas de la minería de datos: clasificación CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja

Más detalles

Sesión 6: Clasificadores Bayesianos

Sesión 6: Clasificadores Bayesianos Modelos Gráficos Probabilistas L. Enrique Sucar INAOE Sesión 6: Clasificadores Bayesianos La teoría de probabilidades en el fondo no es nada más que sentido común reducido a cálculos... [Pierre Simon Laplace,

Más detalles

Sistemas de Reconocimiento de Patrones

Sistemas de Reconocimiento de Patrones Sistemas de Reconocimiento de Patrones p. 1/33 Sistemas de Reconocimiento de Patrones Luis Vázquez GTI - IIE Facultad de Ingeniería Universidad de la República Sistemas de Reconocimiento de Patrones p.

Más detalles

Análisis Espacial aplicando Técnicas de Inteligencia Artificial

Análisis Espacial aplicando Técnicas de Inteligencia Artificial Análisis Espacial aplicando Técnicas de Inteligencia Artificial OBJETIVO. Proporcionar al estudiante técnicas variadas de inteligencia artificial para el tratamiento de datos espaciales y presentar cómo

Más detalles

Selección de características. Reconocimiento de Patrones 2013

Selección de características. Reconocimiento de Patrones 2013 Selección de características Reconocimiento de Patrones 2013 Selección de características Estrategia de búsqueda óptima o sub-optima para la selección de un sub-conjunto de características para el diseño

Más detalles

Una revisión a algoritmos de selección de atributos que tratan la redundancia en datos microarreglos

Una revisión a algoritmos de selección de atributos que tratan la redundancia en datos microarreglos Tipo de artículo: Artículo de revisión Temática: Inteligencia artificial Recibido: 18/10/2012 Aceptado: 25/10/2013 Publicado: 10/12/2013 Una revisión a algoritmos de selección de atributos que tratan la

Más detalles

Uso de técnicas de Saliency para Selección de Características

Uso de técnicas de Saliency para Selección de Características I Workshop en Deep Learning Uso de técnicas de Saliency para Selección de Características Brais Cancela LIDIA Group Universidade da Coruña A Coruña, Spain brais.cancela@udc.es Verónica Bolón-Canedo LIDIA

Más detalles

Lingüística computacional

Lingüística computacional Lingüística computacional Definición y alcance Escuela Nacional de Antropología e Historia (ENAH) Agosto diciembre de 2015 Lingüística Ciencias de la computación Lingüística computacional Estudio del lenguaje

Más detalles

Selección de Atributos. Dr. Jesús Ariel Carrasco Ochoa Oficina 8311

Selección de Atributos. Dr. Jesús Ariel Carrasco Ochoa Oficina 8311 Selección de Atributos Dr. Jesús Ariel Carrasco Ochoa ariel@inaoep.mx Oficina 8311 Contenido Introducción Estrategias de selección Técnicas filter Técnicas wrapper Técnicas híbridas Selección de atributos

Más detalles

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR Tareas de la minería de datos: clasificación PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja o asocia datos

Más detalles

Distribuciones multivariadas

Distribuciones multivariadas Distribuciones multivariadas Si X 1,X 2,...,X p son variables aleatorias discretas, definiremos la función de probabilidad conjunta de X como p(x) =p(x 1,x 2,...,x k )=P (X 1 = x 1,X 2 = x 2,...,X p =

Más detalles

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores Análisis de Datos Introducción al aprendizaje supervisado Profesor: Dr. Wilfrido Gómez Flores 1 Conceptos básicos Desde la antigüedad, el problema de buscar patrones en datos es fundamental en diversas

Más detalles

Práctica 3 de Minería de Datos Ejercicios Libres con Clementine

Práctica 3 de Minería de Datos Ejercicios Libres con Clementine Práctica 3 de Minería de Datos Ejercicios Libres con Clementine Curso de Almacenes de Datos y Minería de Datos Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia en

Más detalles

Análisis y Recuperación de Información

Análisis y Recuperación de Información Análisis y Recuperación de Información 1 er Cuatrimestre 2017 Página Web http://www.exa.unicen.edu.ar/catedras/ayrdatos/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs.

Más detalles

NEWTON TREES. Árboles de Estimación Estocástica de Probabilidades:

NEWTON TREES. Árboles de Estimación Estocástica de Probabilidades: Tesis de Máster en Ingeniería del Software, Métodos Formales y Sistemas de Información Árboles de Estimación Estocástica de Probabilidades: NEWTON TREES Autor: Fernando Martínez Plumed 1 Directores: Cèsar

Más detalles

Agregación de Riesgos y Capital Económico

Agregación de Riesgos y Capital Económico Agregación de Riesgos y Capital Económico Fernando García, SAS México Agenda Introducción. Metodologías de Agregación de Riesgos. Asignación de Capital. SAS Risk Solutions. Conclusiones. Introducción El

Más detalles

Sistemas de Percepción Visión por Computador

Sistemas de Percepción Visión por Computador Nota: Algunas de las imágenes que aparecen en esta presentación provienen del libro: Visión por Computador: fundamentos y métodos. Arturo de la Escalera Hueso. Prentice Hall. Sistemas de Percepción Visión

Más detalles

para la Selección Simultánea de Instancias y Atributos

para la Selección Simultánea de Instancias y Atributos Algoritmosde Estimaciónde Distribuciones para la Selección Simultánea de Instancias y Atributos MAEB 2012 Albacete 8 10 Febrero Pablo Bermejo, José A. Gámez, Ana M. Martínez y José M. Puerta Universidad

Más detalles

Búsqueda secuencial de subconjuntos de atributos sobre un ranking. Roberto Ruiz, José C. Riquelme y Jesús S. Aguilar Ruiz

Búsqueda secuencial de subconjuntos de atributos sobre un ranking. Roberto Ruiz, José C. Riquelme y Jesús S. Aguilar Ruiz Búsqueda secuencial de subconjuntos de atributos sobre un ranking Roberto Ruiz, José C. Riquelme y Jesús S. Aguilar Ruiz Departamento de Lenguajes y Sistemas Informáticos ETS Ingeniería Informática Universidad

Más detalles

Jugando a policías y ladrones para detectar anomalías en red con ML. Carmen Torrano Giménez #CyberCamp17

Jugando a policías y ladrones para detectar anomalías en red con ML. Carmen Torrano Giménez #CyberCamp17 Jugando a policías y ladrones para detectar anomalías en red con ML Carmen Torrano Giménez #CyberCamp17 Presentación @ctorranog Carmen.torrano@11paths.com 2 Machine Learning 3 Detección de anomalías 4

Más detalles

Métricas para la validación de Clustering

Métricas para la validación de Clustering Métricas para la validación de Clustering MINERIA DE DATOS Elizabeth León Guzmán, Profesor Asociado Universidad Nacional de Colombia Ingeniería de Sistemas y Computación Contenido Introducción Tipos de

Más detalles

Mediciones Indirectas

Mediciones Indirectas Mediciones Indirectas Diego Luna April 7, 2017 Laboratorio 1 Mediciones Indirectas April 7, 2017 1 / 23 Motivación Cuando se informa el resultado de una medición, se debe proporcionar alguna indicación

Más detalles

Análisis del artículo

Análisis del artículo Análisis del artículo Mean Shift: A Robust Approach toward Feature Space Analysis Dorin Comaniciu - Peter Meer R. Omar Chávez Garcia - Pável Herrera Domínguez 25 de mayo de 2009 Conceptos básicos Dorin

Más detalles

Conjunto de datos multivariados Matriz de datos de doble entrada

Conjunto de datos multivariados Matriz de datos de doble entrada Conjunto de datos multivariados Matriz de datos de doble entrada Fuentes - Applied Multivariate Statistics for Ecology and Conservation Course website: http://www.umass.edu/landeco/teaching/multivariate/multivariate.html

Más detalles

Jesús García Herrero METODOLOGÍA DE ANÁLISIS DE DATOS

Jesús García Herrero METODOLOGÍA DE ANÁLISIS DE DATOS Jesús García Herrero METODOLOGÍA DE ANÁLISIS DE DATOS En esta clase concluimos el curso de Análisis de Datos con una visión de las metodologías del análisis de datos. Como se ha visto, este es un campo

Más detalles

Desarrollo y evaluación de métodos de selección de características para la predicción de eventos adversos en pacientes polimedicados

Desarrollo y evaluación de métodos de selección de características para la predicción de eventos adversos en pacientes polimedicados E.T.S. de Ingeniería Industrial, Informática y de Telecomunicación Desarrollo y evaluación de métodos de selección de características para la predicción de eventos adversos en pacientes polimedicados Grado

Más detalles

Preprocesamiento: Dr. Edgar Acuña Departamento de Ciencias Matemáticas Universidad de Puerto Rico-Mayaguez

Preprocesamiento: Dr. Edgar Acuña Departamento de Ciencias Matemáticas Universidad de Puerto Rico-Mayaguez Minería de Datos Preprocesamiento: Reducción de dimensionalidad Dr. Edgar Acuña Departamento de Ciencias Matemáticas Universidad de Puerto Rico-Mayaguez E-mail: edgar@math.uprm.edu, eacunaf@gmail.com Website:

Más detalles

UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS DEPARTAMENTO DE INGENIERÍA ELÉCTRICA

UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS DEPARTAMENTO DE INGENIERÍA ELÉCTRICA UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS DEPARTAMENTO DE INGENIERÍA ELÉCTRICA SELECCIÓN E IDENTIFICACIÓN DE GRUPOS COMPLEMENTARIOS DE CARACTERÍSTICAS UTILIZANDO INFORMACIÓN MUTUA

Más detalles

Clasificación Multi-Etiqueta

Clasificación Multi-Etiqueta Clasificación Multi-Etiqueta Eduardo Morales INAOE (INAOE) 1 / 42 Contenido 1 2 3 4 5 (INAOE) 2 / 42 Clasificación Multi-Clase Los algoritmos de aprendizaje que hemos visto hasta ahora, inducen un modelo,

Más detalles

ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.1/31

ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.1/31 ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS Aprendizaje de modelos gráficos probabilísticos. Aplicación al clustering con datos de expresión genética TIC 2001-2973-C05-03 Departamento

Más detalles

Random Subspace Method. Índice. 1. Random Subspace Method. 1. Introducción. 2. Objetivo. 3. Implementación. 4. Evaluación. 5.

Random Subspace Method. Índice. 1. Random Subspace Method. 1. Introducción. 2. Objetivo. 3. Implementación. 4. Evaluación. 5. The Random Subspace Method for Constructing Decision Forests (IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 20, NO. 8, AUGUST 1998) Iñigo Barandiaran 1 Índice 1. Random Subspace

Más detalles

Selección de Atributos

Selección de Atributos Selección de Atributos Eduardo Morales, Jesús González INAOE Mayo, 2010 (INAOE) Mayo, 2010 1 / 53 1 2 3 4 5 6 (INAOE) Mayo, 2010 2 / 53 Selección de Atributos A partir de los atributos originales selecciona

Más detalles

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES 1 APRENDIZAJE PROBABILÍSTICO NAIVE BAYES Bases de Datos Masivas 9 de Noviembre de 2016 2 Razonamiento Probabilístico Es una herramienta de aprendizaje estadístico. Se trata de razonar en un contexto incierto;

Más detalles

520142: ALGEBRA y ALGEBRA LINEAL

520142: ALGEBRA y ALGEBRA LINEAL 520142: ALGEBRA y ALGEBRA LINEAL Segundo Semestre 2008, Universidad de Concepción CAPITULO 10: Espacios Vectoriales DEPARTAMENTO DE INGENIERIA MATEMATICA Facultad de Ciencias Físicas y Matemáticas 1 Definición

Más detalles

Predicción basada en vecinos

Predicción basada en vecinos Predicción basada en vecinos Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Contenido Introducción Esquema de predicción directa Predicción basada

Más detalles

Tema 8. Organización y descripción de datos con más de una variable

Tema 8. Organización y descripción de datos con más de una variable Tema 8 Organización y descripción de datos con más de una variable 1 EL CASO DE DOS VARIABLES CUALITATIVAS Tablas de contingencia Representación gráfica Índices de Asociación OTROS CASOS Una variable cualitativa

Más detalles

Análisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

Análisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores Análisis de Datos Combinación de clasificadores Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Diversos algoritmos de clasificación están limitados a resolver problemas binarios, es decir, con dos

Más detalles

TÉCNICAS ESTADÍSTICAS PARA EL ANÁLISIS DE LA INFORMACIÓN CONTABLE

TÉCNICAS ESTADÍSTICAS PARA EL ANÁLISIS DE LA INFORMACIÓN CONTABLE TEMA 8 TÉCNICAS ESTADÍSTICAS PARA EL ANÁLISIS DE LA INFORMACIÓN CONTABLE 8.1.La inferencia estadística: del análisis univariante al análisis multivariante. 8.2.La reducción de la dimensionalidad: el análisis

Más detalles

Ejercicios sobre probabilidades y entropías

Ejercicios sobre probabilidades y entropías Ejercicios sobre probabilidades y entropías CTI: Lección 1, Primer teorema de Shannon (SCT) Ramiro Moreno Chiral Dpt. Matemàtica (UdL) 10 de febrero de 2010 CTI, lección 1 (Problemas) Ejercicios sobre

Más detalles

2. Algoritmos genéticos y redes neuronales 3. Inducción de árboles clasificadores. Inducción de árboles de clasificación. Aprendizaje UPM UPM

2. Algoritmos genéticos y redes neuronales 3. Inducción de árboles clasificadores. Inducción de árboles de clasificación. Aprendizaje UPM UPM 1. Preliminares Aprendizaje 2. Algoritmos genéticos y redes neuronales 3. Inducción de árboles clasificadores 4. Inducción de reglas 5. Minería de datos c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 1

Más detalles

TABLA DE CONTENIDO. Resumen Introducción Entorno relevante asociado al proyecto Contexto de la Industria...

TABLA DE CONTENIDO. Resumen Introducción Entorno relevante asociado al proyecto Contexto de la Industria... TABLA DE CONTENIDO Resumen... 2 1 Introducción... 15 2 Entorno relevante asociado al proyecto... 16 2.1 Contexto de la Industria... 16 2.1.1 Mercado de metales en el mundo... 16 2.1.2 Industria Minera

Más detalles

Métodos de Remuestreo en Aprendizaje Automático

Métodos de Remuestreo en Aprendizaje Automático Métodos de Remuestreo en Aprendizaje Automático en datos, en hipótesis, y algunos otros trucos: Cross-validation, Bootstrap, Bagging, Boosting, Random Subspaces Lo que sabemos hasta ahora: Hemos visto

Más detalles

Capítulo 8. Selección de variables Introducción

Capítulo 8. Selección de variables Introducción Capítulo 8 Selección de variables 8.1. Introducción En muchos problemas de regresión es posible considerar un número importante de variables predictoras. Un empresario podría estudiar los factores que

Más detalles

Support Vector Machines

Support Vector Machines Support Vector Machines Métodos Avanzados en Aprendizaje Artificial Luis F. Lago Fernández Manuel Sánchez-Montañés Ana González Universidad Autónoma de Madrid 6 de abril de 2010 L. Lago - M. Sánchez -

Más detalles

Clasificación estadística de patrones

Clasificación estadística de patrones Clasificación estadística de patrones Clasificador gaussiano César Martínez cmartinez _at_ fich.unl.edu.ar Tópicos Selectos en Aprendizaje Maquinal Doctorado en Ingeniería, FICH-UNL 19 de setiembre de

Más detalles

Taller Big Data - Parte 1

Taller Big Data - Parte 1 Taller Big Data - Parte 1 Carlos Eiras Franco Department of Computer Science University of A Coruña (Spain) Carlos Eiras Franco EVIA - Junio 2016 1/25 Big data y Data Science Data Science es el arte de

Más detalles

Métodos cuantitativos de las ciencias sociales aplicados a los estudios urbanos y regionales André Lemelin

Métodos cuantitativos de las ciencias sociales aplicados a los estudios urbanos y regionales André Lemelin Métodos cuantitativos de las ciencias sociales aplicados a los estudios urbanos y regionales André Lemelin INDICE PREFACIO... 15 PRIMERA PARTE INTRODUCCIÓN A LA PRIMERA PARTE... 19 CAPÍTULO 1-1 EL ENFOQUE

Más detalles

Big Analytics: de la información al conocimiento

Big Analytics: de la información al conocimiento Programa Introducción Arquitectura/Bases de datos relacionados /Infraestructuras (AMAZON) R Introducción al análisis masivo de datos: descriptivos y visualización de Big Data Hackathon + Series Temporales

Más detalles

TEMA 3.- VECTORES ALEATORIOS.- CURSO

TEMA 3.- VECTORES ALEATORIOS.- CURSO TEMA 3.- VECTORES ALEATORIOS.- CURSO 017-018 3.1. VARIABLES ALEATORIAS BIDIMENSIONALES. FUNCIÓN DE DISTRIBUCIÓN CONJUNTA. 3.. VARIABLES BIDIMENSIONALES DISCRETAS. 3.3. VARIABLES BIDIMENSIONALES CONTINUAS.

Más detalles

A10. Big Data: Herramientas para el procesamiento de datos masivos

A10. Big Data: Herramientas para el procesamiento de datos masivos A10. Big Data: Herramientas para el procesamiento de datos masivos MÁSTER UNIVERSITARIO EN INVESTIGACIÓN EN INTELIGENCIA ARTIFICIAL UNIVERSIDAD INTERNACIONAL MENÉNDEZ PELAYO Este documento puede utilizarse

Más detalles

Jesús García Herrero TÉCNICAS DE REGRESIÓN NO LINEAL

Jesús García Herrero TÉCNICAS DE REGRESIÓN NO LINEAL Jesús García Herrero TÉCNICAS DE REGRESIÓN NO LINEAL En esta clase se presenta un método de inducción de modelos numéricos de regresión a partir de datos. En el tema de técnicas clásicas se presentó la

Más detalles

Introducción a Minería de Texto. Fabián Latorre

Introducción a Minería de Texto. Fabián Latorre Introducción a Minería de Texto Fabián Latorre fabian.latorre@quantil.com.co Contenido Qué es la minería de texto? Por qué es relevante? Por qué la estudiamos? Aplicaciones La complejidad del texto no

Más detalles

Análisis de Datos. Análisis lineal discriminante. Profesor: Dr. Wilfrido Gómez Flores

Análisis de Datos. Análisis lineal discriminante. Profesor: Dr. Wilfrido Gómez Flores Análisis de Datos Análisis lineal discriminante Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Para reducir el error de clasificación algunas veces es necesario identificar el subconjunto de características

Más detalles

Cálculo de Probabilidades II Preguntas Tema 2

Cálculo de Probabilidades II Preguntas Tema 2 Cálculo de Probabilidades II Preguntas Tema 2 1. Demuestre que la suma de n v.a. Bernuolli(p) independientes tiene una distribución Binomial con parametros (n, p). 2. Se dice que una v.a tiene una distribución

Más detalles

Análisis en Componentes Principales

Análisis en Componentes Principales This is page i Printer: Opaque this Análisis en Componentes Principales Dr. Oldemar Rodríguez Rojas 29 de mayo de 2008 ii This is page iii Printer: Opaque this Contents. Análisis en Componentes Principales

Más detalles

Pruebas estadís,cas para evaluar relaciones

Pruebas estadís,cas para evaluar relaciones Pruebas estadís,cas para evaluar relaciones Asociación entre dos variables categóricas Hipótesis: frecuencias de ocurrencias en las categorías de una variable son independientes de los frecuencias en la

Más detalles

Plataformas distribuidas para análisis de grandes grafos. Dr. Cristian Mateos Díaz CONICET / ISISTAN UNICEN

Plataformas distribuidas para análisis de grandes grafos. Dr. Cristian Mateos Díaz CONICET / ISISTAN UNICEN Plataformas distribuidas para análisis de grandes grafos Dr. Cristian Mateos Díaz CONICET / ISISTAN UNICEN http://www.exa.unicen.edu.ar/~cmateos 1 Introducción Big data conduce a grandes volúmenes de datos,

Más detalles

MODELOS DE SELECCIÓN DE ATRIBUTOS PARA SVMS

MODELOS DE SELECCIÓN DE ATRIBUTOS PARA SVMS MODELOS DE SELECCIÓN DE ATRIBUTOS PARA SVMS Sebastián Maldonado Facultad de Ingeniería y Ciencias Aplicadas, Universidad de los Andes San Carlos de Apoquindo 2200, Santiago, Chile smaldonado@uandes.cl

Más detalles

Aprendizaje Automático. Segundo Cuatrimestre de Clasificadores: Naive Bayes, Vecinos Más Cercanos, SVM

Aprendizaje Automático. Segundo Cuatrimestre de Clasificadores: Naive Bayes, Vecinos Más Cercanos, SVM Aprendizaje Automático Segundo Cuatrimestre de 2016 Clasificadores: Naive Bayes, Vecinos Más Cercanos, SVM Naive Bayes Naive Bayes Dada una nueva instancia con valores de atributos a 1, a 2,..., a n, su

Más detalles

Inducción de Árboles de Decisión ID3, C4.5

Inducción de Árboles de Decisión ID3, C4.5 Inducción de Árboles de Decisión ID3, C4.5 Contenido 1. Representación mediante árboles de decisión. 2. Algoritmo básico: divide y vencerás. 3. Heurística para la selección de atributos. 4. Espacio de

Más detalles

Resumen. Recordemos que una cópula es una función C : I 2 I tal que: C(u 2, v 2 ) C(u 2, v 1 ) C(u 1, v 2 ) + C(u 1, v 1 ) 0. (2)

Resumen. Recordemos que una cópula es una función C : I 2 I tal que: C(u 2, v 2 ) C(u 2, v 1 ) C(u 1, v 2 ) + C(u 1, v 1 ) 0. (2) Contenido 1 2 3 Cópula Empírica Cópula Kernel Resumen Recordemos que una cópula es una función C : I 2 I tal que: 1 Para cualesquiera u, v en I := [0, 1] C(u, 0) = 0 = C(0, v), C(u, 1) = u, C(1, v) = v.

Más detalles

Guía docente de la asignatura

Guía docente de la asignatura Guía docente de la asignatura Asignatura Materia TÉCNICAS DE APRENDIZAJE AUTOMÁTICO COMPUTACIÓN Módulo Titulación GRADO EN INGENIERÍA INFORMÁTICA (463) Plan 463 Código 45209 Periodo de impartición 2º CUATRIMESTRE

Más detalles

Procesamiento Masivo de Web Spam. Washington Bastidas Santos Jesús González Vera

Procesamiento Masivo de Web Spam. Washington Bastidas Santos Jesús González Vera Procesamiento Masivo de Web Spam Washington Bastidas Santos Jesús González Vera Agenda INTRODUCCIÓN PROBLEMA METODOLOGÍA IMPLEMENTACIÓN EVALUACIÓN Y RESULTADOS CONCLUSIÓN TRABAJO FUTURO BIBLIOGRAFÍA 1

Más detalles

Cristián Bravo R.

Cristián Bravo R. Cristián Bravo R. cbravo@dii.uchile.cl Banco de Crédito e Inversiones 2 al 5 de Julio, 2011 1 Preparación de datos para generación de scorecards. Selección de Variables. Transformaciones Notables. Segmentación

Más detalles

Tema 13: Regresión Logística p. 1/20 Tema 13: Regresión Logística Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del

Más detalles

Elementos de máquinas de vectores de soporte

Elementos de máquinas de vectores de soporte Elementos de máquinas de vectores de soporte Clasificación binaria y funciones kernel Julio Waissman Vilanova Departamento de Matemáticas Universidad de Sonora Seminario de Control y Sistemas Estocásticos

Más detalles

Aprendizaje no supervisado

Aprendizaje no supervisado Aprendizaje no supervisado Algoritmo de K medias Julio Waissman Vilanova Licenciatura en Ciencias de la Computación Universidad de Sonora Curso Inteligencia Artificial Plan del curso Aprendizaje no supervisado

Más detalles

Posibles trabajos HIA

Posibles trabajos HIA Posibles trabajos HIA Posibles trabajos Comparar otras herramientas de Minería de Datos con Weka Estudiar la influencia del ruido en bagging y boosting Estudiar la influencia del parámetro de poda en J48

Más detalles

Evaluación de Rankings de Atributos para Clasificación

Evaluación de Rankings de Atributos para Clasificación Evaluación de Rankings de Atributos para Clasificación Roberto Ruiz, Jesús S. Aguilar Ruiz, and José C. Riquelme Departamento de Lenguajes y Sistemas Informáticos Universidad de Sevilla, Sevilla, España

Más detalles

Programa Big Analytics: de la información al conocimiento

Programa Big Analytics: de la información al conocimiento Programa Big Analytics: de la información al conocimiento 1/02/2018 Introducción Directora: Rosa Lillo/Deloitte Introducción general al Big data y la necesidad del Analytics 2/02/2018 - Arquitectura/Bases

Más detalles

Inteligencia Artificial: Su uso para la investigación

Inteligencia Artificial: Su uso para la investigación Inteligencia Artificial: Su uso para la investigación Dra. Helena Montserrat Gómez Adorno Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas helena.adorno@iimas.unam.mx 1 Introducción

Más detalles

Clusters. Walter Sosa Escudero. Universidad de San Andres y CONICET

Clusters. Walter Sosa Escudero. Universidad de San Andres y CONICET (wsosa@udesa.edu.ar) Universidad de San Andres y CONICET Ideas generales X matriz de N filas y p columnas. Cada fila es un punto de p dimensiones. Cada columna se corresponde con una variable. Ejemplo:

Más detalles

Aprendizaje Estadístico

Aprendizaje Estadístico Aprendizaje Estadístico Modelado y Análisis de Redes de Telecomunicaciones IIE - Facultad de Ingeniería Curso 2014 Introducción Algunos ejemplos de aprendizaje (son muchos!): clasificar mail en spam o

Más detalles

Normalización Clase Práctica SPI y SPDF

Normalización Clase Práctica SPI y SPDF Normalización Clase Práctica Departamento de Computación - Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires Base de Datos 2do. Cuatrimestre 2015 Esquema General 1 Introducción 2 Sin

Más detalles

Atributo1 Atributo 2... Atributo n xxxxxxxx xxxxxxxx... xxxxxxxx xxxxxxxx xxxxxxxx... xxxxxxxx... xxxxxxxx xxxxxxxx... xxxxxxxx

Atributo1 Atributo 2... Atributo n xxxxxxxx xxxxxxxx... xxxxxxxx xxxxxxxx xxxxxxxx... xxxxxxxx... xxxxxxxx xxxxxxxx... xxxxxxxx TEMA 4.- MODELOS LOGICOS DE DATOS. Introducción al Modelo Relacional. Transformación de un esquema E-R a un esquema relacional. 1. Introducción al Modelo Relacional El concepto principal es el de TABLA

Más detalles

ALGEBRA 1- GRUPO CIENCIAS- TURNO TARDE- Espacios vectoriales

ALGEBRA 1- GRUPO CIENCIAS- TURNO TARDE- Espacios vectoriales Resumen teoría Prof. Alcón ALGEBRA 1- GRUPO CIENCIAS- TURNO TARDE- Espacios vectoriales Sea (K, +,.) un cuerpo con característica 0. Podemos pensar K = Q, R o C. Si V es un conjunto cualquiera en el que

Más detalles

Aprendizaje basado en ejemplos.

Aprendizaje basado en ejemplos. Aprendizaje basado en ejemplos. In whitch we describe agents that can improve their behavior through diligent study of their own experiences. Porqué queremos que un agente aprenda? Si es posible un mejor

Más detalles

Algebra lineal y conjuntos convexos 1

Algebra lineal y conjuntos convexos 1 Algebra lineal y conjuntos convexos Solución de sistemas. Espacios vectoriales. 3 Conjuntos convexos. 4 Soluciones básicas puntos extremos. Rango de una matriz A R m n. Reducir A a una matriz escalonada

Más detalles

Introducción a los SVMs con R Innova-TSN Octubre Título diapositiva

Introducción a los SVMs con R Innova-TSN Octubre Título diapositiva Introducción a los SVMs con R Innova-TSN Octubre 2016 Título diapositiva Agenda 1. Innova-TSN: i. Quiénes somos? Misión, Visión, Valores Equipo ii. Ámbitos de Negocio 2. Introducción a los SVMs 1. Introducción

Más detalles

Selección de atributos considerando inter-dependencias

Selección de atributos considerando inter-dependencias Selección de atributos considerando inter-dependencias Title Selección de atributos considerando inter-dependencias Issue Date 2007-03-01 Publisher Instituto Tecnológico y de Estudios Superiores de Monterrey

Más detalles

Ricardo Aler Mur CLASIFICADORES KNN-I

Ricardo Aler Mur CLASIFICADORES KNN-I Ricardo Aler Mur CLASIFICADORES KNN-I En esta clase se habla del aprendizaje de modelos de clasificación y regresión basados en instancias o ejemplares. En concreto: Se define la clasificación y regresión

Más detalles

1. Modelos Loglineales tablas de 2 entradas

1. Modelos Loglineales tablas de 2 entradas 1. Modelos Loglineales tablas de 2 entradas Los modelos loglineales para tablas de 2 2 describen las asociaciones entre dos variables discretas digamos X y Y. El modelo loglineal nos dice cuan grande es

Más detalles

Redes Bayesianas (3) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile

Redes Bayesianas (3) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile Redes Bayesianas (3) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile Referencia Tutorial NIPS (Neural Information Processing Systems Conference) 2001: Learning Bayesian Networks

Más detalles

Aprendizaje Automatizado

Aprendizaje Automatizado Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto

Más detalles

Análisis de estrategias de clasificación multiclase en microarrays: relación con medidas de complejidad

Análisis de estrategias de clasificación multiclase en microarrays: relación con medidas de complejidad Análisis de estrategias de clasificación multiclase en microarrays: relación con medidas de complejidad L. Morán Fernández, V. Bolón-Canedo y A. Alonso-Betanzos Laboratorio de I+D en Inteligencia Artificial

Más detalles

Teoría de la decisión

Teoría de la decisión 1.- Un problema estadístico típico es reflejar la relación entre dos variables, a partir de una serie de Observaciones: Por ejemplo: * peso adulto altura / peso adulto k*altura * relación de la circunferencia

Más detalles

PROGRAMA DEL CURSO SOBRE PSICOLOGÍA EXPERIMENTAL MANUEL MIGUEL RAMOS ÁLVAREZ

PROGRAMA DEL CURSO SOBRE PSICOLOGÍA EXPERIMENTAL MANUEL MIGUEL RAMOS ÁLVAREZ PROGRAMA DEL CURSO SOBRE PSICOLOGÍA EXPERIMENTAL MANUEL MIGUEL RAMOS ÁLVAREZ Resumen de Psicología Experimental 1 PSICOLOGÍA EXPERIMENTAL Manuel Miguel Ramos Alvarez. I. FUNDAMENTOS METODOLÓGICOS DE LA

Más detalles

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón Metodología de Investigación Tesifón Parrón Contraste de hipótesis Inferencia Estadística Medidas de asociación Error de Tipo I y Error de Tipo II α β CONTRASTE DE HIPÓTESIS Tipos de Test Chi Cuadrado

Más detalles