Qué es big dimension? Verónica Bolón Canedo 2/30
|
|
- Monica Marta Cortés Gallego
- hace 5 años
- Vistas:
Transcripción
1
2 Qué es big dimension? Verónica Bolón Canedo 2/30
3 Big dimension En esta nueva era de Big Data, los métodos de aprendizaje máquina deben adaptarse para poder tratar con este volumen de datos sin precedentes. Análogamente, el término Big Dimension se ha acuñado para referirse al enorme número sin predecentes de características con las que hay que tratar. V. Bolón-Canedo, N. Sánchez-Maroño, A. Alonso-Betanzos Feature Selection for High-Dimensional Data Springer, 2015 Verónica Bolón Canedo 3/30
4 Repasemos algunos conceptos básicos... Verónica Bolón Canedo 4/30
5 Aprendizaje supervisado Terminología: D = {X, Y } es el conjunto de datos (o dataset). Cada fila de X es un ejemplo (o instancia, o muestra). Cada columna de X es una característica (o atributo). Y es el vector de etiquetas (o clases). N es el número de ejemplos. Verónica Bolón Canedo 5/30
6 Aprendizaje supervisado Verónica Bolón Canedo 6/30
7 Hay casos, como por ejemplo cuando tratamos con datos geneticos, donde el numero de caracter ısticas es mucho grande que el de mas ejemplos. Canedo Veronica Bolon 7/30
8 Si echamos un vistazo a los datasets del repositorio UCI Verónica Bolón Canedo 8/30
9 Y si analizamos el repositorio LIBSVM Database 2... Existen conjuntos de datos con más de 29 millones de características (KDD Cup 2010) Varios conjuntos de datos tienen más de 1 millón de características 2 Verónica Bolón Canedo 9/30
10 Aprendizaje supervisado Verónica Bolón Canedo 10/30
11 Aprendizaje supervisado Verónica Bolón Canedo 11/30
12 Selección de características Verónica Bolón Canedo 12/30
13 Reducción de la dimensión Las técnicas de reducción de la dimensión se aplican para reducir la dimensión de los datos originales y, al mismo tiempo, mejorar el aprendizaje. Verónica Bolón Canedo 13/30
14 Técnicas de reducción de la dimensión Extracción de características Transforma las características originales en un subconjunto de nuevas características Selección de características Elimina las características irrelevantes y/o redundantes Verónica Bolón Canedo 14/30
15 Podemos decir como de útil es una característica? Imaginemos que estamos tratando de adivinar el precio de un coche... Relevantes: motor, edad, kilometraje, año de compra, presencia de óxido,... Irrelevantes: color de los limpiaparabrisas, presencia de pegatinas,... Redundantes: edad/año de compra Verónica Bolón Canedo 15/30
16 Por qué aplicar selección de características? Tener más características no implica obtener mejores resultados de aprendizaje. Trabajar con menos características reduce la complejidad del problema y reduce el tiempo de ejecución. Con menos características, se mejora la capacidad de generalización. Obtener los valores para ciertas características pueden ser costoso o difícil. Con menos características, es más fácil comprender el modelo. Verónica Bolón Canedo 16/30
17 Técnicas de selección de características Filtro Embebido Wrapper Verónica Bolón Canedo 17/30
18 Filtros Verónica Bolón Canedo 18/30
19 Medidas de filtrado Medidas de separabilidad. Estiman la separabilidad entre clases: euclídea, Mahalanobis... Por ejemplo, en un problema binario, un proceso de SC basado en este tipo de medidas determina que X es mejor que Y si X induce una diferencia mayor que Y entre las dos probabilidades condicionales a priori entre las clases. Correlación. Los buenos subconjuntos son aquellos que están correlacionados con la clase. f(x 1,..., X M ) = M i=1 M ρ i=1 ic M ρ j=i+1 ij donde ρ ic es el coeficiente de correlación entre la variable S i y la etiqueta c de la clase C y ρ ij es el coeficiente de correlación entre X i y X j Verónica Bolón Canedo 19/30
20 Medidas de filtrado Teoría de la Información. La correlación sólo puede detectar dependencias lineales. Un método más potente es la información mútua. La información mútua I(X 1,...,M ; C) mide la cantidad de incertidumbre que se pierde en la clase C cuando los valores del vector X 1,...,M son conocidos. Debido a que es complejo el cálculo de I, normalmente se usan reglas heurísticas f(x 1,...,M ) = con β = 0.5, por ejemplo M I(X i ; C) β i=1 M M I(X i ; X j ) i=1 j=i+1 Verónica Bolón Canedo 20/30
21 Filtros Ventajas Inconvenientes Ejemplos Independencia del clasificador No interacción con clasificador CFS Bajo coste computacional Consistency-based Rápido INTERACT Buena generalización ReliefF Información mútua Verónica Bolón Canedo 21/30
22 Embebidos Ventajas Inconvenientes Ejemplos Interacción con clasificador Dependiente del clasificador SVM-RFE Coste computacional más bajo que FS-P wrappers Considera dependencias entre características Verónica Bolón Canedo 22/30
23 Wrappers Verónica Bolón Canedo 23/30
24 Wrappers Ventajas Inconvenientes Ejemplos Interacción con clasificador Costoso computacionalmente SFS+SVM Considera dependencias entre características Riesgo de sobreajuste SBS+C4.5 Dependiente del clasificador Verónica Bolón Canedo 24/30
25 Existe otra forma de categorizar los métodos de selección de características de acuerdo a la salida que proporcionan: Métodos que devuelven un subconjunto de características. Métodos que devuelven un ranking de características. Verónica Bolón Canedo 25/30
26 Métodos de subconjunto Devuelven un subconjunto de características optimizado de acuerdo a algún criterio de evaluación. Input: x características, U criterio de evaluación Subconjunto = {} Repetir S k = generarsubconjunto(x) si mejora(s, S k, U) Subconjunto = S k Hasta CriterioParada() Output: Subconjunto de las características más relevantes Verónica Bolón Canedo 26/30
27 Métodos de ranking Devuelven una lista de características ordenadas por un criterio de evaluación. Input: x características, U criterio de evaluación Lista = {} Para cada característica x i, i {1...N} v i = calcular(xi, U) colocar x i en la Lista de acuerdo a v i Output: Lista con las características más relevantes primero Verónica Bolón Canedo 27/30
28 Métodos de ranking Características A1 A2 A3 A4 A5 A6 A7 A8 A9 Ranking A5 A7 A8 A1 A9 A2 A6 A3 A4 A5 A7 A8 A1 A9 A2 (6 características) Verónica Bolón Canedo 28/30
29 Algunos métodos comunmente usados Uni/Multivariado Ranking/Subconjunto Autor y Año Complejidad 3 Chi-Squared Univariado Ranker Liu & Setiono (1995) nm F-score (Fisher score) Univariado Ranker Duda et al. (1999) nm Information Gain Univariado Ranker Quinlan (1986) nm ReliefF Multivariado Ranker Kononenko (1994) n 2 m mrmr Multivariado Ranker Peng et al. (2005) nm 2 SVM-RFE Multivariado Ranker Guyon et al. (2002) max(n, m)m 2 CFS Multivariado Subconjunto Hall (1999) nm 2 FCBF Multivariado Subconjunto Yu & Liu (2003) nm log m INTERACT Multivariado Subconjunto Zhao & Liu (2007) nm 2 Consistency Multivariado Subconjunto Dash & Liu (2003) nm 2 3 n es el número de ejemplos y m el de características Verónica Bolón Canedo 29/30
30 Algunos métodos comunmente usados Uni/Multivariado Ranking/Subconjunto Autor y Año Complejidad 3 Chi-Squared Univariado Ranker Liu & Setiono (1995) nm F-score (Fisher score) Univariado Ranker Duda et al. (1999) nm Information Gain Univariado Ranker Quinlan (1986) nm ReliefF Multivariado Ranker Kononenko (1994) n 2 m mrmr Multivariado Ranker Peng et al. (2005) nm 2 SVM-RFE Multivariado Ranker Guyon et al. (2002) max(n, m)m 2 CFS Multivariado Subconjunto Hall (1999) nm 2 FCBF Multivariado Subconjunto Yu & Liu (2003) nm log m INTERACT Multivariado Subconjunto Zhao & Liu (2007) nm 2 Consistency Multivariado Subconjunto Dash & Liu (2003) nm 2 Estos métodos fueron propuestos hace muchos años... y su complejidad es bastante alta en algunos casos... 3 n es el número de ejemplos y m el de características Verónica Bolón Canedo 29/30
31 Algunos métodos comunmente usados Uni/Multivariado Ranking/Subconjunto Autor y Año Complejidad 3 Chi-Squared Univariado Ranker Liu & Setiono (1995) nm F-score (Fisher score) Univariado Ranker Duda et al. (1999) nm Information Gain Univariado Ranker Quinlan (1986) nm ReliefF Multivariado Ranker Kononenko (1994) n 2 m mrmr Multivariado Ranker Peng et al. (2005) nm 2 SVM-RFE Multivariado Ranker Guyon et al. (2002) max(n, m)m 2 CFS Multivariado Subconjunto Hall (1999) nm 2 FCBF Multivariado Subconjunto Yu & Liu (2003) nm log m INTERACT Multivariado Subconjunto Zhao & Liu (2007) nm 2 Consistency Multivariado Subconjunto Dash & Liu (2003) nm 2 Estos métodos fueron propuestos hace muchos años... y su complejidad es bastante alta en algunos casos... SOLUCIÓN: aprendizaje distribuido 3 n es el número de ejemplos y m el de características Verónica Bolón Canedo 29/30
32 Big dimension Selección de características Verónica Bolón Canedo Department of Computer Science University of A Coruña (Spain) Verónica Bolón Canedo 30/30
Selección de atributos
Selección de atributos Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Contenido Introducción Clasificación de las técnicas Esquema General Evaluadores
Más detallesMétodos para Determinar el Atributo Distinguido en Multiredes Bayesianas
Métodos para Determinar el Atributo Distinguido en Multiredes Bayesianas Andrés Cano Utrera Fco. Javier García Castellano Andrés R. Masegosa Arredondo Serafín Moral Callejón Uncertainty Treatment in Artificial
Más detallesTema 12. Selección de Variables
Tema 12. Selección de Variables Pedro Larrañaga, Iñaki Inza, Abdelmalik Moujahid Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Euskal Herriko Unibertsitatea
Más detallesMétodos de Inteligencia Artificial
Métodos de Inteligencia Artificial L. Enrique Sucar (INAOE) esucar@inaoep.mx ccc.inaoep.mx/esucar Tecnologías de Información UPAEP Agentes que Aprenden: Clasificador Bayesiano Clasificación Clasificador
Más detallesRicardo Aler Mur SELECCIÓN Y GENERACIÓN DE ATRIBUTOS-I
Ricardo Aler Mur SELECCIÓN Y GENERACIÓN DE ATRIBUTOS-I En esta clase se habla de una parte importante del preprocesado de datos: la selección y generación de atributos. La selección de atributos consiste
Más detallesSelección estable de variables independientes con RFE
Selección estable de variables independientes con RFE Mauro Di Masso y Pablo M. Granitto CIFASIS Centro Internacional Franco Argentino de Ciencias de la Información y Sistemas UPM (Francia) / UNR CONICET
Más detallesAnálisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Introducción al aprendizaje supervisado Profesor: Dr. Wilfrido Gómez Flores 1 Conceptos básicos Reconocimiento de patrones (RP): clasificar objetos en un número de categorías o clases.
Más detallesMétodos actuales en machine learning
Métodos actuales en machine learning Gracias a los organizadores! Pablo M. Granitto Dr. en Física Docente FCEIA UN Rosario Investigadador en CIFASIS (CONICET) Lucas C. Uzal Dr. en Física Docente FCEIA
Más detallesUn Framework de Selección de Características basado en la Teoría de la Información para Big Data sobre Apache Spark
Un Framework de Selección de Características basado en la Teoría de la Información para Big Data sobre Apache Spark S. Ramírez-Gallego 1, Héctor Mouriño-Talín 2, David Martínez-Rego 2, Verónica Bolón-Canedo
Más detallesAprendizaje para Clasificación con Factorización Matricial Basado en Listwise para Filtrado Colaborativo
2012 Aprendizaje para Clasificación con Factorización Matricial Basado en Listwise para Filtrado Colaborativo Iván López Espejo 22/04/2012 2 Aprendizaje para Clasificación con Factorización Matricial Basado
Más detallesTareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR
Tareas de la minería de datos: clasificación CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja
Más detallesSesión 6: Clasificadores Bayesianos
Modelos Gráficos Probabilistas L. Enrique Sucar INAOE Sesión 6: Clasificadores Bayesianos La teoría de probabilidades en el fondo no es nada más que sentido común reducido a cálculos... [Pierre Simon Laplace,
Más detallesSistemas de Reconocimiento de Patrones
Sistemas de Reconocimiento de Patrones p. 1/33 Sistemas de Reconocimiento de Patrones Luis Vázquez GTI - IIE Facultad de Ingeniería Universidad de la República Sistemas de Reconocimiento de Patrones p.
Más detallesAnálisis Espacial aplicando Técnicas de Inteligencia Artificial
Análisis Espacial aplicando Técnicas de Inteligencia Artificial OBJETIVO. Proporcionar al estudiante técnicas variadas de inteligencia artificial para el tratamiento de datos espaciales y presentar cómo
Más detallesSelección de características. Reconocimiento de Patrones 2013
Selección de características Reconocimiento de Patrones 2013 Selección de características Estrategia de búsqueda óptima o sub-optima para la selección de un sub-conjunto de características para el diseño
Más detallesUna revisión a algoritmos de selección de atributos que tratan la redundancia en datos microarreglos
Tipo de artículo: Artículo de revisión Temática: Inteligencia artificial Recibido: 18/10/2012 Aceptado: 25/10/2013 Publicado: 10/12/2013 Una revisión a algoritmos de selección de atributos que tratan la
Más detallesUso de técnicas de Saliency para Selección de Características
I Workshop en Deep Learning Uso de técnicas de Saliency para Selección de Características Brais Cancela LIDIA Group Universidade da Coruña A Coruña, Spain brais.cancela@udc.es Verónica Bolón-Canedo LIDIA
Más detallesLingüística computacional
Lingüística computacional Definición y alcance Escuela Nacional de Antropología e Historia (ENAH) Agosto diciembre de 2015 Lingüística Ciencias de la computación Lingüística computacional Estudio del lenguaje
Más detallesSelección de Atributos. Dr. Jesús Ariel Carrasco Ochoa Oficina 8311
Selección de Atributos Dr. Jesús Ariel Carrasco Ochoa ariel@inaoep.mx Oficina 8311 Contenido Introducción Estrategias de selección Técnicas filter Técnicas wrapper Técnicas híbridas Selección de atributos
Más detallesTareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR
Tareas de la minería de datos: clasificación PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja o asocia datos
Más detallesDistribuciones multivariadas
Distribuciones multivariadas Si X 1,X 2,...,X p son variables aleatorias discretas, definiremos la función de probabilidad conjunta de X como p(x) =p(x 1,x 2,...,x k )=P (X 1 = x 1,X 2 = x 2,...,X p =
Más detallesAnálisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Introducción al aprendizaje supervisado Profesor: Dr. Wilfrido Gómez Flores 1 Conceptos básicos Desde la antigüedad, el problema de buscar patrones en datos es fundamental en diversas
Más detallesPráctica 3 de Minería de Datos Ejercicios Libres con Clementine
Práctica 3 de Minería de Datos Ejercicios Libres con Clementine Curso de Almacenes de Datos y Minería de Datos Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia en
Más detallesAnálisis y Recuperación de Información
Análisis y Recuperación de Información 1 er Cuatrimestre 2017 Página Web http://www.exa.unicen.edu.ar/catedras/ayrdatos/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs.
Más detallesNEWTON TREES. Árboles de Estimación Estocástica de Probabilidades:
Tesis de Máster en Ingeniería del Software, Métodos Formales y Sistemas de Información Árboles de Estimación Estocástica de Probabilidades: NEWTON TREES Autor: Fernando Martínez Plumed 1 Directores: Cèsar
Más detallesAgregación de Riesgos y Capital Económico
Agregación de Riesgos y Capital Económico Fernando García, SAS México Agenda Introducción. Metodologías de Agregación de Riesgos. Asignación de Capital. SAS Risk Solutions. Conclusiones. Introducción El
Más detallesSistemas de Percepción Visión por Computador
Nota: Algunas de las imágenes que aparecen en esta presentación provienen del libro: Visión por Computador: fundamentos y métodos. Arturo de la Escalera Hueso. Prentice Hall. Sistemas de Percepción Visión
Más detallespara la Selección Simultánea de Instancias y Atributos
Algoritmosde Estimaciónde Distribuciones para la Selección Simultánea de Instancias y Atributos MAEB 2012 Albacete 8 10 Febrero Pablo Bermejo, José A. Gámez, Ana M. Martínez y José M. Puerta Universidad
Más detallesBúsqueda secuencial de subconjuntos de atributos sobre un ranking. Roberto Ruiz, José C. Riquelme y Jesús S. Aguilar Ruiz
Búsqueda secuencial de subconjuntos de atributos sobre un ranking Roberto Ruiz, José C. Riquelme y Jesús S. Aguilar Ruiz Departamento de Lenguajes y Sistemas Informáticos ETS Ingeniería Informática Universidad
Más detallesJugando a policías y ladrones para detectar anomalías en red con ML. Carmen Torrano Giménez #CyberCamp17
Jugando a policías y ladrones para detectar anomalías en red con ML Carmen Torrano Giménez #CyberCamp17 Presentación @ctorranog Carmen.torrano@11paths.com 2 Machine Learning 3 Detección de anomalías 4
Más detallesMétricas para la validación de Clustering
Métricas para la validación de Clustering MINERIA DE DATOS Elizabeth León Guzmán, Profesor Asociado Universidad Nacional de Colombia Ingeniería de Sistemas y Computación Contenido Introducción Tipos de
Más detallesMediciones Indirectas
Mediciones Indirectas Diego Luna April 7, 2017 Laboratorio 1 Mediciones Indirectas April 7, 2017 1 / 23 Motivación Cuando se informa el resultado de una medición, se debe proporcionar alguna indicación
Más detallesAnálisis del artículo
Análisis del artículo Mean Shift: A Robust Approach toward Feature Space Analysis Dorin Comaniciu - Peter Meer R. Omar Chávez Garcia - Pável Herrera Domínguez 25 de mayo de 2009 Conceptos básicos Dorin
Más detallesConjunto de datos multivariados Matriz de datos de doble entrada
Conjunto de datos multivariados Matriz de datos de doble entrada Fuentes - Applied Multivariate Statistics for Ecology and Conservation Course website: http://www.umass.edu/landeco/teaching/multivariate/multivariate.html
Más detallesJesús García Herrero METODOLOGÍA DE ANÁLISIS DE DATOS
Jesús García Herrero METODOLOGÍA DE ANÁLISIS DE DATOS En esta clase concluimos el curso de Análisis de Datos con una visión de las metodologías del análisis de datos. Como se ha visto, este es un campo
Más detallesDesarrollo y evaluación de métodos de selección de características para la predicción de eventos adversos en pacientes polimedicados
E.T.S. de Ingeniería Industrial, Informática y de Telecomunicación Desarrollo y evaluación de métodos de selección de características para la predicción de eventos adversos en pacientes polimedicados Grado
Más detallesPreprocesamiento: Dr. Edgar Acuña Departamento de Ciencias Matemáticas Universidad de Puerto Rico-Mayaguez
Minería de Datos Preprocesamiento: Reducción de dimensionalidad Dr. Edgar Acuña Departamento de Ciencias Matemáticas Universidad de Puerto Rico-Mayaguez E-mail: edgar@math.uprm.edu, eacunaf@gmail.com Website:
Más detallesUNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS DEPARTAMENTO DE INGENIERÍA ELÉCTRICA
UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS DEPARTAMENTO DE INGENIERÍA ELÉCTRICA SELECCIÓN E IDENTIFICACIÓN DE GRUPOS COMPLEMENTARIOS DE CARACTERÍSTICAS UTILIZANDO INFORMACIÓN MUTUA
Más detallesClasificación Multi-Etiqueta
Clasificación Multi-Etiqueta Eduardo Morales INAOE (INAOE) 1 / 42 Contenido 1 2 3 4 5 (INAOE) 2 / 42 Clasificación Multi-Clase Los algoritmos de aprendizaje que hemos visto hasta ahora, inducen un modelo,
Más detallesELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.1/31
ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS Aprendizaje de modelos gráficos probabilísticos. Aplicación al clustering con datos de expresión genética TIC 2001-2973-C05-03 Departamento
Más detallesRandom Subspace Method. Índice. 1. Random Subspace Method. 1. Introducción. 2. Objetivo. 3. Implementación. 4. Evaluación. 5.
The Random Subspace Method for Constructing Decision Forests (IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 20, NO. 8, AUGUST 1998) Iñigo Barandiaran 1 Índice 1. Random Subspace
Más detallesSelección de Atributos
Selección de Atributos Eduardo Morales, Jesús González INAOE Mayo, 2010 (INAOE) Mayo, 2010 1 / 53 1 2 3 4 5 6 (INAOE) Mayo, 2010 2 / 53 Selección de Atributos A partir de los atributos originales selecciona
Más detallesAPRENDIZAJE PROBABILÍSTICO NAIVE BAYES
1 APRENDIZAJE PROBABILÍSTICO NAIVE BAYES Bases de Datos Masivas 9 de Noviembre de 2016 2 Razonamiento Probabilístico Es una herramienta de aprendizaje estadístico. Se trata de razonar en un contexto incierto;
Más detalles520142: ALGEBRA y ALGEBRA LINEAL
520142: ALGEBRA y ALGEBRA LINEAL Segundo Semestre 2008, Universidad de Concepción CAPITULO 10: Espacios Vectoriales DEPARTAMENTO DE INGENIERIA MATEMATICA Facultad de Ciencias Físicas y Matemáticas 1 Definición
Más detallesPredicción basada en vecinos
Predicción basada en vecinos Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Contenido Introducción Esquema de predicción directa Predicción basada
Más detallesTema 8. Organización y descripción de datos con más de una variable
Tema 8 Organización y descripción de datos con más de una variable 1 EL CASO DE DOS VARIABLES CUALITATIVAS Tablas de contingencia Representación gráfica Índices de Asociación OTROS CASOS Una variable cualitativa
Más detallesAnálisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Combinación de clasificadores Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Diversos algoritmos de clasificación están limitados a resolver problemas binarios, es decir, con dos
Más detallesTÉCNICAS ESTADÍSTICAS PARA EL ANÁLISIS DE LA INFORMACIÓN CONTABLE
TEMA 8 TÉCNICAS ESTADÍSTICAS PARA EL ANÁLISIS DE LA INFORMACIÓN CONTABLE 8.1.La inferencia estadística: del análisis univariante al análisis multivariante. 8.2.La reducción de la dimensionalidad: el análisis
Más detallesEjercicios sobre probabilidades y entropías
Ejercicios sobre probabilidades y entropías CTI: Lección 1, Primer teorema de Shannon (SCT) Ramiro Moreno Chiral Dpt. Matemàtica (UdL) 10 de febrero de 2010 CTI, lección 1 (Problemas) Ejercicios sobre
Más detalles2. Algoritmos genéticos y redes neuronales 3. Inducción de árboles clasificadores. Inducción de árboles de clasificación. Aprendizaje UPM UPM
1. Preliminares Aprendizaje 2. Algoritmos genéticos y redes neuronales 3. Inducción de árboles clasificadores 4. Inducción de reglas 5. Minería de datos c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 1
Más detallesTABLA DE CONTENIDO. Resumen Introducción Entorno relevante asociado al proyecto Contexto de la Industria...
TABLA DE CONTENIDO Resumen... 2 1 Introducción... 15 2 Entorno relevante asociado al proyecto... 16 2.1 Contexto de la Industria... 16 2.1.1 Mercado de metales en el mundo... 16 2.1.2 Industria Minera
Más detallesMétodos de Remuestreo en Aprendizaje Automático
Métodos de Remuestreo en Aprendizaje Automático en datos, en hipótesis, y algunos otros trucos: Cross-validation, Bootstrap, Bagging, Boosting, Random Subspaces Lo que sabemos hasta ahora: Hemos visto
Más detallesCapítulo 8. Selección de variables Introducción
Capítulo 8 Selección de variables 8.1. Introducción En muchos problemas de regresión es posible considerar un número importante de variables predictoras. Un empresario podría estudiar los factores que
Más detallesSupport Vector Machines
Support Vector Machines Métodos Avanzados en Aprendizaje Artificial Luis F. Lago Fernández Manuel Sánchez-Montañés Ana González Universidad Autónoma de Madrid 6 de abril de 2010 L. Lago - M. Sánchez -
Más detallesClasificación estadística de patrones
Clasificación estadística de patrones Clasificador gaussiano César Martínez cmartinez _at_ fich.unl.edu.ar Tópicos Selectos en Aprendizaje Maquinal Doctorado en Ingeniería, FICH-UNL 19 de setiembre de
Más detallesTaller Big Data - Parte 1
Taller Big Data - Parte 1 Carlos Eiras Franco Department of Computer Science University of A Coruña (Spain) Carlos Eiras Franco EVIA - Junio 2016 1/25 Big data y Data Science Data Science es el arte de
Más detallesMétodos cuantitativos de las ciencias sociales aplicados a los estudios urbanos y regionales André Lemelin
Métodos cuantitativos de las ciencias sociales aplicados a los estudios urbanos y regionales André Lemelin INDICE PREFACIO... 15 PRIMERA PARTE INTRODUCCIÓN A LA PRIMERA PARTE... 19 CAPÍTULO 1-1 EL ENFOQUE
Más detallesBig Analytics: de la información al conocimiento
Programa Introducción Arquitectura/Bases de datos relacionados /Infraestructuras (AMAZON) R Introducción al análisis masivo de datos: descriptivos y visualización de Big Data Hackathon + Series Temporales
Más detallesTEMA 3.- VECTORES ALEATORIOS.- CURSO
TEMA 3.- VECTORES ALEATORIOS.- CURSO 017-018 3.1. VARIABLES ALEATORIAS BIDIMENSIONALES. FUNCIÓN DE DISTRIBUCIÓN CONJUNTA. 3.. VARIABLES BIDIMENSIONALES DISCRETAS. 3.3. VARIABLES BIDIMENSIONALES CONTINUAS.
Más detallesA10. Big Data: Herramientas para el procesamiento de datos masivos
A10. Big Data: Herramientas para el procesamiento de datos masivos MÁSTER UNIVERSITARIO EN INVESTIGACIÓN EN INTELIGENCIA ARTIFICIAL UNIVERSIDAD INTERNACIONAL MENÉNDEZ PELAYO Este documento puede utilizarse
Más detallesJesús García Herrero TÉCNICAS DE REGRESIÓN NO LINEAL
Jesús García Herrero TÉCNICAS DE REGRESIÓN NO LINEAL En esta clase se presenta un método de inducción de modelos numéricos de regresión a partir de datos. En el tema de técnicas clásicas se presentó la
Más detallesIntroducción a Minería de Texto. Fabián Latorre
Introducción a Minería de Texto Fabián Latorre fabian.latorre@quantil.com.co Contenido Qué es la minería de texto? Por qué es relevante? Por qué la estudiamos? Aplicaciones La complejidad del texto no
Más detallesAnálisis de Datos. Análisis lineal discriminante. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Análisis lineal discriminante Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Para reducir el error de clasificación algunas veces es necesario identificar el subconjunto de características
Más detallesCálculo de Probabilidades II Preguntas Tema 2
Cálculo de Probabilidades II Preguntas Tema 2 1. Demuestre que la suma de n v.a. Bernuolli(p) independientes tiene una distribución Binomial con parametros (n, p). 2. Se dice que una v.a tiene una distribución
Más detallesAnálisis en Componentes Principales
This is page i Printer: Opaque this Análisis en Componentes Principales Dr. Oldemar Rodríguez Rojas 29 de mayo de 2008 ii This is page iii Printer: Opaque this Contents. Análisis en Componentes Principales
Más detallesPruebas estadís,cas para evaluar relaciones
Pruebas estadís,cas para evaluar relaciones Asociación entre dos variables categóricas Hipótesis: frecuencias de ocurrencias en las categorías de una variable son independientes de los frecuencias en la
Más detallesPlataformas distribuidas para análisis de grandes grafos. Dr. Cristian Mateos Díaz CONICET / ISISTAN UNICEN
Plataformas distribuidas para análisis de grandes grafos Dr. Cristian Mateos Díaz CONICET / ISISTAN UNICEN http://www.exa.unicen.edu.ar/~cmateos 1 Introducción Big data conduce a grandes volúmenes de datos,
Más detallesMODELOS DE SELECCIÓN DE ATRIBUTOS PARA SVMS
MODELOS DE SELECCIÓN DE ATRIBUTOS PARA SVMS Sebastián Maldonado Facultad de Ingeniería y Ciencias Aplicadas, Universidad de los Andes San Carlos de Apoquindo 2200, Santiago, Chile smaldonado@uandes.cl
Más detallesAprendizaje Automático. Segundo Cuatrimestre de Clasificadores: Naive Bayes, Vecinos Más Cercanos, SVM
Aprendizaje Automático Segundo Cuatrimestre de 2016 Clasificadores: Naive Bayes, Vecinos Más Cercanos, SVM Naive Bayes Naive Bayes Dada una nueva instancia con valores de atributos a 1, a 2,..., a n, su
Más detallesInducción de Árboles de Decisión ID3, C4.5
Inducción de Árboles de Decisión ID3, C4.5 Contenido 1. Representación mediante árboles de decisión. 2. Algoritmo básico: divide y vencerás. 3. Heurística para la selección de atributos. 4. Espacio de
Más detallesResumen. Recordemos que una cópula es una función C : I 2 I tal que: C(u 2, v 2 ) C(u 2, v 1 ) C(u 1, v 2 ) + C(u 1, v 1 ) 0. (2)
Contenido 1 2 3 Cópula Empírica Cópula Kernel Resumen Recordemos que una cópula es una función C : I 2 I tal que: 1 Para cualesquiera u, v en I := [0, 1] C(u, 0) = 0 = C(0, v), C(u, 1) = u, C(1, v) = v.
Más detallesGuía docente de la asignatura
Guía docente de la asignatura Asignatura Materia TÉCNICAS DE APRENDIZAJE AUTOMÁTICO COMPUTACIÓN Módulo Titulación GRADO EN INGENIERÍA INFORMÁTICA (463) Plan 463 Código 45209 Periodo de impartición 2º CUATRIMESTRE
Más detallesProcesamiento Masivo de Web Spam. Washington Bastidas Santos Jesús González Vera
Procesamiento Masivo de Web Spam Washington Bastidas Santos Jesús González Vera Agenda INTRODUCCIÓN PROBLEMA METODOLOGÍA IMPLEMENTACIÓN EVALUACIÓN Y RESULTADOS CONCLUSIÓN TRABAJO FUTURO BIBLIOGRAFÍA 1
Más detallesCristián Bravo R.
Cristián Bravo R. cbravo@dii.uchile.cl Banco de Crédito e Inversiones 2 al 5 de Julio, 2011 1 Preparación de datos para generación de scorecards. Selección de Variables. Transformaciones Notables. Segmentación
Más detallesTema 13: Regresión Logística p. 1/20 Tema 13: Regresión Logística Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del
Más detallesElementos de máquinas de vectores de soporte
Elementos de máquinas de vectores de soporte Clasificación binaria y funciones kernel Julio Waissman Vilanova Departamento de Matemáticas Universidad de Sonora Seminario de Control y Sistemas Estocásticos
Más detallesAprendizaje no supervisado
Aprendizaje no supervisado Algoritmo de K medias Julio Waissman Vilanova Licenciatura en Ciencias de la Computación Universidad de Sonora Curso Inteligencia Artificial Plan del curso Aprendizaje no supervisado
Más detallesPosibles trabajos HIA
Posibles trabajos HIA Posibles trabajos Comparar otras herramientas de Minería de Datos con Weka Estudiar la influencia del ruido en bagging y boosting Estudiar la influencia del parámetro de poda en J48
Más detallesEvaluación de Rankings de Atributos para Clasificación
Evaluación de Rankings de Atributos para Clasificación Roberto Ruiz, Jesús S. Aguilar Ruiz, and José C. Riquelme Departamento de Lenguajes y Sistemas Informáticos Universidad de Sevilla, Sevilla, España
Más detallesPrograma Big Analytics: de la información al conocimiento
Programa Big Analytics: de la información al conocimiento 1/02/2018 Introducción Directora: Rosa Lillo/Deloitte Introducción general al Big data y la necesidad del Analytics 2/02/2018 - Arquitectura/Bases
Más detallesInteligencia Artificial: Su uso para la investigación
Inteligencia Artificial: Su uso para la investigación Dra. Helena Montserrat Gómez Adorno Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas helena.adorno@iimas.unam.mx 1 Introducción
Más detallesClusters. Walter Sosa Escudero. Universidad de San Andres y CONICET
(wsosa@udesa.edu.ar) Universidad de San Andres y CONICET Ideas generales X matriz de N filas y p columnas. Cada fila es un punto de p dimensiones. Cada columna se corresponde con una variable. Ejemplo:
Más detallesAprendizaje Estadístico
Aprendizaje Estadístico Modelado y Análisis de Redes de Telecomunicaciones IIE - Facultad de Ingeniería Curso 2014 Introducción Algunos ejemplos de aprendizaje (son muchos!): clasificar mail en spam o
Más detallesNormalización Clase Práctica SPI y SPDF
Normalización Clase Práctica Departamento de Computación - Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires Base de Datos 2do. Cuatrimestre 2015 Esquema General 1 Introducción 2 Sin
Más detallesAtributo1 Atributo 2... Atributo n xxxxxxxx xxxxxxxx... xxxxxxxx xxxxxxxx xxxxxxxx... xxxxxxxx... xxxxxxxx xxxxxxxx... xxxxxxxx
TEMA 4.- MODELOS LOGICOS DE DATOS. Introducción al Modelo Relacional. Transformación de un esquema E-R a un esquema relacional. 1. Introducción al Modelo Relacional El concepto principal es el de TABLA
Más detallesALGEBRA 1- GRUPO CIENCIAS- TURNO TARDE- Espacios vectoriales
Resumen teoría Prof. Alcón ALGEBRA 1- GRUPO CIENCIAS- TURNO TARDE- Espacios vectoriales Sea (K, +,.) un cuerpo con característica 0. Podemos pensar K = Q, R o C. Si V es un conjunto cualquiera en el que
Más detallesAprendizaje basado en ejemplos.
Aprendizaje basado en ejemplos. In whitch we describe agents that can improve their behavior through diligent study of their own experiences. Porqué queremos que un agente aprenda? Si es posible un mejor
Más detallesAlgebra lineal y conjuntos convexos 1
Algebra lineal y conjuntos convexos Solución de sistemas. Espacios vectoriales. 3 Conjuntos convexos. 4 Soluciones básicas puntos extremos. Rango de una matriz A R m n. Reducir A a una matriz escalonada
Más detallesIntroducción a los SVMs con R Innova-TSN Octubre Título diapositiva
Introducción a los SVMs con R Innova-TSN Octubre 2016 Título diapositiva Agenda 1. Innova-TSN: i. Quiénes somos? Misión, Visión, Valores Equipo ii. Ámbitos de Negocio 2. Introducción a los SVMs 1. Introducción
Más detallesSelección de atributos considerando inter-dependencias
Selección de atributos considerando inter-dependencias Title Selección de atributos considerando inter-dependencias Issue Date 2007-03-01 Publisher Instituto Tecnológico y de Estudios Superiores de Monterrey
Más detallesRicardo Aler Mur CLASIFICADORES KNN-I
Ricardo Aler Mur CLASIFICADORES KNN-I En esta clase se habla del aprendizaje de modelos de clasificación y regresión basados en instancias o ejemplares. En concreto: Se define la clasificación y regresión
Más detalles1. Modelos Loglineales tablas de 2 entradas
1. Modelos Loglineales tablas de 2 entradas Los modelos loglineales para tablas de 2 2 describen las asociaciones entre dos variables discretas digamos X y Y. El modelo loglineal nos dice cuan grande es
Más detallesRedes Bayesianas (3) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile
Redes Bayesianas (3) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile Referencia Tutorial NIPS (Neural Information Processing Systems Conference) 2001: Learning Bayesian Networks
Más detallesAprendizaje Automatizado
Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto
Más detallesAnálisis de estrategias de clasificación multiclase en microarrays: relación con medidas de complejidad
Análisis de estrategias de clasificación multiclase en microarrays: relación con medidas de complejidad L. Morán Fernández, V. Bolón-Canedo y A. Alonso-Betanzos Laboratorio de I+D en Inteligencia Artificial
Más detallesTeoría de la decisión
1.- Un problema estadístico típico es reflejar la relación entre dos variables, a partir de una serie de Observaciones: Por ejemplo: * peso adulto altura / peso adulto k*altura * relación de la circunferencia
Más detallesPROGRAMA DEL CURSO SOBRE PSICOLOGÍA EXPERIMENTAL MANUEL MIGUEL RAMOS ÁLVAREZ
PROGRAMA DEL CURSO SOBRE PSICOLOGÍA EXPERIMENTAL MANUEL MIGUEL RAMOS ÁLVAREZ Resumen de Psicología Experimental 1 PSICOLOGÍA EXPERIMENTAL Manuel Miguel Ramos Alvarez. I. FUNDAMENTOS METODOLÓGICOS DE LA
Más detallesINFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón
Metodología de Investigación Tesifón Parrón Contraste de hipótesis Inferencia Estadística Medidas de asociación Error de Tipo I y Error de Tipo II α β CONTRASTE DE HIPÓTESIS Tipos de Test Chi Cuadrado
Más detalles