Qué es big dimension? Verónica Bolón Canedo 2/30

Tamaño: px

Comenzar la demostración a partir de la página:

Download "Qué es big dimension? Verónica Bolón Canedo 2/30"

Monica Marta Cortés Gallego
hace 5 años
Vistas:

2 Qué es big dimension? Verónica Bolón Canedo 2/30

Big dimension En esta nueva era de Big Data, los métodos de aprendizaje máquina deben adaptarse para poder tratar con este volumen de datos sin precedentes.

3 Big dimension En esta nueva era de Big Data, los métodos de aprendizaje máquina deben adaptarse para poder tratar con este volumen de datos sin precedentes. Análogamente, el término Big Dimension se ha acuñado para referirse al enorme número sin predecentes de características con las que hay que tratar. V. Bolón-Canedo, N. Sánchez-Maroño, A. Alonso-Betanzos Feature Selection for High-Dimensional Data Springer, 2015 Verónica Bolón Canedo 3/30

4 Repasemos algunos conceptos básicos... Verónica Bolón Canedo 4/30

5 Aprendizaje supervisado Terminología: D = {X, Y } es el conjunto de datos (o dataset). Cada fila de X es un ejemplo (o instancia, o muestra). Cada columna de X es una característica (o atributo). Y es el vector de etiquetas (o clases). N es el número de ejemplos. Verónica Bolón Canedo 5/30

6 Aprendizaje supervisado Verónica Bolón Canedo 6/30

7 Hay casos, como por ejemplo cuando tratamos con datos geneticos, donde el numero de caracter ısticas es mucho grande que el de mas ejemplos. Canedo Veronica Bolon 7/30

8 Si echamos un vistazo a los datasets del repositorio UCI Verónica Bolón Canedo 8/30

9 Y si analizamos el repositorio LIBSVM Database 2... Existen conjuntos de datos con más de 29 millones de características (KDD Cup 2010) Varios conjuntos de datos tienen más de 1 millón de características 2 Verónica Bolón Canedo 9/30

10 Aprendizaje supervisado Verónica Bolón Canedo 10/30

11 Aprendizaje supervisado Verónica Bolón Canedo 11/30

12 Selección de características Verónica Bolón Canedo 12/30

13 Reducción de la dimensión Las técnicas de reducción de la dimensión se aplican para reducir la dimensión de los datos originales y, al mismo tiempo, mejorar el aprendizaje. Verónica Bolón Canedo 13/30

14 Técnicas de reducción de la dimensión Extracción de características Transforma las características originales en un subconjunto de nuevas características Selección de características Elimina las características irrelevantes y/o redundantes Verónica Bolón Canedo 14/30

15 Podemos decir como de útil es una característica? Imaginemos que estamos tratando de adivinar el precio de un coche... Relevantes: motor, edad, kilometraje, año de compra, presencia de óxido,... Irrelevantes: color de los limpiaparabrisas, presencia de pegatinas,... Redundantes: edad/año de compra Verónica Bolón Canedo 15/30

16 Por qué aplicar selección de características? Tener más características no implica obtener mejores resultados de aprendizaje. Trabajar con menos características reduce la complejidad del problema y reduce el tiempo de ejecución. Con menos características, se mejora la capacidad de generalización. Obtener los valores para ciertas características pueden ser costoso o difícil. Con menos características, es más fácil comprender el modelo. Verónica Bolón Canedo 16/30

17 Técnicas de selección de características Filtro Embebido Wrapper Verónica Bolón Canedo 17/30

18 Filtros Verónica Bolón Canedo 18/30

19 Medidas de filtrado Medidas de separabilidad. Estiman la separabilidad entre clases: euclídea, Mahalanobis... Por ejemplo, en un problema binario, un proceso de SC basado en este tipo de medidas determina que X es mejor que Y si X induce una diferencia mayor que Y entre las dos probabilidades condicionales a priori entre las clases. Correlación. Los buenos subconjuntos son aquellos que están correlacionados con la clase. f(x 1,..., X M ) = M i=1 M ρ i=1 ic M ρ j=i+1 ij donde ρ ic es el coeficiente de correlación entre la variable S i y la etiqueta c de la clase C y ρ ij es el coeficiente de correlación entre X i y X j Verónica Bolón Canedo 19/30

20 Medidas de filtrado Teoría de la Información. La correlación sólo puede detectar dependencias lineales. Un método más potente es la información mútua. La información mútua I(X 1,...,M ; C) mide la cantidad de incertidumbre que se pierde en la clase C cuando los valores del vector X 1,...,M son conocidos. Debido a que es complejo el cálculo de I, normalmente se usan reglas heurísticas f(x 1,...,M ) = con β = 0.5, por ejemplo M I(X i ; C) β i=1 M M I(X i ; X j ) i=1 j=i+1 Verónica Bolón Canedo 20/30

21 Filtros Ventajas Inconvenientes Ejemplos Independencia del clasificador No interacción con clasificador CFS Bajo coste computacional Consistency-based Rápido INTERACT Buena generalización ReliefF Información mútua Verónica Bolón Canedo 21/30

22 Embebidos Ventajas Inconvenientes Ejemplos Interacción con clasificador Dependiente del clasificador SVM-RFE Coste computacional más bajo que FS-P wrappers Considera dependencias entre características Verónica Bolón Canedo 22/30

23 Wrappers Verónica Bolón Canedo 23/30

24 Wrappers Ventajas Inconvenientes Ejemplos Interacción con clasificador Costoso computacionalmente SFS+SVM Considera dependencias entre características Riesgo de sobreajuste SBS+C4.5 Dependiente del clasificador Verónica Bolón Canedo 24/30

25 Existe otra forma de categorizar los métodos de selección de características de acuerdo a la salida que proporcionan: Métodos que devuelven un subconjunto de características. Métodos que devuelven un ranking de características. Verónica Bolón Canedo 25/30

26 Métodos de subconjunto Devuelven un subconjunto de características optimizado de acuerdo a algún criterio de evaluación. Input: x características, U criterio de evaluación Subconjunto = {} Repetir S k = generarsubconjunto(x) si mejora(s, S k, U) Subconjunto = S k Hasta CriterioParada() Output: Subconjunto de las características más relevantes Verónica Bolón Canedo 26/30

27 Métodos de ranking Devuelven una lista de características ordenadas por un criterio de evaluación. Input: x características, U criterio de evaluación Lista = {} Para cada característica x i, i {1...N} v i = calcular(xi, U) colocar x i en la Lista de acuerdo a v i Output: Lista con las características más relevantes primero Verónica Bolón Canedo 27/30

28 Métodos de ranking Características A1 A2 A3 A4 A5 A6 A7 A8 A9 Ranking A5 A7 A8 A1 A9 A2 A6 A3 A4 A5 A7 A8 A1 A9 A2 (6 características) Verónica Bolón Canedo 28/30

29 Algunos métodos comunmente usados Uni/Multivariado Ranking/Subconjunto Autor y Año Complejidad 3 Chi-Squared Univariado Ranker Liu & Setiono (1995) nm F-score (Fisher score) Univariado Ranker Duda et al. (1999) nm Information Gain Univariado Ranker Quinlan (1986) nm ReliefF Multivariado Ranker Kononenko (1994) n 2 m mrmr Multivariado Ranker Peng et al. (2005) nm 2 SVM-RFE Multivariado Ranker Guyon et al. (2002) max(n, m)m 2 CFS Multivariado Subconjunto Hall (1999) nm 2 FCBF Multivariado Subconjunto Yu & Liu (2003) nm log m INTERACT Multivariado Subconjunto Zhao & Liu (2007) nm 2 Consistency Multivariado Subconjunto Dash & Liu (2003) nm 2 3 n es el número de ejemplos y m el de características Verónica Bolón Canedo 29/30

30 Algunos métodos comunmente usados Uni/Multivariado Ranking/Subconjunto Autor y Año Complejidad 3 Chi-Squared Univariado Ranker Liu & Setiono (1995) nm F-score (Fisher score) Univariado Ranker Duda et al. (1999) nm Information Gain Univariado Ranker Quinlan (1986) nm ReliefF Multivariado Ranker Kononenko (1994) n 2 m mrmr Multivariado Ranker Peng et al. (2005) nm 2 SVM-RFE Multivariado Ranker Guyon et al. (2002) max(n, m)m 2 CFS Multivariado Subconjunto Hall (1999) nm 2 FCBF Multivariado Subconjunto Yu & Liu (2003) nm log m INTERACT Multivariado Subconjunto Zhao & Liu (2007) nm 2 Consistency Multivariado Subconjunto Dash & Liu (2003) nm 2 Estos métodos fueron propuestos hace muchos años... y su complejidad es bastante alta en algunos casos... 3 n es el número de ejemplos y m el de características Verónica Bolón Canedo 29/30

31 Algunos métodos comunmente usados Uni/Multivariado Ranking/Subconjunto Autor y Año Complejidad 3 Chi-Squared Univariado Ranker Liu & Setiono (1995) nm F-score (Fisher score) Univariado Ranker Duda et al. (1999) nm Information Gain Univariado Ranker Quinlan (1986) nm ReliefF Multivariado Ranker Kononenko (1994) n 2 m mrmr Multivariado Ranker Peng et al. (2005) nm 2 SVM-RFE Multivariado Ranker Guyon et al. (2002) max(n, m)m 2 CFS Multivariado Subconjunto Hall (1999) nm 2 FCBF Multivariado Subconjunto Yu & Liu (2003) nm log m INTERACT Multivariado Subconjunto Zhao & Liu (2007) nm 2 Consistency Multivariado Subconjunto Dash & Liu (2003) nm 2 Estos métodos fueron propuestos hace muchos años... y su complejidad es bastante alta en algunos casos... SOLUCIÓN: aprendizaje distribuido 3 n es el número de ejemplos y m el de características Verónica Bolón Canedo 29/30

32 Big dimension Selección de características Verónica Bolón Canedo Department of Computer Science University of A Coruña (Spain) Verónica Bolón Canedo 30/30

Documentos relacionados

Selección de atributos

Selección de atributos Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Contenido Introducción Clasificación de las técnicas Esquema General Evaluadores