Tema 12. Selección de Variables

Documentos relacionados
Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

Tema 15: Combinación de clasificadores

Tema 11: Inducción de Reglas p. 1/1

Tema 5. Muestreo y distribuciones muestrales

Introducción a la Minería de Datos

ESTADÍSTICA BAYESIANA Y TEORÍA DE DECISIONES

CÁLCULO DE PROBABILIDADES

TEMARIO: CONTENIDOS, OBJETIVOS MÍNIMOS Y TIEMPO.

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

ESCUELA COMERCIAL CÁMARA DE COMERCIO EXTENSIÓN DE ESTUDIOS PROFESIONALES MAESTRÍA EN ADMINISTRACIÓN

SESIÓN PRÁCTICA 7: REGRESION LINEAL SIMPLE PROBABILIDAD Y ESTADÍSTICA. PROF. Esther González Sánchez. Departamento de Informática y Sistemas

Lección 18: Utilidad de la estadística

Aprendizaje Automatizado

CONTENIDOS Y CRITERIOS DE EVALUACIÓN MATEMÁTICAS 6º ED.

Tema 11. Clustering. X 1... X i... X n O 1 x x 1 i... x 1 n... O j x j 1... x j i... x j n... O N x N 1... x N i... x N n

Objetivos formativos de Matemática Discreta. Tema 1: Conjuntos, aplicaciones y relaciones

Tema 4: Probabilidad y Teoría de Muestras

Semana02[1/23] Conjuntos. 9 de marzo de Conjuntos

Análisis y síntesis de sistemas digitales combinacionales

Jesús Eduardo Pulido Guatire, marzo Diagrama de Dispersión y Correlación Lineal Simple

Algoritmos Genéticos. Introducción a la Robótica Inteligente. Álvaro Gutiérrez 20 de abril de

Tema Contenido Contenidos Mínimos

Límite de funciones. Por otra parte se dice que una función es discontínua si para algún (os) valor (es) de x no existe valor de y.

DEPARTAMENTO DE MATEMÁTICAS. IES GALLICUM

BIOESTADISTICA ( ) Evaluación de pruebas diagnósticas. 1) Características del diseño en un estudio para evaluar pruebas diagnósticas.

MODELOS DE INVESTIGACION DE OPERACIONES

PE - Probabilidad y Estadística

Tema 7: Estadística y probabilidad

ESTADISTICA Y PROBABILIDAD ESTADÍSTICA

Introducción a la Probabilidad

ALGORÍTMICA

Colegio Juan de la Cierva. PROGRAMACIÓN DIDÁCTICA Asignatura: MATEMÁTICAS Curso: 6º Etapa: PRIMARIA Curso académico:

Facultad de Ciencias Sociales - Universidad de la República

PREPARACION OLIMPIADA MATEMATICA CURSO

CONTENIDOS Y CRITERIOS DE EVALUACIÓN MATEMÁTICAS 6º ED. PRIMARIA

POBLACIÓN Y MUESTRAS EN LA INVESTIGACIÓN

CRITERIOS DE SELECCIÓN DE MODELOS

DPTO. DE AMTEMÁTICAS I.E.S. GALLICUM CURSO 2012/13

Complejidad computacional (Análisis de Algoritmos)

Teoría de la decisión

UNIDAD 12: ESTADISTICA. OBJETIVOS

Aux 6. Introducción a la Minería de Datos

INDICE. Prólogo a la Segunda Edición

Espacios topológicos. 3.1 Espacio topológico

Estadísticas Elemental Tema 3: Describir la relación entre dos variables: Correlación y regresión 3.1-1

UNIVERSIDAD ALAS PERUANAS FACULTAD DE CIENCIAS DE LA COMUNICACIÓN SILABO POR COMPETENCIA

SISTEMA INTEGRAL PARA LA PROYECCIÓN Y DETECCIÓN DE LA PREVENCIÓN DEL DELITO, MEDIANTE MINERÍA DE DATOS.

APUNTES DE ÁLGEBRA LINEAL TEMA 2. SISTEMAS DE ECUACIONES LINEALES

Computación Aplicada. Universidad de Las Américas. Aula virtual de Computación Aplicada. Módulo de Excel 2013 LIBRO 11

SOLUCIÓN A LOS EJERCICIOS DEL SPSS Bivariante

13. Utilizar la fórmula del término general y de la suma de n términos consecutivos

Pruebas de Acceso a las Universidades de Castilla y León

Indicaciones para el lector... xv Prólogo... xvii

TEMA 5: INTERPOLACION NUMERICA

3. ANÁLISIS DE DATOS DE PRECIPITACIÓN.

Tema 4. Probabilidad Condicionada

PROGRAMA DE MATEMÁTICA DIVERSIFICACIÓN CIENTÍFICA SEGUNDO AÑO DE BA CHILLERATO REFORMULACIÓN 2006 AJUSTE 2010 INTRODUCCIÓN

PRÁCTICAS DE ESTADÍSTICA CON R

Selección de fuentes de datos y calidad de datos

INSTITUTO POLITÉCNICO NACIONAL SECRETARIA ACADEMICA DIRECCIÓN DE ESTUDIOS PROFESIONALES EN INGENIERÍA Y CIENCIAS FÍSICO MATEMÁTICAS

Tema 2.- Formas Cuadráticas.

GUÍA DOCENTE DE LA ASIGNATURA ESTADÍSTICA APLICADA

Electrotecnia General Tema 26 TEMA 26 CÁLCULO DE REDES DE DISTRIBUCIÓN II

Práctica 5 ANÁLISIS DE UNA MUESTRA INTERVALOS DE CONFIANZA CONTRASTE DE HIPÓTESIS

Análisis Inteligente de Datos: Introducción

Probabilidad y Estadística

Desigualdad de Chebyshev bidimensional

Estadís5ca. María Dolores Frías Domínguez Jesús Fernández Fernández Carmen María Sordo. Tema 2. Modelos de regresión

EXPERIMENTO ALEATORIO

CRITERIOS DE EVALUACIÓN

2. METODOLOGÍA. Los tipos fundamentales de Estudios de Investigación, como nos recuerda Bavaresco, son cuatro:

ALGEBRA y ALGEBRA LINEAL. Primer Semestre CAPITULO I LOGICA Y CONJUNTOS.

INDICE 1. Introducción 2. Recopilación de Datos Caso de estudia A 3. Descripción y Resumen de Datos 4. Presentación de Datos

PRINCIPIOS DE ECONOMETRÍA

UNIVERSIDAD AUTÓNOMA DE CHIAPAS FACULTAD DE INGENIERÍA CAMPUS I PROBABILIDAD Y ESTADISTICA

Métodos de Investigación e Innovación -Metodologías de Investigación-

Tema 2. Introducción a la Estadística Bayesiana

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7)

UNIVERSIDAD AUTÓNOMA DE BAJA CALIFORNIA SUR. Ingeniería Aplicada TEÓRICA SERIACIÓN 100% DE OPTATIVAS DISCIPLINARIAS

Tema 5. Muestreo y distribuciones muestrales

La reordenación aleatoria de un conjunto finito

PONTIFICIA UNIVERSIDAD CATOLICA DEL ECUADOR FACULTAD DE CIENCIAS EXACTAS Y NATURALES ESCUELA DE CIENCIAS QUIMICAS

Problemas métricos. 1. Problemas afines y problemas métricos

2016 Año del Bicentenario de la Declaración de la Independencia Argentina Ley 7.750

Tema 9: Contraste de hipótesis.

Bloque 1. Contenidos comunes. (Total: 3 sesiones)

MATEMÁTICAS APLICADAS A LAS C.C. SOCIALES

MEDIDAS ESTADÍSTICAS Medidas de Tendencia Central y de Variabilidad

FACULTAD DE INGENIERÍA

Transcripción:

Tema 12. Selección de Variables Pedro Larrañaga, Iñaki Inza, Abdelmalik Moujahid Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Euskal Herriko Unibertsitatea 12.1 Introducción En este tema se va a presentar la problemática relacionada con la selección de subconjuntos de variables adecuados para inducir modelos clasificatorios. Una vez enunciados los beneficios de realizar la tarea de seleccionar el subconjunto de variables adecuado, veremos dos filosofías distintas con las que abordar dicho problema. Dichas aproximaciones se conocen bajo el nombre de indirecta (filter) y directa (wrapper). 12.2 Beneficios de la selección de variables El problema de la selección del subconjunto de variables para la inducción de un modelo clasificador, se denomina FSS (Feature Subset Selection) y surge motivado por la no monotocidad de los modelos clasificatorios en relación con el número de variables predictoras, asi como por la existencia de ciertas variables predictoras que pueden llegar a ser irrelevantes o incluso redundantes. Veamos con más detalle los motivos anteriores: la no monotocidad de la probabilidad de éxito de un sistema clasificador se debe al hecho constatado empíricamente, y demostrado matemáticamente para algunos paradigmas de que no por construir un modelo clasificatorio con una variable añadida a las ya existentes, la probabilidad de éxito que se va a obtener con este nuevo modelo clasificador deba superar a la del modelo actual se considera que una variable predictiva es irrelevante cuando el conocimiento del valor de la misma no aporta nada para la variable C una variable predictiva se dice redundante cuando su valor puede ser determinado a partir de otras variables predictivas El objetivo que uno se plantea al tratar de resolver el problema FSS es el de detectar aquellas variables que son irrelevantes y/o redundantes para un problema clasificatorio dado. Con esto lo que se pretende es crear modelos parsimoniosos, guiados por el principio que en Estadística se denomina Occam s razor y que en Aprendizaje Automático se conoce como KISS (Keep It as Simple as possible, Stupid). Es decir la idea subyacente a la modelización parsimoniosa es que si uno tiene dos modelos que explican suficientemente bien los datos, se debe de escoger con el modelo mas simple de los dos. Veamos a continuación algunos beneficios derivados del FSS: reducción en el costo de adquisición de los datos, debido a que el volumen de información a manejar para inducir el modelo es menor 1

mejora en la comprensión del modelo clasificatorio, ya que no vamos a inducir el modelo con un gran número de variables inducción más rápida del modelo clasificatorio, derivada de que el algoritmo de inducción del modelo va a trabajar con menos variables mejora en la bondad del modelo clasificatorio, derivado de la no monotocidad explicada anteriormente. 12.3 Filter versus Wrapper La Figura 1 muestra el esquema básico relativo al procedimiento de selección de subconjuntos de variables para problemas de clasificación supervisada. Figura 1: Esquema del procedimiento de selección de subconjuntos de variables para problemas de clasificación supervisada Dos son básicamente las aproximaciones al problema FSS: indirecta o filter y directa o wrapper. 12.3.1 Aproximación indirecta o filter 2

Figura 2: Diferencias entre las aproximaciones filter y wrapper a la clasificación supervisada La aproximación indirecta establece véase Figura 2 una medida indirecta de bondad de la selección de las variables, habitualmente un ranking entre las variables predictoras teniendo en cuenta un criterio previamente fijado de relevancia entre una variable predictora y la variable clase. A partir de dicha medida de relevancia las variables predictoras quedan ordenadas supongamos de mayor a menor relevancia respecto de la variable clase seleccionándose las k, k < n, primeras para inducir con ellas el modelo clasificador. Nótese que la medida de relevancia con la que hemos ordenado las variables predictivas no tiene en cuenta el paradigma (Naive Bayes, Árbol de Clasificación, etc) con el que se va a inducir el modelo clasificatorio. Es por ello por lo que este tipo de aproximación al problema puede verse como una selección indirecta. Ejemplo 12.1: Supongamos que las variables predictoras, X 1,..., X n sean discretas. Podemos construir una tabla de contingencia cruzando cada variable predictora X i con la variable a predecir C, para a continuación calcular el valor del estadístico chi cuadrado. Cuanto menor sea la significatividad relacionada con el estadístico, mayor es la relevancia de la variable en cuestión con respecto de la variable C. Es decir que el estadístico de la chi cuadrado lo podemos utilizar como valor para ordenar las variables predictoras y posteriormente seleccionar las k primeras. Otra medida de relevancia usada habitualmente es la cantidad de información mutua entre cada variable predictora X i y la 3

variable clase C. Ejemplo 12.2: En caso de que las variables sean continuas, podemos estudiar véase por ejemplo la Figura 3 las funciones de densidad de cada variable predictora condicionada a los distintos valores de la variable clase, C. Definiendo una distancia entre dichas funciones de densidad condicionadas, ordenaríamos las variables predictoras. La primera de dichas variables predictoras en la ordenación anterior, sería aquella para la cual la distancia entre las funciones de densidad condicionadas sea mayor. De manera análoga la variable predictora que ocupase el último lugar en la ordenación Figura 3: Funciones de densidad de las variables X i y X j variable clase, C. condicionadas a los dos valores de la sería aquella para la cual la distancia entre las funciones de densidad condicionadas a los valores de la clase es menor entre las n. En el supuesto representando en la Figura 3, la variable X i se ordena antes que la variable X j, y por tanto en caso de no escoger la variable X i tampoco se seleccionará la X j. 12.3.2 Aproximación directa o wrapper En la aproximación directa o wrapper al FSS, cada posible subconjunto de variables candidato es evaluado por medio del modelo clasificatorio inducido con el paradigma utilizado a partir del subfichero conteniendo exclusivamente las variables seleccionadas junto con la variable clase. Con esta aproximación wrapper, el problema FSS puede ser visto como un problema de búsqueda en un espacio de cardinalidad 2 n. Este es el motivo por el que los heurísticos estocásticos de optimización estudiados en la parte I de la asignatura búsqueda voraz, algoritmos genéticos y algoritmos de estimación de distribuciones se han venido aplicando con éxito al problema FSS desde un perspectiva de aproximación directa. 4

Referencias 1. M. Ben Bassat (1982). Use of Distance Measures, Information Measures and Error Bounds in Feature Evaluation. Handbook of Statistics, Vol. 2, 773 791. 2. J. Doak (1992). An evaluation of feature selectionmethods and their application to computer security. Technical Report CSE-92-18. University of California at Davis. 3. I. Inza, P. Larrañaga, R. Etxeberria, B. Sierra (2000). Feature Subset Selection by Bayesian networks-based optimization. Artificial Intelligence, 123: 157 184. 4. R. Kohavi, G. John (1997). Wrappers for feature subset selection. Artificial Intelligence, 97, (1 2): 273 324. 5. H. Lui, H. Motoda (1998). Feature Selection for Knowledge Discovery and Data Mining. Kluwer Academic Publishers. 6. J. Yang, V. Honavar (1998). Feature subset selection using a genetic algorithm. IEEE Inteligent Systems, 13(2): 44 49. 5