ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.1/31

Documentos relacionados
Tema 12. Selección de Variables

Métodos para Determinar el Atributo Distinguido en Multiredes Bayesianas

Selección de atributos

Sesión 6: Clasificadores Bayesianos

Aprendizaje de intervalos para Redes Bayesianas de Nodos Temporales

Selección de Atributos. Dr. Jesús Ariel Carrasco Ochoa Oficina 8311

Técnicas de Preprocesado

PROGRAMA DE CURSO. Horas Docencia Horas de Trabajo Horas de Cátedra Docentes ,5 5,5. Resultados de Aprendizaje

INFORMACIÓN FALTANTE Y/O CONFUSA EN VARIABLES DISCRETAS DE LA ENCUESTA PERMANENTE DE HOGARES (EPH)

Tema 3. Algoritmos de Estimación de Distribuciones

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

Examen Parcial. Attr1: A, B Attr2: A, B, C Attr3 1, 2, 3 Attr4; a, b Attr5: 1, 2, 3, 4

Análisis Multivariante de Datos

Tema 11. Clustering. X 1... X i... X n O 1 x x 1 i... x 1 n... O j x j 1... x j i... x j n... O N x N 1... x N i... x N n

Métodos de Inteligencia Artificial

Índice general. Prefacio...5

Qué es big dimension? Verónica Bolón Canedo 2/30

El modelo de azar proporcional: la regresión de Cox

Análisis de Datos en Física de Partículas

Aplicaciones. Inteligencia Computacional Carrera de Ingeniería Informática

Clasificación estadística de patrones

Estudio y Comparativa de Diferentes Discretizaciones en Clasificadores Bayesianos

Sistemas de Percepción Visión por Computador

Tema 7: Aprendizaje de árboles de decisión

Métodos Descriptivos en Minería de Datos

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

Selección de características. Reconocimiento de Patrones 2013

BIOINFORMÁTICA

MD - Minería de Datos

Asignaturas antecedentes y subsecuentes

Planificaciones Probabilidad y Estadística B. Docente responsable: GRYNBERG SEBASTIAN PABLO. 1 de 6

Planificaciones Probabilidad y Estadística B. Docente responsable: GRYNBERG SEBASTIAN PABLO. 1 de 6

Selección de Atributos

Curso de Inteligencia Artificial

MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN

Aprendizaje Automático

Aprendizaje Automático

Examen de Teoría de (Introducción al) Reconocimiento de Formas

Estadística Computacional

Tema 1. Heurísticos en Optimización Combinatorial

Módulo Minería de Datos

Aprendizaje no supervisado

Tema 2. Introducción a la Estadística Bayesiana

ESTADÍSTICA BAYESIANA Y TEORÍA DE DECISIONES

Random Subspace Method. Índice. 1. Random Subspace Method. 1. Introducción. 2. Objetivo. 3. Implementación. 4. Evaluación. 5.


Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

Jesús García Herrero METODOLOGÍA DE ANÁLISIS DE DATOS

Análisis de Datos en Física de Partículas

Asignaturas Temas Asignaturas Temas

Búsqueda secuencial de subconjuntos de atributos sobre un ranking. Roberto Ruiz, José C. Riquelme y Jesús S. Aguilar Ruiz

D conjunto de N patrones etiquetados, cada uno de los cuales está caracterizado por n variables predictoras X 1,..., X n y la variable clase C.

Tema 5. Clasificadores K-NN

Capítulo 8. Selección de variables Introducción

CLASIFICACIÓN CON VARIABLES DISCRETAS OBSERVADAS CON ERROR Y CON VARIABLES CONTINUAS

Redes Bayesianas (3) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile

MD - Minería de Datos

SISTEMAS INTELIGENTES

Tema 1. Heurísticos en Optimización Combinatorial

Tema 8: Árboles de Clasificación

Procesamiento de voz - Reconocimiento de voz II

Clustering: Auto-associative Multivariate Regression Tree (AAMRT)

Introducción. Existen dos aproximaciones para resolver el problema de clasificación: Aproximación Generativa (vista en el Tema 3) Basada en:

Segmentación de una cartera de clientes usando aprendizaje de máquina

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico.

Tema 15: Combinación de clasificadores

Aprendizaje semi-supervisado.

Resumen. Recordemos que una cópula es una función C : I 2 I tal que: C(u 2, v 2 ) C(u 2, v 1 ) C(u 1, v 2 ) + C(u 1, v 1 ) 0. (2)

MODELOS LINEALES GENERALIZADOS

Maestría en Bioinformática Probabilidad y Estadística: Clase 13

Análisis de Datos en Física de Partículas

1.-DATOS DE LA ASIGNATURA

Aprendizaje Automático

VARIABLES LATENTES PARA IDENTIFICAR EL INFARTO AGUDO DEL MIOCARDIO MEDIANTE ANÁLISIS DE COMPONENTES PRINCIPALES PROBABILÍSTICO

Valores Extremos Multivariados mediante R-vines

Transformando la Representación de los Datos para Mejorar el Clasificador Bayesiano Simple

Taller #3. Carlos Reveco Cinthya Vergara

Redes de Neuronas de Base Radial

Aproximación evolutiva a la inducción constructiva basada en expresiones algebraicas

Minería de datos. Unidad 2. El proceso KDD Evaluación, difusión y uso. M en I Sara Vera Noguez

Técnicas de aprendizaje sobre series temporales

ESTIMACIÓN Estas transparencias contienen material adaptado del curso de PATTERN RECOGNITION AND MACHINE LEARNING de Heikki Huttunen y del libro Duda.

Introducción a la minería de datos. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

NEWTON TREES. Árboles de Estimación Estocástica de Probabilidades:

Por ello, son necesarios los sistemas expertos que traten situaciones de incertidumbre.

Análisis de Datos. Regresión logística. Profesor: Dr. Wilfrido Gómez Flores

Tema 9. Inducción de Reglas

INFERENCIA BAYESIANA. Antonio López Universitat de València. ESTADÍSTICA ESPACIAL EN EPIDEMIOLOGÍA Y MEDIO AMBIENTE Burjassot, Primavera de 2004

Introducción a la regresión ordinal

Probabilidad y Estadística

Evaluación de modelos

Introducción Aprendizaje de Máquina. Gerardo Gutiérrez Gutiérrez Alexis Rodríguez Gutiérrez

Estimación por intervalos

UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS MAESTRÍA EN CIENCIAS DE LA INFORMACIÓN Y LAS COMUNICACIONES MINERÍA DE DATOS

Transcripción:

ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS Aprendizaje de modelos gráficos probabilísticos. Aplicación al clustering con datos de expresión genética TIC 2001-2973-C05-03 Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco http://www.sc.ehu.es/isg/ Albacete 18 de Junio 2002 ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.1/31

A. ELVIRA: Implementación y desarrollo A.3 Preprocesamiento. Selección y transformación de variables 1. Selección indirecta, selección directa, selección híbrida 2. Transformación de variables via construcción inductiva, via cambio de variables 3. Imputación en bases de datos incompletas 4. Categorización M1 M12: Estudio M13 M18: Implementación ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.2/31

A. ELVIRA: Implementación y desarrollo A.4 Aprendizaje Aprendizaje con variables Gaussianas M1 M9: Estudio M10 M18: Implementación Aprendizaje de redes híbridas M10 M15: Estudio M16 M24: Implementación ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.3/31

1. Selección indirecta, selección directa, selección híbrida Motivación: Grandes bases de datos con información redundante y/o irrelevante Construir modelos con mejores prestaciones, mediante la selección de las variables adecuadas Tres aproximaciones: Selección indirecta Selección directa Selección híbrida ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.4/31

1. Selección indirecta (filter approach) Las variables se seleccionan, una vez ordenadas, en base a una medida que: Tiene en cuenta las propiedades intrínsecas de los datos No tiene en cuenta el algoritmo de clasificación supervisada (o no supervisada) a utilizar con posterioridad El algoritmo de clasificación supervisada (naive Bayes, C4.5, k NN, Ripper,...) o de clasificación no supervisada (k means, jerárquico ascendente,...) se aplica a las variables seleccionadas ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.5/31

1. Selección indirecta (filter approach) Clasificación supervisada M. Ben Bassat (1982) Use of distance measures, information measures and error bounds in feature evaluation. Handbook of Statistics, Vol. 2, 773 791. H. Liu, H. Motoda (1998) Feature Selection for Knowledge Discovery and Data Mining. Kluwer Academic Publishers. ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.6/31

1. Selección indirecta (filter approach) Clasificación supervisada Medidas de información (information gain) IG(X i, C) = n c j=1 p(c = c j )log 2 p(c = c j ) + n i r=1 n c p(x i = x r i ) j=1 p(c = c j X i = x r i )log 2p(C = c j X i = x r i ) Mide la reducción en incertidumbre en C motivada por el conocimiento de la variable X i ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.7/31

1. Selección indirecta (filter approach) Clasificación supervisada Medidas de distancia, separabilidad, divergencia o discriminación D(p(X i C = c 1 ), p(x i C = c 2 )) D(p(X i ), p(x i C = c 1 ))+D(p(X i ), p(x i C = c 2 )) Distancia entre dos distribuciones de probabilidad a posteriori (dada la clase) o entre dos distribuciones de probabilidad una a priori, la otra a posteriori ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.8/31

1. Selección indirecta (filter approach) Clasificación supervisada Medidas de dependencia, de asociación o de correlación I(X i, C) = n i n c r=1 j=1 p(x i = x r i, C = c j) log 2 p(x i = x r i, C = c j) p(x i = x r i ) p(c = c j) Cantidad de información mútua ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.9/31

1. Selección indirecta (filter approach) Clasificación no supervisada. Criterio Univariante Medida de relevancia de una variable R(X i ) = n j=1,j i N log(1 r 2 ij resto ) n 1 r ij resto coeficiente de correlación parcial de X i y X j ajustado por el resto de las variables. R(X i ) medida de relevancia de X i. Cuanto mayor sea más relevante es la variable J. M. Peña, J. A. Lozano, P. Larrañaga, I. Inza (2001) Dimensionality reduction in unsupervised learning of conditional Gaussian networks. IEEE PAMI, Vol. 23, No. 6, 590 603 ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.10/31

1. Selección indirecta (filter approach) Clasificación no supervisada. Criterio Multivariante Seleccionar el conjunto S de variables que haga que: S = arg mín S D(M(N, N), D(M S (N, N)) con D(M(N, N)) matriz de distancias entre los N casos teniendo en cuenta todas las variables D(M S (N, N)) matriz de distancias entre los N casos teniendo en cuenta las variables seleccionadas ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.11/31

1. Selección directa (wrapper approach) Clasificación supervisada Ligado a un método de clasificación predefinido La selección de variables vista como un proceso de búsqueda Cardinalidad del espacio de búsqueda: 2 n Cada subconjunto de variables candidato se evalúa por medio de un método de validación (K-fold, boostrapping,...) Búsqueda: voraz (hacia adelante, hacia at ás), estocástica ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.12/31

1. Selección directa (wrapper approach) Clasificación no supervisada Planteamiento del problema Encontrar el subconjunto de variables que nos proporcione un clustering lo más parecido posible al que se obtiene con todas las variables Representación Cada subconjunto como un array binario de dimensión n Bondad de cada selección Porcentaje de coincidencia entre los clusterings ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.13/31

1. Selección híbrida 2 fases (filter + wrapper) Ordenar las variables según un criterio. Escoger las k mejores (k < n). La determinación de k es arbitraria, a no ser que el criterio siga una ley de probabilidad conocida (test de hipótesis) Efectuar una selección wrapper sobre las k variables anteriores ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.14/31

1. Selección híbrida R. Blanco, P. Larrañaga, I. Inza, B. Sierra (2001) Selection of highly accurate genes for cancer classification by estimation of distribution algorithms. Workshop of Bayesian Models in Medicine. AIME2001, 29 34 S. Das (2001) Filters, wrappers and a hybrid: evaluating feature selection algorithms. ICML2001, 74 81 E. P. Xing, M. I. Jordan, R. M. Karp (2001) Feature selection for high dimension genomic microarray data. ICML2001, 601 608 ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.15/31

2. Transformación de variables via construcción inductiva, via cambio de variable Construcción inductiva Crear variables que sean producto cartesiano de 2 o más variables Incorporar dichas variables (supernodos en un modelo de clasificación (supervisada o no supervisada) que extienda el naive Bayes ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.16/31

2. Construcción inductiva. Clasificación supervisada Pazzani, M. J. (1996) Searching for dependencies in Bayesian classifiers. Learning from Data: AI and Statistics V. Lecture Notes in Statistics 112. D. Fisher, H.-J. Lenz (eds.), Springer-Verlag. 2 procedimientos voraces de búsqueda: Backward sequential elimination and joining (BSEJ): parte del naive Bayes con todas las variables, y en cada paso junta o elimina Forward sequential selection and joining (FSSJ): parte de Scores nada y en cada paso selecciona o junta Porcentaje de bien clasificados Verosimilitud marginal ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.17/31

2. Construcción inductiva. Clasificación no supervisada Peña, J. M., Lozano, J. A., Larrañaga, P. (1999) Learning Bayesian networks for clustering by means of constructive induction. Pattern Recognition Letters, 20 (11 13), 1219 1230 Adaptación de las ideas de Pazzani al clustering Búsqueda: BSEJ, FSSJ Score: verosimilitud marginal ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.18/31

2. Cambio de variable H. Liu, H. Motoda (1998) Feature extraction, construction and selection. A data mining perspective. Kluwer Academic Publishers. Dado un conjunto de N condiciones: M of N representación: será true si al menos M de las N condiciones son verificadas por el caso 1 of N representación: disyunción N of N representación: conjunción X of N representación: será true si exactamente X de las N condiciones son verificadas por el caso ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.19/31

3. Imputación de bases de datos incompletas Algoritmo EM (Expectation Maximization) Demspter, A. P., laird, N. M., Rubin, D. B. (1977) Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society B, 39(1): 1 38 McLachlan, G. J., Krishnan, T. (1997) The EM Algorithm and Extensions. John Wiley and Sons Lauritzen S. L. (1995) The EM algorithm for graphical association models with missing data. Computational Statistics and Data Analysis, 19: 191 201 ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.20/31

3. Algoritmo EM (Expectation Maximization) X variable multinomial con cinco posibles valores: x 1, x 2, x 3, x 4, x 5 p(x = x 1 ) = 1/2 p(x = x 2 ) = θ/4 p(x = x 3 ) = (1 θ)/4 p(x = x 4 ) = (1 θ)/4 p(x = x 5 ) = θ/4 con 0 < θ < 1 ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.21/31

3. Algoritmo EM (Expectation Maximization) En una muestra de tamaño N, se obtiene que los 5 valores anteriores se han dado: N 1, N 2, N 3, N 4, N 5 veces. N = 5 i=1 N i La verosimilitud de la muestra es proporcional a: (1/2) N 1 (θ/4) N 2 ((1 θ)/4) N 3 ((1 θ)/4) N 4 (θ/4) N 5 El EMV para θ es: ˆθ = (N 2 +N 5 ) (N 2 +N 3 +N 4 +N 5 ) ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.22/31

3. Algoritmo EM (Expectation Maximization) Supongamos ahora que no tenemos N1 y N 2 y que en su lugar nos dan el valor de M 1+2 = N 1 + N 2. Denotamos: M 3 = N 3, M 4 = N 4, M 5 = N 5 Utilizando el siguiente procedimiento iterativo, podemos buscar una aproximación para ˆθ 1. Dado un valor inicial para θ, usamos los valores observados M 1+2, M 3, M 4, M 5 para estimar los valores esperados para N 1 y N 2 : N 1 = M 1+2 1/2 1/2 + θ/4 N 2 = M 1+2 θ/4 1/2 + θ/4 2. Usamos la estimación de los datos completos para revisar nuestra estimación sobre θ, por medio de la fórmula de su estimación máximo verosímil 3. Alternamos los dos pasos anteriores hasta condición de parada ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.23/31

3. Algoritmo EM (Expectation Maximization) Partiendo de θ = 0,5 y M 1+2 = 125, M 3 = 18, M 4 = 20, M 5 = 34 se obtiene: Iteración θ 0 0.500000000 1 0.608247423 2 0.624321051 3 0.626488879 4 0.626777323 5 0.626815632 6 0.626820719 7 0.626821395 8 0.626821484 ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.24/31

3. Algoritmo EM (Expectation Maximization) Paso de expectation: estimar los datos incompletos a partir de sus valores esperados obtenidos a partir de los estimadores actuales de los parámetros Paso de maximization: usando las complexiones de los datos incompletos, tratarlos como completos y estimar por máxima verosimilitud los parámetros ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.25/31

3. Algoritmo EM (Expectation Maximization) Propiedades: La sucesión de estimadores obtenidos con el EM genera una sucesión de verosimilitudes creciente. Si dicha sucesión está acotada superiormente, converge hacia cierto valor Bajo ciertas condiciones de regularidad dicho valor es un m ximo local de la función de verosimilitud ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.26/31

3. Algoritmo EM (Expectation Maximization) En redes Bayesianas el paso E (expectation) trae como consecuencia el tener que partir el caso Lo habitual suele ser completarlo bien con: El valor modal (versión determinista) Un valor obtenido por simulación (versión estocástica) Experiencia en el grupo en la aplicación del EM al problema del clustering con modelos gráficos probabilísticos. Variable hidden no observada ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.27/31

3. Algoritmo BC (Bound and Collapse) M. Ramoni, P. Sebastiani (1997) Learning Bayesian networks from incomplete databases. UAI 97, 401 408 Método determinista que actúa en dos fases: Primera fase: acota el conjunto de posibles valores para el parámetro en un intervalo. El máximo y el mínimo valor del mismo deben de ser consistentes con los datos Segunda fase: colapsa el máximo y el mínimo en un punto, por medio de una combinación convexa de dichos puntos extremos ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.28/31

4. Categorización Clasificación de métodos de discretización desde una triple perspectiva: Global versus local Supervisados versus no supervisados. En función de que usen o no la variable clase Estáticos versus dinámicos. En los estáticos el número de intervalos para cada variable se fija de antemano o bien se determina después de una única lectura de la base de datos ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.29/31

4. Categorización Fayyad, U. M., Irani, K. B. (1993) Multi interval discretization of continuous valued attributes for classification learning. IJCAI 93, 1022 1027 Particionamiento recursivo de mínima entropía Local, supervisado, estático Usa la entropía de la variable clase, calculada en las particiones candidatas, para seleccionar las fronteras de la discretización T = arg mín S 1 S Ent(S 1) + S 2 S Ent(S 2) El método se aplica recursivamente Criterio de parada basado en ganancia de información en conjunción con MDL ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.30/31

4. Categorización Propuesta: global, no supervisado, estático Fijar desde el inicio el número de intervalos para cada variable Buscar los puntos de corte de todas las variables al unísono, por medio de un heurístico estocástico Evaluar cada posible combinación de puntos de corte por medio de la verosimilitud penalizada que se obtiene al aprender una red Bayesiana (con el algoritmo K2) sobre el fichero de casos categorizados obtenido ELVIRA II: APLICACIONES DE LOS MODELOS GRÁFICOS PROBABILÍSTICOS p.31/31