UNIVERSIDAD DE ALMERÍA. Facultad de Ciencias Experimentales Departamento de Estadística y Matemática Aplicada

Transcripción

1 UNIVERSIDAD DE ALMERÍA Facultad de Ciencias Experimentales Departamento de Estadística y Matemática Aplicada Memoria presentada por Antonio Fernández Álvarez como requisito para obtener el Diploma de Estudios Avanzados Almería, Noviembre de 2007

2

3 UNIVERSIDAD DE ALMERÍA Facultad de Ciencias Experimentales Departamento de Estadística y Matemática Aplicada Memoria presentada por Antonio Fernández Álvarez como requisito para obtener el Diploma de Estudios Avanzados Jurado Calificador Dr. Serafín Moral Callejón Presidente Dr. Antonio Salmerón Cerdán Vocal y Director Dr. José del Sagrado Martínez Secretario Almería, Noviembre de 2007

4

5 . Agradecimientos. Es de obligado cumplimiento agradecer el apoyo de todas aquellas personas que de alguna forma me han ayudado en la realización de este trabajo, que para mí supone mejorar y descubrirme día a día. En especial citaré a las más importantes. En primer lugar, el artifice, el que pone las herramientas y el orden es Antonio Salmerón Cerdán, mi director de tesis. Agradecerle su apoyo y amabilidad durante todo este tiempo. Por otro lado, Jens Dalgaard Nielsen es una persona sencilla que me ha ayudado en aquellas pequeñeces que hacen que el trabajo diario fluya lentamente pero sin pausa. A él le agradezo su calidad humana y paciencia conmigo. También he de agradecer a Rafael Rumí Rodríguez y a Fernando Reche Lorite sus sabios consejos que han sido útiles para solucionar problemas que se han ido presentando. Por último, a mi familia, amigos y novia por respetar mis ideas y apostar por mí.

6

7 A todos aquellos que luchan por sus sueños.

8

9 Índice general 1. Introducción 1 I Período de docencia 3 2. Metodología de la investigación científica Conceptos relacionados con la investigación Medios de divulgación científica Búsqueda de información Redacción de artículos científicos Presentaciones Los tónicos de la voluntad. Reglas y consejos sobre investigación científica Aspectos positivos Aspectos negativos Fundamentos de modelos gráficos Recordatorio de teoría de la probabilidad Repaso de la teoría de grafos Independencia y su representación gráfica i

10 ii ÍNDICE GENERAL 3.4. Modelos gráficos probabilísticos Concepto de causalidad y construcción de redes bayesianas Modelos de decisión Modelos temporales Aplicaciones de los MGP Inferencia en MGPs Algoritmos exactos Algoritmos aproximados de tipo Monte-Carlo Algoritmos aproximados deterministas Abducción (MAP) Evaluación de diagramas de influencia Inferencia con variables continuas (CG y MTE) Aprendizaje de MGPs Aprendizaje de redes bayesianas Aprendizaje de clasificadores Aprendizaje con datos perdidos Evaluación y comparación de modelos de clasificación supervisada Clasificadores con variables predictoras continuas Análisis estadístico de datos Análisis de la varianza Estadística no paramétrica

11 ÍNDICE GENERAL iii 6.3. Estadística bayesiana Análisis cluster, discriminante y de componentes principales Metaheurísticas y modelos gráficos probabilísticos Uso de MGPs en metaheurísticas: Algoritmos de estimación de distribuciones (EDAs) Resolución de problemas complejos en MGPs usando metaheurísticas. 27 II Período de investigación Redes bayesianas Concepto d-separación El modelo MTE Redes bayesianas para regresión Validación cruzada Validación holdout Validación cruzada en k-pasos Validación cruzada leave-one-out Selección de variables Modelos para regresión usando MTEs Introducción Naive Bayes (NB) NB selectivo (SNB)

12 iv ÍNDICE GENERAL 9.4. Tree Augmented Naive Bayes (TAN) TAN selectivo (STAN) Forest Augmented Naive Bayes (FAN) FAN selectivo (SFAN) Clasificación supervisada incremental usando MTEs: Un estudio preliminar Introducción Reaprendizaje de redes bayesianas según su tipo de variables Clasificación incremental supervisada Clasificación incremental en k-pasos Modelo 1: El clasificador principal actuando como hijo Modelo 2: El clasificador principal actuando como padre Modelos de clasificación incremental naive Bayes Algoritmos de clasificación y aprendizaje Conclusión Experimentación Precisión de los modelos de regresión para los modelos NB, SNB, TAN, STAN, FAN y SFAN Análisis de los resultados Comportamiento de los modelos TAN y STAN usando distinta raíz en el MST formado con los descriptores Precisión del modelo de clasificación incremental

13 ÍNDICE GENERAL v A. Implementación en el entorno Elvira 79 B. Publicaciones científicas 81 C. Avance de proyecto de tesis 83 D. Adscripción a un área de conocimiento 85 Bibliografía 87

14

15 Índice de Tablas 1.1. Listado de los cursos de doctorado realizados Resultados I de los experimentos realizados con los modelos de regresión en términos de rmse Resultados I de los experimentos realizados con los modelos de regresión en términos de lcc Resultados II de los experimentos realizados con los modelos de regresión en términos de rmse Resultados II de los experimentos realizados con los modelos de regresión en términos de lcc Experimentos realizados para reflejar el comportamiento del modelo TAN y STAN referente a la selección de la raíz entre las variables descriptoras Modelo 1: 10 variables aleatorias binarias, n o estados variable clase = 2, 30% conjunto datos para testeo, conocimiento no dividido Modelo 1: 10 variables aleatorias binarias, n o estados variable clase = 2, 30% conjunto datos para testeo, conocimiento dividido Modelo 1: 10 variables aleatorias binarias, n o estados variable clase = 4, 30% conjunto datos para testeo, conocimiento no dividido vii

16 viii ÍNDICE DE TABLAS Modelo 1: 10 variables aleatorias binarias, n o estados variable clase = 2, 30% conjunto datos para testeo, conocimiento dividido Modelo 2: conocimiento no dividido Modelo 2, conocimiento dividido I Modelo 2, conocimiento dividido II

17 Índice de figuras 8.1. Ejemplo de red bayesiana Conexión en serie. Cuando B se instancia, se bloquea la comunicación entre A y B Conexión divergente. Si se instancia A se bloquea la comunicación entre sus hijos Conexión convergente. Si cambia la certeza de A se abre la comunicación entre sus padres Ejemplo de modelo de regresión usando redes bayesianas Estructura de un modelo naive Bayes Ejemplo de selección de variables en un modelo naive Bayes Una estructura TAN con X 2 como raíz del árbol de expansión máximo entre los descriptores Ejemplo de selección de variables en un modelo tree augmented naive Bayes Estructura FAN con k = 3 y 2 bosques Ejemplo de selección de variables en un modelo forest augmented naive Bayes ix

18 x ÍNDICE DE FIGURAS Propuesta 1 para el modelo de clasificación incremental en 2-pasos usando estructuras naive Bayes Propuesta 2 para el modelo de clasificación incremental en 2-pasos usando estructuras naive Bayes

19 Capítulo 1 Introducción Este trabajo está enmarcado dentro del programa de doctorado interuniversitario con mención de calidad Modelos Probabilísticos para la Inteligencia Artificial y la Minería de Datos. Su impartición está justificada debido a la importancia de los modelos gráficos probabilísticos (MGPs) como herramienta para el tratamiento de la incertidumbre y toma de decisiones en problemas que manejan grandes cantidades de información, como son la Inteligencia Artificial y la Minería de Datos. Es un campo en continuo auge y muchas empresas y centros de investigación están demandando personal con una formación específica en este campo. Como objetivos básicos de este programa de doctorado pueden establecerse: Desarrollo de las habilidades básicas para la investigación, tanto desde el punto de vista del análisis y resolución de problemas como de la metodología instrumental necesaria (en este caso computacional y estadística), incluyendo aspectos como la búsqueda de información y la presentación y difusión de resultados. Dominio de los aspectos teóricos fundamentales de los MGPs, en lo concerniente a representación, aprendizaje y razonamiento. Conocimiento de las aplicaciones más destacadas de los MGPs en la ciencia y la industria. 1

20 2 Curso Carácter Duración (horas) Metodología de la investigación científica Obligatorio 30 Fundamentos de modelos gráficos Obligatorio 30 Inferencia en MGPs Obligatorio 40 Aprendizaje de MGPs Obligatorio 50 Análisis estadístico de datos Optativo 30 Metaheurísticas y modelos gráficos probabilísticos Optativo 30 Tabla 1.1: Listado de los cursos de doctorado realizados. Capacitación para el desarrollo de nuevas técnicas y la resolución de problemas usando MGPs. El período docente de este programa consta de distintos cursos. En la Tabla 1 enumero aquéllos que he realizado y se especifica el carácter y duración de los mismos. En sucesivos capítulos se comentarán brevemente los conceptos básicos tratados en cada curso, así como algunas puntualizaciones de lo más importante de cara a mi labor durante el período de investigación en el segundo año.

21 Parte I Período de docencia 3

22

23 Capítulo 2 Metodología de la investigación científica Los conceptos vistos en este curso han sido de gran utilidad para familiarizarme con el mundo de la investigación y para enfocar de forma más fácil la comprensión de conceptos del resto de cursos y tareas de investigación realizadas. Veamos de forma más detallada lo que se ha visto Conceptos relacionados con la investigación Medios de divulgación científica Se presentan en este punto las posibilidades de divulgar nuestro trabajo de investigación realizado. Para ello, se explica en qué consiste un congreso y los distintos tipos de actividades que en él se realizan. Se especifican, además, sus elementos principales, sus ventajas e inconvenientes, las personas que intervienen y el papel de cada una de ellas. Además, se nombran los congresos más importantes dentro del área de los modelos gráficos probabilísticos. Otro medio de divulgación importante son las revistas. Se ha explicado su concepto y en qué se diferencia este medio de los congresos, viendo sus ventajas e inconvenientes 5

24 CONCEPTOS RELACIONADOS CON LA INVESTIGACIÓN con respecto a él. Se han detallado los tipos de revistas existentes, así como los miembros componentes. Además, se ha indicado cómo se mide la calidad de una revista a la hora de valorarla. Al igual que para los congresos, se especifican cuáles son las revistas más importantes relacionadas con el campo de los modelos gráficos probabilísticos. También se presentan otros medios de divulgación científica como son los libros, las tesis doctorales y los informes internos Búsqueda de información En este punto se explica cómo realizar una búsqueda eficiente de la información y se hace hincapié en su importancia a la hora de desarrollar una labor investigadora. Al comienzo de toda investigación científica es necesario, una vez seleccionado el tema objeto de estudio, buscar la mayor cantidad de información posible relacionada con el mismo, para evitar realizar algo ya desarrollado y para conocer hasta qué punto se sabe del entorno de investigación en el que te vas a introducir. Para ello son necesarias algunas recomendaciones básicas: es importante conocer los tipos de documentos a los que tenemos que acceder en cada momento, así como las fuentes de información para cada uno de ellos (bibliotecas, librerías, bases de datos electrónicas, páginas web de los autores,...). Algunos datos sobre los documentos, como por ejemplo su antiguedad y su impacto hay que tenerlos muy en cuenta para saber valorar su calidad Redacción de artículos científicos La finalidad esencial de un artículo científico es comunicar los resultados de investigaciones, ideas y debates de una manera clara, concisa y fidedigna. Por ello, es muy importante conocer cómo se redactan. En este punto se explican las partes más importantes de un artículo (título, autores, institución, resumen, introducción, cuerpo, conclusión, referencias), así como algunas recomendaciones básicas, muchas de ellas dadas en [25].

25 CAPÍTULO 2. METODOLOGÍA DE LA INVESTIGACIÓN CIENTÍFICA Presentaciones Se presentan las claves para realizar una buena presentación del trabajo realizado. En concreto, es importante preparar y estructurar muy bien la presentación y ensayarla cuantas más veces mejor, para eliminar el miedo e inseguridad que podamos tener. Hay que tener en cuenta el contexto de la presentación (objetivo, tipo de público, entorno físico,...). Es interesante exponer ideas claras, conectadas y no muy difíciles de comunicar (ignorar los detalles). Hay que dirigirse siempre al público y hablar con la voz clara y alta. El uso de un tamaño de letra adecuado, así como los colores deberán ser tenidos en cuenta para una correcta visualización. Entre otros, éstos son a grandes rasgos los consejos que no debemos olvidar para tener éxito en nuestra presentación Los tónicos de la voluntad. Reglas y consejos sobre investigación científica La actividad de este curso comienza meses antes de su docencia con la lectura del libro: Los tónicos de la voluntad. Reglas y consejos sobre investigación científica, escrito por el científico Santiago Ramón y Cajal. Se trata de una obra ejemplo que ofrece una serie de reglas y recomendaciones útiles a jóvenes interesados en la investigación científica. Tras la lectura de la misma, cada alumno ha realizado una exposición de aquellos aspectos positivos y negativos que considera más importantes, y que el autor expone como consejo a los futuros investigadores. Mi particular visión acerca del libro la presento a continuación: Aspectos positivos La constancia y la concentración en la investigación son fundamentales. La voluntad es tan educable como la inteligencia.

26 LOS TÓNICOS DE LA VOLUNTAD. REGLAS Y CONSEJOS SOBRE INVESTIGACIÓN CIENTÍFICA No es buena una actitud extremista por parte de los jóvenes investigadores a la hora de admirar grandes obras, ya que puede debilitar nuestra personalidad y pensar que todo está hecho. Las claves de todo investigador, dice el autor, son sentido común, educación, trabajo, atención,... El cerebro juvenil posee plasticidad exquisita, por lo que pueden surgir asociaciones raras de ideas que pueden ser inicio de un gran descubrimiento. Tratar algo nuevo por primera vez descartando información a priori (prejuicios sobre el tema) puede ser interesante en una investigación. El saber ocupa lugar, por lo que es importante la especialización del investigador. El apoyo económico de gobiernos e instituciones es importante en la investigación. La regla básica para la aportación de un científico es: Tener algo nuevo que decir, decirlo, callarse en cuanto queda dicho y dar a la publicación título y orden adecuados. Hay que ser justo y cortés en los juicios sobre trabajos pasados Aspectos negativos En general, la época del libro justifica en parte algunos pensamientos anticuados del autor, diversas opiniones sexistas y comentarios sobre la crisis de la investigación española. Comenta el autor que el novel hombre de ciencia debe huir de resúmenes y manuales, algo no muy acertado, ya que si en algún momento necesitamos una mayor formación o tenemos que relacionar varias materias de las que no somos expertos debemos acudir a estas publicaciones de divulgación no tan específica.

27 CAPÍTULO 2. METODOLOGÍA DE LA INVESTIGACIÓN CIENTÍFICA 9 No es muy acertado decir que para la obra científica los medios son poco importantes y el aspecto humano lo es casi todo, ya que ambas cosas son imprescindibles. Algunos comentarios acerca del papel de la mujer en la vida del investigador son bastante sexistas y por tanto inaceptables en la sociedad actual.

28

29 Capítulo 3 Fundamentos de modelos gráficos Este curso ha sido esencial, ya que gracias a él se han asentado los conceptos básicos sobre modelos gráficos probabilísticos, necesarios para el resto de cursos. Veamos los contenidos tratados agrupados por puntos y una descripción básica de los mismos. Al final del curso cada alumno ha realizado una relación de ejercicios que cubre en su mayoría los conceptos tratados durante la docencia Recordatorio de teoría de la probabilidad En este punto se hace un recorrido por los aspectos básicos sobre la teoría de la probabilidad. Se explica el concepto de variable aleatoria y de probabilidad, así como los tipos de probabilidades que existen (conjunta, marginal y condicional). Se define el teorema de la probabilidad total y la regla de la cadena como dos pilares básicos en este ámbito. Más adelante se tratan el concepto de independencia y correlación, tanto para variables como para valores, lo que sirve para introducir y explicar el concepto de independencia condicional (también muy importante). Por último, se enuncia el teorema de Bayes, que permite relacionar la probabilidad a posteriori con la probabilidad a priori cuando tenemos evidencias sobre las variables de un problema. 11

30 REPASO DE LA TEORÍA DE GRAFOS 3.2. Repaso de la teoría de grafos Se explica el concepto de grafo como base de la estructura de un modelo probabilístico. Se detallan los tipos de grafos existentes, así como una serie de restricciones en los modelos gráficos relacionadas con los ciclos y bucles de un grafo Independencia y su representación gráfica En esta sección se profundiza en el concepto de separación entre variables para grafos no dirigidos (u-separación) y dirigidos (d-separación), usando para ello su representación gráfica y los conceptos de camino activo y camino bloqueado. Esto nos lleva al concepto de independencia entre variables, y se recalca la importancia del hecho de que dos variables sean independientes y las posibilidades que de ello pueden obtenerse Modelos gráficos probabilísticos Se introduce el concepto general y las propiedades de los modelos gráficos probabilísticos, y se da una clasificación de los mismos en base a ciertas características que deben cumplir: redes de Markov, redes bayesianas, redes en cadena, modelos de decisión de Markov, diagramas de influencia, redes de análisis de decisiones,... Se centra la atención de las redes bayesianas detallando sus principales propiedades, haciendo hincapié en la propiedad de Markov como la más importante. Por último, se explica en qué consiste la factorización de redes bayesianas, y las ventajas que nos aporta al tratamiento de estos modelos.

31 CAPÍTULO 3. FUNDAMENTOS DE MODELOS GRÁFICOS Concepto de causalidad y construcción de redes bayesianas Se explica el concepto de relación causal entre dos variables en una red, y las interpretaciones de independencia probabilística y de causalidad que pueden deducirse a partir de la misma. Se recalca la importancia de este concepto a la hora de crear relaciones entre variables en la construcción manual de redes bayesianas. Se explican, además las distintas formas para construir una red bayesiana: a partir de una base de datos, con la ayuda de un experto o una combinación de ambas Modelos de decisión Se presentan los modelos de decisión como una herramienta o sistema de apoyo a la toma de decisiones en problemas altamente complejos y en donde no es posible resolverlos de forma intuitiva. Para ello se proponen tres tipos de modelos: Tablas de decisión: se trata de la forma más elemental de representación y se compone de una serie de estados (con su probabilidad asociada) y decisiones que determinan la utilidad esperada para el problema en cuestión. Árboles de decisión: Surgen para suplir las deficiencias de las tablas de decisión. La filosofía es la misma, pero este modelo permite encadenar más de una decisión con lo que se aplica a problemas más complejos. Diagramas de influencia (DIs): Se platean como un método de representación más compacto que los dos anteriores. Se dan las reglas para su construcción y sus propiedades más importantes.

32 MODELOS TEMPORALES 3.7. Modelos temporales Una limitación de los modelos de decisión es que son estáticos. Para suplir esto surgen los modelos temporales. Permiten representar la progresión del tiempo y una interacción continua del decisor con un sistema dinámico. Se explican las características de los siguientes modelos: Procesos de decisión markovianos (PDMs) PDMs parcialmente observables Redes bayesianas dinámicas Redes temporales DIs dinámicos 3.8. Aplicaciones de los MGP Por último y para motivar aún más la comprensión de los conceptos teóricos tratados en el curso, se presentan algunas de las aplicaciones reales de los MGPs.

33 Capítulo 4 Inferencia en MGPs Este curso ha sido uno de los más complicados, y a su vez útil, ya que me ha hecho conocer lo complejo de la propagación en redes bayesianas y lo importante que puede llegar a ser optimizar pequeñas operaciones para que la eficiencia del proceso mejore en su globalidad Algoritmos exactos Vemos en esta sección todo lo referente a la propagación exacta de probabilidades en redes bayesianas. En primer lugar, se justifica el problema y se explican las operaciones básicas asociadas y algunas indicaciones para mejorar el proceso. Se detalla el algoritmo de eliminación de variables, el paso de mensajes, la construcción de árboles de cliques. Se muestran diferentes arquitecturas de propagación en árboles de cliques (algoritmo de Shenoy-Shafer y algoritmo de Hugin). Por último, se expone la técnica de propagación perezosa. 15

34 ALGORITMOS APROXIMADOS DE TIPO MONTE-CARLO 4.2. Algoritmos aproximados de tipo Monte-Carlo Se trata aquí los algoritmos aproximados de tipo Monte-Carlo como una alternativa a la imposibilidad de usar algoritmos exactos a la hora de propagar en redes bayesianas. Se introduce el tema, detallando su concepto y complejidad. Se explica el concepto de simulación de variables aleatorias, propagación por simulación (muestreo lógico probabilístico, Markov Chain Monte Carlo). Por último, vemos en qué consiste el método basado en muestreo por importancia y el método de ponderación por verosimilitud Algoritmos aproximados deterministas Otro tipo de algoritmos aproximados son los deterministas, cuya principal característica es que obtienen la misma aproximación para cualquier ejecución, a diferencia de los basados en Monte-Carlo (basados en la aleatoriedad). Se explica en qué consisten, estableciendo una clasificación: basados en la simplificación del modelo y basados en métodos de búsqueda. A continuación, se trata la propagación Penniless, viendo sus características, algoritmo que la define y algunas variantes del mismo. Tomando como base este algoritmo se presenta la propagación Lazy-Penniless como una variante en la que ciertas exigencias del algoritmo original se relajan. Otro tipo de propagación abordado es la Mini-Buckets Abducción (MAP) A grandes rasgos, mediante la abducción tratamos de encontrar la configuración que maximiza la probabilidad de un conjunto de variables dada una evidencia. Para ello se presentan la abducción total (MPE) y la parcial (MAP). Dentro de la MAP se muestran algunas de sus aplicaciones. Profundizando más en los conceptos, se estudian las variantes que se plantean a la hora de realizar MAP: adaptación de árboles generales, creación de árboles con restricciones, árboles de probabilidad. Se identifica la compleji-

35 CAPÍTULO 4. INFERENCIA EN MGPS 17 dad de MAP. Por último, se resuelve MAP de forma aproximada con búsqueda y, por otro lado, de forma exacta Evaluación de diagramas de influencia Se contempla en esta sección otro tipo de modelo gráfico probabilístico: los diagramas de influencia (DIs). En un primer punto, se estudia los elementos básicos para su construcción. Posteriormente se justifica el uso de este tipo de modelos y se marcan sus objetivos básicos. A continuación se explica en qué consiste la evaluación cualitativa, por un lado, y cuantitativa, por otro, de los DIs. Se presentan los algoritmos más usuales en la evaluación de diagramas de influencia: método de inversión de arcos, método de eliminaciónde variables. Junto a ellos se dan algunas indicaciones acerca de la complejidad de los mismos, y a colación algunas pinceladas de cómo se puede reducir ésta usando aproximación (adaptación de algoritmos exactos o simulación Monte-Carlo) Inferencia con variables continuas (CG y MTE) En esta sección se afronta el problema de la inferencia en aquellos casos en donde aparecen variables continuas. En una primera aproximación se propone la discretización de las variables como una posible solución al problema. Las deficiencias que de ello se obtienen, obliga a proponer otros métodos más avanzados, como usar una distribución condicional gaussiana o una mixtura de exponenciales truncadas. Se explican ambas de forma detallada viendo sus propiedades y características.

36

37 Capítulo 5 Aprendizaje de MGPs En este curso he aprendido cuáles son los métodos existentes para el aprendizaje de modelos gráficos probabilísticos, en concreto, las redes bayesianas, y a saber evaluar la calidad de un modelo de clasificación. Estos conceptos han sido básicos para aplicarlos a mi labor investigadora en el segundo año, en concreto al apredizaje de modelos de clasificación y regresión usando MTEs Aprendizaje de redes bayesianas Esta parte del curso supone una introducción al problema del aprendizaje en redes bayesianas. Se presenta el aprendizaje inductivo como el pilar básico de este campo. Se explican los métodos de aprendizaje en redes bayesianas distinguiendo entre: aprendizaje de parámetros y aprendizaje de la estructura. Para esta última, se proponen varios métodos: basados en independencias, basados en funciones de evaluación y búsqueda, y técnicas híbridas. 19

38 APRENDIZAJE DE CLASIFICADORES 5.2. Aprendizaje de clasificadores En esta sección se introduce el problema de la clasificación y cómo se aborda usando redes bayesianas. Se explican los dos tipos de clasificación existentes: supervisada y no supervisada. Se hace distinción entre variables discretas y continuas como base del entrenamiento de los clasificadores, y de la posibilidad de discretización de datos continuos para un mejor tratamiento. Para una percepción más real, se muestran las aplicaciones de estos modelos de clasificación. A continuación se muestra el problema del aprendizaje de una red bayesiana como clasificador, y cómo el uso de métricas específicas y la selección de variables son interesantes para guiar el proceso de búsqueda de la mejor estructura. Se presenta el modelo naive Bayes como punto de partida de la estructura del modelo. A partir de aquí se estudian diversos tratamientos a dicha estructura con el objetivo de mejorar calidad de la clasificación: métricas de calidad, selección de características, agrupación de características, modelo naive Bayes aumentado, tree-augmented naive Bayesian network (TAN), forest-augmented naive Bayesian network (FAN), Bayesian network augmented naive Bayesian clasifier (BAN) y otros modelos híbridos. Además se presenta el concepto de Manto de Markov como característica útil en el proceso de búsqueda de la mejor estructura Aprendizaje con datos perdidos Se presenta el problema del aprendizaje cuando tratamos con bases de datos en las que desconocemos el valor de ciertas variables. En primer lugar se aborda el problema del aprendizaje paramétrico y se proponen varios métodos sencillos para solucionarlo: eliminar la fila o columna del dato, ignorarlo, sustituirlo por la media o mediana del resto de valores,... Otros más complejos consisten en reaprender el valor perdido usando una aproximación frecuentista (maximización de la verosimilitud de los datos, algoritmo EM) o, por otro lado, una aproximación

39 CAPÍTULO 5. APRENDIZAJE DE MGPS 21 bayesiana (método Monte-Carlo, aproximación gaussiana). Posteriormente, nos centramos en el aprendizaje estructural con datos perdidos. En este caso, se plantea buscar aquella estructura que maximice algún score bayesiano. Para resolver el problema, se propone, al igual que antes, una aproximación frecuentista y una aproximación bayesiana Evaluación y comparación de modelos de clasificación supervisada Esta etapa se realiza una vez aprendido el modelo, para obtener medidas que nos indiquen la calidad en la clasificación. En cuanto a la evaluación del clasificador, se realiza un estudio exhaustivo de algunas medidas de éxito: matriz de confusión, tasa de acierto, tasa de error, sensibilidad, especifidad, precisión, recall, f-measure e índice kappa. Además, se explican técnicas para estimar la probabilidad de acierto o error de un clasificador: no honesto, holdout, holdout repetidas veces, k-fold cross-validation, jackknife, bootstrap y bolstered. También se tratan otras medidas que nos ayudarán a saber más sobre la calidad de un clasificador: brier score, área bajo la curva ROC y descomposición del error en sesgo y varianza. Por último, veremos cómo es la comparación de dos o más clasificadores. Para ello se usa un test de hipótesis que determina si existen diferencias estadísticas significativas entre los resultados obtenidos. Se detalla el estudio para los siguientes casos: Dos clasificadores en una misma base de datos Más de dos clasificadores en una misma base de datos Dos clasificadores en múltiples bases de datos Más de dos clasificadores en múltiples bases de datos

40 CLASIFICADORES CON VARIABLES PREDICTORAS CONTINUAS 5.5. Clasificadores con variables predictoras continuas En esta sección se plantea el problema de tratar con variables continuas. Una primera solución rápida es discretizar las variables, pero esto conlleva el problema de la pérdida de información. Para ello se propone el uso de una aproximación gaussiana para el tratamiento de variables continuas. Se muestra toda la base teórica de esta aproximación junto con algunos resultados de experimentos realizados para varios tipos de clasificadores.

41 Capítulo 6 Análisis estadístico de datos Los métodos estadísticos de análisis de datos estudiados en este curso han sido muy interesantes desde el punto de vista de su aplicabilidad a problemas reales. En mi labor investigadora los he usado para establecer si existen diferencias significativas entre los resultados obtenidos con distintas técnicas de clasificación y regresión Análisis de la varianza Se presenta el análisis de la varianza (ANOVA) como una herramienta básica para el análisis de los modelos estadísticos, ya que permite descomponer la variablidad de un experimento en componentes independientes que pueden asignarse a diferentes causas y de este modo, contrastar el efecto de los factores sobre la respuesta. Se estudian algunos conceptos básicos relacionados con el diseño de experimentos y con el análisis de la varianza: residuos, varianza residual, suma de cuadrados total, suma de cuadrados de tratamientos, suma de cuadrados de error y coeficiente de determinación. Centrándonos en el análisis de la varianza se profundiza en sus propiedades y características, a la vez que se presentan distintos métodos de análisis y de contraste: mínima diferencia significativa (LSD), métodos de Bonferroni, Tukey, Duncan, Newman-Kewls, 23

42 ESTADÍSTICA NO PARAMÉTRICA Scheffé, Dunnet para comparaciones con un control, contrastes de bondad de ajuste, test de bondad de ajuste χ 2, test de Kolmogorov-Smirnov, test de Kolmogorov-Smirnov- Lilliefors, contraste de normalidad de Shapiro-Wilks, contrastes de de homogeneidad, test de Bartlett, test de Cochran, test de Hartley, método de Levene, contraste de rachas para la aleatoriedad,... Además, se dan algunas indicaciones sobre el análisis de gráficos Estadística no paramétrica La estadística no paramétrica estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori, ya que son los datos observados los que la determinan. Se explican los conceptos de test estadístico o contraste de hipótesis, así como las principales pruebas no paramétricas estudiadas: Contrastes de bondad de ajuste: test χ 2, test Kolmogorov-Smirnov, test específico para la normal, test de normalidad multivariante, test de Lilliesfors. Tests de independencia: test χ 2, test de independencia condicionada (más de dos variables). Tests de aleatoriedad: test de rachas y test de huecos. Test de normalidad: univariantes y multivariantes. Estimación de densidades: histograma, polígono de frecuencia y kernels Estadística bayesiana La estadística bayesiana se presenta como una alternativa al paradigma frecuentista a la hora de realizar inferencia. Se tratan los conceptos de inferencia estadística y las

43 CAPÍTULO 6. ANÁLISIS ESTADÍSTICO DE DATOS 25 diferencias entre los métodos bayesianos y los clásicos. Por otro lado, se hace una crítica y justificación de la inferencia bayesiana. Se continúa con los conceptos de distribución a priori y a posteriori de los parámetros a estimar, distribución conjugada (variables de Bernoulli, normales y multinomiales) y estimadores de Bayes Análisis cluster, discriminante y de componentes principales En primer lugar, tratamos el análisis cluster como un conjunto de técnicas orientadas principalmente a la clasificación de los elementos de una población o muestra en distintos grupos homogéneos. Para ello se estudian los conceptos de proximidad, matriz de proximidad, medidas de disimilaridad (distancia euclídea, distancia euclídea estandarizada, distancia de Mahalanobis, distancia de Manhattan, distancia de Minkowski), medidas de similaridad (medida del coseno). Se explican, además, algunas medidas de proximidad entre grupos (vecino más lejano, vecino más cercano, media/mediana de los grupos, centroide, método de Ward). Por último, se presentan algunos de los algoritmos jerárquicos y no jerárquicos para realizar análisis cluster (dendograma, k-medias). A continuación, se plantea el análisis discriminante como una técnica para analizar si existen diferencias significativas entre grupos de individuos respecto a un conjunto de variables medidas sobre los mismos. Se presenta la posiblidad de usar esta técnica para fines descriptivos o predictivos. Por último, se explica el análisis de componentes principales como una técnica estadística de síntesis de la información, o reducción de la dimensión (número de variables), perdiendo la menor cantidad de información posible. Se estudiará su concepto, propiedades y las características de la primera y segunda componente principal.

44

45 Capítulo 7 Metaheurísticas y modelos gráficos probabilísticos 7.1. Uso de MGPs en metaheurísticas: Algoritmos de estimación de distribuciones (EDAs) El uso de metaheurísticas se plantea como una mejora en el proceso de optimización en problemas de computación evolutiva. En esta sección se introduce los MGPs como modelo base para este cometido. En concreto, se profundiza en los algoritmos de estimación de distribuciones (EDAs) y las mejoras que éste proporciona a las técnicas clásicas de computación evolutiva. Se verán distintas variantes de EDAs para optimización combinatoria y numérica clasificadas en: modelos univariados o sin dependencias, dependencias bivariadas y dependencias múltiples o n-variadas Resolución de problemas complejos en MGPs usando metaheurísticas En esta otra sección se plantean las metaheurísticas como una técnica para mejorar ciertas tareas en redes bayesianas: aprendizaje, triangulación, abducción, propagación 27

46 RESOLUCIÓN DE PROBLEMAS COMPLEJOS EN MGPS USANDO METAHEURÍSTICAS de probabilidades imprecisas,... Se detallan las características de cada una de ellas y los procedimientos a seguir para su aplicación.

47 Parte II Período de investigación 29

48

49 Capítulo 8 Redes bayesianas 8.1. Concepto Las redes bayesianas se consideran como una de las herramientas más potentes a la hora de diseñar sistemas expertos localizados en un entorno de incertidumbre, comúnmente llamados sistemas expertos probabilísticos. Gráficamente una red bayesiana es un grafo dirigido acíclico, donde los nodos representan las variables del problema y los arcos una relación entre éstas. Más concretamente, la estructura de grafo nos permite expresar información del problema desde dos puntos de vista: Cualitativo: La presencia o no de arcos entre nodos y su disposición dentro del grafo nos indicará las relaciones de dependencia e independencia entre las variables del problema. Cuantitativo: Expresa de forma cuantitativa la incertidumbre acerca de la ocurrencia de los sucesos, en situaciones en donde poseemos algunas evidencias sobre las variables del problema. Esta información se expresa mediante un conjunto de distribuciones de probabilidad condicionadas, ligada íntimamente a la estructura del modelo. 31

50 D-SEPARACIÓN Formalmente se expresa el concepto de red bayesiana mediante la siguiente definición: Definición 8.1. Una red bayesiana es un par (G, P) en donde: G es un grafo dirigido acíclico con un conjunto de vértices X y aristas A. Los vértices representan variables aleatorias del problema y las aristas, relaciones de dependencia e independencia existentes en la red. P representa un conjunto de funciones de probabilidad condicionadas para cada variable dados sus padres, esto es, P = {p(x 1 π 1 ),...,p(x n π n )}. Teorema 8.1. Según [27], dada una red bayesiana (G, P), el conjunto P define una función de probabilidad asociada mediante la factorización n p(x) = p(x i π i ) x Ω X. (8.1) donde Ω X es el conjunto de posibles valores de la variable X. En la figura 8.1 se puede ver un ejemplo de red bayesiana. i=1 (a) Grafo dirigido acíclico X 1 X 2 X 3 X 4 X 5 (b) Funciones de probabilidad p(x 1 = 0) = 0,20 p(x 2 = 0 X 1 = 0) = 0,80 p(x 2 = 0 X 1 = 1) = 0,80 p(x 3 = 0 X 1 = 0) = 0,20 p(x 3 = 0 X 1 = 1) = 0,05 p(x 4 = 0 X 2 = 0, X 3 = 0) = 0,80 p(x 4 = 0 X 2 = 1, X 3 = 0) = 0,80 p(x 4 = 0 X 2 = 0, X 3 = 1) = 0,80 p(x 4 = 0 X 2 = 1, X 3 = 1) = 0,05 p(x 5 = 0 X 3 = 0) = 0,80 p(x 5 = 0 X 3 = 1) = 0,60 Figura 8.1: Ejemplo de red bayesiana d-separación Para entender el concepto de d-separación es importante conocer los tipos de conexiones de variables que pueden darse en una red. Todas ellas pueden agruparse en tres básicas:

51 CAPÍTULO 8. REDES BAYESIANAS 33 Conexiones en serie: Se puede ver en la figura 8.2 cómo A incide sobre B y ésta última sobre C. De esta estructura pueden obtenerse varias conclusiones. La primera de ellas, es que si tenemos alguna evidencia sobre A, esto cambiará la información que poseemos sobre B y C. De la misma forma, si tenemos certeza de C ello repercutirá en nuestra información sobre B y A. Por último y muy importante, si conocemos el valor de la variable B, A y C se vuelven independientes, es decir, un cambio en una no repercute en la otra. En este último caso, A y C están d-separadas dado B y se dice que el camino está bloqueado. Como conclusión, podemos decir que una evidencia puede ser transmitida a través de una conexión en serie, siempre y cuando no haya una variable intermedia evidenciada que lo prohiba. A B C Figura 8.2: Conexión en serie. Cuando B se instancia, se bloquea la comunicación entre A y B. Conexiones divergentes: En la figura 8.3 podemos ver este tipo de conexión. En este caso las variables B, C y D están conectadas a priori, en el sentido de que un cambio en la evidencia de una de ellas repercute en las demás, excepto cuando el valor de A es conocido, en cuyo caso la transmisión de información entre éstas se bloquea. Por tanto, podemos decir que la evidencia se puede transmitir a través de una conexión divergente siempre y cuando no se instancie la variable enlazante. Conexiones convergentes: Este tipo de conexión se muestra en la figura 8.4. En este caso si no se tiene ninguna evidencia acerca de A, excepto lo que puede inferirse acerca del conocimiento de sus padres, entonces éstos son independientes, es decir una evidencia en uno no tiene ningún efecto sobre los otros. Sin embargo, si tenemos información acerca de A, una evidencia en uno de sus padres tendrá repercusión en los otros. Como conclusión, podemos decir que la evidencia en una

52 D-SEPARACIÓN A B C D Figura 8.3: Conexión divergente. Si se instancia A se bloquea la comunicación entre sus hijos. conexión convergente sólo puede ser transmitida si la variable enlazante o alguno de sus descendientes ha recibido información. B C D A Figura 8.4: Conexión convergente. Si cambia la certeza de A se abre la comunicación entre sus padres. Definición 8.2. (d-separación)[15, 16, 17]: Dos variables distintas A y B en una red bayesiana están d-separadas si para todos los caminos entre A y B, hay una variable intermedia V (distinta de A y B) tal que: La conexión es en serie o divergente y V está instanciada La conexión es convergente y ni V ni ningún descendiente de V ha recibido evidencia. Mediante el concepto de d-separación podemos conocer qué partes de una red son inpendientes entre sí, y de esta forma, mejorar la eficiencia de los algoritmos de inferencia y aprendizaje en redes bayesianas, de ahí su importancia.

53 CAPÍTULO 8. REDES BAYESIANAS El modelo MTE La presencia de variables discretas y continuas en una misma red requiere el uso de algún modelo en el que basarnos para construir y manipular de forma correcta la red. Una de las soluciones propuesta para ello es el modelo MTE [19] que se define como sigue: Definición 8.3. (Potencial MTE) Sea X un vector aleatorio mixto n-dimensional. Sean Y = (Y 1,..., Y d ) y Z = (Z 1,...,Z c ) la parte discreta y continua de X, respectivamente, con c + d = n. Se dice que una función f : Ω X R + 0 es un potencial tipo Mixtura de Exponenciales Truncadas (potencial MTE) si se cumple alguna de las siguientes condiciones: i. Y = y f se puede expresar como f(x) = f(z) = a 0 + { m c a i exp i=1 j=1 b (j) i z j } (8.2) para todo z Ω Z, donde a i, i = 0,..., m y b (j) i, i = 1,..., m, j = 1,...,c son números reales. ii. Y = y hay una partición D 1,..., D k de Ω Z en hipercubos tal que f se define como f(x) = f(z) = f i (z) si z D i, donde cada f i, i = 1,..., k se puede expresar en los términos de la ecuación (8.2). iii. Y y para cada valor fijado y Ω Y, f y (z) = f(y,z) puede definirse como en ii. Ejemplo 8.1. La función f definida como 2 + e 3z 1+z 2 + e z 1+z 2 si 0 < z 1 1, 0 < z 2 < e z 1+z 2 si 0 < z 1 1, 2 z 2 < 3 f(z 1, z 2 ) = e2z 1+z 2 si 1 < z 1 < 2, 0 < z 2 < ez 1+2z 2 si 1 < z 1 < 2, 2 z 2 < 3

54 EL MODELO MTE es un potencial MTE ya que todas sus partes lo son. Definición 8.4. (Densidad MTE) Un potencial MTE f es una densidad MTE si y Ω Y Ω Z f(y,z)dz = 1. Una densidad condicionada MTE se puede especificar dividiendo el dominio de las variables condicionantes y especificando una densidad MTE para la variable condicionada para cada uno de los intervalos de la variable condicionante. Moral et al. [19] proponen una estructura de datos para representar los potenciales MTE, que es especialmente adecuada para este tipo de densidades condicionadas: Se denominan árboles de probabilidad mixtos o simplemente árboles mixtos. La definición formal es la siguiente: Definición 8.5. (Árbol mixto) Se dice que un árbol T es un árbol mixto si se satisfacen las siguientes condiciones: i. Cada nodo interior representa una variable aleatoria (discreta o continua). ii. Cada arco que sale desde una variable continua se etiqueta con un intervalo de valores, formando la unión de todos ellos el dominio completo de dicha variable. iii. Cada variable discreta tiene un número de arcos salientes igual a su número de estados. iv. Cada nodo hoja contiene un potencial MTE definido sobre las variables en el caminio desde la raíz a dicha hoja. Los árboles mixtos pueden representar potenciales MTE definidos por partes. Cada rama completa en el árbol determina una subregión del espacio donde el potencial se define, y la función almacenada en la hoja de dicha rama es la definición del potencial en la correspondiente subregión.

55 CAPÍTULO 8. REDES BAYESIANAS 37 Figura 8.5: Ejemplo de modelo de regresión usando redes bayesianas Redes bayesianas para regresión En los ultimos años, las redes bayesianas [3, 15, 16, 17] se han convertido en una herramienta popular para resolver problemas de clasificación, donde la meta es obtener un modelo capaz de asignar un valor de una clase a un individuo particular descrito en términos de un conjunto de variables aleatorias [10], tambián llamados descriptores. El problema de la clasificación se aplica a modelos en donde la variable clase es discreta y con un conjunto finito de valores. De la misma forma, esta filosofía puede extenderse a problemas de regresión, en donde la variable clase sigue una distribución continua de probabilidad. La regresión es una técnica estadística utilizada para simular la relación existente entre dos o más variables. Por lo tanto, se puede emplear para construir un modelo que permita predecir el comportamiento de una variable dependiente Y, en nuestro caso, la variable clase, a partir de n variables independientes. En la figura 8.5 podemos ver un ejemplo de un modelo de regresión usando redes bayesianas con MTEs. Por tanto, para resolver el problema de regresión planteado, haremos uso de clasificadores bayesianos usando el modelo MTE expuesto en la sección 8.3, que posibilitará la presencia de una variable clase continua. En el capítulo 9 se presentan distintos modelos