Inferencia en Modelos Gráficos para detección de Tópicos (LDA)

Documentos relacionados
Bases Formales de la Computación: Redes de Bayes (segunda parte)

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES

Redes de Markov y CRF

Teoría de probabilidades

AXIOMAS DE PROBABILIDAD: REGLA DE LA ADICIÓN

REDES BAYESIANAS. O Redes de creencias

Redes Bayesianas (1) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile

Desarrollo e impacto de la Estadística Bayesiana

Inteligencia Artificial II Razonamiento Bayesiano

Sesión 8: Redes Bayesianas - Representación

Métodos de Inteligencia Artificial

Incertidumbre y conocimiento

Razonamiento probabilístico y Redes Bayesianas

Tema 7: Razonamiento con incertidumbre

Razonamiento probabilístico y redes bayesianas. Semántica de las RB Inferencia exacta Blanca A. Vargas Govea Octubre 16, 2012

e Inteligencia Artificial

Métodos de Inteligencia Artificial

Curso de Inteligencia Artificial

Inteligencia Artificial II

Maestría en Bioinformática Probabilidad y Estadística: Clase 1

Capítulo 5: Probabilidad e inferencia

EL4005 Principios de Comunicaciones Clase No.10: Repaso de Probabilidades

Clasificación. Clasificadores Bayesianos

Conferencia C1 MODELOS DE REDES PROBABILÍSTICAS EN SISTEMAS EXPERTOS

Por ello, son necesarios los sistemas expertos que traten situaciones de incertidumbre.

Análisis de Datos. Teoría de decisión Bayesiana. Profesor: Dr. Wilfrido Gómez Flores

Sesión 2: Teoría de Probabilidad

Redes Bayesianas. Manuel Valenzuela-Rendón. Centro de Sistemas Inteligentes Tecnológico de Monterrey, Campus Monterrey.

Matemáticas Discretas Probabilidad

Redes Bayesianas (3) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile

GeNie: entorno de desarrollo para la construcción de modelos gráficos de decisión Decision Systems Laboratory, University of Pittsburgh.

NIVELACIÓN DE ESTADISTICA. Carlos Darío Restrepo

Tema 3: PROBABILIDAD - III

Tema 3: Cálculo de Probabilidades Unidad 1: Introducción y Concepto

Sesión 2: Teoría de Probabilidad

Análisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

Estadística I Tema 4: Probabilidad

Tema 3. Probabilidad y variables aleatorias

Análisis de Datos. Conceptos básicos de probabilidad y teorema de Bayes. Profesor: Dr. Wilfrido Gómez Flores

Pronósticos e Intervención en Sistemas Dinámicos de Flujo. Liliana Figueroa Quiroz

Sistemas Expertos basados en probabilidad (2010/2011)

INFERENCIA BAYESIANA. Antonio López Universitat de València. ESTADÍSTICA ESPACIAL EN EPIDEMIOLOGÍA Y MEDIO AMBIENTE Burjassot, Primavera de 2004

Manejo de Incertidumbre

OTRAS OPCIONES DE PREDICCIÓN

Bloque I: Estadística y Probabilidad

Alumno: Julián Argil Profesora: Dr. Ana Lilia Laureano Cruces

PROBABILIDAD. Universidad Europea de Madrid. Todos los derechos reservados.

Repaso de Probabilidad y Estadística

Razonamiento probabilístico y redes bayesianas

Apellidos:... Nombre:...

Modelos Gráficos Probabilistas L. Enrique Sucar INAOE. Sesión 10: Redes Bayesianas Inferencia. 1era parte. [Neapolitan 90]

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Universidad Mariano Gálvez Estadística y probabilidad para Ingeniería Sección B. UNIDAD 2 PROBABILIDAD

Estadística I Tema 4: Probabilidad

Tipos de fenómenos. Deterministas: Previsibles de antemano sin recurrir a la observación. Aleatorios: Inciertosw.

Clasificación Bayesiana

Carrera: INGENIERIA ZOOTECNISTA E S T A D I S T I C A

Índice general. Prefacio...5

Bases Formales de la Computación: Sesión 1. Probabilidad Discreta

Repaso: El objetivo de medir. Razonamiento Bayesiano. Razonamiento Bayesiano. Razonamiento Bayesiano. Proyectos de Sistemas de Software

Análisis de Datos. Regresión logística. Profesor: Dr. Wilfrido Gómez Flores

Aprendizaje Automatizado

Probabilidad y Procesos Aleatorios

Razonamiento bajo incertidumbre

Modelos estadísticos y la entropía del lenguaje. Dr. Luis Alberto Pineda Cortés

Extensiones de los Modelos Gráficos (2010/2011)

Bases estadísticas del reconocimiento de patrones

ILI-280 Estadística Computacional Quices

Aprendizaje Automatizado

PROBABILIDAD Y ESTADÍSTICA

Análisis de Datos. Conceptos básicos de probabilidad y teorema de Bayes. Profesor: Dr. Wilfrido Gómez Flores

Aprendizaje Automático

Dr. Francisco Javier Tapia Moreno. Octubre 14 de 2015.

Auxiliar 9. MNL y MLE. Daniel Olcay. 21 de octubre de 2014 IN4402. Daniel Olcay (IN4402) Auxiliar 9 21 de octubre de / 13

CÁLCULO DE PROBABILIDADES

Tema 4. Probabilidad Condicionada

Carrera: INGENIERIA ZOOTECNISTA E S T A D I S T I C A

Robots Autónomos. Depto. de Ciencia de la Computación e Inteligencia Artificial

Probabilidad Condicional. Dr. José Dionicio Zacarias Flores

Índice general. Introducción... 23

1 CÁLCULO DE PROBABILIDADES

02 - Introducción a la teoría de probabilidad. Diego Andrés Alvarez Marín Profesor Asistente Universidad Nacional de Colombia Sede Manizales

INDICE. Prólogo a la Segunda Edición

Redes bayesianas temporales para reconocimiento de escenarios

Tema 6 Razonamiento aproximado

Universidad Autónoma de Sinaloa

Dr. Francisco Javier Tapia Moreno. Octubre 19 de 2016.

Teoría de Información y Codificación Ejercicios adicionales (temas correspondientes al primer parcial)

Probabilidad es una manera de indicar la posibilidad de ocurrencia de un evento futuro

Sistemas Expertos basados en probabilidad (2011/2012)

MATEMÁTICAS II PROBABILIDAD DISTRIBUCIÓN BINOMIAL DISTRIBUCIÓN NORMAL

Enseñanza de la Probabilidad: Perspectivas para el aprendizaje de la probabilidad

Tema 6: Introducción a la Inferencia Bayesiana

HABLEMOS DE PROBABILIDAD JORGE MARTINEZ COLLANTES PROFESOR PENSIONADO UNIVERSIDAD NACIONAL

Lingüística computacional

Análisis de Datos. Clasificación Bayesiana para distribuciones normales. Profesor: Dr. Wilfrido Gómez Flores

Transcripción:

Inferencia en Modelos Gráficos para detección de Tópicos (LDA) Francisco Barreras 19 de enero de 2017

Contenido 1 Introducción y Contexto 2 Motivación 3 Definiciones y Fundamentos 4 Razonamiento y flujos de información 5 Resultados formales 6 D separación

Introducción y Contexto

Tipos de análisis en Machine Learning Se pueden dividir los modelos de aprendizaje de Máquinas en problemas de clasificación y en predicción estructurada. Queremos aprender el valor de una variable real o categórica? O aprender las probabilidades de variables aleatorias que tienen interdependencias complejas? A veces queremos aprender la estructura dentro de los datos. Podemos inferir la probabilidad de variables no observadas.

Predicción estructurada Machine Translation. No es un problema de clasificación, sino que queremos predecir cada palabra de manera que el todo tenga sentido. Audio a texto (y en general cualquier problema de canal ruidoso) Diagnóstico Médico Usando Big Data Teniendo miles de enfermedades y miles de síntomas, no es tan útil un modelo que me diga (con margen de error) si tengo una enfermedad. Quiero un modelo que me diga, dados los síntomas que tengo y que no tengo, cuál es la probabilidad de distintas enfermedades.

Motivación

Forma de Modelamiento Una aproximación general para que un computador razone sobre diversos problemas y responda preguntas. Representación Declarativa: Un modelo de cómo razonar, con algoritmos de propósito general. Separados del conocimiento y los datos en particular. Una principal preocupación es modelar la incertidumbre (En un sentido probabiĺıstico). Casi nunca se puede descartar algo como imposible dada una observación, pero si es útil identificar eventos improbables.

Forma de Modelamiento Vamos a razonar sobre variables aleatorias dentro de un sistema complejo. Para esto se construye una distribución de probabilidad conjunta, y se busca que no sea imposible de aprender (intractable). Se pueden hacer muchas preguntas al modelo, por ejemplo, al observar el valor X i como cambia la probabilidad de X j (probabilidad posterior).

Ejemplo: Rinitis vs. Gripa Enfermedades no excluyentes. Hay una variable relevante que es la estación. Observamos dos síntomas: Congestión y dolor muscular. La probabilidad conjunta entonces debe tener 2x2x4x2x2 = 64 valores. Probabilidad de que un paciente tenga Gripa si es Otoño, tiene congestión pero no dolor muscular? P(Gripa E = Otoño, C = 1, DM = 0)

Modelos Gráficos Probabiĺısticos Especificar una distribución de 64 valores de por si puede ser retador. En las aplicaciones reales, puede haber cientos o miles de variables, los métodos usuales se vuelven incomputables. Explotando la estructura en el sistema complejo podemos construir una representación compacta. Esto se hace con grafos, donde cada nodo está asociado a una variable aleatoria y cada arista a una relación probabiĺıstica entre ellos.

Primera perspectiva: Codificar Independencias El grafo informa sobre cuáles independencias condicionales existen en una distribución. Por ejemplo, (X Y Z) lo cual se lee: P(X Y, Z) = P(X Z) El grafo dice que un nodo es independiente de sus no descendientes condicional en sus padres (en BN).

Segunda Perspectiva: Factorización El grafo es una factorización de la distribución conjunta que tiene menor dimensionalidad. Por ejemplo una cadena de Markov es un modelo gráfico donde yo supongo que: P(X 1, X 2,..., X t ) = P(X 1)P(X 2 X 1 )P(X 3 X 2 )... P(X t X t 1 ) En el ejemplo de la rinitis, reduce la dimensionalidad de 63 parámetros a estimar, a sólo 17. Ambas aproximaciones son equivalentes en un sentido más profundo y específico.

Representación, Inferencia, Aprendizaje Una forma transparente e interpretable de representar Incluso si hay miles de variables (Plantillas) Diferentes métodos y algoritmos de cómo hacer inferencia, incluso si en algunos casos incomputables o variables faltantes. (Métodos variacionales, Gibbs Sampling, Métodos bayesianos) Es aprendizaje de máquinas. Tras especificar un modelo, se puede aprender las distribuciones e inclusive las conexiones entre variables.

Datos históricos Los fundamentos de la probabilidad se pueden rastrear hasta Gerolamo Cardano (S XVI) quien dio los primeros conceptos para analizar juegos de azar. Fermat y Pascal le dieron formalidad en el S XVII Bayes en el siglo XVIII mostró el llamado Teorema de Bayes una idea que usa la probabilidad condicional de A dado B para calcular la contrapositiva. La generalización de esta idea sobre relaciones complejas motiva el nombre de redes bayesianas.

Datos históricos Fue Gibbs (1902) el primero que representó la interacción de múltiples variables en una distribución multidimensional como un grafo. (Física Estadística). En genética el primero fue Sewal Wright (1921,1933) quien propuso un modelo para la herencia genética. En Computación, los primeros modelos eran basados en Naive Bayes (de Bombal et al. 1972; Gorry y Barnett 1968; Warner et al. 1961) para automatizar tareas complejas. Cayeron en desuso por la idea equivocada de que el futuro de la computación era replicar la inteligencia humana (no basada en números) y porque los supuestos de Naive Bayes eran muy restrictivos.

Definiciones y Fundamentos

Conceptos básicos Factor. Distribución de probabilidad condicional. Interpretación Frecuentista de Probabilidad. Interpretación subjetivista de Probabilidad. Regla de la cadena. Regla de Bayes.

Regla de la cadena P(X 1..., X n ) = P(X 1 )P(X 2 X 1 )P(X 3 X 1, X 2 )... P(X n X n 1,..., X 1 )

Regla de Bayes P(A B) = P(B A)P(A) P(B)

Preguntas probabiĺısticas Tenemos Y la variable sobre la que se está razonando. Tenemos E = e la instanciación de otras variables, que llamamos la evidencia. La pregunta más común es la probabilidad posterior: P(Y E = e) Lo cuál se puede entender como la probabilidad marginal de Y condicional a esa evidencia.

Preguntas MAP Maximum A Posteriori La instancia más probable de todas las variables no observadas W = ℵ E Típicamente es diferente de los valores que maximizan cada marginal: MAP(W e) = arg maxp(ω, e) ω Síntomas típicos dada una enfermedad.

MAP marginal Podemos preguntar el MAP para una sola variable, marginalizando Si Z = ℵ E Y entonces MAP(Y e) = arg max ω P(ω, Z e) Enfermedad más probable dados unos síntomas (clasificación?) Z

Razonamiento y flujos de información

Modelo del estudiante Vamos a tener 5 variables aleatorias: I es la inteligencia del estudiante D es la dificultad del curso G es la nota del estudiante en el curso S es el puntaje del estudiante en el Icfes L es si recibe una carta de recomendación. Por simplicidad todas serán variables binarias.

Modelo del estudiante Una red bayesiana es un Grafo Dirigido Acíclico (DAG). La segunda cosa por definir son los modelos de probabilidad local. Con esta información podemos calcular cualquier probabilidad dentro del modelo. Por ejemplo: P(i 1, d 0, g 2, s 1, l 0 ) = P(i 1 )P(d 0 )P(g 2 i 1, d 0 )P(s 1 i 1 )P(l 0 g 2 ) = 0,3 0,6 0,08 0,8 0,4 = 0,004608

Distribución de probabilidad? Hasta ahora sólo hemos presentado una factorización para una supuesta distribución conjunta. Es necesario demostrar que en efecto es una probabilidad sobre las variables aleatorias. Es trivial ver que es positiva, sólo haría falta probar que: P(I )P(D)P(G I, D)P(L G)P(S I ) = 1 I,D,G,S,L De manera más general probaremos que las factorizaciones siempre nos dan una distribución de probabilidad.

Ejemplo: Inferencia causal Es cuando las causas influencian nuestro posterior. Juan quiere saber la probabilidad de que le den una carta en el curso de modelos gráficos. Sin saber nada tenemos: P(l 1 ) = 0,502 Si en cambio sabemos que Juan no es muy inteligente P(l 1 i 0 ) = 0,389. Pero en cambio si sabemos que el curso no era muy difícil P(l 1 i 0, d 0 ) = 0,513

Ejemplo: Inferencia evidencial Es cuando la evidencia nos cambia las creencias sobre las causas. Alguien en Quantil quiere saber si contrata a Juan, el cree que Juan es inteligente con probabilidad P(i 1 ) = 0,30 Pero el reclutador observa que Juan sacó C en el curso, entonces ahora P(i 1 g C ) = 0,079 Si el reclutador no tiene la nota sino una mala carta, también disminuye su probabilidad... pero menos P(i 1 l 0 ) = 0,14 Y si tiene ambas sucede que P(i 1 l 0, g C ) = 0,079. esto tiene sentido?

Ejemplo: Inferencia intercausal La evidencia permite que una causa explique algo que le achacábamos a otra causa. (Explaining away) El reclutador recibe el Icfes de Juan y observa que es alto, entonces su probabilidad de ser inteligente sube dramáticamente P(i 1 g 3, s 1 ) = 0,578. Es más probable que un estudiante inteligente falle en una clase difícil a que un estudiante no inteligente saque un Icfes muy alto. En el fondo estamos diciendo que la probabilidad de que el curso sea difícil subió, por la observación del Icfes (dada la mala nota) de 0,629 a 0,761.

Ejemplo: Naive Bayes