Breve Introducción. Perspectiva. Acercamientos Bayesianos. Algunas Características salientes de los Métodos Bayesianos

Fundamentos de Aprendizaje Bayesiano Introducción: métodos probabilísticos (bayesianos) Hipótesis MAP y ML Aprendiz Naïve Bayesiano Ej: aprendizaje a partir de textos Mitchell Cap. 6 Breve Introducción Teoría de Decisión Bayesiana: apareció mucho antes que Version Spaces, aprendizaje de árboles de decisión y redes neurales. Fue estudiada en el campo de la Teoría Estadística y -más especificamente- en el Reconocimiento de Patrones. Es la base de enfoques de aprendizaje importantes, tales como el Clasificador Bayesiano Naive, las redes bayesianas de creencias y el algoritmo EM. También provee un marco en el cual estudiar otros clasificadores no-bayesianos (Ver [Mitchell, Secs. 6.3, 4,5,6]). Acercamientos Bayesianos La teoría de probabilidades tiene muchos roles en el aprendizaje automatizado: describir un aprendiz existente ej. compararlos con un aprendiz probabilístico óptimo desarrollar algoritmos de aprendizaje para problemas prácticos ej. Aprendiz Bayesiano Naïve El Teorema de Bayes juega un rol central. Perspectiva Una razón importante para estudiar el aprendizaje bayesiano es la perspectiva de comprensión de otros algoritmos que no manipulan explícitamente probabilidades. Ej: Find-S y Candidate-Elimination Ej: Redes neuronales Ej: Arboles de Decisión Estar familiarizados con métodos bayesianos ayuda a comprender mejor estos algoritmos. Algunas Características salientes de los Métodos Bayesianos Cada ejemplo de entrenamiento observado decrementa/incrementa posibilidad de que una hipótesis es correcta (mayor flexibilidad). El conocimiento previo puede combinarse con los datos observados para determinar la probabilidad final de una hipótesis. Los métodos bayesianos pueden acomodarse para expresar hipótesis que hacen predicciones probabilísticas (ej: este paciente tiene 93% de probabilidad de recuperarse ). Algunas Dificultades Típicas de los Métodos Bayesianos Dificultad práctica: requieren conocimiento inicial de muchas probabilidades. Alternativa: utilizar estimaciones estadísticas y suposiciones. Segunda dificultad práctica: costo computacional para determinar la hipótesis bayesiana optimal (en caso gral., lineal en el nro. de hipótesis candidatas). Alternativa: en ciertos casos este costo puede reducirse. 1

Fundamentos de probabilidad P(A): probabilidad de que A ocurra P(A B): prob. de que A ocurra, dado que B ocurra ( probabilidad condicional ) Algunas reglas: Complemento: P(not A) = 1 - P(A) Disyunción: P(A or B) = P(A)+P(B)-P(A and B) Conjunción: P(A and B) = P(A) P(B A) = P(A) P(B) si A y B son independientes Prob. Total : si los eventos A1, A2 An son mutuamente excluyentes, con i=1..n P(A i ) =1, ent. P(B)= P(B A i ) P(A i ) Teorema de Bayes Situación típica en ML: dado un cjto. de datos observados D, predecir la mejor hipótesis h H. Una forma de hacer esto: determinar la hipótesis más probable, dados los datos D + conocimiento inicial sobre distintas hipótesis h 1... h n. El Teorema de Bayes nos permite calcular la probabilidad de una hipótesis h a partir de: i) la probabilidad previa de h; ii) las probabilidades de observar distintos datos sabiendo que la hipótesis es h; iii) los datos observados. Teorema de Bayes P(h): prob. inicial de que la hipótesis h valga sin tener en cuenta los datos D ==> probabilidad previa de h Si no hay información ==> puede asignarse la misma probabilidad a cada hipótesis candidata. Análogamente, P(D) = probabilidad previa de que los datos de entrenamiento D sean observados. P(D h) -> denota la probabilidad de observar los datos D dado un mundo en el cual vale la hipótesis h. En ML, estamos interesados en P(h D), esto es, la probabilidad posterior de h después de haber visto el cjto. D. P(h D) = Teorema de Bayes P(D h) P(h) P(D) Intuitivamente, P(h D) aumenta con P(h) y P(D h). Decrece cuando P(D) aumenta. En muchos escenarios: el aprendiz considera un cjto. H={h 1,h 2 h k } de hipótesis, y está interesado en hallar la hip. h i H más probable a partir de los datos observados D. Cualquier hipótesis h i máximamente probable se denomina una hipótesis MAP (maximum a posteriori). P(h D) = P(D h) P(h) / P(D) h MAP = argmax h H P(h D) Hipótesis MAP por Bayes => h MAP = argmax h H P(D h)p(h) / P(D) por indep.de P(D) => h MAP = argmax h H P(D h)p(h) En algunos casos se asume que todo h H es igualmente probable (ie, P(h i )=P(h j ), i,j). En este caso se puede simplificar lo anterior, y escribir sólo h MAP = argmax h H P(D h) lo que a menudo se llama la posibilidad (likelihood) de los datos dado h. Cualquier h que maximice P(D h) es llamada hipótesis de máxima posibilidad (ML) h ML = argmax h H P(D h) Teorema Bayes y Machine Learning Datos D ==> ejemplos de entrenamiento para alguna fc. meta Conjunto H ==> espacio de funciones meta candidatas. 2

Ejemplo: Teorema de Bayes Ejemplo: problema de diagnóstico médico Dos hipótesis: a) el paciente tiene un tipo especial de neumonía; b) el paciente no tiene nada. Hay un test que puede hacerse, con dos resultados: (positivo) o Θ (negativo). Sabemos que sólo el 0.008 % de la población tiene la enfermedad. El test retorna un resultado positivo correcto en el 98% de los casos en los cuales la enfermedad realmente está presente, y un resultado negativo correcto en sólo el 97% de los casos en los cuales la enfermedad no está presente. En los demás casos, el test retorna el resultado opuesto. Ejemplo: Teorema de Bayes Ejemplo: problema de diagnóstico médico P(neumonía) = 0.008 P( neumonia)=0.992 P( neumonía) = 0.98 P(Θ neumonía) = 0.02 P( neumonia) = 0.03 P(Θ neumonía) = 0.97 Testeamos a un nuevo paciente, para el cual el test da resultado positivo. Debería diagnosticársele que tiene neumonía o no? P(neumonía ) = P( neumonía) P(neumonía) = (0.98)(0.008) = 0.0078 P( neumonía ) = P( neumonía) P( neumonía) = (0.03)(0.992) = 0.0298 h MAP = argmax h H P(D h) = neumonía ( 0.0298 ) Ejemplo: Teorema de Bayes Probabilidades posteriores exactas: pueden determinarse normalizando las cantidades anteriores para que sumen 1 Ej: P(neumonía ) = (0.0078 / (0.0078+0.0298))= 0.21 Ej: P( neumonía ) = (0.0298 / (0.0078+0.0298))= 0.79 Nótese que P( ) y P(Θ) no son provistos como datos, pero lo anterior puede hacerse porque sabemos que P(neumonía ) y P( neumonía ) deben sumar 1. Clasificador de Bayes Naïve Método de clasificación simple & popular Performance: comparable a redes neuronales y árboles de decisión. Se basa en : regla de Bayes + suposición de independencia condicional suposición a menudo violada en la práctica.. aun así, usualmente funciona bien Aplicación exitosa: clasificación de documentos de texto Clasificador de Bayes Naïve Este clasificador es aplicable a tareas de aprendizaje donde c/instancia x es descrita por una conjunción de valores de atributos, la función meta f(x) puede tomar cualquier valor v V, para un cjto. finito V. Se dan ejemplos de entrenamiento para la fc. meta, y se presenta una nueva instancia, descrita como una tupla de valores de atributos <a 1,a 2...a n > Objetivo: que el clasificador prediga el valor meta o clasificación de esta nueva instancia. Clasificador de Bayes Naïve Acercamiento bayesiano: buscamos clasificar la nueva tupla de valores <a 1,a 2..a n > asignándole el valor meta más probable. V MAP = argmax P(v j a 1 a 2... a n ) Por Teorema de Bayes P(a 1 a 2... a n v j ) P(v j ) V MAP = argmax P(a 1 a 2... a n ) P(a 1 a 2... a n v j ) P(v j ) = argmax Obs: los ai representan valores, no nombres de atributos 3

Clasificador de Bayes Naïve Acercamiento bayesiano: V MAP = argmax P(a 1 a 2... a n v j ) P(v j ) Podríamos estimar los términos en esta ecuación: P(v j ) -> contar la frecuencia con la que cada v j aparece en los datos de entrenamiento P(a 1 a 2... a n v j ) -> no es factible de computar, a menos que tengamos enorme cantidad de datos de entrenamiento Razón: el número de estos términos es igual al número de posibles instancias multiplicado por el número de posibles valores meta! Necesitariamos ver cada instancia en el espacio de instancias muchas veces para obtener una estimación confiable. Clasificador de Bayes Naïve Acercamiento bayesiano: V MAP = argmax P(a 1 a 2... a n v j ) P(v j ) Solución: asumir independencia condicional P(a 1 a 2... a n v j ) = P(a 1 v j ) * P(a 2 v j ) *... * P(a n v j ) = Π i Clasificador Bayesiano Naive A partir de la suposición de independencia condicional, la fórmula anterior se simplifica a: Clasificación Bayesiana Naive Donde V NB es el resultado provisto como valor meta por el clasificador bayesiano naïve Clasificación Bayesiana Naive Espacio a evaluar: El número de valores diferentes para un atributo multiplicado por el número de valores diferentes para el atributo meta V (mucho más chico que P(a 1..a n v j ) CBN involucra un paso de aprendizaje donde se estiman los diferentes P(vj) y P(ai vj), basados en su frecuencia en los datos de entrenamiento. El conjunto de estas estimaciones corresponde a la hipótesis aprendida. Esta hipótesis es luego usada para clasificar cada nueva instancia Clasificación Bayesiana Naive Cuando hay independencia condicional, el CBN que retorna V NB se comporta idéntico a las clasificación MAP. Diferencia interesante con otros métodos: No hay búsqueda explícita en el espacio de posibles hipótesis (en este caso, el espacio de posibles valores que pueden asignarse a P(vj) y P(ai vj). En lugar de esto, la hipótesis se obtiene simplemente computando la frecuencia de varias combinaciones de datos *sin* ejemplos de entrenamiento. Ejemplo Consideremos el problema de clasificar los días en que se juega al tenis (visto anteriormente) Concepto Meta: PlayTennis Atributos: Outlook, Temp, Humidity, Wind Queremos entrenar a nuestro clasificador bayesiano a partir de ciertos ejemplos, y luego predecir la siguiente instancia: <Outlook=sunny, Temp=cool, Humid=high,Wind=strong> Tarea: predecir valor meta (yes/no) para el concepto meta PlayTennis para esta nueva instancia. 4

Ejemplo v j {yes,no} V NB = argmax P(v j )[ P(Outlook=sunny v j )* v j {yes,no} P(Temp=cool v j )* P(Humid=high v j )* P(Wind=strong v j ) ] Instanciamos (a1..an) con los valores de atributos de la instancia a clasificar. Para calcular V NB recurrimos a los ejemplos de entrenamiento. Day Outlook Temp. Humid Wind PlayTennis? D1 Sunny Hot High Weak No D2 Sunny Hot High Strong No D3 Overcast Hot High Weak Yes D4 Rain Mild High Weak Yes D5 Rain Cool Normal Weak Yes D6 Rain Cool Normal Strong No D7 Overcast Cool Normal Strong Yes D8 Sunny Mild High Weak No D9 Sunny Cool Normal Weak Yes D10 Rain Mild Normal Weak Yes D11 Sunny Mild Normal Strong Yes D12 Overcast Mild High Strong Yes D13 Overcast Hot Normal Weak Yes D14 Rain Mild High Strong No Ejemplo P(PlayTennis=yes) = 9 / 14 = 0.64 P(PlayTennis =no) = 5 / 14 = 0.36 Similarmente, obtenemos probabilidades condicionales: P(Wind=strong PlayTennis=yes) = 3 / 9 = 0.33 P(Wind=strong PlayTennis = no) = 3 / 5 = 0.60 A partir de estimaciones similares resulta: P(yes)*P(sunny yes)*p(cool yes)*p(high yes)* *P(strong yes)=0.0053 P(no)*P(sunny no)*p(cool no)*p(high no)* *P(strong no)=0.0206 Normalizando V NB = (0.0206)/(0.0206+0.0053)=0.795 Estimación de Probabilidades (1) Hasta ahora, para estimar probabilidades usamos la noción intuitiva ( nro. de veces evento observado / nro. total de oportunidades). Ej: P(Wind=Strong PlayTennis=no) es una fracción n c / n, con n=5, n c =3. Pero si n c es pequeño, la estimación es pobre. Ej: supongamos que el valor verdadero de P(Wind=Strong PlayTennis=no) es 0.08 y que tenemos una muestra con sólo 5 ejemplos para los que PlayTennis=no. Ent. el valor más probable para n c será 0! (lo mínimo es 1/5 = 0.20). Estimación de Probabilidades (2) Esto presenta dos problemas: 1) n c /n nos produce una (sub)estimación sesgada de la probabilidad 2) Si hay una estimación de probabilidad que es 0 para Wind=Strong, esto será dominante en futuras consultas al clasificador que incluyan el uso de esta estimación. Estimación de Probabilidades (3) Solución: m-estimador de probabilidad: n c + mp n+m m = constante llamada equivalent sample size, que determina cuánto peso le asignamos a p en relación a los datos observados p = Estimación previa de la probabilidad a determinar. Típicamente: si el atributo tiene k valores posibles, asumimos p=1/k Clasificación Bayesiana Naive 5

Aplicación: aprender a clasificar texto Aplicación ejemplo: Dado el texto de un artículo de un newsgroup, adivinar de qué newsgroup ha sido tomado Bayes Naïve resulta funcionar bien en esta aplicación. Punto clave para aplicar NB: cómo representar los ejemplos? cuáles son los atributos? Internet Internet Aplicación: aprender a clasificar texto Query Clasificador Quiero artículos que hablen sobre cómo va a evolucionar la economía argentina este año Artículos Buscados Artículos Descartados Aprender a clasificar texto Espacio de Instancias X: todos los documentos de texto posibles. Supongamos ejemplos de entrenamiento de alguna fc. desconocida f(x), que puede tomar cualquier valor a partir de un cjto. V. Tarea: aprender a partir de estos ejemplos para predecir el valor meta de futuros documentos de texto. Ej: valores meta gusta y disgusta (likes/dislikes) Puntos importantes: a) cómo representar un documento arbitrario en términos de atributos; b) cómo estimar las probabilidades requeridas por el clasificador bayesiano naive. a) Representación de textos Representación: dado un texto (ej: este párrafo), definimos un atributo para cada posición de palabra en el documento. El valor del atributo es la palabra hallada en esa posición. Este párrafo tendría N atributos, donde el valor del 1er. atributo es Representación, el valor del 2do atributo es dado, del 3ro es un, etc. Documentos largos requerirán un mayor nro. de atributos que documentos cortos. Asumamos 700 documentos que un amigo clasificó como disgusta y otros 300 como gusta. Nos dan un nuevo documento, y nos piden clasificarlo. b) Aplicando Bayes Naive v j {like,dislike} = argmax P(v j ) P(a 1 = Representación vj) * v j {like,dislike} * P(a 2 = dado v j ) *... * P(a 100 = etc v j ) P(v j ) ==> P(like) = 0.3, P(dislike) = 0.7 En síntesis: el clasificador V NB es la clasificación que maximiza la probabilidad de observar aquellas palabras que concretamente fueron encontradas en el documento, sujeto a la suposición de independencia condicional. c) Aplicando Bayes Naive P(a 1...a n v j ) = Π i Esta suposición es fuerte (nos indica que las probabilidades de una palabra en un lugar del texto es independiente de las palabras que ocurren en otras posiciones). Ej: machine learning serán dos atributos separados, pero claramente están interrelacionados. Pese a esta inexactitud, el clasificador Bayes Naive funciona muy bien en diversos problemas de clasificación de textos (Domingos & Pazzani, 1996). 6

Consideraciones de Implementación v j {like,dislike} Consideraciones de Implementación v j {like,dislike} Hace falta estimar P(like) y P(dislike). Puede hacerse estadísticamente (cjto. documentos de entrenamiento ya clasificados). Estimar P(a1= Representación dislike) es más difícil. Debe estimarse este factor para cada palabra, cada posición, y cada valor meta (ej: 2 x 111 x 50.000 =10.000.000 combinaciones). Asumiendo: párrafo = 111 palabras; vocabulario = 50.000 términos. Estimar P( Representación dislike) es más fácil. (ej: 2 x 50.000 =100.000 combinaciones). Asumiremos que la probabilidad de encontrar una palabra específica w k (ej: casa ) es independiente de su posición. Esto equivale a asumir que todos los atributos son independientes y distribuidos uniformemente, esto es P(a i =w k v j ) = P(a m =w k v j ), para todo i,j,k,m. Esto reduce el cjto. de factores de la forma P(w k v j ) a 2 x 50000 = 10.000 combinaciones. Estimación de Probabilidades Finalmente, definimos un m-estimador con prioridades uniformes, con m=tamaño del vocabulario. Así, la estimación para P(w k v j ) será n k + 1 n+ Vocabulario n=nro. total de posiciones de palabras n k =nro. de veces que la en todos los ejemplos de entrenamiento palabra w k aparece entre las n donde el valor meta es v j posiciones de palabra halladas en los datos de entrenamiento Algoritmo procedure learn_naïve_bayes_text(docs: set of articles, V: set of classes) Voc = todas las palabras y tokens en Docs Estimar P(v j ) y P(w k v j ) para toda w k en Docs y v j en V: Docs j = subconjunto de documentos de Docs para los cuales el target value es j P(v j ) = Docs j / Docs Text j = documento que se obtiene de concatenar a todos los elementos de Docs j n = nro total de posiciones de palabras distintas en Text j Para cada palabra w k en Voc n k = nro de veces que w k aparece en Text i P(w k v j ) = ( n k +1) / (n + Voc ) Algoritmo Clasificador procedure classify_naïve_bayes_text(doc: article) Retorna el valor meta estimado para el documento Doc; a i denota la palabra encontrada en la i-ésima posicion dentro de Doc Positions = posiciones de palabras en Doc que contienen tokens que aparecen en Voc Return V NB = argmax vj V P(v j ) i Positions P(a i v j ) Resultados Experimentales En un experimento (Joachims, 1996) se aplicó este algoritmo al problema de clasificar artículos de grupos de noticia USENET. Meta de clasificación: nombre de un grupo de Usenet en el cual apareció el artículo. 1000 articulos para 20 newsgroups (total 20.000 artículos). Objetivo: acertar newsgroup correcto para documentos nunca vistos 89% exactitud de clasificación 7

Para Recordar Teorema de Bayes y su importancia Clasificador Bayes Naïve : cómo funciona, suposiciones, aplicación a clasificación de texto. 8