Análisis de Datos Clasificación Bayesiana para distribuciones normales Profesor: Dr. Wilfrido Gómez Flores 1
Funciones discriminantes Una forma útil de representar clasificadores de patrones es a través de funciones discriminantes g i (x, i=1,,c, donde el clasificador asigna a un vector de características x la clase ω i si g i (x > g j (x, i j (1 El clasificador es una red que computa C funciones discriminantes y selecciona la clase que obtiene al discriminante más grande. Acción Clasificación Riesgos Funciones discriminantes... g 1 (x g 2 (x g C (x Entrada... x 1 x 2 x 3 x D 2
Funciones discriminantes Para el caso de un clasificador que minimiza la tasa de error de clasificación se tiene g i (x p(ω i x = C j =1 p(x ω i p(ω i p(x ω j p(ω j y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe como: g i (x p(ω i x = p(x ω i p(ω i donde p(x ω i es la función de verosimilitud y expresa qué tan probable son los datos observados dada la clase ω i. De acuerdo a la definición en (3, el teorema de Bayes se define de manera informal como: (2 (3 posterior verosimilitud prior (4 3
Funciones discriminantes Las funciones discriminantes dividen el espacio de características en C regiones de decisión (R 1,, R C, separadas por fronteras de decisión. p(x ω 1 p(ω 1 p(x ω 2 p(ω 2 R 1 R R 2 2 Frontera de decisión 4
Funciones discriminantes En la práctica, es más conveniente maximizar el logaritmo de la función de verosimilitud, lo cual simplifica el análisis matemático. Debido a que el logaritmo es una función monótonamente creciente en su argumento, maximizar el logaritmo de una función es equivalente a maximizar la misma función original. Por tanto, el logaritmo de la función discriminante en (3 se expresa como: para i=1,,c. g i (x = ln { p(x ω i p(ω i } = ln p(x ω i + ln p(ω i (5 5
Funciones discriminantes En el caso especial de dos clases, en lugar de usar dos funciones discriminantes g 1 y g 2 y asignar x a ω 1 si g 1 >g 2, es más común definir una sola frontera de decisión g(x g 1 (x g 2 (x y se usa la regla de decisión: clasificar ω 1 si g(x>0. (6 La función discriminante que minimiza la tasa de error de clasificación se escribe como g(x = p(ω 1 x p(ω 2 x (7 y en términos de la función logaritmo: g(x = ln p(x ω 1 p(x ω 2 + ln p(ω 1 p(ω 2 (8 6
Distribución Gaussiana univariante La distribución Gaussiana es ampliamente utilizada para modelar vectores de patrones de valores continuos que son versiones aleatoriamente corrompidas de un vector prototipo. Para el caso xxxxx x 2 R: p(x = N (x µ,σ 2 = 1 1 exp (2πσ 2 1/2 (x µ2 2 2σ (9 la cual es gobernada por dos parámetros: µ, llamada la media, y σ 2, llamada la varianza. La raíz cuadrada de la varianza, dada por σ, es llamada la desviación estándar, y el recíproco de la varianza, escrito como β=1/σ 2, es llamada la precisión. 7
Distribución Gaussiana univariante N (x µ,σ 2 σ 2.5% 2.5% µ 2σ µ σ µ µ + σ µ + 2σ La distribución normal univariante tiene aproximadamente 95% de su área en el rango x µ 2σ. x 8
Distribución Gaussiana univariante La distribución Gaussiana en (9 satisface N (x µ, σ 2 > 0. También, la distribución Gaussiana está normalizada tal que: N (x µ,σ 2 dx = 1 (10 El valor esperado de x bajo la distribución Gaussiana, también llamado el promedio, está dado por: E[x] = N (x µ,σ 2 x dx = µ (11 De manera similar, el momento de segundo orden se define como: E[x 2 ] = N (x µ,σ 2 x 2 dx = µ 2 + σ 2 (12 A partir de (11 y (12 se obtiene la varianza de x, también conocido como momento centralizado de segundo orden: var[x] = E[x 2 ] E[x] 2 = σ 2 (13 9
Teorema del límite central La distribución Gaussiana sigue el teorema del límite central (TLC. Este teorema describe las características de la población de medias creada a partir de las medias de un número infinito de muestras de tamaño N tomadas aleatoriamente de una población padre. El TLC establece que independientemente de la distribución de la población padre: La media de la población de medias es siempre igual a la media de la población padre de donde fueron tomadas las muestras. La varianza de la población de medias es siempre igual a la varianza de la población padre dividida por el tamaño de la muestra N. La distribución de las medias se aproxima a una distribución normal cuando el tamaño de la muestra N. 10
Distribución Gaussiana multivariante Para el caso x 2 R D : p(x = N (x µ, Σ 1 = exp 1 (2π D 2 Σ 1 2 2 (x µt Σ 1 (x µ (14 donde el vector D-dimensional µ es la media y se define como: µ E[x] = N (x µ, Σxdx (15 y la matriz de covarianza Σ de tamaño D D se define como: Σ E[(x µ(x µ T ] = (x µ(x µ T dx (16 11
Distribución Gaussiana multivariante El vector de medias contiene la media de cada variable. Características de la matriz de covarianza: La matriz de covarianza siempre es simétrica y semidefinida positiva, y su determinante debe ser estrictamente positivo. Los elementos de la diagonal σ ii son las varianzas de sus respectivas variables x i. Los elementos fuera de la diagonal σij son las covarianzas de las variables x i y x j. Si xi y x j son estadísticamente independientes, entonces σ ij =0. 12
Distribución Gaussiana multivariante p(x p(x p(x p(x x 2 x 1 x 2 x 2 x 1 x 2 x 2 x 1 x 2 x 2 x 1 x 2 x 1 σ 11 = σ 22 y σ 12 = σ 21 = 0 σ 11 σ 22 y σ 12 = σ 21 = 0 x 1 σ 11 σ 22 y σ 12 = σ 21 = 0 x 1 σ 11 σ 22 y σ 12 σ 21 0 x 1 13
Distribución Gaussiana multivariante Si x i es la i-ésima componente de x, µ i el i-ésimo componente de µ, y σ ij el ij-ésimo componente de Σ entonces: µ i = E[x i ] y σ ij = E[(x i µ i (x j µ j ] (17 x 2 µ x 1 Muestras tomadas de una distribución Gaussiana bidimensional caen en una nube centrada en µ, cuya forma está determinada por Σ. La posición de puntos de densidad constante son elipses para los cuales la distancia Mahalanobis de x a µ es constante. 14
Funciones discriminantes para la distribución Gaussiana El clasificador Bayesiano describe la distribución de los datos en cada una de las clases mediante funciones de verosimilitud p(x ω i, i=1,,c, las cuales son distribuciones Gaussianas multivariantes: p(x ω i 1 exp 1 (2π D 2 1 2 Σ 2 (x µ i T Σ 1 i (x µ i i (18 Sustituyendo (18 en (5 se tiene la función discriminante: g i (x = 1 2 (x µ i T Σ i 1 (x µ i D 2 ln 2π 1 2 ln Σ i + ln p(ω i (19 Diferentes casos especiales de la función discriminante se pueden definir de acuerdo a la forma de la matriz de covarianza utilizada. 15
Caso 1: Σ i =σ 2 I El caso más simple ocurre cuando las características son estadísticamente independientes con varianzas iguales para todas las clases. La función discriminante en (19 se reescribe como: g i (x = 1 2 (x µ i T (σ 2 I 1 (x µ i + ln p(ω i = 1 2σ 2 (x µ i T (x µ i + ln p(ω i (20 Expandiendo la forma cuadrática (x µ T (x µ se tiene: g i (x = 1 2σ 2 [xt x 2µ T i x + µ it µ i ] + ln p(ω i (21 16
Caso 1: Σ i =σ 2 I Eliminando el término cuadrático x T x en (21, el cual es independiente de i, se obtiene la función discriminante lineal: g i (x = w i T x + w i0 (22 donde w i = 1 σ 2 µ i (23 y el umbral o bias para la i-ésima clase es w i0 = 1 2σ µ T 2 i µ i + ln p(ω i (24 Un clasificador que utiliza funciones discriminantes lineales se le conoce como máquina lineal. 17
Caso 1: Σ i =σ 2 I Las fronteras de decisión de una máquina lineal son los hiperplanos g i (x=g j (x para dos clases con las probabilidades posteriores más altas y pueden ser escritos como: donde w T (x x 0 = 0 (25 y w = µ i µ j (26 x 0 = 1 2 (µ i + µ j σ 2 ln p(ω i 2 µ i µ p(ω j (µ i µ j (27 j El hiperplano pasa a través del punto x 0 y es ortogonal al vector w. 18
Caso 1: Σ i =σ 2 I p(x ω i ω 1 ω 2 ω 1 ω 2 R 2 R 1 p(ω 2 = 0.5 ω 1 ω 2 R 1 p(ω 1 = 0.5 x R 2 p(ω 1 = 0.5 R 2 p(ω 2 = 0.5 R 1 p(ω 2 = 0.5 p(ω 1 = 0.5 p(x ω i ω 1 ω 2 ω 1 ω 2 R 2 R 1 ω 1 p(ω 2 = 0.2 x p(ω 2 = 0.2 p(ω 1 = 0.8 ω 2 R 1 p(ω 1 = 0.7 R 2 p(ω 2 = 0.3 p(ω 1 = 0.8 R 1 R 2 Si las matrices de covarianza de dos distribuciones son iguales y proporcionales a la matriz identidad, entonces las distribuciones son esféricas en D dimensiones y la frontera es un hiperplano en D 1. 19
Caso 1: Σ i =σ 2 I El caso especial cuando p(ω i es igual para i=1,,c se tiene el clasificador de mínima distancia: g i (x = 1 2σ 2 (x µ i T (x µ i (28 Además, si σ=1, entonces se tiene el clasificador de mínima distancia Euclidiana que usa la regla de decisión Asignar x a ω i * donde i * = arg min i=1,,c donde la norma Euclidiana cuadrada es: x µ i 2 (29 x µ i 2 = (x µi T (x µ i (30 20
Caso 2: Σ i =Σ Las matrices de covarianza para todas las clases son idénticas y arbitrarias. Esta simplificación deriva en la función discriminante: g i (x = 1 2 (x µ i T Σ 1 (x µ i + ln p(ω i (31 Expandiendo la forma cuadrática (x µ T Σ 1 (x µ se tiene: g i (x = 1 2 (xt Σ 1 x 2µ i T Σ 1 x + µ i T Σ 1 µ i + ln p(ω i (32 Eliminando el término cuadrático x T Σ 1 x, el cual es independiente de i, se tiene: g i (x = µ T i Σ 1 x 1 2 µ T i Σ 1 µ i + ln p(ω i (33 21
Caso 2: Σ i =Σ Reescribiendo la función discriminante en (33 se obtiene una vez más la función discriminante lineal: g i (x = w i T x + w i0 (34 donde w i = Σ 1 µ i y w i0 = 1 2 µ i T Σ 1 µ i + ln p(ω i (35 Las fronteras de decisión se escriben como: w T (x x 0 = 0 donde w = Σ 1 (µ i µ j y x 0 = 1 2 (µ ln[p(ω i + µ j i p(ω j ] (µ i µ j T Σ 1 (µ i µ j (µ i µ j (36 (37 (38 El hiperplano pasa a través del punto x 0 aunque no es necesariamente ortogonal a la línea entre las medias. 22
Caso 2: Σ i =Σ ω 2 ω 1 ω 2 ω 1 p(ω 2 = 0.5 R 2 R 1 R 1 p(ω1 = 0.5 R 2 p(ω 2 = 0.9 p(ω 1 = 0.1 R 1 R 1 p(ω 1 = 0.5 R 2 R 2 p(ω 1 = 0.1 ω 2 p(ω 2 = 0.5 ω 2 p(ω 2 = 0.9 Distribuciones de probabilidades Gaussianas y sus fronteras de decisión. 23
Caso 2: Σ i =Σ Si las probabilidades a priori p(ω i son las mismas para todas las clases, entonces el segundo término en (31 puede eliminarse. En este caso, se tiene el clasificador de mínima distancia Mahalanobis que usa la regla de decisión: Asignar x a ω i * donde i * = arg min{ [(x µ i T Σ 1 (x µ i ] 1 2 } (39 i=1,,c La elipse azul representa una línea de puntos equidistantes en términos de la distancia Mahalanobis. x 2 x 1 Los puntos verdes tienen la misma distancia Mahalanobis al centro, sin embargo, en términos de la distancia Euclidiana las distancias son diferentes (círculos rojos. 24
Caso 3: Σ i Σ j En el caso general, las matrices de covarianza son diferentes para cada clase, resultando en la función discriminante cuadrática: donde g i (x = x T W i x + w i T x + w i0 (40 W i = 1 2 Σ i 1 w i = Σ i 1 µ i w i0 = 1 2 µ i T Σ i 1 µ i 1 2 ln Σ i + ln p(ω i (41 (42 (43 Las superficies de decisión son hipercuadráticas y pueden tener las siguientes formas: hiperplanos, pares de hiperplanos, hiperesferas, hiperelipsoides e hiperparaboloides. 25
Caso 3: Σ i Σ j p(x ω i ω 2 ω 1 x R 3 R 2 R 4 R 1 R 2 R 1 R 1 Regiones de decisión no conectadas para una misma clase pueden generarse en una dimensión para Gaussianas que tienen varianzas diferentes. Regiones de decisión para cuatro distribuciones normales. Aún teniendo un bajo número de clases, las fronteras de decisión pueden tener formas complejas. 26
Caso 3: Σ i Σ j Distribuciones de probabilidad Gaussianas bidimensionales que generan fronteras de decisión hipercuadráticas. 27
Caso 3: Σ i Σ j Distribuciones de probabilidad Gaussianas tridimensionales que generan fronteras de decisión hipercuadráticas. 28
Clasificador naive-bayes De acuerdo al TLC, para tener una buena estimación de la función de densidad Gaussiana se requiere que el número de patrones sea los suficientemente grande (N. Si se requieren N patrones de entrenamiento para estimar una densidad Gaussiana univariante, entonces se necesitarían N D muestras para un espacio D-dimensional (ver Apéndice. Entonces, a medida que aumenta N y D, el cómputo de la función g(x se vuelve más costoso: g(x = 1! 2 (x µ O(ND! T Σ 1 O(ND 3 (x µ D 2 O(1!" # $# O(D 3!"# ln 2π 1 2 ln Σ O(N!" # $# + ln p(ω Además, previamente se debe computar la matriz de covarianza cuya complejidad es xxxxxxxx. O(ND 2 29
Clasificador naive-bayes Una forma de reducir la complejidad computacional es asumir independencia estadística entre las características, de modo que su probabilidad conjunta se expresa como: D p(x ω i = p(x j ω i, i = 1,,C (44 j =1 Bajo este escenario, estimar las D funciones de densidad unidimensionales para cada clase requiere de DN muestras para obtener una buena estimación en vez de N D. Esto deriva en el clasificador denominado naive-bayes, cuya regla de decisión es: D ω* = arg max ω i p(ω i p(x j ω i, i = 1,,C j =1 = arg max ω i p(ω i D j =1 1 2 2πσ i,j exp 1 2 2σ (x µ j i,j 2 i,j (45 (46 30
Clasificador naive-bayes Clasificador Euclidiano Clasificador Cuadrático Clasificador naive-bayes Distribuciones de probabilidad Gaussianas para diferentes clasificadores entrenados con el mismo conjunto de datos con tres clases y dos características. 31
Probabilidad de error Considerando el caso de clasificación binaria, supóngase que un clasificador dividió el espacio en dos regiones R 1 y R 2 de una manera no óptima (x*. El error de clasificación ocurre cuando x cae en R 2 y su estado de naturaleza es ω 1 o viceversa. La probabilidad de error es: p(error = p(x ω 2 p(ω 2 dx + p(x ω 1 p(ω 1 dx R 1 (47 R 2 p(x ω i P(ω i ω 1 Error reducible ω 2 R 1 x Bayes x * R 2 x 32
Probabilidad de error En el caso multiclase, la probabilidad de aciertos: p(correcto = C p(x ω i p(ω i dx (48 i=1 R i Una manera de calcular la similitud entre dos distribuciones de probabilidad Gaussianas es mediante la distancia Bhattacharyya: D B = 1 8 (µ 2 µ 1 T! Σ 1 (µ 2 µ 1 + 1 2 ln! Σ Σ 1 Σ 2 (49 donde!σ = (Σ 1 + Σ 2 2. Entonces, el límite superior de Bhattacharyya sobre el error es: p(error p(ω 1 p(ω 2 e D B (50 33
Ejemplo Calcular la frontera de decisión y el límite de Bhattacharyya para el siguiente conjunto de datos bidimensional con dos clases equiprobables. µ 1 µ 2 ω 1 ω 2 Los parámetros de las distribuciones son: µ 1 = µ 2 = 3 6 3 2 ; 1 = ; 2 = 1 2 0 0 2 2 0 0 2 y Las matrices inversas son entonces: 1 1 = 2 0 0 1 2 y 1 2 = 1 2 0 0 1 2 Sustituyendo en las Ecuaciones 40-43 y haciendo g 1 (x=g 2 (x la frontera de decisión es: x 2 = 3.5142 1.125x 1 + 0.1875x 1 2 De acuerdo con las ecuaciones 49 y 50, el límite de Bhattacharyya es: p(error 0.008191 34
Apéndice La maldición de la dimensionalidad es un concepto que se refiere a los problemas asociados con el análisis multivariante de datos conforme la dimensionalidad incrementa. Considérese el problema de clasificación de tres clases, donde el espacio de características es dividido en segmentos uniformemente separados, de modo que un patrón arbitrario es clasificado en la clase predominante de un segmento específico. 1. Considerando una única característica y dividiendo el espacio en tres segmentos: se observa que existe mucho traslape entre las clases, por lo que se incorpora una nueva característica. x 1 35
Apéndice 2. Si se preserva la granularidad de cada eje, el número de segmentos aumenta de 3 (en 1D a 3 2 =9 (en 2D. En relación a la cantidad de patrones habrá que decidir: a. si se mantiene la densidad de patrones, la cantidad de muestras aumenta de 9 (en 1D a 27 (en 2D; ó b. si se mantiene el número de patrones se genera mucha dispersión. x 2 Densidad constante x 2 Número de muestras constante x 1 x 1 36
Apéndice 3. Aumentando a tres características el problema se vuelve más complejo, ya que el número de segmentos aumenta a 3 3 =27; si se mantiene la densidad el número de muestras aumenta a 81; si se mantiene la cantidad de patrones el espacio de características estará casi vacío. x 3 x 1 x 2 37