Recordamos: Itroducció La forma óptima de realizar el proceso de clasificació cosiste e la utilizació del clasificador bayesiao: Elegir w i si p(x w i ) P(w i ) > p(x w j ) P(w i ) j i Para utilizarlo, si embargo, es ecesario coocer la forma de la distribució codicioal e cada clase p(x w i ) y la probabilidad a priori P(w i ). Problema: E la práctica las distribucioes de probabilidad o se cooce. Solució (aproximació geerativa): Estimar todas las distribucioes de probabilidad mediate u cojuto de etreamieto H. De esta forma obteemos el modelo probabilístico mediate el cual se geeró el cojuto de etreamieto
Aproximació Geerativa Objetivo: Estimar p(x w i ), P(w i ), ecesarios para aplicar el modelo de Decisió Bayesiao. Iformació dispoible: U cojuto de muestras de etreamieto H represetativas de las distitas clases, correctamete etiquetadas co su clase de perteecia. Esto es, H= H 1 H 2... H c, dode cada H i tiee las muestras de la clase w i Asumiremos: Que las muestras de cada clase o proporcioa iformació acerca de la otra clase. Las muestras e cada clase so idepedietes Esto permite: Estimar p(x w i ), P(w i ) úicamete a partir de las muestras e H i. Teemos que resolver el problema de estimació para cada clase Problema: La estimació de P(w i ) es simple, si embargo la estimació de p(x w i ) es u problema complejo
Estrategias de Estimació Estimació Paramétrica Se basa e supoer que la forma de p(x w i ) es coocida (gausiaa, beta, etc...) y depede de u cojuto de parámetros θ i. Pricipal Vetaja: Los métodos de estimació so más simples y precisos Pricipal Desvetaja: Es ecesario coocer la forma de la distribució. Los métodos suele ser sesibles a errores e dicha forma. Métodos más importates: Estimació por Máxima Verosimilitud. Estimació máximo a posteriori Estimació Bayesiaa. Estimació o Paramétrica. No se realiza igua asució acerca de la forma de p(x w i ) Pricipal Vetaja: Métodos robustos Pricipal Desvetaja: Métodos complejos y que requiere u gra úmero de muestras para ua estimació precisa. Métodos más importates Vetaas de Parze. Vecios más próximos.
Estimació Paramérica (1) Métodos paramétricos Se asume que la forma de las fucioes de desidad codicioales so coocidas y depede de u cojuto de parámetros θ i. Escribiremos esta depedecia como p(x w i,θ i ). Por ejemplo para ua ormal multidimesioal tedremos que θ i ={µ i,σ i } Si embargo, se descooce el valor verdadero del cojuto de parámetros que la determia completamete. Este verdadero valor se estima a partir de u cojuto de etreamieto mediate u estimador. Es importate recordar que: El valor del estimador (estimació) depede del cojuto de etreamieto y distitos cojutos de etreamieto proporcioa distitas estimacioes. La estimació o tiee por qué coicidir co el verdadero valor del parámetro.
Estimació Paramétrica (2) Simplificacio: Las muestras de la clase w i sólo da iformació acerca del parámetro de dicha clase θ i,. Esto permite trabajar co cada clase por separado y obteer c problemas de la forma: Utilizar u cojuto de muestras H i tomadas de forma idepediete de p(x w i,θ i ) para estimar θ i Notació: Elimiaremos de la otació la depedecia de la clase para simplificar la escritura y escribiremos p(x θ ) e vez de p(x w i,θ i ) y H e lugar de H i. No obstate debemos recordar siempre que estamos utilizado las muestras de ua úica clase y estimado los parámetros para esa clase. Por tato para completar el clasificador debemos teer resuelto el problema de estimació para cada clase por separado.
EMV: Método Idea: Ecotrar los valores del cojuto de parámetros que hace máxima la verosimilitud del cojuto de etreamieto Obteció de la máxima verosimilitud Si H={x 1,x 2,...,x } so muestras geeradas de forma idepediete de la fució de desidad p(x θ ) etoces 1.- Calcular la fució de verosimilitud de todas las muestras: 2.- Obteer el valor θˆ EMV de θ que hace máxima la fució de verosimilitud L. Para ello puede resolverse la ecuació: p( H θ ) = 0, o de forma equivalete: θ θ Ejemplo: Estimar la media µ, y la matriz Σ de ua distribució ormal por EMV, a partir de u cojuto H={x 1,x 2,...,x }. 1 1 T µ ˆ EMV = x, ˆ k ΣEMV = ( xk µ ˆEMV )( xk µ ˆEMV ) L = p( H θ ) = p( x θ ) l( p( H θ )) = 0 k = 1 k= 1 k k = 1 p(h θ) θˆ EMV θ
EMV: Propiedades El EMV tiee propiedades muy deseables: Es asitóticamete isesgado: Sigifica que la media sobre los valores de los posibles cojutos de etreamieto da el verdadero valor del parámetro cuado el úmero de muestras del cojuto de etreamieto tiede a ifiito Es asitóticamete cosistete: Sigifica que cuado el úmero de muestras del cojuto de etreamieto tiede a ifiito el valor del estimador estará arbitrariamete cerca del verdadero valor del parámetro. Es asitóticamete eficiete: lim E( ˆ θ ) = θ Sigifica que alcaza la meor variaza que cualquier estimador puede teer cuado el úmero de muestras del cojuto de etreamieto tiede a ifiito EMV ( ˆ θ θ ε) 1 lim P EMV =
Estimació de las probabilidades a priori La estimació mediate EMV de las probabilidades a priori P(w i ) es simple y se calcula mediate: ^ P(w i )= H i / H,. =úmero de elemetos Esto es, el cociete etre el úmero de elemetos de la clase w i e el cojuto de etreamieto y el úmero total de elemetos del cojuto de etreamieto U iciso... De la misma forma puede comprobarse que la decisió tomada utilizado el cojuto de etreamieto para el ejemplo de los ródalos y salmoes del tema aterior está basada e la estimació por máxima verosimilitud de las correspodietes fucioes de distribució para cada clase.
Distribucioes verdaderas: Clasificació tras estimació por EMV: Ejemplo 0 1 0 p(x w 1,θ 1 )~ N, p(x w 2,θ 2 )~, 0 0 1 P(w 1 )=0.5, P(w 2 )=0.5 Clasificació: Cojuto de testeo: 50 muestras por clase Cojuto de etreamieto: 50 muestras por clase Estimació: 0.45 0.02 pˆ ( x w 1) ~ N, 0.32 0.09 0.52 2.32 pˆ ( x w 2) ~ N, 0.16 0.73 0.09 0.53 0.73 0.23 Error de clasificació estimado: 0.24 Error bayesiao: 0.23-1.5-1 -0.5 0 0.5 1 1.5 2 2.5 3 3 2 1 0-1 -2 1 1 N, 1 0 0 1 Ejemplo de clasificació tras estimació mediate EMV Circulos: muestras de la clase 1 Aspas: muestras de la clase 2 Liea egra: Frotera de decisió a partir de la estimació Liea roja: Frotera de decisió bayesiaa
Métodos o Paramétricos (M..P.) Métodos o Paramétricos: Es u cojuto de métodos que o ecesita iformació acerca de la forma de las fucioes de desidad codicioales p(x w i ) Simplificació: Se asume que los elemetos de H i solo da iformació sobre dicha clase. Esto permite resolver c problemas idepedietes Notació: Elimiaremos de la otació la depedecia de la clase para simplificar la escritura y escribiremos p(x) e lugar de p(x w i ) y H e lugar de H i No obstate debemos recordar siempre que estamos utilizado las muestras de ua úica clase y por tato para completar el clasificador debemos teer resuelto el problema de estimació para cada clase por separado. Alguos Procedimietos: Vetaas de Parze Se estima la fució de desidad p(x) examiado el cojuto de etreamieto H e u etoro de x que cuya forma o depede de H k- Vecios más próximos Se estima la fució de desidad p(x) examiado el cojuto de etreamieto H e u etoro de x cuya forma depede de H
M..P.: Aspectos Geerales Objetivo: Estimar p(x) a partir de H Metodología: Diseñar ua regió R del espacio de características, que cotiee a x y lo suficietemete pequeña para asumir que la fució de desidad p(x) es aproximadamete costate. A partir de las muestras idepedietes presetes e H, geeradas de acuerdo a la fució de desidad p(x), y siedo k el úmero de muestras que cae e R estimar: k pˆ ( x) =, V = dx V R x Ejemplo de Estimació de p(x) R k=5 =18 V=área de R 5/18 pˆ ( x) = V
Covergecia Covergecia de la Estimació Ua codició deseable es la covergecia de la estimació de p(x) a su verdadero valor cuado el tamaño del cojuto de etreamieto tiede a ifiito. Codicioes de Covergecia Para expresar la depedecia de k y V del tamaño del cojuto de etreamieto escribiremos: k ˆ p ( x) = V Co el siguiete resultado se asegura la covergecia de dicha estimació: lim V = 0, lim k =, lim k / = 0 lim pˆ ( x) = p( x) Esto es, cuado el tamaño del cojuto de etreamieto tiede a ifiito tiee que cumplirse: 1. El volume de la regió V debe teder a 0 2. El úmero de putos e la regió debe teder a 3. La frecuecia relativa de los putos e la regió debe teder a 0
Vetaas de Parze:Prelimiares Histogramas La forma más simple de estimació de fucioes de desidad es mediate la creació de u histograma de frecuecias relativas. E u histograma uidimesioal se puede elegir el úmero de celdas M y el puto de comiezo de la divisió e itervalos Estimació de fucioes de desidad mediate histogramas para distitos valores de M Desvetajas Cuado se tiee d características o es factible costruir el histograma debido a que el úmero de celdas es expoecial ( M d ) e el úmero de características d.
Vetaas de Parze:Itroducció Idea iicial: Fijar u tamaño de regió, costruirla úicamete alrededor del puto x para el que se desea estimar su probabilidad y aplicar la fórmula de los métodos o paramétricos: k p ˆ( x) = Vamos a formalizarlo: V Caso uidimesioal La celda es u itervalo cetrado e x de logitud h Hallaremos k de ua forma u tato especial: 1 t 1 2 Primero defiimos la fució φ( t) = 0 otro caso Etoces k= φ(( x x i ) h) i = 1 Fialmete la estimació es: k 1 φ(( x xi ) h) 1 1 x pˆ( x) = = = δ ( x xi ), δ ( x) = φ, V = h V V V h 3 4 pˆ ( x) = h x x 1 x 2 x 3 x 4 i = 1 i = 1 h/2 h/2 Vetaas de Parze x 1 x 2 x 3 x 4
Vetaas de Parze: Caso Multidimesioal Caso multidimesioal La celda es u hipercubo cetrado e x y la logitud de cada lado es h h /2 -h/2 h /2 - h /2 Hipercubo e 2-D De uevo hallamos k de ua forma especial: Primero defiimos la fució φ( x) = φ( x, x,..., x 1 ) = 0 1 2 otro caso igual a 0 salvo detro del hipercubo cetrado e 0 y de logitud de lado 1/2 dode vale 1. 1 2 d x i Etoces k= i = 1 φ( ( x x i ) h) Fialmete la estimació es: k 1 φ(( x xi ) h) 1 = = = V i = 1 V i = 1 1 x p ˆ( x) δ ( x xi ), δ ( x) = φ, V = h V h d
Vetaas de Parze:Fucioes úcleo Problema: 1 La estimació pˆ( x) = δ( x xi ) geera fucioes de desidad Solució i = 1 discotiuas (pues las fucioes δ so discotiuas). Geeralmete se suele trabajar co fucioes de desidad cotiuas Geeralizar la oció de histograma variado la fució úcleo δ utilizado por ejemplo ua gausiaa: δ G (x)=1/(2πh 2 ) d/2 exp( (-1/2) x x) que suele proporcioar ua estimació más suave. Fucioes úcleo gausiaas para distitos valores de h Estimació de Parze mediate las fucioes úcleo gausiaas para 5 muestras y distitos valores de h Gráficos de: Richard O. Duda, Peter E. Hart, ad David G. Stork, Patter Classificatio. Copyright (c) 2001 por Joh Wiley & Sos, Ic.
Vetaas de Parze: La elecció de h Todavía mas problemas... La estimació depede de h. Si h es muy grade la estimació es muy suave. Si por el cotrario h es muy pequeño la estimació suele teer variacioes bruscas iaceptables (se produce sobreajuste). Ua solució: Estimació de Parze de ua fució de distribució gausiaa para distitos valores de h y Dividir el cojuto de etreamieto e dos partes: uo para testeo y otro para validació. Utilizar el cojuto de etreamieto para defiir distitas estimacioes e fució de h. Posteriormete elegir aquel valor de h para el que la probabilidad del cojuto de validació sea máxima. Gráficos de: Richard O. Duda, Peter E. Hart, ad David G. Stork, Patter Classificatio. Copyright (c) 2001 por Joh Wiley & Sos, Ic.
Distribucioes verdaderas: Clasificació por Vetaas de Parze: Ejemplo 0 1 0 p(x w 1,θ 1 )~ N,, p(x w 2,θ 2 )~ 0 0 1 P(w 1 )=0.5, P(w 2 )=0.5 1 1 N, 1 0 0 1 Clasificació: Cojuto de testeo: 50 muestras por clase Cojuto de etreamieto: 50 muestras por clase Valor óptimo calculado para h: 2.154 Error de clasificació estimado: 0.32 Error bayesiao: 0.23 3 2 1 0-1 -2-1.5-1 -0.5 0 0.5 1 1.5 2 2.5 3 Ejemplo de clasificació tras estimació mediate Parze Circulos: muestras de la clase 1 Aspas: muestras de la clase 2 Liea egra: Frotera de decisió a partir de la estimació Liea roja: Frotera de decisió bayesiaa
Estimació por k- vecios más próximos Idea: Parece que e zoas co pocas muestras deberíamos hacer la regió grade mietras que e zoas co pocas muestras la podemos hacer pequeña. Ua idea sería etoces fijar el úmero de muestras que queremos e la regió alrededor del puto x para el que se desea estimar su probabilidad y aplicar la fórmula de los métodos o paramétricos: k p ˆ( x) = V Estimació mediate k-vecios (k=3,5) y 8 muestras Estimació mediate k-vecios e 2 dimesioes Gráficos de: Richard O. Duda, Peter E. Hart, ad David G. Stork, Patter Classificatio. Copyright (c) 2001 por Joh Wiley & Sos, Ic.
Estimació directa de p (w i x) Recordemos: El clasificador óptimo bayesiao se puede costruir hallado la clase para la que es máxima la probabilidad a posteriori: p (w i x) Etoces: Supogamos que el cojuto de datos H cotiee i muestras e la clase w i y muestras e total. Supogamos que fijamos ua regió R de volume V para todas las clases Como sabemos, debemos resolver u problema de estimació por clase. Para la clase w i la estimació será: k pˆ i i ( x wi ) = V i Etoces si utilizamos pˆ( wi ) = tedremos pˆ( wi x) = ki k La regla es simple: Seleccioar la clase co mayor úmero de elemetos e la regió R. La regió R puede defiirse mediate el esquema de las vetaas de Parze o los k-vecios. Este último esquema lleva a la clasificació por vecios más cercaos.
Clasificació por el vecio más próximo Clasificació (1-vecio más próximo) Dado el cojuto H de muestras se clasifica x como perteeciete a la clase de su vecio más próximo e H. Probabilidad de Error Si P * es la probabilidad de error bayesiao (míima), P la de la regla 1-NN, c el úmero de clases y el úmero de muestras e H: P * P P * 2 c c P 1 * < 2P *, para Clasificació mediate el vecio más próximo e 1 y 2 dimesioes Gráficos de: Richard O. Duda, Peter E. Hart, ad David G. Stork, Patter Classificatio. Copyright (c) 2001 por Joh Wiley & Sos, Ic.
Clasificació por k-vecios más próximos Clasificació (k-vecios más próximos) Dado el cojuto H de muestras se clasifica x como perteeciete a la clase mayoritaria etre sus k vecios más próximos de H. Probabilidad de Error Se aproxima a la Probabilidad de Error Bayesiao, cuado tato k, como el úmero de muestras, tiede a ifiito. La probabilidad de error se puede acotar: P * P knn P Qué valor elegir para k? Se suele dividir el cojuto de etreamieto e dos partes: uo para testeo y otro para validació. Utilizar el cojuto de etreamieto para costruir el clasificador para distitos valores de k. Posteriormete elegir aquel valor de k para el que la probabilidad de error sea míima sobre el cojuto de validació * + 1 k e
Clasificació por k-vecios: Ejemplo Distribucioes verdaderas: 0 1 0 p(x w 1,θ 1 )~ N,, p(x w 2,θ 2 )~ 0 0 1 P(w 1 )=0.5, P(w 2 )=0.5 1 1 N, 1 0 0 1 Clasificació: Cojuto de testeo: 50 muestras por clase Cojuto de etreamieto: 50 muestras por clase Valor óptimo calculado para k: 8 Error de clasificació estimado: 0.28 Error bayesiao: 0.23 3 2 1 0-1 -2-1.5-1 -0.5 0 0.5 1 1.5 2 2.5 3 Ejemplo de clasificació por k-vecios Circulos: muestras de la clase 1 Aspas: muestras de la clase 2 Liea egra: Frotera de decisió a partir de la estimació Liea roja: Frotera de decisió bayesiaa
Resumiedo... E este tema hemos visto métodos para estimar la estructura de probabilidad ecesaria para aplicar la regla de clasificació bayesiaa. Las bueas oticias... Cuado la forma de la fució de desidad codicioal p(x w i ) es coocida y depede úicamete de u vector de parámetros θ (caso paramétrico) se dispoe de estimadores co bueas propiedades. Además el coste computacioal del clasificador depede del úmero de características. Au e el caso de que la forma de la fució de desidad codicioal p(x w i ) sea descoocida (caso o paramétrico) se dispoe tambié de métodos de estimació. Alguos muy simples como los k-vecios. Además obteemos u modelo probabilístico de la forma de geeració de los datos Las malas oticias... La forma de p(x w i ) raramete es coocida e problemas complejos. Cuado la forma de p(x w i ) es erróea el clasificador suele ofrecer malos resultados (o es robusto frete a errores e forma de la distribució). Los métodos o paramétricos ecesita u gra úmero de muestras para ofrecer resultados precisos. Además el coste computacioal del clasificador depede del úmero de muestras. Los métodos o paramétricos so ta flexibles que puede sufrir de sobreajuste. Es ecesario fijar determiados parámetros para que esto o ocurra.