Recoocimieto de Patroes o Supervisado Objetivo: Itroducció Dado u problema de R.P. para el que se posee u cojuto represetativo H={x,x 2,...,x } de muestras o etiquetadas, defiir las clases a las que perteece las muestras presetes e H. Iformació Dispoible: U cojuto H de muestras o etiquetadas que debe poseer las siguietes características: Aplicabilidad La cardialidad debe ser H grade. Todas las clases ha de estar represetadas e H Puede defiirse subcojutos de H e los que las muestras se agrupa de forma atural. Se dispoe de muestras pero se carece de sus etiquetas. Las características de las clases varía co el tiempo y el sistema debe adaptarse reestimádolas.
Metodologías Recoocimieto de Patroes o Supervisado Alguas Metodologías Paramétrica Estimació a partir de mezclas de fucioes de desidad. o Paramétrica Ejemplo Basado e la partició de los datos e subcojutos mediate algú criterio de agrupamieto Auque los elemetos marcados co + se agrupa de forma atural, o es secillo elegir agrupacioes aturales para los elemetos marcados co *,. Cuatas clases hay? Medidas de los sépalos de Iris setosa (, Iris versicolor (, Iris virgiica (
Mezclas de Desidades Recoocimieto de Patroes o Supervisado Iformació Dispoible El úmero de clases c. La forma de p(x w,θ, dode θ represeta u vector de parámetros para la clase w. El cojuto de etreamieto H={x,x 2,...,x } Asucioes Todas las muestras e H está geeradas por la mezcla de fucioes de desidad: c = p( x θ p( x w, θ P( w θ = ( θ, θ2,..., θ = Esto implica que el modelo de geeració de datos es Elegir ua clase co probabilidad P(w y geerar u elemeto a partir de su fució de desidad p(x w,θ c p(x θ p(x θ θ = (θ,θ 2 p(x θ 2 El cocepto de mixtura de desidades
Recoocimieto de Patroes o Supervisado Estimació de los parámetros Estimació por máxima verosimilitud Para estimar θ=(θ, θ 2,..., θ c y P(w por máxima verosimilitud se debe resolver las ecuacioes: P( w = P( w P( w = x x =, θ = P( w, θ c θ = p( x x p( x, θ l( p( x w w, θ w, θ, θ = 0 Estas ecuacioes so e geeral complejas de resolver para ua distribució arbitraria. El caso gausiao Si las distribucioes de las distitas clases so gausiaas es posible aplicar el método de Maximizació de la Esperaza (ME para obteer u esquema iterativo de resolució. P( w P( w =, 2,... c
Recoocimieto de Patroes o Supervisado Ejemplo de estimació e mezclas Vectores de medias descoocidas E este caso el vector de parámetros θ=(θ, θ 2,..., θ c está compuesto por el vector de medias µ =(µ, µ 2,..., µ c que se calcula de forma iterativa a partir de ua estimació iicial µ (0, =,2...,c como: ( r + = P( w µ =, =, 2,..., c µ = ( µ = P( w x x, µ ( r, µ x ( r,..., µ El esquema iterativo o tiee porqué coverger a la solució óptima. Es ecesario además darle ua buea estimació iicial., µ 2 c p(x µ b p(x µ a Mezcla de desidades Estimació e mezclas Gráfico de: Richard O. Duda, Peter E. Hart, ad David G. Stor, Patter Classificatio. Copyright (c 200 por Joh Wiley & Sos, Ic. Iicio Iicio
Recoocimieto de Patroes o Supervisado El Algoritmo Isodata (-medias Metodología Se basa e ua aproximació de las ecuacioes del caso gausiao basada e: Si x es próximo a µ P(w x,µ si x es lejao a µ P(w x,µ 0. Esto lleva al siguiete algoritmo aproximado: Paso 0: Elegir valores iiciales para las medias µ, µ 2,... µ c Paso : Clasificar las muestras asigádolas a las de su media más próxima Paso 2: Recalcular las medias como el valor medio de las muestras e su clase. Paso 3: Si se da la codició de covergecia parar, e otro caso ir al Paso 2. Ejemplo del algoritmo Isodata Gráfico de: Richard O. Duda, Peter E. Hart, ad David G. Stor, Patter Classificatio. Copyright (c 200 por Joh Wiley & Sos, Ic.
Recoocimieto de Patroes o Supervisado Métodos o Paramétricos Está basados e agrupar los datos mediate algú criterio de proximidad. Por tato, es ecesario defiir: La medida de proximidad Idica cua similares o distitos puede cosiderarse dos vectores de características El criterio de agrupamieto Que se defie geeralmete mediate algua fució de error que mide la calidad de los agrupamietos El algoritmo de agrupamieto Que se ecarga de obteer el óptimo global de la fució de error o e su defecto u óptimo local El método de validació de los resultados Que se ecarga de verificar la validez de los resultados geeralmete mediate tests estadísticos
Recoocimieto de Patroes o Supervisado El Cálculo del Agrupamieto Óptimo La Medida de Proximidad Dado el cojuto de muestras H={x,x 2,...,x }, se defie ua medida d(x i,x j que tiee ua magitud pequeña si x i y x j so similares y grade si x i y x j so distitos El Criterio de Agrupamieto Dada etoces ua partició P={H,...,H c } del cojuto H se costruye ua fució E(P que mida la bodad de la partició P e base a d(x i,x j. Los criterios de agrupamieto suele estar basados e que d(x i,x j debe ser pequeña si x i y x j perteece al mismo agrupamieto y grade e caso cotrario. El Algoritmo de Optimizació Para resolver el problema de agrupamieto se buscar la partició óptima que miimize E(P. Si embargo el problema es muy complejo: Dado u cojuto co datos el úmero de posibles particioes e c clases es del orde de c /c!. Esto da para =00 y c=0 del orde de 3 x 0 93 particioes
Recoocimieto de Patroes o Supervisado Estrategias de Agrupamieto Alguas estrategias Iterativas Basado e optimizar la fució E(P de forma iterativa Vetajas Se puede modelizar su comportamieto Icoveietes Depedecia del puto iicial dode comieza la iteració. Tiede a quedarse atrapado e óptimos locales Jerárquicas Basado e orgaizar los agrupamietos de forma jerárquica. Se divide e aglomerativas y divisivas Vetajas o depede del puto iicial Icoveietes Ua vez realizada ua asigació de ua muestra a u agrupamieto o puede deshacerse la acció.
Recoocimieto de Patroes o Supervisado Agrupamieto Básico Iterativo mediate Error Cuadrático Medio (ABIECM Medida de proximidad La distacia euclídea al cuadrado: d(x i,x j = x i - x j 2 Criterio de Agrupamieto Suma de Dispersioes Dispersió e al agrupamieto : Suma de las distacias de los elemetos del agrupamieto a su media E ECM ( P = c = x H 2 x m, m = x, = H Algoritmo de Agrupamieto basado e: Dada ua partició P={H,...,H c }, mover u elemeto x de u agrupamieto H al H l, creado ua partició P y buscado que E ECM (P < E ECM (P. Aplicabilidad Cuado los agrupamietos está bie separados y hay poca variació e su úmero de elemetos x H
Algoritmo ABIECM Selecció de la Partició Recoocimieto de Patroes o Supervisado Dada ua partició P={H,...,H c }, al mover u elemeto x de u agrupamieto H al H l la variació e E ECM es: l EECM P' = EECM ( P + l + Descripció del Algoritmo 2 ( x ml x m Paso 0 Elegir ua partició iicial P={H,...,H c }, de las muestras e agrupamietos.calcular las medias m ye ECM (P. 2 Paso Seleccioar u cadidato x de H Paso 2 Si = ir al Paso 4 l e otro caso calcular: ρ i =mi ρ l x + = l ρl l x l Paso 3 Si i Cambiar a x a H i.recalcular E ECM (P, m i,, m Paso 4 Si E ECM (P o ha cambiado e itetos parar m m l l 2 2 l l = e otro caso ir al Paso Covergecia: A u óptimo local e u º fiito de pasos
Recoocimieto de Patroes o Supervisado Agrupamieto Jerárquico Aglomerativo Míimo Cuadrático (AJAEMC Medida de proximidad La distacia euclídea al cuadrado: d(x i,x j = x i - x j 2 Criterio de Agrupamieto E ECM ( P = c = x H 2 x m, m = x, = H Algoritmo de Agrupamieto basado e: Dada ua partició P={H,...,H c }, uir dos agrupamietos H y H l, creado ua partició P y buscado que E ECM (P < E ECM (P. x H Aplicabilidad Da bueos resultados cuado los agrupamietos está bie separados y o se cooce ua buea partició iicial.
Algoritmo AJAEMC Selecció de la Partició Recoocimieto de Patroes o Supervisado Dada ua partició P={H,...,H c }, al uir dos agrupamietos H y H l la variació e E ECM es: l 2 EECM ( P' = EECM ( P + m ml + Descripció del Algoritmo Paso 0 Paso Paso 2 Paso 3 Hacer c (úmero actual de agrupamietos=. Costruir ua partició iicial P={H,...,H }, co H ={x }. Costruir las medias m =x. Si c = c (úmero deseado de agrupamietos. Parar Ecotrar los agrupamietos H, H l para los que es míimo: l 2 EECM = m ml + Hacer H = H U H l. Borrar H l. Recalcular m, Decremetar c ua uidad Paso 4 Ir al Paso Covergecia: E u º fiito de pasos l l