Introducción. La forma óptima de realizar el proceso de clasificación consiste en la utilización del clasificador bayesiano: ) > p(x w j

Documentos relacionados
Introducción. Dado un problema de R.P. para el que se posee un conjunto representativo H={x 1

) se obtiene un valor específico del estimador que recibe el nombre de estimación del parámetro poblacional θ y lo notaremos por = g ( x 1

Distribuciones en el muestreo, EMV

Estimación de Parámetros

En el tema anterior se estudió que muchas decisiones se toman a partir de resultados muestrales. Por ejemplo:

INFERENCIA ESTADÍSTICA CONCEPTOS BÁSICOS

1. Propiedades de los estimadores

Universidad Nacional del Litoral Facultad de Ingeniería y Ciencias Hídricas ESTADÍSTICA. Ingenierías RH-Amb-Ag TEORÍA

Intervalos de Confianza basados en una muestra. Instituto de Cálculo

Objetivos. 1. Inferencia Estadística. INFERENCIA ESTADÍSTICA Tema 3.1: Muestreo. M. Iniesta Universidad de Murcia

Estimación de Parámetros. Estimación de Parámetros

El método de Monte Carlo

TEMA 6.- INTERVALOS DE CONFIANZA

TEMA 5.-ESTIMACIÓN PUNTUAL.- (16/17) 5.1. Introducción a la Inferencia Estadística Método de los momentos

Estimadores Puntuales: Propiedades de estimadores Sebastián Court

INFERENCIA ESTADÍSTICA

2 Algunos conceptos de convergencia de sucesiones de variables aleatorias

CAPÍTULO I. Conceptos Básicos de Estadística

Tema 4. Estimación de parámetros

Probabilidad y Estadística 2003 Intervalos de Confianza y Test de Hipótesis paramétricos

Convergencia de variables aleatorias

IntroducciónalaInferencia Estadística

Estimación de parámetros. Biometría

Introducción a la Inferencia Estadística. Material Preparado por Olga Susana Filippini y Hugo Delfino

Intervalos de Confianza basados en una sola muestra. Denotaremos al parámetro de interés con la letra θ y con θ un estimador para θ.

Un sistema de m ecuaciones lineales con n incógnitas es un conjunto de m igualdades del tipo:......

DISTRIBUCIONES DE PROBABILIDAD.- DISTRIBUCIÓN BINOMIAL (BERNOULLI) DISTRIBUCIÓN NORMAL (GAUSS)

INTRODUCCION Teoría de la Estimación

INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA DISTRIBUCIÓN EN EL MUESTREO

Ejercicios resueltos de Muestreo

Desigualdad de Tchebyshev

Resumen Tema 2: Muestreo aleatorio simple. Muestreo con probabilidades desiguales.

Probabilidades y Estadística (M) Práctica 8 1 cuatrimestre 2012 Convergencias - Ley de los Grandes Números

4 - DESIGUALDAD DE CHEBYSHEV- LEY DE LOS GRANDES NUMEROS

Límite y Continuidad de Funciones.

Otro ejemplo es la tasa de cambio del tamaño de una población (N), que puede expresarse como:

En esta tema sentaremos las bases del muestreo estadístico y estudiaremos las distribuciones de algunos estadísticos a partir de una muestra.

Técnicas de inteligencia artificial. Visión Artificial Segmentación

Curso de Estadística Aplicada a las Ciencias Sociales

1. Intervalos de Conanza

una sucesión de funciones de A. Formemos una nueva sucesión de funciones {S n } n=1 de A de la forma siguiente:

Curso de Estadística Aplicada a las Ciencias Sociales. Introducción. Introducción (2) Hasta ahora: estadística descriptiva (para describir datos)

Sucesiones de números reales Sucesiones convergentes: límite de una sucesión

TEORÍA DE LA ESTIMACIÓN

EL REML SIN LAGRIMAS. A. Blasco Instituto de Ciencia y Tecnología Animal Universidad Politécnica de Valencia

La ley de los grandes números

Problemas de Estimación de Una y Dos Muestras. UCR ECCI CI-1352 Probabilidad y Esradística Prof. M.Sc. Kryscia Daviana Ramírez Benavides

1 x 1 0,1666. sabiendo que 506, 508, 499, 503, 504, 510, 497, 512, 514, 505, 493, 496, 506, 502, 509, 496.

13.1 INTERVALOS DEL 95% DE CONFIANZA PARA LA MEDIA DE UNA POBLACIÓN NORMAL VARIANZA CONOCIDA

1.1 INTERVALOS DEL 95% DE CONFIANZA PARA LA MEDIA DE UNA POBLACIÓN NORMAL VARIANZA CONOCIDA

Curso de Estadística Aplicada a las Ciencias Sociales. Tema 11. Estimación de una media. Introducción. Introducción (2) Introducción

METODO DE ITERACION DE NEWTON

Medidas de tendencia central

Determinación del tamaño de una muestra (para dos o más muestras)

Tema 14: Inferencia estadística

R. Urbán Introducción a los métodos cuantitativos. Notas de clase Sucesiones y series.

Tema 8. Sesiones 15 y 16 Guía de clase 8. CONTRASTE DE HIPOTESIS

Otro fallo a la hora de elegir una muestra es que una variable condicione a otra, ya que las variables deben ser independientes y no condicionadas.

Capítulo 3: Inferencia

Muestreo e Intervalos de Confianza

Elementos de Teoria Asintotica

TEMA 4- MODELOS CONTINUOS

2. Estimación de errores de medidas directas

Capítulo 3. El modelo de regresión múltiple. Jorge Feregrino Feregrino. Econometría Aplicada Utilizando R

MUESTREO Y ESTIMACIÓN ESTADÍSTICA

Cálculo. 1 de septiembre de Cuestiones

Prácticas de Matemáticas I y Matemáticas II con DERIVE-5 138

Unidad 1: Las Ecuaciones Diferenciales y Sus Soluciones

Sucesiones. f : {1,2,...,r} S. Por ejemplo, la sucesión finita, (de longitud 4) de números primos menores que 10: 2,3,5,7

ESTADISTICA EMPRESARIAL - Segundo Curso Curso Convocatoria de Febrero INSTRUCCIONES

Departamento de Matemáticas

Bloque 3 Tema 12 PRUEBAS ESTADÍSTICAS PARA EL CONTRASTE DE HIPÓTESIS: PRUEBAS PARAMÉTRICAS

Práctica 2 VARIABLES ALEATORIAS CONTINUAS

Intervalos de confianza Muestras grandes

NOTAS SOBRE INFERENCIA ESTADÍSTICA BAYESIANA. José G. Ríos Alejandro. Abril del 2011.

5.1. Tipos de convergencia

4.- Series. Criterios de convergencia. Series de Taylor y Laurent

Importancia de las medidas de tendencia central.

Conceptos generales de inferencia estadística. Estimación de parámetros. Intervalos de confianza.

Análisis estadístico de datos. Análisis estadístico de datos simulados. Elección de una distribución. Análisis estadístico de datos simulados

Prácticas de Matemáticas I y Matemáticas II con DERIVE 136

E.U.I.T.I. Bilbao. Asignatura: MÉTODOS ESTADÍSTICOS DE LA INGENIERÍA

Ley de Grandes Números y Teorema Central del

Análisis de resultados. Independencia de las muestras

Capítulo 4 (Continuación) MÉTODOS ESTADÍSTICOS. Autor: José María García Palanco

MAS obtenidas de una población N, son por naturaleza propia impredecibles. No esperamos que dos muestras aleatorias de tamaño n, tomadas de la misma

ESTIMACIÓN DE PARÁMETROS. INTERVALOS DE CONFIANZA PARA LA PROPORCIÓN POBLACIONAL.

Número de personas que se forman en una fila en 1 hora Número de águilas que se obtienen al lanzar una moneda 5 veces.

Guía Semana 9 1. RESUMEN. Universidad de Chile. Ingeniería Matemática

UNIDAD 3.- INFERENCIA ESTADÍSTICA I

Una sucesión es un conjunto infinito de números ordenados de tal forma que se puede decir cuál es el primero, cuál el segundo, el tercero, etc.

Prueba A = , = [ 7.853, 8.147]

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERIA INDUSTRIAL

Prueba Integral Lapso / Área de Matemática Fecha: MODELO DE RESPUESTA (Objetivos del 01 al 11)

Preguntas más Frecuentes: Tema 2

ANEXO B. Se define como Regresión al estudio de la fuerza, consistencia o grado de asociación de la

Estadística y sus aplicaciones en Ciencias Sociales Práctico 4 - Solución Curso ) Como se trata de muestreo sin reposición, se tiene C 5 3

3.2. Teoremas de Dini

Transcripción:

Recordamos: Itroducció La forma óptima de realizar el proceso de clasificació cosiste e la utilizació del clasificador bayesiao: Elegir w i si p(x w i ) P(w i ) > p(x w j ) P(w i ) j i Para utilizarlo, si embargo, es ecesario coocer la forma de la distribució codicioal e cada clase p(x w i ) y la probabilidad a priori P(w i ). Problema: E la práctica las distribucioes de probabilidad o se cooce. Solució (aproximació geerativa): Estimar todas las distribucioes de probabilidad mediate u cojuto de etreamieto H. De esta forma obteemos el modelo probabilístico mediate el cual se geeró el cojuto de etreamieto

Aproximació Geerativa Objetivo: Estimar p(x w i ), P(w i ), ecesarios para aplicar el modelo de Decisió Bayesiao. Iformació dispoible: U cojuto de muestras de etreamieto H represetativas de las distitas clases, correctamete etiquetadas co su clase de perteecia. Esto es, H= H 1 H 2... H c, dode cada H i tiee las muestras de la clase w i Asumiremos: Que las muestras de cada clase o proporcioa iformació acerca de la otra clase. Las muestras e cada clase so idepedietes Esto permite: Estimar p(x w i ), P(w i ) úicamete a partir de las muestras e H i. Teemos que resolver el problema de estimació para cada clase Problema: La estimació de P(w i ) es simple, si embargo la estimació de p(x w i ) es u problema complejo

Estrategias de Estimació Estimació Paramétrica Se basa e supoer que la forma de p(x w i ) es coocida (gausiaa, beta, etc...) y depede de u cojuto de parámetros θ i. Pricipal Vetaja: Los métodos de estimació so más simples y precisos Pricipal Desvetaja: Es ecesario coocer la forma de la distribució. Los métodos suele ser sesibles a errores e dicha forma. Métodos más importates: Estimació por Máxima Verosimilitud. Estimació máximo a posteriori Estimació Bayesiaa. Estimació o Paramétrica. No se realiza igua asució acerca de la forma de p(x w i ) Pricipal Vetaja: Métodos robustos Pricipal Desvetaja: Métodos complejos y que requiere u gra úmero de muestras para ua estimació precisa. Métodos más importates Vetaas de Parze. Vecios más próximos.

Estimació Paramérica (1) Métodos paramétricos Se asume que la forma de las fucioes de desidad codicioales so coocidas y depede de u cojuto de parámetros θ i. Escribiremos esta depedecia como p(x w i,θ i ). Por ejemplo para ua ormal multidimesioal tedremos que θ i ={µ i,σ i } Si embargo, se descooce el valor verdadero del cojuto de parámetros que la determia completamete. Este verdadero valor se estima a partir de u cojuto de etreamieto mediate u estimador. Es importate recordar que: El valor del estimador (estimació) depede del cojuto de etreamieto y distitos cojutos de etreamieto proporcioa distitas estimacioes. La estimació o tiee por qué coicidir co el verdadero valor del parámetro.

Estimació Paramétrica (2) Simplificacio: Las muestras de la clase w i sólo da iformació acerca del parámetro de dicha clase θ i,. Esto permite trabajar co cada clase por separado y obteer c problemas de la forma: Utilizar u cojuto de muestras H i tomadas de forma idepediete de p(x w i,θ i ) para estimar θ i Notació: Elimiaremos de la otació la depedecia de la clase para simplificar la escritura y escribiremos p(x θ ) e vez de p(x w i,θ i ) y H e lugar de H i. No obstate debemos recordar siempre que estamos utilizado las muestras de ua úica clase y estimado los parámetros para esa clase. Por tato para completar el clasificador debemos teer resuelto el problema de estimació para cada clase por separado.

EMV: Método Idea: Ecotrar los valores del cojuto de parámetros que hace máxima la verosimilitud del cojuto de etreamieto Obteció de la máxima verosimilitud Si H={x 1,x 2,...,x } so muestras geeradas de forma idepediete de la fució de desidad p(x θ ) etoces 1.- Calcular la fució de verosimilitud de todas las muestras: 2.- Obteer el valor θˆ EMV de θ que hace máxima la fució de verosimilitud L. Para ello puede resolverse la ecuació: p( H θ ) = 0, o de forma equivalete: θ θ Ejemplo: Estimar la media µ, y la matriz Σ de ua distribució ormal por EMV, a partir de u cojuto H={x 1,x 2,...,x }. 1 1 T µ ˆ EMV = x, ˆ k ΣEMV = ( xk µ ˆEMV )( xk µ ˆEMV ) L = p( H θ ) = p( x θ ) l( p( H θ )) = 0 k = 1 k= 1 k k = 1 p(h θ) θˆ EMV θ

EMV: Propiedades El EMV tiee propiedades muy deseables: Es asitóticamete isesgado: Sigifica que la media sobre los valores de los posibles cojutos de etreamieto da el verdadero valor del parámetro cuado el úmero de muestras del cojuto de etreamieto tiede a ifiito Es asitóticamete cosistete: Sigifica que cuado el úmero de muestras del cojuto de etreamieto tiede a ifiito el valor del estimador estará arbitrariamete cerca del verdadero valor del parámetro. Es asitóticamete eficiete: lim E( ˆ θ ) = θ Sigifica que alcaza la meor variaza que cualquier estimador puede teer cuado el úmero de muestras del cojuto de etreamieto tiede a ifiito EMV ( ˆ θ θ ε) 1 lim P EMV =

Estimació de las probabilidades a priori La estimació mediate EMV de las probabilidades a priori P(w i ) es simple y se calcula mediate: ^ P(w i )= H i / H,. =úmero de elemetos Esto es, el cociete etre el úmero de elemetos de la clase w i e el cojuto de etreamieto y el úmero total de elemetos del cojuto de etreamieto U iciso... De la misma forma puede comprobarse que la decisió tomada utilizado el cojuto de etreamieto para el ejemplo de los ródalos y salmoes del tema aterior está basada e la estimació por máxima verosimilitud de las correspodietes fucioes de distribució para cada clase.

Distribucioes verdaderas: Clasificació tras estimació por EMV: Ejemplo 0 1 0 p(x w 1,θ 1 )~ N, p(x w 2,θ 2 )~, 0 0 1 P(w 1 )=0.5, P(w 2 )=0.5 Clasificació: Cojuto de testeo: 50 muestras por clase Cojuto de etreamieto: 50 muestras por clase Estimació: 0.45 0.02 pˆ ( x w 1) ~ N, 0.32 0.09 0.52 2.32 pˆ ( x w 2) ~ N, 0.16 0.73 0.09 0.53 0.73 0.23 Error de clasificació estimado: 0.24 Error bayesiao: 0.23-1.5-1 -0.5 0 0.5 1 1.5 2 2.5 3 3 2 1 0-1 -2 1 1 N, 1 0 0 1 Ejemplo de clasificació tras estimació mediate EMV Circulos: muestras de la clase 1 Aspas: muestras de la clase 2 Liea egra: Frotera de decisió a partir de la estimació Liea roja: Frotera de decisió bayesiaa

Métodos o Paramétricos (M..P.) Métodos o Paramétricos: Es u cojuto de métodos que o ecesita iformació acerca de la forma de las fucioes de desidad codicioales p(x w i ) Simplificació: Se asume que los elemetos de H i solo da iformació sobre dicha clase. Esto permite resolver c problemas idepedietes Notació: Elimiaremos de la otació la depedecia de la clase para simplificar la escritura y escribiremos p(x) e lugar de p(x w i ) y H e lugar de H i No obstate debemos recordar siempre que estamos utilizado las muestras de ua úica clase y por tato para completar el clasificador debemos teer resuelto el problema de estimació para cada clase por separado. Alguos Procedimietos: Vetaas de Parze Se estima la fució de desidad p(x) examiado el cojuto de etreamieto H e u etoro de x que cuya forma o depede de H k- Vecios más próximos Se estima la fució de desidad p(x) examiado el cojuto de etreamieto H e u etoro de x cuya forma depede de H

M..P.: Aspectos Geerales Objetivo: Estimar p(x) a partir de H Metodología: Diseñar ua regió R del espacio de características, que cotiee a x y lo suficietemete pequeña para asumir que la fució de desidad p(x) es aproximadamete costate. A partir de las muestras idepedietes presetes e H, geeradas de acuerdo a la fució de desidad p(x), y siedo k el úmero de muestras que cae e R estimar: k pˆ ( x) =, V = dx V R x Ejemplo de Estimació de p(x) R k=5 =18 V=área de R 5/18 pˆ ( x) = V

Covergecia Covergecia de la Estimació Ua codició deseable es la covergecia de la estimació de p(x) a su verdadero valor cuado el tamaño del cojuto de etreamieto tiede a ifiito. Codicioes de Covergecia Para expresar la depedecia de k y V del tamaño del cojuto de etreamieto escribiremos: k ˆ p ( x) = V Co el siguiete resultado se asegura la covergecia de dicha estimació: lim V = 0, lim k =, lim k / = 0 lim pˆ ( x) = p( x) Esto es, cuado el tamaño del cojuto de etreamieto tiede a ifiito tiee que cumplirse: 1. El volume de la regió V debe teder a 0 2. El úmero de putos e la regió debe teder a 3. La frecuecia relativa de los putos e la regió debe teder a 0

Vetaas de Parze:Prelimiares Histogramas La forma más simple de estimació de fucioes de desidad es mediate la creació de u histograma de frecuecias relativas. E u histograma uidimesioal se puede elegir el úmero de celdas M y el puto de comiezo de la divisió e itervalos Estimació de fucioes de desidad mediate histogramas para distitos valores de M Desvetajas Cuado se tiee d características o es factible costruir el histograma debido a que el úmero de celdas es expoecial ( M d ) e el úmero de características d.

Vetaas de Parze:Itroducció Idea iicial: Fijar u tamaño de regió, costruirla úicamete alrededor del puto x para el que se desea estimar su probabilidad y aplicar la fórmula de los métodos o paramétricos: k p ˆ( x) = Vamos a formalizarlo: V Caso uidimesioal La celda es u itervalo cetrado e x de logitud h Hallaremos k de ua forma u tato especial: 1 t 1 2 Primero defiimos la fució φ( t) = 0 otro caso Etoces k= φ(( x x i ) h) i = 1 Fialmete la estimació es: k 1 φ(( x xi ) h) 1 1 x pˆ( x) = = = δ ( x xi ), δ ( x) = φ, V = h V V V h 3 4 pˆ ( x) = h x x 1 x 2 x 3 x 4 i = 1 i = 1 h/2 h/2 Vetaas de Parze x 1 x 2 x 3 x 4

Vetaas de Parze: Caso Multidimesioal Caso multidimesioal La celda es u hipercubo cetrado e x y la logitud de cada lado es h h /2 -h/2 h /2 - h /2 Hipercubo e 2-D De uevo hallamos k de ua forma especial: Primero defiimos la fució φ( x) = φ( x, x,..., x 1 ) = 0 1 2 otro caso igual a 0 salvo detro del hipercubo cetrado e 0 y de logitud de lado 1/2 dode vale 1. 1 2 d x i Etoces k= i = 1 φ( ( x x i ) h) Fialmete la estimació es: k 1 φ(( x xi ) h) 1 = = = V i = 1 V i = 1 1 x p ˆ( x) δ ( x xi ), δ ( x) = φ, V = h V h d

Vetaas de Parze:Fucioes úcleo Problema: 1 La estimació pˆ( x) = δ( x xi ) geera fucioes de desidad Solució i = 1 discotiuas (pues las fucioes δ so discotiuas). Geeralmete se suele trabajar co fucioes de desidad cotiuas Geeralizar la oció de histograma variado la fució úcleo δ utilizado por ejemplo ua gausiaa: δ G (x)=1/(2πh 2 ) d/2 exp( (-1/2) x x) que suele proporcioar ua estimació más suave. Fucioes úcleo gausiaas para distitos valores de h Estimació de Parze mediate las fucioes úcleo gausiaas para 5 muestras y distitos valores de h Gráficos de: Richard O. Duda, Peter E. Hart, ad David G. Stork, Patter Classificatio. Copyright (c) 2001 por Joh Wiley & Sos, Ic.

Vetaas de Parze: La elecció de h Todavía mas problemas... La estimació depede de h. Si h es muy grade la estimació es muy suave. Si por el cotrario h es muy pequeño la estimació suele teer variacioes bruscas iaceptables (se produce sobreajuste). Ua solució: Estimació de Parze de ua fució de distribució gausiaa para distitos valores de h y Dividir el cojuto de etreamieto e dos partes: uo para testeo y otro para validació. Utilizar el cojuto de etreamieto para defiir distitas estimacioes e fució de h. Posteriormete elegir aquel valor de h para el que la probabilidad del cojuto de validació sea máxima. Gráficos de: Richard O. Duda, Peter E. Hart, ad David G. Stork, Patter Classificatio. Copyright (c) 2001 por Joh Wiley & Sos, Ic.

Distribucioes verdaderas: Clasificació por Vetaas de Parze: Ejemplo 0 1 0 p(x w 1,θ 1 )~ N,, p(x w 2,θ 2 )~ 0 0 1 P(w 1 )=0.5, P(w 2 )=0.5 1 1 N, 1 0 0 1 Clasificació: Cojuto de testeo: 50 muestras por clase Cojuto de etreamieto: 50 muestras por clase Valor óptimo calculado para h: 2.154 Error de clasificació estimado: 0.32 Error bayesiao: 0.23 3 2 1 0-1 -2-1.5-1 -0.5 0 0.5 1 1.5 2 2.5 3 Ejemplo de clasificació tras estimació mediate Parze Circulos: muestras de la clase 1 Aspas: muestras de la clase 2 Liea egra: Frotera de decisió a partir de la estimació Liea roja: Frotera de decisió bayesiaa

Estimació por k- vecios más próximos Idea: Parece que e zoas co pocas muestras deberíamos hacer la regió grade mietras que e zoas co pocas muestras la podemos hacer pequeña. Ua idea sería etoces fijar el úmero de muestras que queremos e la regió alrededor del puto x para el que se desea estimar su probabilidad y aplicar la fórmula de los métodos o paramétricos: k p ˆ( x) = V Estimació mediate k-vecios (k=3,5) y 8 muestras Estimació mediate k-vecios e 2 dimesioes Gráficos de: Richard O. Duda, Peter E. Hart, ad David G. Stork, Patter Classificatio. Copyright (c) 2001 por Joh Wiley & Sos, Ic.

Estimació directa de p (w i x) Recordemos: El clasificador óptimo bayesiao se puede costruir hallado la clase para la que es máxima la probabilidad a posteriori: p (w i x) Etoces: Supogamos que el cojuto de datos H cotiee i muestras e la clase w i y muestras e total. Supogamos que fijamos ua regió R de volume V para todas las clases Como sabemos, debemos resolver u problema de estimació por clase. Para la clase w i la estimació será: k pˆ i i ( x wi ) = V i Etoces si utilizamos pˆ( wi ) = tedremos pˆ( wi x) = ki k La regla es simple: Seleccioar la clase co mayor úmero de elemetos e la regió R. La regió R puede defiirse mediate el esquema de las vetaas de Parze o los k-vecios. Este último esquema lleva a la clasificació por vecios más cercaos.

Clasificació por el vecio más próximo Clasificació (1-vecio más próximo) Dado el cojuto H de muestras se clasifica x como perteeciete a la clase de su vecio más próximo e H. Probabilidad de Error Si P * es la probabilidad de error bayesiao (míima), P la de la regla 1-NN, c el úmero de clases y el úmero de muestras e H: P * P P * 2 c c P 1 * < 2P *, para Clasificació mediate el vecio más próximo e 1 y 2 dimesioes Gráficos de: Richard O. Duda, Peter E. Hart, ad David G. Stork, Patter Classificatio. Copyright (c) 2001 por Joh Wiley & Sos, Ic.

Clasificació por k-vecios más próximos Clasificació (k-vecios más próximos) Dado el cojuto H de muestras se clasifica x como perteeciete a la clase mayoritaria etre sus k vecios más próximos de H. Probabilidad de Error Se aproxima a la Probabilidad de Error Bayesiao, cuado tato k, como el úmero de muestras, tiede a ifiito. La probabilidad de error se puede acotar: P * P knn P Qué valor elegir para k? Se suele dividir el cojuto de etreamieto e dos partes: uo para testeo y otro para validació. Utilizar el cojuto de etreamieto para costruir el clasificador para distitos valores de k. Posteriormete elegir aquel valor de k para el que la probabilidad de error sea míima sobre el cojuto de validació * + 1 k e

Clasificació por k-vecios: Ejemplo Distribucioes verdaderas: 0 1 0 p(x w 1,θ 1 )~ N,, p(x w 2,θ 2 )~ 0 0 1 P(w 1 )=0.5, P(w 2 )=0.5 1 1 N, 1 0 0 1 Clasificació: Cojuto de testeo: 50 muestras por clase Cojuto de etreamieto: 50 muestras por clase Valor óptimo calculado para k: 8 Error de clasificació estimado: 0.28 Error bayesiao: 0.23 3 2 1 0-1 -2-1.5-1 -0.5 0 0.5 1 1.5 2 2.5 3 Ejemplo de clasificació por k-vecios Circulos: muestras de la clase 1 Aspas: muestras de la clase 2 Liea egra: Frotera de decisió a partir de la estimació Liea roja: Frotera de decisió bayesiaa

Resumiedo... E este tema hemos visto métodos para estimar la estructura de probabilidad ecesaria para aplicar la regla de clasificació bayesiaa. Las bueas oticias... Cuado la forma de la fució de desidad codicioal p(x w i ) es coocida y depede úicamete de u vector de parámetros θ (caso paramétrico) se dispoe de estimadores co bueas propiedades. Además el coste computacioal del clasificador depede del úmero de características. Au e el caso de que la forma de la fució de desidad codicioal p(x w i ) sea descoocida (caso o paramétrico) se dispoe tambié de métodos de estimació. Alguos muy simples como los k-vecios. Además obteemos u modelo probabilístico de la forma de geeració de los datos Las malas oticias... La forma de p(x w i ) raramete es coocida e problemas complejos. Cuado la forma de p(x w i ) es erróea el clasificador suele ofrecer malos resultados (o es robusto frete a errores e forma de la distribució). Los métodos o paramétricos ecesita u gra úmero de muestras para ofrecer resultados precisos. Además el coste computacioal del clasificador depede del úmero de muestras. Los métodos o paramétricos so ta flexibles que puede sufrir de sobreajuste. Es ecesario fijar determiados parámetros para que esto o ocurra.