Introducción a los métodos Kernel



Documentos relacionados
Máquinas de Vectores de Soporte

Tema 6 Extensiones y aplicaciones (Máquinas de vectores soporte, SVM)

Support Vector Machines

TEMA 6. SVM Support Vector Machines (Máquinas de Vectores Soporte)

Métodos basados en Kernels para el Procesamiento de Lenguaje Natural

Ejemplo 1. Ejemplo introductorio

Elementos de máquinas de vectores de soporte

Vectores y Matrices. Tema 3: Repaso de Álgebra Lineal Parte I. Contenidos

BLOQUE DE ÁLGEBRA: TEMA 1: MATRICES.

DUALIDAD EN PROGRAMACION LINEAL

Sistemas de ecuaciones lineales

315 M/R Versión 1 Integral 1/ /1 UNIVERSIDAD NACIONAL ABIERTA VICERRECTORADO ACADÉMICO ÁREA INGENIERÍA

Multiplicadores de Lagrange y dualidad

Tema 2. Sistemas de ecuaciones lineales

El método de mínimos cuadrados. Curso de Estadística TAE, 2005 J.J. Gómez-Cadenas

Instituto tecnológico de Minatitlán. Investigación de operaciones Ing. Erika Lissette Minaya mortera Unidad 3: programación no lineal

Modelos de Scoring para Riesgo de Crédito

Tema 5: Sistemas de Ecuaciones Lineales

Sistemas de Ecuaciones Lineales

SESIÓN 4: ESPACIOS VECTORIALES

TEMA 11. Autovalores y autovectores. Diagonalización y formas canónicas.

El problema inverso: Técnicas de identificación de parámetros.

UNIVERSIDAD NACIONAL EXPERIMENTAL DE GUAYANA GERENCIA ACADEMICA COORDINACION DE PREGRADO PROYECTO INGENIERIA /ALGEBRA DE ESTRUCTURAS SEMESTRE:

PROGRAMACION ENTERA. M. en C. Héctor Martínez Rubin Celis 1

VECTORES EN EL ESPACIO

Curso de Álgebra Lineal

P. A. U. LAS PALMAS 2005

Análisis de Datos. Máquinas de vectores de soporte. Profesor: Dr. Wilfrido Gómez Flores

MENORES, COFACTORES Y DETERMINANTES

Análisis de Datos. Análisis lineal discriminante. Profesor: Dr. Wilfrido Gómez Flores

40 Matemáticas I. Parte II. Álgebra Lineal. I.T.I. en Electricidad. Prof: José Antonio Abia Vian

APRENDIZAJE BASADO EN INSTANCIAS. Eduardo Morales y Jesús González

Luego, en el punto crítico

Forman base cuando p 0 y 1.

COLEGIO UNIVERSITARIO CARDENAL CISNEROS. Libro de Ejercicios de Matemáticas Empresariales II

Herramientas digitales de auto-aprendizaje para Matemáticas

CONVEXIDAD: CONCEPTOS BÁSICOS

Matrices, determinantes, sistemas de ecuaciones lineales.

CAPÍTULO 3: DETERMINANTES Y SISTEMAS DE ECUACIONES

Aprendizaje Basado en Instancias

La programación lineal hace referencia al uso eficiente o distribución de recursos limitados, para alcanzar unos objetivos determinados.

1.4 SISTEMAS HOMOGÉNEOS DE ECUACIONES. 36 CAPÍTULO 1 Sistemas de ecuaciones lineales y matrices

Aproximación funcional por mínimos cuadrados

Pasos en el Método Simplex

Muestreo y Distribuciones muestrales. 51 SOLUCIONES

Matriz sobre K = R o C de dimensión m n

Espacios Vectoriales

Estadística Avanzada y Análisis de Datos

Polinomios. 1.- Funciones cuadráticas

Si el objetivo es maximizar, entonces se tiene la forma estándar de maximización y, si el objetivo es minimizar, la forma estándar de minimización.

Matrices. p ij = a ik b kj = a i1 b 1j + a i2 b 2j + + a in b nj.

Dependencia e independencia lineal

CLAVE: MIS 206 PROFESOR: MTRO. ALEJANDRO SALAZAR GUERRERO

2. Probabilidad y. variable aleatoria. Curso Estadística Probabilidad. Probabilidad y variable aleatoria

3. Métodos clásicos de optimización lineal

Concepto de espacio vectorial. Propiedades. Distintos espacios vectoriales. El espacio real tridimensional.

Lección 1. Algoritmos y conceptos básicos.

Métodos Numéricos: Resumen y ejemplos Tema 5: Resolución aproximada de ecuaciones

Sistema de ecuaciones algebraicas

Complementos de Matemáticas, ITT Telemática

MÁXIMOS Y MINIMOS. Marco Antonio Cruz Chávez

Matrices. Concepto de matriz Se denomina matriz a todo conjunto de números o expresiones ordenados en filas y columnas.

INDICE Parte I Inducción a la programación lineal Capitulo 1 Origen y definición de la programación lineal Capitulo 2 Modelación y formulación

Santiago, Abril 2009

1.2 Si a y b son enteros impares, entonces a + b es par. 1.4 Si el producto de enteros a y b es par, entonces alguno de ellos es par.

EL MÉTODO SIMPLEX ALGEBRAICO: MINIMIZACION. M. En C. Eduardo Bustos Farías

Tema 1: Matrices y Determinantes

1. Si están situados en rectas paralelas: la recta que une los orígenes, deja sus extremos en un mismo semiplano.

Nombre de la asignatura : Investigación de operaciones I. Carrera : Ingeniería en Sistemas Computacionales. Clave de la asignatura : SCB-9306

Ecuaciones diferenciales lineales con coeficientes constantes

Tema 9. Espacio de Estados : Representación y propiedades importantes

Capítulo 8. Geometría euclídea. 8.1 Problemas métricos

Se denomina matriz a todo conjunto de números o expresiones dispuestos en forma rectangular, formando filas y columnas.

El Método Simplex. H. R. Alvarez A., Ph. D. 1

Distribuciones bidimensionales. Regresión.

Método de fórmula general

Dada la proporción =, calcula el producto de extremos menos el producto de medios. 4. Halla los determinantes de las siguientes matrices: Solución:

GEOMETRÍA EN EL ESPACIO.

4 Vectores en el espacio

Ecuaciones de segundo grado

Fundamentos matemáticos. Tema 2 Matrices y ecuaciones lineales

2ª PRUEBA 26 de febrero de 2016

Tema 5 Dualidad y condiciones de Karush-Kuhn-Tucker

Computación Científica

SISTEMAS INTELIGENTES

Desarrollo de las condiciones de optimalidad y factibilidad. El problema lineal general se puede plantear como sigue:

Matrices, Determinantes y Sistemas de ecuaciones lineales

Tema 4: Los vectores en el espacio

Tema 1. Álgebra lineal. Matrices

Contenido. 1 Definiciones y propiedades. 2. Método de la potencia. 3. Método de la potencia inversa. 4. Método de la potencia inversa desplazada

Transformación adjunta a una transformación lineal

Cálculo: Polinomio de Taylor

Regresión lineal múltiple

Formulación de un Modelo de Programación Lineal

Práctica 2 Métodos de búsqueda para funciones de una variable

Transcripción:

p. 1/3 Introducción a los métodos Kernel Universidad Autónoma de Madrid 29 de abril de 2008 Manel Martínez Ramón Universidad Carlos III de Madrid Departamento de Teoría de la Señal y Comunicaciones Transparencias disponibles en www.tsc.uc3m.es/ manel

p. 2/3 Kernels Transformaciones no lineales Truco de los kernels Ejemplos Kernels compuestos

p. 3/3 Introducción Métodos Kérnel. Se basan en el viejo truco de los Kernels (Teorema de Mercer). Permiten versiones no lineales de los algoritmos lineales. Teoría del aprendizaje estadístico Introducida por Vapnik y Chervonenkis. Porporcionan buena generalización a través del control de la complejidad. Las SVM se derivan de esta teoría. Es posible formular máquinas no lineales que reducen drásticamente los inconvenientes de los métodos clásicos de aprendizaje no lineal: Tienen menor coste computaciona y menos heurísticos. Hay existencia y unicidad de soluciones. Se establece un contro explícito del sobreentrenamiento.

p. 4/3 Transformaciones no lineales Para construir un estimador no lineal, debemos transformar los datos de entrada no linealmente. La transformación no lineal implica una correspondencia hacia un espacio de mayor dimensión, posiblemente infinita: x : R n ϕ(x) : H Un ejemplo de transformación no lineal a un espacio de mayor dimensionalidad es una transformación polinómica: sea un conjunto de datos unidimiensional x i. Aplicamos la siguiente transformación no lineal: ϕ(x) = {x 2, 2x,1} T : R 3 La pregunta es: existe un producto escalar en ese espacio que pueda ser expresado como función de los datos de entrada x?

p. 5/3 Transformaciones no lineales El producto escalar explícito es: ϕ(x 1 ) T ϕ(x 2 ) = {x 2 1, 2x 1, 1}{x 2 2, 2x 2, 1} T = x 2 1x 2 2 + 2x 1 x 2 + 1 Que puede ser escrito como ϕ(x 1 ) T ϕ(x 2 ) = x 2 1x 2 2 + 2x 1 x 2 + 1 = (x 1 x 2 + 1) 2 Existe una expresión del producto escalar en función del espacio de entrada. Ese producto escalar se denomina Kernel, y el espacio de mayor dimensionalidad (espacio de características) es un espacio de Hilbert (Reproducing Kernel Hilbert Space, RKHS). No necesitamos la expresión de las componentes del vector en el espacio de características.

p. 6/3 Transformaciones no lineales ϕ(x 1 ) T ϕ(x 2 ) = x 2 1x 2 2 + 2x 1 x 2 + 1 = (x 1 x 2 + 1) 2 Esta transformación incrementa la posibilidad de que haya separabilidad lineal. Este es un ejemplo de correspondencia en un espacio de Hilbert. En una dimensión, no es posible clasificar los datos linealmente. 6 5 4 3 2 1 0 2 0 2 4 6 8 10 12 14 16 Este es un ejemplo en dos dimensiones; en dimensión infinita, siempre se puede clasificar linealmente cualquier conjunto de datos. Y eso es bueno y es malo: La complejidad es infinita, y hay que controlarla.

p. 7/3 El truco de los kernels El hecho de necesitar sólo los productos escalares nos permite reproducir cualquier algoritmo lineal en un espacio de Hilbert. Esto es: Existe una versión no lineal de cualquier algoritmo lineal basado en datos. Si encontramos una transformación no lineal ϕ(x) a un espacio de mayor dimensionalidad provisto de un producto escalar que puede ser expresado como (kernel): K(x i, x j ) = ϕ(x i ) T ϕ(x j ) (1) entonces podremos construir una versión no lineal del mismo algoritmo donde la transformación no lineal es ϕ. Este es el truco de los kernels.

p. 8/3 El truco de los kernels Recordemos que no se necesitan los vectores, así que no debemos preocuparnos por la dimensión del espacio en cuanto a coste computacional. Lo que necesitamos es conocer el kernel. Los más comunes son: Lineal: K(xi, x j ) = x T i x j Gausiano:K(xi, x j ) = exp ( xi x j 2 2σ 2 ) Polinómico: K(xi, x j ) = ( x T i x j + 1 ) n Son kernels todas aquellas funciones K(u, v) que verifican el teorema de Mercer, es decir, para las cuales u,v para toda función g( ) de cuadrado integrable. K(u, v)g(u)g(v)dudv > 0 (2)

p. 9/3 Ejemplos El algoritmo de mínimos cuadrados admite una versión no lineal inmediata. Sea un estimador lineal y i = w T x i + e i (3) Se desea minimizar el error cuadrático medio de la estimación, es decir: mine La solución a esta optimización es ( y i w T x i ) 2 (4) w = R 1 p (XX T ) 1 Xy (5) donde X es una matriz conteniendo un conjunto de vectores columna x i, e y es un vector con los valores deseados de y i.

p. 10/3 Ejemplos Primer paso: encuéntrese una formulación basada en productos escalares. Para ello, téngase en cuenta el siguiente hecho: w es una combinación lineal de los datos de entrada. Por lo tanto: w = i α i x i = Xα (6) Cuánto vale el vector α? Se encuentra relacionando (5) (primal) con (6) (dual): y de ahí Xα = (XX T ) 1 Xy (7) X T Xα = X T (XX T ) 1 Xy = y (8) α = ( X T X) 1 y = K 1 y (9)

p. 11/3 Ejemplos La matriz K contiene los productos escalares de los datos. Una vez hallado α, el estimador puede reescribirse como: y i = j α j x T j x i (10) Segundo paso: Aplíquese una transformación no lineal ϕ( ) a los datos hacia un espacio de Hilbert provisto de un kernel K(, ). El estimador (ahora no lineal) se reescribe como y i = j α j ϕ(x j ) T ϕ(x i ) = j α j K(x j,x i ) (11) donde las variables duales α i se calculan como α = K 1 y (12) con K ij = K(x i,x j ) (13)

p. 12/3 Kernels compuestos Diferentes kernels proporcionan diferentes características a los estimadores. Los datos pueden transformarse hacia varios espacios de Hilbert (con diferentes kernels) a la vez. Alternativamente, diferentes fragmentos de cada patrón se pueden transformar a diferentes espacios de Hilbert La concatenación de estos espacios de Hilbert es un nuevo espacio de Hilbert.

p. 13/3 Kernels compuestos En efecto, dado un vector x = ( x a x b ) una transformación de la forma ϕ(x) = ( ϕ a (x a ) ϕ b (x b ) ) lo sitúa en un espacio de Hilbert compuesto de los espacios H a y H b cuyo producto escalar es ϕ(x 1 ) T ϕ(x 2 ) = ϕ(x a 1) T ϕ(x a 2) + ϕ(x b 1) T ϕ(x b 2) = K(x a 1,x a 2) + K(x b 1,x b 2) (14) Lo que demuestra que una suma de kernels es un kernel. Esta técnica se denomina suma directa de Espacios de Hilbert.

p. 14/3 Kernels compuestos Existen aproximaciones aún más generales basadas en las propiedades de los espacios de Hilbert. De la misma forma se puede demostrar que si se construye un vector con el producto tensorial de los vectores ϕ(x a ) y ϕ(x b ), se consigue el kernel tensorial, de la forma K(x 1,x 2 ) = K(x a 1,x a 2)K(x b 1,x b 2) (15)

p. 15/3 Máquinas de vectores soporte Complejidad Clasificador lineal Interpretación Geométrica Optimización práctica de la SVM Condiciones de Karush Kuhn Tucker Solución Ejemplos

p. 16/3 Complejidad Vapnik y Chervonenkis demostraron que el riesgo de error en test de una máquina de clasificación aumenta con su complejidad (Véase tambien Thikonov). Demostraron que la complejidad de una máquina lineal disminuye con el módulo de su vector de pesos. min{complejidad} min{ w 2 } Así que tenemos un método sencillo de controlar el sobreentrenamiento de una máquina lineal...y un método sencillo para encontrar versiones no lineales.

p. 17/3 Clasificador SVM lineal The SVM idea: Dado un clasificador lineal f(x) = w T x + b minimizamos el error en entrenamiento y, a la vez, su complejidad, minimizando el módulo de su vector de pesos. Algoritmo: Minimizar w 2 + C N i=1 ξ i (16) sujeto a y i (w T x i + b) 1 ξ i (17) ξ i 0 es la pérdida para la muestra x. C es el compromiso entre error empírico y complejidad.

p. 18/3 Interpretación Geométrica Llamamos margen al área entre los planos y(w T x + b) 1. Para una muestra dentro del margen definimos una pérdida ξ i. Queremos minimizar la suma de pérdidas. A la vez, minimizamos el módulo de los pesos Esto es equivalente a maximizar el margen: es inmediato demostrar que d 2 = 1 w 2

p. 19/3 Optimización prctica de la SVM La minimización del funcional primal 1 2 w 2 + C N i=1 ξ i (18) sujeto a y i (w T x i + b) + ξ i 1 (19) con ξ i 0 es un problema con restricciones. Debemos usar multiplicadores de Lagrange El lagrangiano es L = 1 2 w 2 + C N ξ i i=1 N i=1 ] α i [y i (w T x i + b) + ξ i 1 N µ i ξ i (20) i=1

p. 20/3 Optimización prctica de la SVM 20 18 16 14 12 10 Constraints Constraint s gradient Weight vector gradient 8 6 4 2 2 4 6 8 10 12 14 16 18 20 L = 1 2 w 2 + C N ξ i i=1 N i=1 α i [ y i (w T x i + b) + ξ i ] N µ i ξ i (21) i=1

p. 21/3 Condiciones de Karush Kuhn Tucker Las condiciones para este problema son: L pd w = 0 dl pd = 0 db L pd = 0 ξ i (22) α i, µ i 0 (23) α i y i [(w T x i + b) 1 + ξ i ] = 0 (24) µ i ξ i = 0 (25)

p. 22/3 Solución Si se aplican las condiciones (22) se obtiene L pd w = w N i=1 α i y i x i = 0 (26) dl pd db = N α i y i = 0 (27) i=1 El resultado (26) da la solución para los parámetros L pd ξ i = C α i µ i = 0 (28) w = N α i y i x i (29) i=1

p. 23/3 Solución Combinando esas ecuaciones con el lagrangiano se obtiene el dual L d = 1 2 N N α i α j y i y j x T i x j + N α i (30) i=1 j=1 i=1 que puede escribirse como L d = 1 2 αt Y KY α + 1 T α (31) siendo α un vector columna conteniendo los multiplicadores de Lagrange α i, Y una matriz diagonal Y ii = y i, y K la matroz de productos escalares. K ij = x T i x j (32)

p. 24/3 Solución La solución es una combinación lineal de muestras x. Los parámetros de la combinación son los multiplicadores de Lagrange α i. Sólo un subconjunto será diferente de cero. Sus muestras asociadas son los llamados vectores soporte. La solución será dispersa. A partir de (29) la máquina puede expresarse como: f(x j ) = w T x j + b = N α i y i x T i x j + b (33) i=1

p. 25/3 Resumen del algoritmo Tómese un conjunto de muestras etiquetadas {xi, y i }. Calcúlese la matriz K de productos escalares. Optimícese el funcional L d = 1 2 αt Y KY α + 1 T α Constrúyase la máquina usando la expresión (29) del vector de pesos: f(x j ) = N α i y i x T i x j + b (34) i=1

p. 26/3 Notas SÓLO SE NECESITAN PRODUCTOS ESCALARES. La solución es dispersa. Hay existencia y unicidad de solución, ya que L d = 1 2 αt Y KY α + 1 T α es una forma cuadrática.

p. 27/3 Ejemplos Clasificador lineal 3 120 2 100 1 0 1 80 60 40 20 2 0 3 3 2 1 0 1 2 3 20 0 5 10 15 20 Clasificador SVM lineal y los valores de los multiplicadores de Lagrange.

p. 28/3 Ejemplos Comparación del clasificador lineal SVM y el MMSE 1.4 1.2 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.5 0 0.5 1 1.5

p. 29/3 Ejemplos Construir una máquina no lineal es inmediato: Aplíquese una transformación no lineal ϕ( ) a los datos. El clasificador será y i = j α j K(x j,x i ) + b (35) La optimización se lleva a cabo de forma idéntica al clasificador lineal, con la salvedad de que K ij = K(x i,x j ) (36)

p. 30/3 Ejemplos 6 4 2 0 2 4 6 8 6 4 2 0 2 4 6

p. 31/3 Conclusiones El truco de los kernels permite construir versiones no lineales de los algoritmos lineales, dotándolos de mayor potencia. Los kernels se interpretan como productos escalares en espacios de alta dimensionalidad. Hay kernels con gran versatilidad y se pueden construir kernels compuestos. Con el número de dimensiones aumenta la complejidad, y con ella ella el riesgo del estimador. Las máquinas de vectores soporte son una alternativa a los algorimos MMSE que controlan la complejidad mediante regularización. Presentan existencia y unicidad, al igual que el MMSE Se pueden realizar versiones no lineales usando el truco de los kernels, obteniendo máquinas de gran capacidad expresiva, pero con control del sobreentrenamiento.