Métodos kernel para clasificación

Transcripción

1 Métodos kernel para clasificación S. Van Vaerenbergh, I. Santamaría GTAS, Universidad de Cantabria 20 de marzo de 2018

2 Contents Aprendizaje Estadístico Métodos Kernel Introducción SVM lineal Introducción Formulación SVM No lineal Formulación Kernels Implementación Extensiones Extensiones Conclusiones Conclusiones Métodos kernel clasificación 1/35

3 Qué es el aprendizaje estadístico? Suponga tres clasificadores entrenados sobre el conjunto de entrenamiento de la figura Qué clasificador funcionará mejor sobre el conjunto de test? Es evidente que existe un compromiso entre: Error en el entrenamiento/error de generalización (test) Sesgo/varianza del modelo (clasificador) entrenado El aprendizaje estadístico formaliza estas ideas, caracterizando las propiedades matemáticas de las máquinas de aprendizaje Métodos kernel clasificación 2/35

4 Aprendizaje Estadístico En un problema supervisado de clasificación (binario) queremos inferir una función f (x) : X {±1} Conjunto de entrenamiento: (X, Y) = {(x i, y i )} Función de pérdidas (loss function) l(x, y, f ) (p.ej., l(x, y, f ) = 1 2 f (x) y ) Un buen clasificador debería minimizar el risk or test error 1 R[f ] = f (x) y dp(x, y) 2 Sin embargo, sólo podemos estimar el empirical risk or training error R emp [f ] = n i=1 1 2 f (x i) y i Métodos kernel clasificación 3/35

5 what for unseen data (test dataset)? Aprendizaje Estadístico Métodos Kernel SVM lineal SVM No lineal Extensiones Conclusiones perform reasonably well for all possible test datasets. El error de test se puede acotar como belled. R[f ] R emp [f ] + φ(f ) ation : minimize R r (f, l, λ) = R e (f, l) + λω(f ). lexity, weighed donde with φ(f ) trade-off es un término λ. de capacidad que mide la complejidad de las funciones que puede aprender nuestra odels too fit máquina to training data, poor for test data). models tooesimple imperativo to follow restringir trendsel inconjunto data). de funciones f (x) Error Bound on the risk (test error) Capacity term Training error (empirical risk) Complexity Métodos kernel clasificación 4/35

6 La idea anterior conduce al principio del Structural Risk Minimization o Regularized Empirical Risk Minimization: es necesario minimizar una versión regularizada del error de entrenamiento minimize R emp [f ] + λω(f ), donde Ω(f ) mide la complejidad de la máquina de aprendizaje, y λ es un parámetro de regularización λ Modelos o fronteras simples λ Modelos o fronteras complejas (riesgo de sobreajuste) Habitualmente λ se estima mediante validación cruzada Métodos kernel clasificación 5/35

7 Introducción El secreto del éxito de muchos algoritmos de machine learning se basa en la búsqueda de un espacio de características efectivo/adecuado para nuestro problema Numerosas aplicaciones aplican una etapa previa de reducción de la dimensionalidad (PCA, LDA) x i R d y i R r, r < d Los métodos kernel siguen una aproximación distinta en la que se realiza (habitualmente de manera implícita) una expansión de la dimensionalidad x i R d Φ(x i ) R r, r >> d Qué ventaja puede tener ir a un espacio de dimensión más alta? Métodos kernel clasificación 6/35

8 Considere un problema de clasificación binaria en R Conjunto de entrenamiento: { -4, -3,-1, 0, 1, 3, 4 } Φ(x) = (x, x 2 ) Clase 1 Clase 1 El mapping Φ(x) = [x, x 2 ] T produce un problema lineal en el espacio expandido (espacio de características o feature space) Métodos kernel clasificación 7/35

9 Habitualmente no es necesario conocer explícitamente el mapping Φ(x) Basta con conocer la función núcleo o kernel asociado K (x, x ) = Φ(x) T Φ(x ) Los métodos kernel obtienen una solución lineal en el espacio de características (que se convierte en una solución no lineal en el espacio de entrada) Métodos kernel clasificación 8/35

10 Support Vector Machine (SVM) La SVM es el método kernel estándar en clasificación Resuelve un problema de clasificación lineal en el espacio de características aplicando el principio SRM min w,b n i=1 1 2 f (x i) y i + λω(f ) Para entender los principios de funcionamiento y el problema de optimización asociado, analizaremos en primer lugar la SVM lineal hiperplano óptimo de separación Métodos kernel clasificación 9/35

11 SVM lineal Problema binario de clasificación {(x i, y i = ±1)} Clases linealmente separables Clasificador lineal: f (x) = w T x + b = w, x + b Los vectores soporte w T x j + b = ±1 actúan como separación entre clases Maximizamos la distancia entre hiperplanos (margen) min w,b 1 2 w 2 s.t. y i ( w T x i + b ) 1, i Métodos kernel clasificación 10/35

12 Solución El problema anterior es convexo Solución única Lagrangiano (problema dual) L(w, b, α) = 1 2 w 2 + i=1 Strong duality KKT optimality 1. El hiperplano óptimo es una combinación lineal de los patrones de entrada n n L w (w, b, α) = w + α i y i x i = 0 w = α i y i x i i=1 n ( )) α i 1 y i (w T x i + b 2. El hiperplano óptimo sólo depende de los puntos que están sobre hiperplanos soporte: los vectores soporte i=1 α i ( 1 yi (w T x i + b) ) = 0, i y i (w T x i + b) = 1 3. b se puede obtener de cualquier vector soporte Métodos kernel clasificación 11/35

13 Sustituyendo w = n i=1 α iy i x i en el Lagrangiano, se obtiene el problema dual, que es el que típicamente se resuelve min α s.t. 1 2 i j α iα j y i y j x T i x j i α i i α iy i = 0, α i 0, i Definiendo α = (α 1,..., α n ) T, 1 = (1,..., 1) T, Y = diag (y 1,..., y n ) y K una matriz n n con elementos k(i, j) = x T i x j = x i, x j, obtenemos Problema QP (Quadratic Programming) min α 1 2 αt YKYα 1 T α s.t. α T y = 0, α 0 Métodos kernel clasificación 12/35

14 Soft-margin SVM Clases no separables Permitimos errores de clasificación introduciendo holguras (slack variables) en el problema de optimización: ξ i Parámetro de regularización C penalización El dual es también un problema QP (con 0 α i C) min w,b 1 2 w 2 + C i ξ i s.t. y i ( w T x i + b ) 1 ξ i, i ξ i, 0 i Métodos kernel clasificación 13/35

15 SVM No Lineal Mapeamos los datos a un espacio de caraterísticas de dimensión mayor (probablemente ): x i Φ(x i ) Resolvemos una SVM lineal en el espacio de características Hiperplano óptimo en el espacio de características w = i α i y i Φ(x i ) El problema dual es el mismo!! min α 1 2 αt YKYα 1 T α s.t. α T y = 0, 0 α C pero empleando ahora una matriz kernel K con elementos k(i, j) = Φ(x i ) T Φ(x j ) = Φ(x i ), Φ(x i ) Métodos kernel clasificación 14/35

16 En el espacio transformado la función de decisión es lineal f (x) = w T Φ(x) + b Pero en el espacio de entrada la función es no lineal, y se expresa nuevamente en función del kernel f (x) = ( α i y i Φ(x i ) i ) T Φ(x) + b }{{} w T = i α iy i Φ(x i ) T Φ(x) + b = i α iy i k(x i, x) + b Esta es la idea básica del kernel trick Métodos kernel clasificación 15/35

17 Ejemplo: kernel polinómico Problema bi-dimensional x = [ x1 Definimos un mapeo polinómico a una espacio 3D x 2 ] x 2 1 Φ(x) = x2 2 2x1 x 2 La función kernel asociada es k(x, y) = Φ(x), Φ(y) = Φ(x) T Φ(y) = = x 2 1 y x 2 2 y x 1y 1 x 2 y 2 Métodos kernel clasificación 16/35

18 Funciones kernel Teorema de Mercer (informal) Cualquier función k(, ) tal que la matriz de kernel K para cualquier conjunto de entrenamiento sea positiva semidefinida, es decir x T Kx 0, x, induce un producto escalar en un espacio transformado. Es decir k(x i, x j ) puede escribirse como k(x i, x j ) = Φ(x i ), Φ(x j ) = Φ(x i ) T Φ(x j ) La transformación Φ(x) es todavía desconocida Pero no la necesitamos siempre que elijamos un kernel positivo semidefinido Problema dual QP Métodos kernel clasificación 17/35

19 Kernels típicos Lineal k(x i, x j ) = x T i x j Polinómico (parámetros p y c) ( k(x i, x j ) = x T i x j + c Gaussiano (parámetro σ 2 ) k(x i, x j ) = exp ( ) p x i x j 2 2σ 2 Podemos crear nuevos kernel mediante transformaciones 1. k 1 (x, y) + k 2 (x, y) 2. k 1 (x, y)k 2 (x, y) 3. exp(k 1 (x, y)) Nota: La sigmoide tanh ( x T y + b ) no es un kernel válido! Métodos kernel clasificación 18/35 )

20 String kernel También se pueden definir funciones kernel sobre datos en espacios no vectoriales (e.g, strings) Dadas dos secuencias s = statistics t = computation Generamos todos los substrings de una determinada longitud (p.e. 3) s t {sta, tat, ati, tis, ist, sti, tic, ics} {com, omp, mpu, put, uta, tat, ati, tio, ion} El kernel se define contando en número de substrings comunes a las dos secuencias k(s, t) = 2 También se pueden definir kernels sobre grafos, texto, para genómica, etc. Métodos kernel clasificación 19/35

21 La matriz de kernel Para resolver un problemas de clasificación con SVMs sólo se necesita la matriz de kernel K (Gramm matrix) k(x 1, x 1 ) k(x 1, x 2 ) k(x 1, x n ) k(x 2, x 1 ) k(x 2, x 2 ) k(x 2, x n ) K = k(x n, x 1 ) k(x n, x 2 ) k(x n, x n ) k(x i, x j ) es una medida de similitud entre patrones K es n n Dificultades de computacionales y de almacenamiento Métodos kernel clasificación 20/35

22 Distancia para el kernel Gaussiano El kernel Gaussiano es un producto escalar (similitud) en un espacio transformado de dimensión infinita k(x, y) = Φ(x) T Φ(y) = e x y 2 2σ 2 La distancia entre Φ(x) y Φ(y) es d(φ(x), Φ(y)) = ) Φ(x) Φ(y) 2 = 2 (1 e x y 2 2σ 2 = 2 (1 k(x, y)) Métodos kernel clasificación 21/35

23 d(0,x) Ejemplo: Caso 1D σ 2 = x Métodos kernel clasificación 22/35

24 Ejemplo: Caso 2D σ 2 = 0, 2 σ 2 = 0,5 σ 2 = σ 2 distancia muy localizada: todos los puntos fuera de un radio están igualmente lejos σ 2 distancia global, equivalente a un kernel lineal Métodos kernel clasificación 23/35

25 Ajuste de una SVM Consideramos una SVM con kernel Gaussiano min α 1 2 αt YKYα 1 T α s.t. α T y = 0, 0 α C k(x i, x j ) = e γ x y 2 donde hemos definido γ = 1 2σ 2 La elección de unos parámetros γ y C es esencial para obtener buenas prestaciones Habitualmente se emplea cross-validation Métodos kernel clasificación 24/35

26 Influencia de C El parámetro de regularizacion C establece un compromiso entre el error de entrenamiento y la complejidad del modelo C modelo sencillo, mayor error en el entrenamiento, suavidad en la frontera de decisión C modelo complejo, poca suavidad de la frontera de decisión, riesgo de sobreajuste Métodos kernel clasificación 25/35

27 Ejemplo C= C= 0.01 Linear: u T v RBF: exp( u v 2 ) Poly: ( u T v + r) d Linear: ut v RBF: exp( u v 2 ) Poly: ( u T v + r) C= 100 d Métodos kernel clasificación 26/35 Linear: u T v RBF: exp( u v 2 ) Poly: ( u T v + r) d

28 Influencia de γ El parámetro del kernel Gaussiano λ (a.k.a. bandwidth) controla la velocidad a la que k(x, y) 0 en función de la distancia Recuerde que para clasificar un nuevo patrón x la SVM computa f (x) = i α i y i k(x i, x) + b C 1 C 0 0 γ mayor solape entre Gaussianas, suavidad en la frontera de decisión γ todos los puntos tienden a ser ortogonales unos a otros sobreajuste Métodos kernel clasificación 27/35

29 Ejemplo γ= γ= 0.01 Linear: u T v RBF: exp( u v 2 )Poly: ( u T v + r) d Linear: u T v RBF: exp( u v 2 )Poly: ( u T v + r) d γ= 100 Linear: u T v RBF: exp( u v 2 )Poly: ( u T v + r) d Métodos kernel clasificación 28/35

30 Comparación kernels Lineal C= 1 Gaussiano C= 1,γ= 10 Polinómico C= 1,orden= 10 Métodos kernel clasificación 29/35

31 Implementación: SVM solvers Problema QP Interior Point Methods 1. Requiere almacenar K en memoria: O(n 2 ) 2. Convergencia lenta, gasto computacional O(n 3 ) Se han desarrollado algoritmos específicos más eficientes para este problema Sequential Minimal Optimization (SMO): Resuelve una serie de subproblemas más pequeños LIBSVM: Paquete estándar para SVMs Implementa una versión del algoritmo SMO Interfaces en R, Matlab, Python,... Métodos kernel clasificación 30/35

32 Multi-class SVM Metodología estándard: One-Versus-All En un problema con K clases resolvemos K problemas binarios Cada SVM está entrenada para separar una clase del resto de patrones Sobre un nuevo patrón de test, x, la SVM k-ésima proporciona una salida (score) f k (x) = i α k i y k i k(x k i, x) + bk, k = 1,..., K La clase finalmente elegida es k = argmax f k (x) k Métodos kernel clasificación 31/35

33 One-class SVM Objetivo: encontrar una SVM que englobe una región del espacio donde los datos viven Problema de clasificación: separar datos de outliers Separación en el espacio transformado Un hiperplano (Schölkopf et al) Una hiperesfera (Tax and Duin) Métodos kernel clasificación 32/35

34 One-class SVM min w,ξ i,ρ 1 2 w n νn i=1 ξ i ρ s.t. w T Φ(x i ) ρ ξ i, i ξ i 0 El problema dual es equivalente a una SVM convencional El parámetro ν caracteriza la solución ν-svm Es una cota superior de la fracción de patrones de entrenamiento etiquetados como outliers Es una cota inferior del número de vectores soporte i Métodos kernel clasificación 33/35

35 Ejemplo ν-svm, kernel Gaussiano, γ = 0,1, ν = 0,1 Métodos kernel clasificación 34/35

36 Conclusiones Una de las máquinas de aprendizaje más populares Las SVMs implementan el criterio SRM (Structural Risk Minimization) Problema dual QP: solución única, problema bien definido Hay que elegir el kernel (medida de similitud entre patrones), sus hiperparámetros, y el parámetro de regularización Solución dispersa (sparse) expresada en función de unos pocos vectores soporte Proporcionan (todavía) resultados competitivos en muchas aplicaciones. En especial, cuando los datos de entrada no tienen una dimensionalidad muy alta Métodos kernel clasificación 35/35