SISTEMAS INTELIGENTES



Documentos relacionados
MÁQUINA DE VECTORES DE SOPORTE

Support Vector Machines

MÁQUINAS DE VECTORES DE SOPORTE

Support Vector Machine

Anexo 1: Demostraciones

Jesús Getán y Eva Boj. Marzo de 2014

VECTORES. Módulo, dirección y sentido de un vector fijo En un vector fijo se llama módulo del mismo a la longitud del segmento que lo define.

Optimización, Solemne 2. Semestre Otoño 2012 Profesores: Paul Bosch, Rodrigo López, Fernando Paredes, Pablo Rey Tiempo: 110 min.

UNIVERSIDAD AUTÓNOMA DE BAJA CALIFORNIA FACULTAD DE INGENIERÍA MEXICALI

UNIDAD 6. Programación no lineal

1. Ecuaciones no lineales

INTRODUCCIÓN A LA PROGRAMACIÓN MATEMÁTICA

CÁLCULO PARA LA INGENIERÍA 1

1. Números Reales 1.1 Clasificación y propiedades

Definición de vectores

BASES Y DIMENSIÓN. Propiedades de las bases. Ejemplos de bases.

Subespacios vectoriales en R n

Tema 5: Dualidad y sensibilidad de los modelos lineales.

Aplicaciones Lineales

4.3 INTERPRETACIÓN ECONÓMICA DE LA DUALIDAD

1. Producto escalar, métrica y norma asociada

Matemáticas

PROBLEMA [1.5 puntos] Obtener la ecuación de la recta tangente en el punto ( 2, 1) a la curva dada implícitamente por y 3 +3y 2 = x 4 3x 2.

Ejemplo: Resolvemos Sin solución. O siempre es positiva o siempre es negativa. Damos un valor cualquiera Siempre + D(f) =

Estructuras algebraicas

Tema 3. Espacios vectoriales

Análisis de componentes principales

Números Reales DESIGUALDADES DESIGUALDADES. Solución de desigualdades. 2x + 4 < 6x +1 6x + 3 8x 7 x 2 > 3x 2 5x + 8. INECUACIONES o DESIGUALDADES

Tema 2. Espacios Vectoriales Introducción

Aula Banca Privada. La importancia de la diversificación

Análisis de medidas conjuntas (conjoint analysis)

_ Antología de Física I. Unidad II Vectores. Elaboró: Ing. Víctor H. Alcalá-Octaviano

Espacios Vectoriales

MATEMÁTICAS II APUNTES DE TEORÍA CURSO ACADÉMICO Carlos Ivorra

1. Breve resumen de optimización sin restricciones en varias variables.

a < b y se lee "a es menor que b" (desigualdad estricta) a > b y se lee "a es mayor que b" (desigualdad estricta)

Matemáticas I: Hoja 3 Espacios vectoriales y subespacios vectoriales

Ingeniería en Informática

ORGANIZACIÓN INDUSTRIAL (16691-ECO) PARTE II: MODELOS DE COMPETENCIA IMPERFECTA TEMA 2: EL MONOPOLIO SOLUCIÓN A LOS PROBLEMAS PROPUESTOS

Covarianza y coeficiente de correlación

OPTIMIZACIÓN ESCALAR. María Jesús de la Fuente Aparicio Dpto. Ingeniería de Sistemas y Automática

Tema 1. VECTORES (EN EL PLANO Y EN EL ESPACIO)

Ecuaciones de primer grado con dos incógnitas

Geometría Tridimensional

DIRECTRICES Y ORIENTACIONES GENERALES PARA LAS PRUEBAS DE ACCESO A LA UNIVERSIDAD

Matemáticas. Si un error simple ha llevado a un problema más sencillo se disminuirá la puntuación.

Métodos Iterativos para Resolver Sistemas Lineales

DOMINIO Y RANGO página 89. Cuando se grafica una función existen las siguientes posibilidades:

4º ESO 1. ECUAC. 2º GRADO Y UNA INCÓGNITA

Definición Dados dos números naturales m y n, una matriz de orden o dimensión m n es una tabla numérica rectangular con m filas y n columnas.

MICROECONOMÍA II PRÁCTICA TEMA III: MONOPOLIO

Práctica 11 SVM. Máquinas de Vectores Soporte

Clasificación de métricas.

SVM: Máquinas de Vectores Soporte. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid

Ejercicios de Programación Lineal

MATEMÁTICAS EMPRESARIALES II:

Características de funciones que son inversas de otras

Ejemplo del modelo de generaciones solapadas

2) Se ha considerado únicamente la mano de obra, teniéndose en cuenta las horas utilizadas en cada actividad por unidad de página.

Apoyo para la preparación de los estudios de Ingeniería y Arquitectura Física (Preparación a la Universidad) Unidad 4: Vectores

Sistemas de ecuaciones lineales

1 Espacios y subespacios vectoriales.

(A) Primer parcial. si 1 x 1; x 3 si x>1. (B) Segundo parcial

Ecuaciones Diferenciales Tema 2. Trasformada de Laplace

BREVE MANUAL DE SOLVER

Vectores: Producto escalar y vectorial

Muchas veces hemos visto un juego de billar y no nos percatamos de los movimientos de las bolas (ver gráfico 8). Gráfico 8

8.1. Introducción Dependencia/independencia estadística Representación gráfica: diagrama de dispersión Regresión...

VECTORES EN EL PLANO

Espacios generados, dependencia lineal y bases

Matemáticas 2º BTO Aplicadas a las Ciencias Sociales

FUNCIONES CUADRÁTICAS Y RACIONALES

VECTORES. Abel Moreno Lorente. February 3, 2015

Módulo 9 Sistema matemático y operaciones binarias

Tema 2 Límites de Funciones

Unidad III: Programación no lineal

Examen de Matemáticas 2 o de Bachillerato Mayo 2003

PROGRAMACIÓN LINEAL Introducción Inecuaciones lineales con 2 variables

APUNTES DE MATEMÁTICAS TEMA 4: VECTORES 1º BACHILLERATO

Este documento ha sido generado para facilitar la impresión de los contenidos. Los enlaces a otras páginas no serán funcionales.

Matrices Invertibles y Elementos de Álgebra Matricial

Matrices equivalentes. El método de Gauss

Clase 15 Espacios vectoriales Álgebra Lineal

Funciones más usuales 1

Formas bilineales y cuadráticas.

CURSO CERO. Departamento de Matemáticas. Profesor: Raúl Martín Martín Sesiones 18 y 19 de Septiembre

Unidad 6 Cálculo de máximos y mínimos

1. Teorema del Valor Medio

1 v 1 v 2. = u 1v 1 + u 2 v u n v n. v n. y v = u u = u u u2 n.

Problema de Programación Lineal

ETSIINGENIO 2009 DIBUJO DE GRAFOS MEDIANTE ALGORITMOS GENÉTICOS

Listas de vectores y conjuntos de vectores

1.4.- D E S I G U A L D A D E S

Ejemplo 1.2 En el capitulo anterior se demostró que el conjunto. V = IR 2 = {(x, y) : x, y IR}

ECUACION DE DEMANDA. El siguiente ejemplo ilustra como se puede estimar la ecuación de demanda cuando se supone que es lineal.

Apuntes de Matemática Discreta 9. Funciones

E 1 E 2 E 2 E 3 E 4 E 5 2E 4

Funciones, x, y, gráficos

Juan Antonio González Mota Profesor de Matemáticas del Colegio Juan XIII Zaidín de Granada

Transcripción:

SISTEMAS INTELIGENTES T11: Métodos Kernel: Máquinas de vectores soporte {jdiez, juanjo} @ aic.uniovi.es

Índice Funciones y métodos kernel Concepto: representación de datos Características y ventajas Funciones más usadas Kernelización de algoritmos Máquinas Vectores Soporte (SVM) Concepto de Margen: maximización Teoría: Optimización de funciones Clasificación: caso separable y margen blando Regresión

Kernels (I) Constituyen un forma estándar de representar los datos Hay datos que no se pueden representar mediante vectores Ejemplo: cadenas genéticas Sustituyen las representaciones vectoriales por otra genérica aplicable a datos no vectoriales Permiten construir algoritmos de aprendizaje genéricos que pueden utilizarse sobre cualquier tipo de dato (vectorial o no)

Kernels (II) Representamos los datos mediante un matriz cuadrada donde cada elemento mide la similitud entre dos ejemplos

Kernels (III) Atributos Atr-1 Atr-n Clase(opcional) ejemplo 1 clase ej-1 ejemplo n clase ej-n K Ej 1 Ej j Ej n Ej 1 k(x 1,x 1 ) k(x 1,x j ) k(x 1,x n ) Ej i k(x i,x 1 ) k(x i,x j ) k(x i,x n ) Ej n k(x n,x 1 ) k(x n,x j ) k(x n,x n )

Funciones kernel: idea Representar la similitud entre dos objetos Aproximación General

Producto escalar Induce una métrica: (1) norma (2) distancia Interpretación geométrica: Salvo escala de los vectores, el producto escalar mide la separación geométrica de sus direcciones. Esta medida está comprendida entre -1 y +1: Es máxima (+1) cuando coinciden y Mínima (-1) cuando son opuestos Es 0 cuando son perpendiculares

Funciones kernel (I) Simétrica Semidefinida positiva Si es simétrica y semidefinida positiva, entonces existe un espacio de Hilbert y una función tal que

Funciones Kernel (II) Si son kernels en entonces también son kernels

Ejemplos de Funciones Kernel Kernel Lineal Kernel Polinómico Kernel Gaussiano Kernel string, kernel booleano,

Métodos Kernel Son los métodos de aprendizaje que usan para representar los ejemplos de entrenamiento a través de matrices calculadas mediante la aplicación de funciones kernel Son métodos genéricos Kernelización: siempre que un algoritmo se puede expresar en términos de productos escalares en el espacio de entrada, se pueden reemplazar por productos escalares en un cierto espacio de características mediante una función kernel

Clasificación por mínima distancia

Perceptrón (versión sin kernels) No es kernelizable, no aparecen productos escalares

Perceptrón (versión dual, kernelizable)

El espacio de características (I)

El espacio de características (II)

Ejemplo (I)

Ejemplo (II)

Máquinas de Vectores Soporte No hay nada más práctico que una buena teoría Introducidas en los 90 por Vapnik Se basan en la Minimización del Riesgo Estructural (SRM) 92: maximización del margen y uso de kernels 95: margen blando Rápido desarrollo: algoritmos más eficientes, diseño de kernels

General/Específico: más gráficamente Atributo 2 Específica General Atributo 1

Planteamiento

Minimización del Riesgo Estructural Minimización del Riesgo Empírico (ERM): podemos interpretarlos como sistemas que tratan de reducir el error empírico Minimización del Riesgo Estructural (SRM): estudian el riesgo estructural en el espacio de hipótesis + + + + + + + + + +

Maximización del Margen + + + _ + + _ + _ + + +

Por qué maximizar el margen? Resistencia al ruido en los datos de entrada Resistencia al error en el cálculo de la función de clasificación Propiedades matemáticas que permiten acotar de manera razonable el error de generalización

Margen funcional y geométrico Margen funcional: la menor diferencia entre aplicar la función a los ejemplos de la clase positiva y negativa Margen geométrico: distancia entre los ejemplos de ambas clases, ed, la suma de la distancia del hiperplano al ejemplo más próximo de cada clase definen el mismo hiperplano. Para maximizar uno de ellos debemos mantener fijo el otro. Si mantenemos fijo el funcional ( ), podemos maximizar el geométrico

Maximizando el margen geométrico + + + + + + + + _

Maximizar el margen: minimizar la norma Resolviendo este problema obtendremos el hiperplano de margen geométrico máximo que clasifica correctamente todos los ejemplos. Para resolverlo aplicaremos métodos conocidos de optimización de funciones

Optimización de funciones Problema primal el objetivo es obtener los valores de las variables primales w que minimizan la función objetivo f. Las solución está sujeta a que dichos valores respeten las restricciones de desigualdad g i. Programación lineal: f y g i lineales Programación cuadrática: f cuadrática y g i lineales Conjunto admisible: todos los puntos del dominio que cumplen las restricciones Óptimo w*: para otro w del cjto admisible

Convexidad: óptimos globales (I) Def #1. Un dominio es convexo si y solo si el segmento de la recta que une cualquier par de puntos del dominio también está incluido en el dominio si el dominio es convexo, las restricciones lineales no eliminan la convexidad del cjto admisible Def #2. Una función es convexa si Def #3. Una función doblemente diferenciable es convexa si su matriz Hessiana es semidefinida positiva Def #4. Si tanto el dominio, como la función objetivo y las restricciones son convexas, entonces el problema se dice que es convexo

Convexidad: óptimos globales (II) Prop #1. Si una función es convexa, entonces cualquier mínimo local es también global Demostración: Para cualquier v w*, por definición de mínimo local, existirá un θ suficientemente cerca de 1 tal que, global para cualquier v y por tanto w* mínimo

Teoría de Lagrange: función lagrangiana Dado el problema de optimización: se define la función langragiana como donde los α i se denominan multiplicadores de Lagrange (o variables duales) y deben tener un valor no negativo. Indican la importancia de cada restricción

Dualidad (I) Def #5. El problema dual del problema primal planteado es: bajo ciertas condiciones, al resolver el problema dual (restricciones más simples) obtenemos también la solución del problema primal asociado.

Dualidad (II) Teorema. sea w una solución admisible del problema primal y α del dual, entonces W(α) f(w) El valor del problema dual está acotado superiormente por el primal Si f(w*)=w(α*) respetándose las restricciones, entonces w* y α* son, respectivamente, las soluciones del primal y dual.

Condiciones de Karush-Kuhn-Tucker (KKT) Teorema. Dado el problema de optimización primal planteado, si es convexo, las condiciones necesarias y suficientes para que w* sea óptimo es que exista α* tal que

Lectura de las condiciones KKT Los valores de las variables primales y duales que alcanzan los óptimos están relacionadas por las ecuaciones de las condiciones KKT Las derivadas parciales de la lagrangiana respecto a las variables primarias han de ser cero Condición complementaria: las restricciones activas, aquellas que valen exactamente cero, su multiplicador de Lagrange podrá ser mayor o igual que cero. Sin embargo, para las condiciones inactivas, las que valgan estrictamente menos que cero, el multiplicador asociado debe ser cero (dispersión de la solución) Estos valores han de cumplir las restricciones del primal y el dual Consecuencia (KKT). Se puede solucionar el problema primal a través de una solución del problema dual. Este punto de vista es a veces interesante cuando el problema dual es más fácil de resolver que el primal

Clasificación: problema primal dado que podemos cambiar esta versión directa por otra equivalente más operativa para calcular sus derivadas

Clasificación: lagrangiana Todas las funciones que intervienen son convexas y diferenciables. Se puede aplicar las condiciones de KKT

Clasificación: problema dual

Clasificación: análisis La solución w* es una combinación lineal de los ejemplos de entrenamiento No intervienen todos (dispersión), sólo los que tienen un multiplicador de Lagrange distinto de cero (vectores soporte) En el caso separable, los vectores soporte son los ejemplos que estén justo en el margen de cada clase (condición KKT) La variable primal b no aparece en el problema dual, se debe calcular a partir de w*

Clasificación: conclusiones Margen: Obtenemos la solución que, desde un punto de vista estructural, tiene menor posibilidad de cometer errores futuros Convexidad: la solución se obtiene resolviendo un programa de optimización cuadrática, convexo, sin mínimos locales y resoluble en tiempo polinomial Dualidad y kernels: el problema dual depende de productos escalares entre los ejemplos. Podremos sustituirlo por el producto escalar en un espacio de características mediante un kernel Dispersión: la solución depende de los vectores soporte

Margen blando: primal

Margen blando: lagrangiana

Margen blando: dual

Regularización Las SVMs seleccionan la función que cumple la siguiente condición: El primero sumando representa la complejidad de la hipótesis elegida, se prefiere la más simple (Ockham) El segundo sumando sirve para controlar el coste de la hipótesis elegida, medido sobre los datos de entrenamiento utilizados La constante C es la que nos permite regular la solución de compromiso entre ambos términos, complejidad y coste La determinación del valor adecuado para C en una aplicación real es quizás más difícil que decidir el kernel a emplear, ya que éste en muchos casos puede venir dado por los datos

Regularización (II) más bajo intermedio más alto valor de C

Regresión Necesitamos una función de coste para el término regularizador

Regresión: problema primal Necesitamos dos variables de holgura para cada ejemplo

Regresión: lagrangiana

Regresión: problema dual

Resumen Maximización del margen Problema de Optimización cuadrática: convexidad no hay mínimos locales resoluble en tiempo polinomial sequiential minimal optimization (smo) para cjtos grandes Dualidad: permite el uso de kernels Podemos transformar el espacio de entrada original en un espacio de mayor dimensión Dispersión: sólo son necesarios los puntos cerca del margen (vectores soporte) Las SVM se pueden emplear para: clasificación, regresión, clustering, aprendizaje de preferencias