Métodos kernel para clasificación
|
|
- Juan Gallego Villalba
- hace 5 años
- Vistas:
Transcripción
1 Métodos kernel para clasificación S. Van Vaerenbergh, I. Santamaría GTAS, Universidad de Cantabria 20 de marzo de 2018
2 Contents Aprendizaje Estadístico Métodos Kernel Introducción SVM lineal Introducción Formulación SVM No lineal Formulación Kernels Implementación Extensiones Extensiones Conclusiones Conclusiones Métodos kernel clasificación 1/35
3 Qué es el aprendizaje estadístico? Suponga tres clasificadores entrenados sobre el conjunto de entrenamiento de la figura Qué clasificador funcionará mejor sobre el conjunto de test? Es evidente que existe un compromiso entre: Error en el entrenamiento/error de generalización (test) Sesgo/varianza del modelo (clasificador) entrenado El aprendizaje estadístico formaliza estas ideas, caracterizando las propiedades matemáticas de las máquinas de aprendizaje Métodos kernel clasificación 2/35
4 Aprendizaje Estadístico En un problema supervisado de clasificación (binario) queremos inferir una función f (x) : X {±1} Conjunto de entrenamiento: (X, Y) = {(x i, y i )} Función de pérdidas (loss function) l(x, y, f ) (p.ej., l(x, y, f ) = 1 2 f (x) y ) Un buen clasificador debería minimizar el risk or test error 1 R[f ] = f (x) y dp(x, y) 2 Sin embargo, sólo podemos estimar el empirical risk or training error R emp [f ] = n i=1 1 2 f (x i) y i Métodos kernel clasificación 3/35
5 what for unseen data (test dataset)? Aprendizaje Estadístico Métodos Kernel SVM lineal SVM No lineal Extensiones Conclusiones perform reasonably well for all possible test datasets. El error de test se puede acotar como belled. R[f ] R emp [f ] + φ(f ) ation : minimize R r (f, l, λ) = R e (f, l) + λω(f ). lexity, weighed donde with φ(f ) trade-off es un término λ. de capacidad que mide la complejidad de las funciones que puede aprender nuestra odels too fit máquina to training data, poor for test data). models tooesimple imperativo to follow restringir trendsel inconjunto data). de funciones f (x) Error Bound on the risk (test error) Capacity term Training error (empirical risk) Complexity Métodos kernel clasificación 4/35
6 La idea anterior conduce al principio del Structural Risk Minimization o Regularized Empirical Risk Minimization: es necesario minimizar una versión regularizada del error de entrenamiento minimize R emp [f ] + λω(f ), donde Ω(f ) mide la complejidad de la máquina de aprendizaje, y λ es un parámetro de regularización λ Modelos o fronteras simples λ Modelos o fronteras complejas (riesgo de sobreajuste) Habitualmente λ se estima mediante validación cruzada Métodos kernel clasificación 5/35
7 Introducción El secreto del éxito de muchos algoritmos de machine learning se basa en la búsqueda de un espacio de características efectivo/adecuado para nuestro problema Numerosas aplicaciones aplican una etapa previa de reducción de la dimensionalidad (PCA, LDA) x i R d y i R r, r < d Los métodos kernel siguen una aproximación distinta en la que se realiza (habitualmente de manera implícita) una expansión de la dimensionalidad x i R d Φ(x i ) R r, r >> d Qué ventaja puede tener ir a un espacio de dimensión más alta? Métodos kernel clasificación 6/35
8 Considere un problema de clasificación binaria en R Conjunto de entrenamiento: { -4, -3,-1, 0, 1, 3, 4 } Φ(x) = (x, x 2 ) Clase 1 Clase 1 El mapping Φ(x) = [x, x 2 ] T produce un problema lineal en el espacio expandido (espacio de características o feature space) Métodos kernel clasificación 7/35
9 Habitualmente no es necesario conocer explícitamente el mapping Φ(x) Basta con conocer la función núcleo o kernel asociado K (x, x ) = Φ(x) T Φ(x ) Los métodos kernel obtienen una solución lineal en el espacio de características (que se convierte en una solución no lineal en el espacio de entrada) Métodos kernel clasificación 8/35
10 Support Vector Machine (SVM) La SVM es el método kernel estándar en clasificación Resuelve un problema de clasificación lineal en el espacio de características aplicando el principio SRM min w,b n i=1 1 2 f (x i) y i + λω(f ) Para entender los principios de funcionamiento y el problema de optimización asociado, analizaremos en primer lugar la SVM lineal hiperplano óptimo de separación Métodos kernel clasificación 9/35
11 SVM lineal Problema binario de clasificación {(x i, y i = ±1)} Clases linealmente separables Clasificador lineal: f (x) = w T x + b = w, x + b Los vectores soporte w T x j + b = ±1 actúan como separación entre clases Maximizamos la distancia entre hiperplanos (margen) min w,b 1 2 w 2 s.t. y i ( w T x i + b ) 1, i Métodos kernel clasificación 10/35
12 Solución El problema anterior es convexo Solución única Lagrangiano (problema dual) L(w, b, α) = 1 2 w 2 + i=1 Strong duality KKT optimality 1. El hiperplano óptimo es una combinación lineal de los patrones de entrada n n L w (w, b, α) = w + α i y i x i = 0 w = α i y i x i i=1 n ( )) α i 1 y i (w T x i + b 2. El hiperplano óptimo sólo depende de los puntos que están sobre hiperplanos soporte: los vectores soporte i=1 α i ( 1 yi (w T x i + b) ) = 0, i y i (w T x i + b) = 1 3. b se puede obtener de cualquier vector soporte Métodos kernel clasificación 11/35
13 Sustituyendo w = n i=1 α iy i x i en el Lagrangiano, se obtiene el problema dual, que es el que típicamente se resuelve min α s.t. 1 2 i j α iα j y i y j x T i x j i α i i α iy i = 0, α i 0, i Definiendo α = (α 1,..., α n ) T, 1 = (1,..., 1) T, Y = diag (y 1,..., y n ) y K una matriz n n con elementos k(i, j) = x T i x j = x i, x j, obtenemos Problema QP (Quadratic Programming) min α 1 2 αt YKYα 1 T α s.t. α T y = 0, α 0 Métodos kernel clasificación 12/35
14 Soft-margin SVM Clases no separables Permitimos errores de clasificación introduciendo holguras (slack variables) en el problema de optimización: ξ i Parámetro de regularización C penalización El dual es también un problema QP (con 0 α i C) min w,b 1 2 w 2 + C i ξ i s.t. y i ( w T x i + b ) 1 ξ i, i ξ i, 0 i Métodos kernel clasificación 13/35
15 SVM No Lineal Mapeamos los datos a un espacio de caraterísticas de dimensión mayor (probablemente ): x i Φ(x i ) Resolvemos una SVM lineal en el espacio de características Hiperplano óptimo en el espacio de características w = i α i y i Φ(x i ) El problema dual es el mismo!! min α 1 2 αt YKYα 1 T α s.t. α T y = 0, 0 α C pero empleando ahora una matriz kernel K con elementos k(i, j) = Φ(x i ) T Φ(x j ) = Φ(x i ), Φ(x i ) Métodos kernel clasificación 14/35
16 En el espacio transformado la función de decisión es lineal f (x) = w T Φ(x) + b Pero en el espacio de entrada la función es no lineal, y se expresa nuevamente en función del kernel f (x) = ( α i y i Φ(x i ) i ) T Φ(x) + b }{{} w T = i α iy i Φ(x i ) T Φ(x) + b = i α iy i k(x i, x) + b Esta es la idea básica del kernel trick Métodos kernel clasificación 15/35
17 Ejemplo: kernel polinómico Problema bi-dimensional x = [ x1 Definimos un mapeo polinómico a una espacio 3D x 2 ] x 2 1 Φ(x) = x2 2 2x1 x 2 La función kernel asociada es k(x, y) = Φ(x), Φ(y) = Φ(x) T Φ(y) = = x 2 1 y x 2 2 y x 1y 1 x 2 y 2 Métodos kernel clasificación 16/35
18 Funciones kernel Teorema de Mercer (informal) Cualquier función k(, ) tal que la matriz de kernel K para cualquier conjunto de entrenamiento sea positiva semidefinida, es decir x T Kx 0, x, induce un producto escalar en un espacio transformado. Es decir k(x i, x j ) puede escribirse como k(x i, x j ) = Φ(x i ), Φ(x j ) = Φ(x i ) T Φ(x j ) La transformación Φ(x) es todavía desconocida Pero no la necesitamos siempre que elijamos un kernel positivo semidefinido Problema dual QP Métodos kernel clasificación 17/35
19 Kernels típicos Lineal k(x i, x j ) = x T i x j Polinómico (parámetros p y c) ( k(x i, x j ) = x T i x j + c Gaussiano (parámetro σ 2 ) k(x i, x j ) = exp ( ) p x i x j 2 2σ 2 Podemos crear nuevos kernel mediante transformaciones 1. k 1 (x, y) + k 2 (x, y) 2. k 1 (x, y)k 2 (x, y) 3. exp(k 1 (x, y)) Nota: La sigmoide tanh ( x T y + b ) no es un kernel válido! Métodos kernel clasificación 18/35 )
20 String kernel También se pueden definir funciones kernel sobre datos en espacios no vectoriales (e.g, strings) Dadas dos secuencias s = statistics t = computation Generamos todos los substrings de una determinada longitud (p.e. 3) s t {sta, tat, ati, tis, ist, sti, tic, ics} {com, omp, mpu, put, uta, tat, ati, tio, ion} El kernel se define contando en número de substrings comunes a las dos secuencias k(s, t) = 2 También se pueden definir kernels sobre grafos, texto, para genómica, etc. Métodos kernel clasificación 19/35
21 La matriz de kernel Para resolver un problemas de clasificación con SVMs sólo se necesita la matriz de kernel K (Gramm matrix) k(x 1, x 1 ) k(x 1, x 2 ) k(x 1, x n ) k(x 2, x 1 ) k(x 2, x 2 ) k(x 2, x n ) K = k(x n, x 1 ) k(x n, x 2 ) k(x n, x n ) k(x i, x j ) es una medida de similitud entre patrones K es n n Dificultades de computacionales y de almacenamiento Métodos kernel clasificación 20/35
22 Distancia para el kernel Gaussiano El kernel Gaussiano es un producto escalar (similitud) en un espacio transformado de dimensión infinita k(x, y) = Φ(x) T Φ(y) = e x y 2 2σ 2 La distancia entre Φ(x) y Φ(y) es d(φ(x), Φ(y)) = ) Φ(x) Φ(y) 2 = 2 (1 e x y 2 2σ 2 = 2 (1 k(x, y)) Métodos kernel clasificación 21/35
23 d(0,x) Ejemplo: Caso 1D σ 2 = x Métodos kernel clasificación 22/35
24 Ejemplo: Caso 2D σ 2 = 0, 2 σ 2 = 0,5 σ 2 = σ 2 distancia muy localizada: todos los puntos fuera de un radio están igualmente lejos σ 2 distancia global, equivalente a un kernel lineal Métodos kernel clasificación 23/35
25 Ajuste de una SVM Consideramos una SVM con kernel Gaussiano min α 1 2 αt YKYα 1 T α s.t. α T y = 0, 0 α C k(x i, x j ) = e γ x y 2 donde hemos definido γ = 1 2σ 2 La elección de unos parámetros γ y C es esencial para obtener buenas prestaciones Habitualmente se emplea cross-validation Métodos kernel clasificación 24/35
26 Influencia de C El parámetro de regularizacion C establece un compromiso entre el error de entrenamiento y la complejidad del modelo C modelo sencillo, mayor error en el entrenamiento, suavidad en la frontera de decisión C modelo complejo, poca suavidad de la frontera de decisión, riesgo de sobreajuste Métodos kernel clasificación 25/35
27 Ejemplo C= C= 0.01 Linear: u T v RBF: exp( u v 2 ) Poly: ( u T v + r) d Linear: ut v RBF: exp( u v 2 ) Poly: ( u T v + r) C= 100 d Métodos kernel clasificación 26/35 Linear: u T v RBF: exp( u v 2 ) Poly: ( u T v + r) d
28 Influencia de γ El parámetro del kernel Gaussiano λ (a.k.a. bandwidth) controla la velocidad a la que k(x, y) 0 en función de la distancia Recuerde que para clasificar un nuevo patrón x la SVM computa f (x) = i α i y i k(x i, x) + b C 1 C 0 0 γ mayor solape entre Gaussianas, suavidad en la frontera de decisión γ todos los puntos tienden a ser ortogonales unos a otros sobreajuste Métodos kernel clasificación 27/35
29 Ejemplo γ= γ= 0.01 Linear: u T v RBF: exp( u v 2 )Poly: ( u T v + r) d Linear: u T v RBF: exp( u v 2 )Poly: ( u T v + r) d γ= 100 Linear: u T v RBF: exp( u v 2 )Poly: ( u T v + r) d Métodos kernel clasificación 28/35
30 Comparación kernels Lineal C= 1 Gaussiano C= 1,γ= 10 Polinómico C= 1,orden= 10 Métodos kernel clasificación 29/35
31 Implementación: SVM solvers Problema QP Interior Point Methods 1. Requiere almacenar K en memoria: O(n 2 ) 2. Convergencia lenta, gasto computacional O(n 3 ) Se han desarrollado algoritmos específicos más eficientes para este problema Sequential Minimal Optimization (SMO): Resuelve una serie de subproblemas más pequeños LIBSVM: Paquete estándar para SVMs Implementa una versión del algoritmo SMO Interfaces en R, Matlab, Python,... Métodos kernel clasificación 30/35
32 Multi-class SVM Metodología estándard: One-Versus-All En un problema con K clases resolvemos K problemas binarios Cada SVM está entrenada para separar una clase del resto de patrones Sobre un nuevo patrón de test, x, la SVM k-ésima proporciona una salida (score) f k (x) = i α k i y k i k(x k i, x) + bk, k = 1,..., K La clase finalmente elegida es k = argmax f k (x) k Métodos kernel clasificación 31/35
33 One-class SVM Objetivo: encontrar una SVM que englobe una región del espacio donde los datos viven Problema de clasificación: separar datos de outliers Separación en el espacio transformado Un hiperplano (Schölkopf et al) Una hiperesfera (Tax and Duin) Métodos kernel clasificación 32/35
34 One-class SVM min w,ξ i,ρ 1 2 w n νn i=1 ξ i ρ s.t. w T Φ(x i ) ρ ξ i, i ξ i 0 El problema dual es equivalente a una SVM convencional El parámetro ν caracteriza la solución ν-svm Es una cota superior de la fracción de patrones de entrenamiento etiquetados como outliers Es una cota inferior del número de vectores soporte i Métodos kernel clasificación 33/35
35 Ejemplo ν-svm, kernel Gaussiano, γ = 0,1, ν = 0,1 Métodos kernel clasificación 34/35
36 Conclusiones Una de las máquinas de aprendizaje más populares Las SVMs implementan el criterio SRM (Structural Risk Minimization) Problema dual QP: solución única, problema bien definido Hay que elegir el kernel (medida de similitud entre patrones), sus hiperparámetros, y el parámetro de regularización Solución dispersa (sparse) expresada en función de unos pocos vectores soporte Proporcionan (todavía) resultados competitivos en muchas aplicaciones. En especial, cuando los datos de entrada no tienen una dimensionalidad muy alta Métodos kernel clasificación 35/35
TEMA 6. SVM Support Vector Machines (Máquinas de Vectores Soporte)
TEMA 6. SVM Support Vector Machines (Máquinas de Vectores Soporte) Francisco José Ribadas Pena Modelos de Razonamiento y Aprendizaje 5 Informática ribadas@uvigo.es 17 de abril de 2012 FJRP ccia [Modelos
Más detallesSupport Vector Machines
Support Vector Machines Métodos Avanzados en Aprendizaje Artificial Luis F. Lago Fernández Manuel Sánchez-Montañés Ana González Universidad Autónoma de Madrid 6 de abril de 2010 L. Lago - M. Sánchez -
Más detallesTema 6 Extensiones y aplicaciones (Máquinas de vectores soporte, SVM)
Tema 6 Extensiones y aplicaciones (Máquinas de vectores soporte, SVM) José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Contenidos del tema 6 El problema de clasificación supervisada:
Más detallesMáquinas de Vectores de Soporte
Máquinas de Vectores de Soporte Support Vector Machines (SVM) Reconocimiento de Patrones Departamento de Procesamiento de Señales Instituto de Ingeniería Eléctrica Facultad de Ingeniería, UdelaR 2018 Schölkopf
Más detallesEduardo Morales, Jesús González, Hugo Jair Escalante
Eduardo Morales, Jesús González, Hugo Jair Escalante INAOE 2017 (INAOE) 1 / 83 Contenido 1 2 3 4 5 6 7 8 (INAOE) 2 / 83 Se presentó en COLT-92 (Boser, Guon, Vapnik) Por un tiempo desbancó a las redes neuronales
Más detallesElementos de máquinas de vectores de soporte
Elementos de máquinas de vectores de soporte Clasificación binaria y funciones kernel Julio Waissman Vilanova Departamento de Matemáticas Universidad de Sonora Seminario de Control y Sistemas Estocásticos
Más detallesUso de Weka desde un script
Uso de Weka desde un script Script para hacer una curva de aprendizaje Cómo usar Weka desde la línea de comandos para, por ejemplo, hacer una curva de aprendizaje Probar con: 20% de los datos, validación
Más detallesAprendizaje Automático. Segundo Cuatrimestre de Clasificadores: Naive Bayes, Vecinos Más Cercanos, SVM
Aprendizaje Automático Segundo Cuatrimestre de 2016 Clasificadores: Naive Bayes, Vecinos Más Cercanos, SVM Naive Bayes Naive Bayes Dada una nueva instancia con valores de atributos a 1, a 2,..., a n, su
Más detallesModelos de Scoring para Riesgo de Crédito
Modelos de Scoring para Riesgo de Crédito Los modelos de scoring de riesgo, dentro del proceso de otorgamiento de crédito, están orientados a anticipar comportamiento futuro. Podemos dividirlos en tres
Más detallesSupport Vector Machines
Support Vector Machines Separadores lineales Clasificacion binaria puede ser vista como la tarea de separar clases en el espacio de caracteristicas w T x + b > 0 w T x + b = 0 w T x + b < 0 f(x) = sign(w
Más detallesAnálisis de Datos. Máquinas de vectores de soporte. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Máquinas de vectores de soporte Profesor: Dr. Wilfrido Gómez Flores 1 Introducción En el caso de clases linealmente separables, existen infinitos hiperplanos de decisión que separan correctamente
Más detallesSegmentación de una cartera de clientes usando aprendizaje de máquina
Inicio Segmentación de una cartera de clientes usando aprendizaje de máquina Universidad San Ignacio de Loyola I encuentro interdisciplinario de investigación desarrollo y tecnología USIL 2014 Inicio Inicio
Más detallesAnálisis de Datos. Análisis lineal discriminante. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Análisis lineal discriminante Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Para reducir el error de clasificación algunas veces es necesario identificar el subconjunto de características
Más detallesMÉTODO DE CLASIFICACIÓN SUPERVISADA SUPPORT VECTOR MACHINE: UNA APLICACIÓN A LA CLASIFICACIÓN AUTOMÁTICA DE TEXTOS.
Revista de Epistemología y Ciencias Humanas 37 MÉTODO DE CLASIFICACIÓN SUPERVISADA SUPPORT VECTOR MACHINE: UNA APLICACIÓN A LA CLASIFICACIÓN AUTOMÁTICA DE TEXTOS. Supervised Classification Method Support
Más detallesCristián Bravo R.
Cristián Bravo R. cbravo@dii.uchile.cl Banco de Crédito e Inversiones 2 al 5 de Julio, 2011 1 Preparación de datos para generación de scorecards. Selección de Variables. Transformaciones Notables. Segmentación
Más detallesSVM: Máquinas de Vectores Soporte. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid
SVM: Máquinas de Vectores Soporte Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Contenido 1. Clasificación lineal con modelos lineales 2. Regresión
Más detallesAnálisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Combinación de clasificadores Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Diversos algoritmos de clasificación están limitados a resolver problemas binarios, es decir, con dos
Más detallesDetección Multiusuario para DS-CDMA basado en SVM
9 Otra técnica basada en el aprendizaje y más conocida que la anterior es la basada en. Vamos a realizar una pequeña comparativa teórica de sobre ambas técnicas de clasificación. Estudiaremos los conceptos
Más detallesSupport Vector Machine
Juan Carlos Caicedo Juan Carlos Mendivelso Maestria en Ingenieria de Sistemas y Computacion Universidad Nacional de Colombia 20 de marzo de 2007 Agenda 1 2 3 4 Outline 1 2 3 4 Clasificador lineal que utiliza
Más detallesAlgoritmos SVM para problemas sobre big data
Universidad Autónoma de Madrid Escuela Politécnica Superior - Departamento de Ingeniería Informática Algoritmos SVM para problemas sobre big data Trabajo fin de máster para Máster en Investigación e Innovación
Más detallesDepartamento de Teoría de la Señal y Comunicaciones Universidad Carlos III de Madrid
COMUNICACIONES DIGITALES AVANZADAS 4 DISEÑO DE RECEPTORES DE COMUNICACIONES MARCELINO LÁZARO Departamento de Teoría de la Señal y Comunicaciones Universidad Carlos III de Madrid mlazaro@tscuc3mes Igualación
Más detallesAprendizaje Supervisado Máquinas Vectoriales de Soporte
Aprendizaje Supervisado Máquinas Vectoriales de Soporte Tipos de Variables 10 10 Modelo general de los métodos de Clasificación Id Reembolso Estado Civil Ingresos Anuales 1 Sí Soltero 125K No 2 No Casado
Más detallesClasificación de estados cerebralesusando neuroimágenes funcionales
Clasificación de estados cerebralesusando neuroimágenes funcionales Clase 2: Reconocimiento de patrones en datos de neuroimagenes Enzo Tagliazucchi (tagliazucchi.enzo@googlemail.com) Primera clase: introducción
Más detallesMÁQUINA DE VECTORES DE SOPORTE
MÁQUINA DE VECTORES DE SOPORTE La teoría de las (SVM por su nombre en inglés Support Vector Machine) fue desarrollada por Vapnik basado en la idea de minimización del riesgo estructural (SRM). Algunas
Más detallesAnálisis de Datos. Red de función de base radial. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Red de función de base radial Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Las funciones de base radial han sido utilizadas en diversas técnicas de reconocimiento de patrones como
Más detallesSISTEMAS INTELIGENTES
SISTEMAS INTELIGENTES T11: Métodos Kernel: Máquinas de vectores soporte {jdiez, juanjo} @ aic.uniovi.es Índice Funciones y métodos kernel Concepto: representación de datos Características y ventajas Funciones
Más detallesAnálisis de Datos. Clasificación Bayesiana para distribuciones normales. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Clasificación Bayesiana para distribuciones normales Profesor: Dr. Wilfrido Gómez Flores 1 Funciones discriminantes Una forma útil de representar clasificadores de patrones es a través
Más detallesCapítulo 1 Introducción...1 Capítulo 2 Aprendizaje Automático 10 Capítulo 3 Riesgo Crediticio y Loss Given Default 18
INDICE DE CONTENIDOS Capítulo 1 Introducción...1 1.1 Contextualización... 2 1.2 Problemática... 4 1.3 Objetivos... 5 1.3.1 Objetivo general... 5 1.3.2 Objetivos específicos... 5 1.4 Alcance del trabajo...
Más detallesMÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN
MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN Manuel Sánchez-Montañés Luis Lago Ana González Escuela Politécnica Superior Universidad Autónoma de Madrid Teoría
Más detallesAprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur
Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA Ricardo Aler Mur Aprendizaje de distancias Kilian Q. Weinberger, Lawrence K. Saul: Distance Metric Learning for Large Margin
Más detallesFiabilidad. Fiabilidad. María Isabel Hartillo Hermoso Granada, 25 de Mayo FQM-5849
Fiabilidad María Isabel Hartillo Hermoso hartillo@us.es Granada, 25 de Mayo FQM-5849 Sistemas Partimos de un sistema en serie: r 1 r 2 r 3 r 4 Sistemas Partimos de un sistema en serie: r 1 r 2 r 3 r 4
Más detallesTema 4.2: FUNCIONES DISCRIMINANTES LINEALES y SV
ema 4.: FUNCIONES DISCRIMINANES LINEALES y SV Some Figures in these slides were taken from Pattern Classification (nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 000 with the permission
Más detallesTópicos Selectos en Aprendizaje Maquinal. Algoritmos para Reconocimiento de Patrones
Tópicos Selectos en Aprendizaje Maquinal Guía de Trabajos Prácticos N 1 Algoritmos para Reconocimiento de Patrones 18 de septiembre de 2014 1. Objetivos Introducir conceptos básicos de aprendizaje automático.
Más detallesIntroducción a los SVMs con R Innova-TSN Octubre Título diapositiva
Introducción a los SVMs con R Innova-TSN Octubre 2016 Título diapositiva Agenda 1. Innova-TSN: i. Quiénes somos? Misión, Visión, Valores Equipo ii. Ámbitos de Negocio 2. Introducción a los SVMs 1. Introducción
Más detallesTRABAJO FIN DE GRADO SUPPORT VECTOR REGRESSION: PROPIEDADES Y APLICACIONES
TRABAJO FIN DE GRADO SUPPORT VECTOR REGRESSION: PROPIEDADES Y APLICACIONES Realizado por: Juan José Martín Guareño Supervisado por: Dr. Rafael Blanquero Bravo y Dr. Emilio Carrizosa Priego FACULTAD DE
Más detallesMáquinas de vectores soporte con R
Máquinas de vectores soporte con R Datos Cargamos la librería en la que se encuentran las funciones que vamos a utilizar y el fichero con los datos necesarios: library(mass) library(e1071) load(url('http://www.uam.es/joser.berrendero/datos/practica-svm-io.rdata'))
Más detallesInteligencia Artificial: Su uso para la investigación
Inteligencia Artificial: Su uso para la investigación Dra. Helena Montserrat Gómez Adorno Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas helena.adorno@iimas.unam.mx 1 Introducción
Más detalles4.5 Algoritmo RLS (Recursive Least Squares)
4.5 Algoritmo RLS (Recursive Least Squares) Método de mínimos cuadrados (LS) Ecuaciones normales Pseudoinversa Variantes del LS Algoritmo RLS (Recursive Least Squares) Introducción Cálculo recursivo de
Más detallesAprendizaje Estadístico
Aprendizaje Estadístico Modelado y Análisis de Redes de Telecomunicaciones IIE - Facultad de Ingeniería Curso 2014 Introducción Algunos ejemplos de aprendizaje (son muchos!): clasificar mail en spam o
Más detallesRECONOCIMIENTO DE PAUTAS
RECONOCIMIENTO DE PAUTAS ANÁLISIS DISCRIMINANTE (Discriminant analysis) Reconocimiento de pautas supervisado si se cuenta con objetos cuya pertenencia a un grupo es conocida métodos: análisis de discriminantes
Más detallesFundamentos de Programación Entera. A. Revisión. Carlos Testuri Germán Ferrari
Fundamentos de Programación Entera A. Revisión Carlos Testuri Germán Ferrari Departamento de Investigación Operativa Instituto de Computación Facultad de Ingeniería Universidad de la República 2012-2018
Más detallesTEMA 1: INTRODUCCIÓN N AL PROCESADO Y ANÁLISIS DE DATOS
Procesado y Análisis de Datos Ambientales. Curso 2009-2010. José D. Martín, Emilio Soria, Antonio J. Serrano TEMA 1: INTRODUCCIÓN N AL PROCESADO Y ANÁLISIS DE DATOS ÍNDICE Introducción. Selección de variables.
Más detallesINFORME TAREA N 3 DETECTOR DE DÍGITOS CON SVM
Universidad de Chile Facultad de Ciencias Físicas y Matemáticas Departamento de Ingeniería Eléctrica EL4106 Inteligencia Computacional INFORME TAREA N 3 DETECTOR DE DÍGITOS CON SVM Nombre Alumno : Profesor
Más detallesAnálisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Introducción al aprendizaje supervisado Profesor: Dr. Wilfrido Gómez Flores 1 Conceptos básicos Desde la antigüedad, el problema de buscar patrones en datos es fundamental en diversas
Más detallesMáquinas de Vectores de Soporte
Máquinas de Vectores de Soporte Support Vector Machines (SVM) Introducción al Reconocimiento de Patrones IIE - FING - UdelaR 2015 Bishop, Cap. 7 Schölkopf & Smola, Cap 7 Motivación Limitantes del perceptrón:
Más detallesAplicando máquinas de soporte vectorial al análisis de pérdidas no técnicas de energía eléctrica
Facultad de Matemática, Astronomía, Física y Computación Universidad Nacional de Córdoba Trabajo Especial Aplicando máquinas de soporte vectorial al análisis de pérdidas no técnicas de energía eléctrica
Más detallesSupport Vector Machine
Support Vector Machine Gráficas, estadística y minería de datos con Python Miguel Cárdenas Montes Centro de Investigaciones Energéticas Medioambientales y Tecnológicas, Madrid, Spain miguel.cardenas@ciemat.es
Más detallesTécnicas de Análisis Estadístico Multivariado Basadas en Estadísticos de Orden Superior
Técnicas de Análisis Estadístico Multivariado Basadas en Estadísticos de Orden Superior Curso 29-21 Contenido 1 Introducción 2 Separación Ciega de Fuentes - Caso Determinado Análisis de Componentes Independientes
Más detallesDualidad. Dpto. Ingeniería Industrial, Universidad de Chile. 22 de abril de IN3701, Optimización
Contenidos Motivación y Representación de Poliedros IN3701, Optimización 22 de abril de 2009 Contenidos Motivación y Representación de Poliedros Contenidos 1 Motivación 2 y Representación de Poliedros
Más detallesMétodos basados en Kernels para el Procesamiento de Lenguaje Natural
para el Procesamiento de Lenguaje Natural Métodos basados en para el Procesamiento de Lenguaje Natural G. Moncecchi 1 Grupo PLN, Instituto de Computación, Facultad de Ingeniería, Universidad de la República,
Más detallesEstimación de densidades basada en núcleos: algunos elementos. Isabel Cañette
Estimación de densidades basada en núcleos: algunos elementos básicos. Isabel Cañette Seminario de Reconocimiento de Patrones. Seminario de Probabilidad y Estadística. Diciembre, 2002 Introducción. Decimos
Más detalles1.3.1 Fundamentos de cálculo vectorial
131 Fundamentos de cálculo vectorial 1 Función escalar Una función se define como una representación escalar que está dada en términos de un vector Un ejemplo analítico puede darse por la función f(x)
Más detallesINTRODUCTION TO MACHINE LEARNING ISABELLE GUYON
INTRODUCTION TO MACHINE LEARNING ISABELLE GUYON 2008-02-31 Notas tomadas por: María Eugenia Rojas Qué es Machine Learning? El proceso de aprendizaje de maquina consiste en tener una gran base de datos
Más detallesRedes neuronales con funciones de base radial
Redes neuronales con funciones de base radial Diego Milone y Leonardo Rufiner Inteligencia Computacional Departamento de Informática FICH-UNL Organización: RBF-NN Motivación y orígenes RBF Arquitectura
Más detallesOptimización bajo Incertidumbre. 0. Revisión. Depto. Investigación Operativa. Instituto de Computación. Facultad de Ingeniería, UdelaR
Optimización bajo Incertidumbre 0. Revisión Carlos Testuri Germán Ferrari Depto. Investigación Operativa. Instituto de Computación. Facultad de Ingeniería, UdelaR 2003-17 Contenido 1 Revisión Probabilidad
Más detallesProcesamiento Masivo de Web Spam. Washington Bastidas Santos Jesús González Vera
Procesamiento Masivo de Web Spam Washington Bastidas Santos Jesús González Vera Agenda INTRODUCCIÓN PROBLEMA METODOLOGÍA IMPLEMENTACIÓN EVALUACIÓN Y RESULTADOS CONCLUSIÓN TRABAJO FUTURO BIBLIOGRAFÍA 1
Más detallesClasificación de Sistemas. Clasificación de Sistemas. Clasificación de Sistemas. Clasificación de Sistemas
Clasificación de Sistemas Clasificación de Sistemas Simples, complicados o complejos Deterministas o probabilistas Centralizados o distribuidos Reactivos o proactivos Rígidos o adaptativos Simples, complicados
Más detallesAprendizaje para Clasificación con Factorización Matricial Basado en Listwise para Filtrado Colaborativo
2012 Aprendizaje para Clasificación con Factorización Matricial Basado en Listwise para Filtrado Colaborativo Iván López Espejo 22/04/2012 2 Aprendizaje para Clasificación con Factorización Matricial Basado
Más detallesAnálisis multivariante
Machine Learning 2016-17 1 Aprendizaje automatizado (ML) 2 3 Aprendizaje automatizado (ML) Definiciones Conjunto de herramientas para transformar datos en conocimiento. Conjunto de técnicas que permitan
Más detallesEstudio e Implementación de una Máquina de Soporte Vectorial.
Estudio e Implementación de una Máquina de Soporte Vectorial. Lázaro Bustio Martínez, Alejandro Mesa Rodríguez lbustio@ccc.inaoep.mx, amesa@ccc.inaoep.mx Resumen. En este trabajo se presentan las Máquinas
Más detallesTema 2 Primeros Modelos Computacionales
Universidad Carlos III de Madrid OpenCourseWare Redes de Neuronas Artificiales Inés M. Galván - José Mª Valls Tema 2 Primeros Modelos Computacionales 1 Primeros Modelos Computacionales Perceptron simple
Más detallesGUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)
GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC) Curso Académico: 2015-2016 Programa: Centro: Universidad: Máster Universitario en Ingeniería Informática Escuela Politécnica Superior
Más detallesPerceptrón Simple. Aspectos Prácticos y Algoritmos Redes Neuronales, DC-FCEyN-UBA. Rosana Matuk Primer Cuatrimestre 2018
Perceptrón Simple Aspectos Prácticos y Algoritmos Redes Neuronales, DC-FCEyN-UBA Rosana Matuk Primer Cuatrimestre 2018 Rosana Matuk (DC-FCEyN-UBA) Perceptrón simple Primer Cuatrimestre 2018 1 / 29 Objetivo
Más detallesSistemas de Reconocimiento de Patrones
Sistemas de Reconocimiento de Patrones p. 1/33 Sistemas de Reconocimiento de Patrones Luis Vázquez GTI - IIE Facultad de Ingeniería Universidad de la República Sistemas de Reconocimiento de Patrones p.
Más detallesALGORITMOS PARA LOCALIZACIÓN DE FALLAS EN SISTEMAS DE DISTRIBUCIÓN USANDO MÁQUINAS DE SOPORTE VECTORIAL
1 ALGORITMOS PARA LOCALIZACIÓN DE FALLAS EN SISTEMAS DE DISTRIBUCIÓN USANDO MÁQUINAS DE SOPORTE VECTORIAL JUAN CARLOS BEDOYA CEBALLOS UNIVERSIDAD TECNOLÓGICA DE PEREIRA MAESTRÍA EN INGENIERÍA ELÉCTRICA
Más detallesEjemplos de funciones de covarianza
Capítulo 5 Ejemplos de funciones de covarianza De lo explicado hasta el momento, se concluye que la regresión basada en Procesos Gaussianos se reduce a calcular la matriz de covarianza C n a partir de
Más detallesEjercicios - Resolución de problemas lineales. Método Simplex
Ejercicios - Resolución de problemas lineales. Método Simplex Programación Matemática LADE Curso 8/9. Dado el problema lineal máx x x x + x s.a. x + x + x = 4 x + x 4 x justifica que el punto x = ( T es
Más detallesAlgoritmos de Planos de Corte
Algoritmos de Planos de Corte Problema: max {cx / x X} con X = {x / Ax b, x Z n + } Proposición: conv (X) es un poliedro que puede entonces escribirse como conv (X) = {x / Ax b, x 0} Lo mismo ocurre para
Más detallesAnálisis del artículo
Análisis del artículo Mean Shift: A Robust Approach toward Feature Space Analysis Dorin Comaniciu - Peter Meer R. Omar Chávez Garcia - Pável Herrera Domínguez 25 de mayo de 2009 Conceptos básicos Dorin
Más detallesUNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN APRENDIZAJE DE MÁQUINA
UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN APRENDIZAJE DE MÁQUINA OBJETIVO GENERAL El objetivo general del Aprendizaje de Máquina (ML por
Más detalles(x) = 1 si P (Y = 1 X = x) P (Y = 0 X = x) P (Y = 0 X = x) > P (Y = 1 X = x) P (X = x Y = 0)P (Y = 0) > P (X = x Y = 1)P (Y = 1)
1 1. Conceptos generales de clasificación 2. Clasificador k-vecino más cercano 3. Clasificador Bayesiano óptimo 4. Análisis discriminante lineal (LDA) 5. Clasificadores lineales y el Modelo perceptrón
Más detallesSELECCIÓN DE HIPERPARÁMETROS EN MÁQUINAS DE SOPORTE VECTORIAL
SELECCIÓN DE HIPERPARÁMETROS EN MÁQUINAS DE SOPORTE VECTORIAL Por Ricardo Henao rhenao@unalmzl.edu.co Director: Jorge Eduardo Hurtado Gómez ENVIADO EN PARCIAL CUMPLIMIENTO DE LOS REQUERIMIENTOS PARA EL
Más detallesOptimización. Escuela de Ingeniería Informática de Oviedo. (Dpto. de Matemáticas-UniOvi) Computación Numérica Optimización 1 / 19
Optimización Escuela de Ingeniería Informática de Oviedo (Dpto. de Matemáticas-UniOvi) Computación Numérica Optimización 1 / 19 Introducción Problema general de optimización (minimización) Dado f : Ω R
Más detallesAnálisis de Datos. Regresión logística. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Regresión logística Profesor: Dr. Wilfrido Gómez Flores 1 Regresión logística Supóngase que se tiene una variable binaria de salida Y, y se desea modelar la probabilidad condicional P(Y=1
Más detallesIntroducción a los métodos Kernel
p. 1/3 Introducción a los métodos Kernel Universidad Autónoma de Madrid 29 de abril de 2008 Manel Martínez Ramón Universidad Carlos III de Madrid Departamento de Teoría de la Señal y Comunicaciones Transparencias
Más detallesProyecciones ortogonales
1 o Ingeniería Informática 2008 2009 http://www.uam.es/fernando.chamizo Índice La proyección ortogonal Geométricamente Algebraicamente Si B = { w 1, w 2,..., w n } es base ortogonal Pr W ( v) = v, w 1
Más detallesALN - Curso 2007 Gradiente Conjugado
ALN - Curso 27 Gradiente Conjugado Cecilia González Pérez Junio 27 Métodos Iterativos Pueden ser: Métodos estacionarios Métodos no estacionarios Métodos no estacionarios hacen uso de información, evaluada
Más detallesAnálisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Introducción al aprendizaje supervisado Profesor: Dr. Wilfrido Gómez Flores 1 Conceptos básicos Reconocimiento de patrones (RP): clasificar objetos en un número de categorías o clases.
Más detallesAprendizaje Automatizado
Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto
Más detallesÍndice general. Prefacio...5
Índice general Prefacio...5 Capítulo 1 Introducción...13 1.1 Introducción...13 1.2 Los datos...19 1.3 Etapas en los procesos de big data...20 1.4 Minería de datos...21 1.5 Estructura de un proyecto de
Más detallesTema 5 Dualidad y condiciones de Karush-Kuhn-Tucker
Tema 5 Dualidad y condiciones de Karush-Kuhn-Tucker José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Contenidos del tema 5 Condiciones de Karush-Kuhn-Tucker (KKT). Problemas
Más detallesIntroducción Aprendizaje de Máquina. Gerardo Gutiérrez Gutiérrez Alexis Rodríguez Gutiérrez
Introducción Aprendizaje de Máquina Gerardo Gutiérrez Gutiérrez Alexis Rodríguez Gutiérrez Qué es Aprendizaje de Máquina? "Field of study that gives computers the ability to learn without being explicitly
Más detallesOCW-V.Muto El problema de mínimos cuadrados. Cap. XIX CAPITULO XIX. EL PROBLEMA DE LOS MINIMOS CUADRADOS: PRELIMINARES
CAPITULO XIX. EL PROBLEMA DE LOS MINIMOS CUADRADOS: PRELIMINARES. SISTEMAS LINEALES DE ECUACIONES SOBREDETERMINADOS La discusión de los problemas algebráicos de la parte anterior se había centrado exclusivamente
Más detalles4 Teoría de clasificadores
Reconocimiento de señales de tráfico para un sistema de ayuda a la conducción 4 Teoría de clasificadores 4.1 Introducción Clasificar un objeto consiste en asignarlo a una de las clases disponibles. Los
Más detallesIntroducción a la optimización con algoritmos. Ejercicios. 0 2 f(x + t(y x))(y x)dt. J(x + t(y x))(y x)dt siendo J la matriz Jacobiana de F.
Introducción a la optimización con algoritmos Ejercicios Preliminares 1. Demostrar que si f C 2 (IR n ), f : IR n IR entonces f(y) f(x) = 1 0 2 f(x + t(y x))(y x)dt. 2. Demostrar que si F C 1 (IR n ),
Más detallesTécnicas de inteligencia artificial. Aprendizaje: Perceptrón multi-capa
Técnicas de inteligencia artificial Aprendizaje: Perceptrón multi-capa Índice Regla delta Modelo computacional Neuronas e hiperplanos Entrenamiento como ajuste supervisado No-separabilidad lineal Backpropagation
Más detallesIntroducción. Existen dos aproximaciones para resolver el problema de clasificación: Aproximación Generativa (vista en el Tema 3) Basada en:
Introducción Eisten dos aproimaciones para resolver el problema de clasificación: Aproimación Generativa (vista en el Tema 3) Basada en: Modelar p(,w)=p( w)p(w) p( w) es la distribución condicional de
Más detallesEstadística con R. Clasificadores
Estadística con R Clasificadores Análisis discriminante lineal (estadístico) Árbol de decisión (aprendizaje automático) Máquina soporte vector (aprendizaje automático) Análisis discriminante lineal (AD)
Más detalles[20380] Visió per Computador Prueba 2 (2013) Teoria (10p) (una pregunta test fallada descuenta 1/4 de pregunta acertada)
102784 [20380] Visió per Computador Prueba 2 (2013) Teoria (10p) (una pregunta test fallada descuenta 1/4 de pregunta acertada) 1. En cuál de estas posibles aplicaciones podríamos utilizar una característica
Más detallesOverfit, cross validation y bootstrap
Universisad de San Andrés y CONICET Cueestiones preliminares Sea z n una sucesion de variables aleatorias escalares. Consideremos la siguiente sucesion z n = n i=1 z i n Ley de grandes numeros (Kolmogorov):
Más detallesOptimización lineal. Diego A. Patino. 2 de septiembre de Pontificia Universidad Javeriana 1/ 29
Optimización lineal Diego A. Patino Pontificia Universidad Javeriana 2 de septiembre de 2016 1/ 29 Introducción Formulación del problema Herramientes del análisis convexo Formas de las restricciones 2/
Más detallesComparativa de clasificadores para la detección de microaneurismas en angiografías digitales.
Escuela Técnica Superior de Ingenieros Proyecto Fin de Carrera Comparativa de clasificadores para la detección de microaneurismas en angiografías digitales. DEPARTAMENTO DE TEORÍA DE LA SEÑAL Y COMUNICACIONES
Más detallesRedes Neuronales. Las redes neuronales son modelos computacionales que buscan imitar el funcionamiento
Redes Neuronales Las redes neuronales son modelos computacionales que buscan imitar el funcionamiento de las neuronas biológicas. Se usan principalmente para el reconocimiento de patrones complejos. Para
Más detallesAprendizaje inductivo no basado en el error Métodos competitivos supervisados.
Aprendizaje inductivo no basado en el error Métodos competitivos supervisados. Aprendizaje basado en instancias Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Contenido
Más detallesAnálisis aplicado. José Luis Morales. Departamento de Matemáticas. ITAM
Departamento de Matemáticas. ITAM. 2011. Consideraciones http://allman.rhon.itam.mx/ jmorales Temas del curso + bibliografía. Exámenes, proyectos. Aprender haciendo Trabajo individual Consideraciones http://allman.rhon.itam.mx/
Más detallesRepaso de conceptos de álgebra lineal
MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN Manuel Sánchez-Montañés Luis Lago Ana González Escuela Politécnica Superior Universidad Autónoma de Madrid Repaso
Más detallesOPTIMIZACIÓN Y SIMULACIÓN PARA LA EMPRESA. Tema 4 Optimización no Lineal
OPTIMIZACIÓN Y SIMULACIÓN PARA LA EMPRESA Tema 4 Optimización no Lineal ORGANIZACIÓN DEL TEMA Sesiones: El caso sin restricciones: formulación, ejemplos Condiciones de optimalidad, métodos Caso con restricciones:
Más detalles