Tabla de Contenidos. Support Vector Machine Gráficas, estadística y minería de datos con Python. Objetivos. Aspectos Técnicos. Miguel Cárdenas Montes

Transcripción

1 Support Vector Machine Gráficas, estadística y minería de datos con Python Tabla de Contenidos 1 Objetivos Miguel Cárdenas Montes Centro de Investigaciones Energéticas Medioambientales y Tecnológicas, Madrid, Spain miguel.cardenas@ciemat.es 6-10 de Octubre de Introducción 3 Support Vector Machine 4 Ejemplo 5 Regresión con SVM M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 Objetivos Conocer las diferencias entre los métodos de aprendizaje supervisado y no supervisados. Conocer métodos SVM lineales, polinómicos y radiales Introducción Aspectos Técnicos scikit-learn API Support Vector Machine M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44

2 Minería de Datos Minería de Datos La Minería de Datos (data mining) es un campo multidisciplinar cuyo objetivo es el descubrimiento de conocimiento en grandes volúmenes de información. La Minería de Datos está relacionado con otras áreas de trabajo como: machine learning, estadísitica, reconocimiento de imágenes, recuperación de información, redes neuronales, inteligencia artificial, computación de altas prestaciones, visualización de datos... La Minería de Datos estuvo en su desarrollo inicial muy ligada a la extración de conocimiento de las bases de datos, Knowledge Discover in Databases. M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 Minería de Datos Pasos KDD Diferencia con el análisis estadístico Diferencia con métodos estadísticos: la estadística se utiliza para validar o parametrizar un modelo preexistente, no para generarlo. Los sistemas clásicos de estadística pueden ser difíciles de usar y no escalan al número y tipo de datos que se suelen encontrar en bases de datos. 1 Limpieza de datos. Quitar datos ruidosos o inconsistentes. Desafío: Tratar con datos ruidosos y de baja calidad. 2 Integración de datos. Los datos de múltiples fuentes son integrados. Desafío: Tratar con datos no estructurados. 3 Selección de datos. Elegir aquellos que representando al conjunto son una parte reducida del mismo. Desafío: Tratar con grandes volúmnes de datos. 4 Data Mining 5 Evaluación del modelo. 6 Presentación (visualización) del conocimiento. M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44

3 Algoritmos Supervisados y No Supervisados Algoritmos Supervisados Las dos categorías principales de algoritmos de data mining son los denominados: supervisados y no supervisados. Supervisados: Support Vector Machine, K-Nearest Neighbors No Supervisados: K-means, DBSCAN, Gaussian Mixture Model En este caso, los datos incluyen características y etiquetas. El objetivo consiste en construir un estimador con capacidad predictiva sobre la etiqueta en función de un conjunto de características. Los algoritmos supervisados se dividen a su vez en dos categorías: impacientes y perezosos; y en dos tipos de problemas: clasificación y regresión. En clasificación la etiqueta es discreta o categórica y en regresión es continua. M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 Algoritmos No Supervisados Aprendizaje Supervisado En este caso, los datos no incluyen etiquetas. Al carecer de etiquetas, el objetivo es encontrar similitudes entre los objetos. Usos Predicción de futuros casos: se usa el modelo para predecir casos futuros. Extracción de conocimiento: el modelo es más fácil de comprender (visualizar), retener y comprender. Comprensión: el modelo es más simple que el conjunto de datos que explica. Cómo de cara es la atención de los humanos? Detección de valores atípicos o anómalos: excepciones que no son cubiertas por el modelo, por ejemplo fraudes or intrusiones. M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44

4 Aprendizaje No Supervisado Tipos de Datos Usos Encontrar estructuras en los datos. Cuáles son similares? Presentación descriptiva de los datos (no predictiva como en el aprendizaje supervisado). Usos Aprender qué sucede normalmente!; y qué es anómalo! Variables categóricas Nominales (no pueden ser ordenados): tipo de galaxia (eĺıptica, irregular, espiral), macho-hembra. Ordinales (pueden ser ordenadores): números enteros, temperatua si solo se toman los valores enteros. Variables numéricas o continuas: temperatura, distancia. M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 Qué es clasificación? Qué es predicción o regresión? Función En este caso un modelo o clasificador es construido para predecir atributos categóricos. Ejemplo Predecir si el riesgo de una prestamo es alto o bajo en función de la edad, los ingresos, el capital pedido,... Función En este caso un modelo o preditor es construido para predecir valores continuos o valores ordenados. Ejemplo Predecir cuanto se gastará una familia durante sus vacaciones en función de ciertos parámetros: número de miembros de la familia, edad de los miembros, procedencia, ingresos... M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44

5 The Top 10 Algorithms in Data Mining 1 C4.5, presented by Hiroshi Motoda 2 K-Means, presented by Joydeep Ghosh 3 SVM, presented by Qiang Yang 4 Apriori, presented by Christos Faloutsos 5 EM, presented by Joydeep Ghosh 6 PageRank, presented by Christos Faloutsos 7 AdaBoost, presented by Zhi-Hua Zhou 8 knn, presented by Vipin Kumar 9 Naive Bayes, presented by Qiang Yang 10 CART, presented by Dan Steinberg 18 Identified Candidates I Classification: C4.5: Quinlan, J. R C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers Inc. CART: L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification and Regression Trees. Wadsworth, Belmont, CA, K Nearest Neighbours (knn): Hastie, T. and Tibshirani, R Discriminant Adaptive Nearest Neighbor Classification. IEEE Trans. Pattern Anal. Mach. Intell. (TPAMI). 18, 6 (Jun. 1996), Naive Bayes: Hand, D.J., Yu, K., Idiot s Bayes: Not So Stupid After All? Internat. Statist. Rev. 69, Statistical Learning: SVM: Vapnik, V. N The Nature of Statistical Learning Theory. Springer-Verlag New York, Inc. EM: McLachlan, G. and Peel, D. (). Finite Mixture Models. J. Wiley, New York. M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / Identified Candidates II Association Analysis Apriori: Rakesh Agrawal and Ramakrishnan Srikant. Fast Algorithms for Mining Association Rules. In VLDB 94. FP-Tree: Han, J., Pei, J., and Yin, Y.. Mining frequent patterns without candidate generation. In SIGMOD 00. Link Mining PageRank: Brin, S. and Page, L The anatomy of a large-scale hypertextual Web search engine. In WWW-7, HITS: Kleinberg, J. M Authoritative sources in a hyperlinked environment. In Proceedings of the Ninth Annual ACM-SIAM Symposium on Discrete Algorithms, Clustering K-Means: MacQueen, J. B., Some methods for classification and analysis of multivariate observations, in Proc. 5th Berkeley Symp. Mathematical Statistics and Probability, BIRCH: Zhang, T., Ramakrishnan, R., and Livny, M BIRCH: an efficient data clustering method for very large databases. In SIGMOD Identified Candidates III Bagging and Boosting AdaBoost: Freund, Y. and Schapire, R. E A decision-theoretic generalization of on-line learning and an application to boosting. J. Comput. Syst. Sci. 55, 1 (Aug. 1997), Sequential Patterns GSP: Srikant, R. and Agrawal, R Mining Sequential Patterns: Generalizations and Performance Improvements. In Proceedings of the 5th International Conference on Extending Database Technology, PrefixSpan: J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal and M-C. Hsu. PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth. In ICDE 01. M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44

6 18 Identified Candidates IV Integrated Mining CBA: Liu, B., Hsu, W. and Ma, Y. M. Integrating classification and association rule mining. KDD-98. Rough Sets Finding reduct: Zdzislaw Pawlak, Rough Sets: Theoretical Aspects of Reasoning about Data, Kluwer Academic Publishers, Norwell, MA, Graph Mining gspan: Yan, X. and Han, J gspan: Graph-Based Substructure Pattern Mining. In ICDM 02. Support Vector Machine M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 SVM I SVM II Support Vector Machine (SVM) es un método supervisado de clasificación, aunque también puede utilizarse en regresión. H1 no separa las clases. H2 y H3 sí separan las clases. H3 maximiza el margen de separación de las clases. M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44

7 SVM III SVM IV Objetivo maximizar la anchura del margen que separa ambas clases de datos. Existen conjutos de datos no linealmente separables. SVM también puede tratarlos. M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 Elementos de SVM I SVM Un Support Vector Machine (SVM) ejecuta una clasificación. Para ello tiene que encontrar el hiperplano que maximiza el margen entre las dos clases. Los vectores (casos) que definen el hiperplano se denominan support vectors. SVM usa un mapeo no lineal transformando los datos originales en otros de dimensionalidad superior. En estas nuevas dimensionalidades, SVM busca el hiperplano óptimo que separa las clases. M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44

8 Ejemplo I Ejemplo SVM linealmente separable. import numpy as np import pylab as pl from sklearn import svm # first training set X = np.r_[ 1,2,0, \ [500,,,,,, 8000], \ [500,,,,,, ] ] Y = [0, 0, 0, 0, 0, \ 1, 1] pl.scatter(x[:, 0], X[:, 1], c=y, cmap=pl.cm.paired) pl.xlabel( Label A ) pl.ylabel( Label B ) pl.axis( tight ) pl.ylim( (0, 8110) ) pl.xlim( (0, 8110) ) pl.show() Label B Label A M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 Ejemplo II Ejemplo III SVM linealmente separable. # fit the model and get the separating hyperplane clf = svm.svc(kernel= linear, C=2.0) clf.fit(x, Y) Al añadir un nuevo punto se reoganiza el esquema. Se mantiene que los puntos son linealmente separables (3500, 3500, etiqueta 1). # get the separating hyperplane w = clf.coef_[0] a = -w[0] / w[1] xx = np.linspace(0, 1) yy = a * xx - (clf.intercept_[0]) / w[1] 5000 # plot the parallels to the separating hyperplane that pass through the # support vectors b = clf.support_vectors_[0] yy_down = a * xx + (b[1] - a * b[0]) b = clf.support_vectors_[-1] yy_up = a * xx + (b[1] - a * b[0]) # plot the line, the points, and the nearest vectors to the 0 plane pl.plot(xx, yy, k- ) Label A pl.plot(xx, yy_down, k-- ) pl.plot(xx, yy_up, k-- ) pl.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], s=80, facecolors= none ) pl.scatter(x[:, 0], X[:, 1], c=y, cmap=pl.cm.paired) Label B # Modified training set X = np.r_[ 1,2,0, \ [500,,,,,, 8000, 3500], \ [500,,,,,,, 3500] ] Y = [0, 0, 0, 0, 0, \ 1, 1, 1] Label B Label A M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44

9 Ejemplo IV Ejemplo V Label B Label A Label B Label A Predicción de nuevos puntos. from sklearn import svm X = [[0, 0], [0.4, 0.5], [1, 1], [2, 2]] y = [0, 0, 1, 1] clf = svm.svc() clf.fit(x, y) print clf.predict([[0.5, 1.]]) print clf.predict([[2., 2.]]) print clf.predict([[2., 3.]]) M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 Ejemplo VI Datos no linealmente separable. Se cambia un punto de etiqueta (,, etiqueta 1). El resultado gráfico es anómalo si se trata de mantener una separabilidad lineal. Ejemplo VII Sin embargo, con ecuación no lineal (polinómica) se podrían separar los datos. # Modified training set X = np.r_[ 1,2,0, \ [500,,,,,, 8000], \ [500,,,,,, ] ] Y = [0, 0, 1, 0, 0, \ 1, 1] clf = svm.svc(kernel= poly, gamma=4) clf.fit(x, Y) pl.figure() pl.clf() pl.scatter(x[:, 0], X[:, 1], c=y, zorder=10, cmap=pl.cm.paired) pl.axis( tight ) x_min = X[:, 0].min() x_max = X[:, 0].max() y_min = X[:, 1].min() y_max = X[:, 1].max() XX, YY = np.mgrid[x_min:x_max:200j, y_min:y_max:200j] Z = clf.decision_function(np.c_[xx.ravel(), YY.ravel()]) 500 # Put the result into a color plot Z = Z.reshape(XX.shape) pl.pcolormesh(xx, YY, Z > 0, cmap=pl.cm.paired) pl.contour(xx, YY, Z, colors=[ k, k, k ], linestyles=[ --, -, -- ], levels=[-.5, 0,.5]) pl.show() M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44

10 Tipos de kernel en SVM Parámetros de SVM Lineal Polinómico rbf, radial basis function sigmoide, tangente hiperbólica C Penalización del término de error. Este parámetro, común en todos los kernels, es un compromiso entre las clasificaciones erróneas de las tuplas de entrenamiento contra la simplicidad de la superficie de decisión. Un valor bajo de c hace la superficie de decisión suave, mientras que un valor alto trata de clasificar absolutamente todas las tuplas de entrenamiento correctamente. kernel Tipo de kernel usado en el algoritmo. degree Grado de la función kernel cuando de tipo polinómico. gamma Coeficiente del kernel cuando es de tipo rbf. coef0 Parámetro del kernel cuando es de tipo sigmoide. M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 Multiclases Complejidad Computacional de SVM Para datos no linealmente separable y más de dos clases es posible hacer mapas (mediante predicción) de las zonas de influencia de cada clase. SVM incrementa los requerimientos computacionales con rapidez con el número de tuplas de entrenamiento. El núcleo de la librería escala como O(n features nsamples 2 ) o como O(n features nsamples 3 ) dependiendo de la eficiencia del uso y de las particularidades de los datos. M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44

11 Regresión con SVM I Regresión con SVM El método de SVM puede ser extendida a la resolución de problemas de regresión. En SVR la etiqueta categórica tiene que ser cambiada por valores continuos. M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 Regresión con SVM II Gracias import numpy as np X = np.sort(5 * np.random.rand(40, 1), axis=0) y = np.sin(x).ravel() # Add noise to targets y[::4] += 3 * (0.5 - np.random.rand(10)) # Fit regression model from sklearn.svm import SVR svr_rbf = SVR(kernel= rbf, C=1e3, gamma=0.1) svr_lin = SVR(kernel= linear, C=1e3) svr_poly = SVR(kernel= poly, C=1e3, degree=2) y_rbf = svr_rbf.fit(x, y).predict(x) y_lin = svr_lin.fit(x, y).predict(x) y_poly = svr_poly.fit(x, y).predict(x) # look at the results import pylab as pl pl.scatter(x, y, c= k, label= data ) pl.hold( on ) pl.plot(x, y_rbf, c= g, label= RBF model ) pl.plot(x, y_lin, c= r, label= Linear model ) pl.plot(x, y_poly, c= b, label= Polynomial model ) pl.legend() pl.show() target Support Vector Regression Linear model Polynomial model data data Gracias Preguntas? Más preguntas? M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44 M. Cárdenas (CIEMAT) SVM 6-10 de Octubre de / 44