Métodos No Lineales. Alvaro J. Riascos Villegas Universidad de los Andes y Quantil. Agosto de 2017

Transcripción

1 Alvaro J. Riascos Villegas Universidad de los Andes y Quantil Agosto de 2017

2 Contenido 1 Introducción

3 Introducción Las funciones de aprendizaje óptimas que hemos descubierto son: 1 Para el problema de regresión: f (X ) = E[Y X ] (cuando la función de pérdida es el error cuadrático). 2 Para el problema de regresión el clasificador de Bayes (cuando la función de pérdida toma solo dos valores).

6 Introducción En el caso de la función óptima de regresión la hemos aproximado por una función lineal de las variables explicativas: f (X ) = βx. En el caso del clasificador de Bayes lo hemos aproximado por funciones tales que una transformación monótona es lineal (e.g., la función logística). En el espacio de características (features), estas aproximaciones dan lugar a hiperplanos de separación. Por esta razón se llaman métodos lineales.

11 Aproximaciones no lineales al problema de regresión Bases de expansión. Supongamos que tenemos p variables explicativas y sea h m : R p R, m = 1,..., M funciones de transformación de X. Vamos a estudiar aproximaciones del tipo: f (x) = M m=1 β mh m (x) La ventaja de esta aproximación es que una vez se definen las funciones de transformación es un problema lineal en las variables transformadas. Ejemplos: la identidad, polinomios, interacciones, funciones indicadoras de regiones. El conjunto de funciones de transformación se conoce como un diccionario.

17 Splines Introducción Un Spline de orden M con nodos η 1,..., η K es un polinomio a trozos de orden M 1 con derivadas continuas de orden M 2. Las funciones de transformación son en general: h j (x) = x j 1, j = 1,..., M (1) h M+l = (x η l ) M 1 +, l = 1,..., K (2) El caso de splines cúbicos: 3 K f (x) = β j x j + θ k (x η k ) 3 + (3) j=0 k=1

20 Splines: Polinomios a trozos Elements of Statistical Learning (2nd Ed.) c Hastie, Tibshirani & Friedman 2009 Chap 5 Piecewise Constant Piecewise Linear Continuous Piecewise Linear Piecewise-linear Basis Function ξ 1 ξ 1 ξ 1 ξ 1 ξ 2 ξ 2 ξ 2 ξ 2 (X ξ 1) +

21 Splines: suavizando Elements of Statistical Learning (2nd Ed.) c Hastie, Tibshirani & Friedman 2009 Chap 5 Discontinuous Continuous Continuous First Derivative Continuous Second Derivative Piecewise Cubic Polynomials ξ 1 ξ 1 ξ 1 ξ 1 ξ 2 ξ 2 ξ 2 ξ 2

22 Splines de suavización El mayor inconveniente con esta técnica es la necesidad de elegir los nodos exante. Los splines de suavización (smoothing splines) buscan resolver este problema. Para esto resolvemos el problema de minimización sobre un espacio de funciones dos veces diferenciables: N (y i f (x i )) 2 + λ (f (t)) 2 dt (4) i=1 donde λ es el parámetro de suavización. La solución a este problema es una función no lineal expresable en términos de una base de expansión.

26 Splines de suavización Elements of Statistical Learning (2nd Ed.) c Hastie, Tibshirani & Friedman 2009 Chap 5 Age Relative Change in Spinal BMD Male Female FIGURE 5.6. The response is the relative change in bone mineral density measured at the spine in adolescents, as a function of age. A separate smoothing spline was fit to the males and females, with λ This choice corresponds to about 12 degrees of freedom.

28 Métodos de Kernels En esta sección estudiamos el método de Kernels como funciones de localizacioón en contraste con la literatura en la que representan productos internos en espacios de hilbert. La idea de los métodos de kernels es estimar funciones distintas en cada punto observado y de tal forma que la función resultante sea suave. Esto se logra usando una función de pesos K λ (x 0, x i ) donde el peso en x i depende de la distancia de x i a x 0 y x 0 es el punto donde queremos evaluar la función de aprendizaje. El parámetro clave es λ, es el único que hay que entrenar.

31 Introducción Métodos de Kernels Elements of Statistical Learning (2nd Ed.) c Hastie, Tibshirani & Friedman 2009 Chap 6 El vecino más cercano puede introducir discontinuidades innecesarias. Nearest-Neighbor Kernel Epanechnikov Kernel ˆf(x0) ˆf(x0) x0 x0 FIGURE 6.1. In each panel 100 pairs xi, yi are generated at random from the blue curve with Gaussian errors: Y = sin(4x) +ε, X U[0, 1], ε N(0, 1/3). In the left panel the green curve is the result of a 30-nearest-neighbor running-mean smoother. The red point is the fitted constant ˆf(x0), and the red circles indicate those observations contributing to the fit at x0. The solid yellow region indicates the weights assigned to observations. In the right panel, the green curve is the kernel-weighted average, using an Epanechnikov kernel with (half) window width λ =0.2.

32 Métodos de Kernels Una forma de suavizar es usando el método de Nadaraya-Watson con función el Kernel cuadrático de Epanechnikov: f (x 0 ) = N i=1 K λ(x 0, x i )y i N i=1 K λ(x 0, x i ) (5) K λ (x 0, x i ) = D( x i x 0 ) (6) λ D(t) = 3 4 (1 t2 ) si t 1 (7)

33 Elements Métodos of Statistical de Kernels: Learning Aprendizaje (2nd Ed.) no supervisado c Hastie, Tibshirani & Friedman 2009 Chap 6 Métodos de Kernels λ controla la varianza de la función de aprendizaje. Entre mayor sea λ menor es la varianza. Kernels comúnes: Kλ(x0,x) Epanechnikov Tri-cube Gaussian FIGURE 6.2. A comparison of three popular kernels for local smoothing. Each has been calibrated to integrate to 1. The tri-cube kernel is compact and has two continuous derivatives at the boundary of its support, while the Epanechnikov kernel has none. The Gaussian kernel is continuously differentiable, but has infinite support.

35 Estimación de densidades Supongamos que x 1,..., x N es una muestra de datos tomada con una distribución con densidad f X (x). Un primer estimador local es: f X (x 0 ) = num{n(x 0)} Nλ donde N(x 0 ) es una vecindad de tamaño λ. Una versión suavizada es: f X (x 0 ) = 1 N K λ (x 0, x i ) (9) Nλ i=1 donde por ejemplo K λ (x 0, x i ) = ψ λ (x x 0 ) y ψ λ es la densidad Gaussiana (0, λ 2 ). (8)

38 Estimación de densidades En forma reducida: En p dimensiones: f X (x) = 1 Nλ N ψ λ (x x i ) (10) i=1 f X (x) = 1 Nλ(2λ 2 π) p 2 N i=1 exp( 1 2 (x x i λ )2 ) (11)

39 Estimación de densidades En forma reducida: En p dimensiones: f X (x) = 1 Nλ N ψ λ (x x i ) (10) i=1 f X (x) = 1 Nλ(2λ 2 π) p 2 N i=1 exp( 1 2 (x x i λ )2 ) (11)

40 Elements of Statistical Learning (2nd Ed.) c Hastie, Tibshirani & Friedman 2009 Chap 6 Estimación de densidades Density Estimate Systolic Blood Pressure (for CHD group) FIGURE A kernel density estimate for systolic blood pressure (for the CHD group). The density estimate at each point is the average contribution from each of the kernels at that point. We have scaled the kernels down by a factor of 10 to make the graph readable.

42 Usando las estimaciones de Kernel de las densidades por clase f j, el clasificador óptimo se puede escribir (usando la regla de Bayes): π j f j (x 0 ) P(G = j X = x 0 ) = J k=1 π (12) kf k (x 0 ) donde π j son las frecuencias relativas de cada clase.

43 Estimación de densidades Density Estimates CHD no CHD Posterior Estimate Systolic Blood Pressure Systolic Blood Pressure FIGURE The left panel shows the two separate density estimates for systolic blood pressure in the CHD versus no-chd groups, using a Gaussian kernel density estimate in each. The right panel shows the estimated posterior probabilities for CHD, using (6.25).

44 : Bayes Naive Cuando el espacio de características es muy grande (p grande) la estimación por kernels tiene mucha varianza. El clasificador de Bayer asume independencia de las variables y en ese caso el clasificador de Bayes se reduce a: P(G = j X = x 0 ) = π j f j (x 0 ) J k=1 π kf k (x 0 ) (13) donde: f j (x) = Π p l=1 f j,l(x l ) (14) Cada f j,l es un kernel unidimensional. La complejidad del problema se reduce enormemente. Si alguna variable es dicreta, permite combinar fácilmente variables continuas y categóricas.

49 Predicción del crimen en Bogotá. El problema de causalidad y predicción.