Aux 7. Introducción a la Minería de Datos

Transcripción

1 Aux 7. Introducción a la Minería de Datos Gastón L Huillier 1,2, Richard Weber 2 glhuilli@dcc.uchile.cl 1 Departamento de Ciencias de la Computación Universidad de Chile 2 Departamento de Ingeniería Industrial Universidad de Chile 2010

2 Auxiliar 7 Redes Neuronales (pt.2) Back-propagation Estimando los parámetros de la red Uso en Rapidminer v5.0 Evaluación de Modelos Holdout Cross Validation Evaluación de modelos de clasificación Verificación de hipótesis Use en Rapidminer v5.0

3 Red Neuronal - Perceptrón Multicapa [1] Artificial Neural Net MultiLayer Perceptron La arquitectura de la red neuronal se caracteriza porque tiene sus neuronas agrupadas en capas de diferentes niveles. Cada una de las capas esta formada por un conjunto de neuronas y se distinguen entre ellas en 3 niveles de capas distintas: la capa de entrada: se encargan de recibir las señales o patrones que proceden del exterior y propagar las señales a todas las otras neuronas de la siguiente capa las capas ocultas: son las que tienen la misión de realizar el procesamiento no lineal de los patrones recibidos. la capa de salida: actúa como salida de la red, proporcionando al exterior la respuesta de la red, para cada uno de los patrones de entrada.

4 Red Neuronal - Perceptrón Multicapa [2] Figura: Ejemplo Red Neuronal.

5 Red Neuronal - Perceptrón Multicapa [2] Figura: Diagrama Red Neuronal.

6 Red Neuronal - Perceptrón Multicapa [3] mín W 1,W 2 E = 1 N M y (x i ) k = f 2 j=1 N i=1 ( 1 2 ) K ( yi,k y ) 2 (x i ) k k=1 ( A ) w j,k 2 f 1 w a,j 1 x i,a + w a,0 1 a=1 + w 0,k 2 Principal problema: Estimar W 2 = {w j,k 2 }M,K j=1,k=0 y W 1 = {w a,j 1 }A,M a=1,j=0 minimizando el error de aprendizaje. Utilizando funciones de transferencia f 2 : M K y f 1 : A M, donde N es la cantidad de objetos en la base de datos de entrenamiento M es la cantidad de neuronas en la capa escondida.

7 Red Neuronal - Perceptrón Multicapa [4] mín W 1,W 2 E = 1 N M y (x i ) k = f 2 j=1 N i=1 ( 1 2 ) K ( yi,k y ) 2 (x i ) k k=1 ( A ) w j,k 2 f 1 w a,j 1 x i,a + w a,0 1 a=1 + w 0,k 2 K es la cantidad de clases en el problema de clasificación (en regressión L = 1). A es la cantidad de atributos para caracterizar a los objetos. El método más conocido para estimar el óptimo de esta función objetivo es el algoritmo Back-propagation. (La convergencia al mínimo global no está asegurada)

8 Red Neuronal - Perceptrón Multicapa [5] Finalmente se puede ver que la red neuronal es una función F : R A R K continua no lineal. Es decir Y = F(X, W) Figura: Artificial Neural Network Multi-Layer Perceptron.

9 Algoritmo Back-propagation Algoritmo que permite encontrar de manera heurística la solución al problema de minimización del error de la red neuronal. Descrito originalmente el año 1974 [Werbos, 1994], pero no fue reconocido hasta el año 1986 [PDP Research Group, 1986]. Compuesto de manera general por los siguientes pasos: 1 Se presentan las observaciones a la red y utilizando los pesos actuales se calculan los valores de salida. 2 Se calculan los errores tomando las diferencias entre los resultados obtenidos y los resultados esperados. 3 El error se retro-alimenta a través de la red y los pesos son ajustados para minimizar el error.

10 Algoritmo Back-propagation Una de las principales problemáticas del algoritmo backpropagation es que se presenta la situación de encontrar como solución mínimos locales. Se puede evitar este problema modificando los valores de la tasa de aprendizaje. Figura: Problemas con los mínimos locales y la tasa de aprendizaje.

11 Algoritmo Back-propagation

20 Ajuste de Parámetros [1] Cantidad de Capas Ocultas 1 Cualquier función booleana puede ser representada por una red neuronal con solo una capa intermedia. Lamentablemente puede necesitar un numero exponencial (en numero de entradas) de nodos en la capa media. [Fausett, 1994] 2 Cualquier función continua acotada puede ser aproximada con bajo porcentaje de error, por una red neuronal con una sola capa intermedia. [Cybenko, 1989, Hornik et al., 1990] 3 Cualquier función puede ser aproximada, con cierto nivel de precisión, con una red neuronal con dos capas [Cybenko, 1989]

21 Ajuste de Parámetros [2] Cantidad de Neuronas [1] 1 La cantidad de neuronas de entrada y salida están definidas por el problema. 2 La cantidad de neuronas en las capas ocultas determina los grados de libertad del modelo: Número muy pequeño de neuronas pueden que no sean suficientes para problemas muy complejos. Número muy grande de neuronas pueden sobre-entrenar el modelo y tener una perdida de generalidad ante nuevas observaciones. 3 Se suele usar (por defecto, y para comenzar el análisis de sensibilidad) la regla M = (A+K) (M cantidad de neuronas en la capa 2 media, A cantidad de neuronas en la capa de entrada, K cantidad de neuronas en la capa de salida.

22 Ajuste de Parámetros [3] Cantidad de Neuronas [2] 1 La cantidad de neuronas en las capas ocultas depende de una serie de factores, entre ellos la cantidad de observaciones en el conjunto de entrenamiento, la cantidad de ruido, complejidad del problema de clasificación, cantidad de atributos (neuronas de entrada) y clases (neuronas de salida), funciones de activación entre las capas, algoritmo de entrenamiento. 2 Una opción es ir evaluando varias redes neuronales para ir determinando el número apropiado de neuronas 3 Otra opción es comenzar con un número grande de neuronas y conexiones, y a medida que se va construyendo la red neuronal, se van podando aquellas conexiones que son innecesarias.

23 Ajuste de Parámetros [4] Decaimiento de los pesos 1 Para prevenir que los pesos vayan creciendo sin control alguno a valores muy grandes (señal de sobre entrenamiento), es conveniente agregar un decaimiento a los pesos de la forma: w t+1 = (1 ɛ)w t 2 Pesos que no son necesarios y no se van actualizando en cada iteración del algoritmo, van a decaer hasta anularse, mientras que aquellos que si son necesarios y se van actualizando de manera continua con backpropagation y ajustando con el decaimiento.

24 Ajuste de Parámetros [5] Número de épocas 1 Para evitar el sobre entrenamiento y el tiempo computacional necesario para entrenar la red, se puede fijar un cierto numero de épocas de entrenamiento de acuerdo al comportamiento observado del error de entrenamiento y de prueba. Entrenamiento con ruido 1 Se puede dar el caso que sea necesario agregar ruido a las observaciones de entrenamiento de manera de entregar una mayor generalidad al modelo. Función de activación 1 Una red neuronal MLP entrenada con el algoritmo backpropagation entrena generalmente más rápido si se utiliza una función de activación anti-simétrica ( f ( x) = f (x) )

25 Ajuste de Parámetros [6] Sobre-entrenamiento en redes neuronales Figura: [Mitchell, 1997].

26 Ajuste de Parámetros [6] Sobre-entrenamiento en redes neuronales Figura: [Mitchell, 1997].

27 Ajuste de Parámetros [7] Preprocesamiento de datos de entrada 1 Los datos de entrada deben estar pre-procesados de manera que su media sea cero, o un valor muy bajo con respecto a la varianza. 2 Los datos de entrada no deben estar correlacionados. Intentar de utilizar variables que no expliquen las mismas características de las observaciones de una base de datos. Una alternativa es utilizar PCA u otros métodos que aseguren variables independientes. 3 Las variables de entrada deben tener una varianza similar Pesos iniciales 1 Pesos iníciales deben ser valores pequeños para evitar la saturación de las neuronas: Valores de los pesos de entrada-capa-media son mayores que aquellos pesos capa-media-salida dado que actualizan sus valores con los errores de back-propagation

28 Ajuste de Parámetros [8] Actualización de los pesos 1 Existen dos aproximaciones básicas para actualizar los pesos durante el entrenamiento de la red: Entrenamiento On-line : Pesos son actualizados con backpropagation luego que cada observación es presentada a la red neuronal. Entrenamiento Batch : Pesos son actualizados una vez que todas las observaciones son presentadas a la red neuronal. 2 Se recomienda el entrenamiento Batch dado que se utiliza la dirección de máximo descenso, la más adecuada para el problema de optimización no lineal que se desea resolver. 3 Entrenamiento On-line solo entrega una menor complejidad computacional del entrenamiento en un orden. 4 Entrenamiento On-line es sensible al orden que se presentan las observaciones a la red neuronal.

29 Ajuste de Parámetros [9] Tasa de aprendizaje 1 Se recomienda utilizar una combinación de tasas de aprendizaje (η) sobre distintas redes. Este parámetro, a grandes rasgos, permite definir la velocidad por sobre la cual se va acercando al óptimo del problema de optimización definido sobre una red neuronal artificial. Momentum 1 Se puede incluir un parámetro llamado momentum (valor α) utilizado para la actualización de los pesos en el algoritmo de backpropagation. Permite considerar la cantidad de movimiento que cada peso tiene al irse actualizando, f (e) w t+1 = (1 ɛ)w t + (1 α)η e x + α(wt w t 1) 2 No existe una regla general para los valores de ambos parámetros, pero para el momentum se recomiendan valores cercanos a 0.2.

30 Auxiliar 7 Redes Neuronales (pt.2) Back-propagation Estimando los parámetros de la red Uso en Rapidminer v5.0 Evaluación de Modelos Holdout Cross Validation Evaluación de modelos de clasificación Verificación de hipótesis

31 Validación de Modelos Conceptos básicos Datos de Entrenamiento: Datos utilizados para entrenar el modelo Datos de Prueba: Datos utilizados para probar el modelo Datos Objetivo: Datos sobre los cuales se ejecuta posteriormente el modelo Error de predicción: Observaciones mal clasificadas sobre observaciones totales. Tasa de éxito = 1 error de predicción

32 Holdout [1] 1 Generalmente se tiene una base de datos, por lo que se debe dividir en una base de datos de prueba y otra de entrenamiento. Ambos conjuntos deben ser representativos con respecto a los datos objetivos. Problemas: 1 Si una clase no está representada en los datos de entrenamiento, el modelo no tendrá un buen desempeño para la clase y no se medirá bien el error asociado. 2 Existe un trade-off entre la cantidad de datos considerados para el conjunto de entrenamiento y de prueba. 1 Es necesario un conjunto de entrenamiento mayor para estimar un buen modelo. 2 Es necesario un conjunto de prueba mayor para tener una buena estimación del error.

33 Holdout [2] 1 Se puede considerar un Holdout estratificado, considerando la misma frecuencia de clases en cada partición Entrenamiento / Prueba. 2 Se puede considerar una selección con reemplazo de la base de datos original, probando una cierta cantidad de veces. El error estimado se puede considerar como el promedio de errores para la iteración. 3 Se considera generalmente la regla 2/3 entrenamiento y 1/3 prueba para la división de la base de datos.

34 Cross Validation [1] Validación Cruzada de n-folds 1 Se subdividen los datos en n subconjuntos disjuntos. 2 Se considera la evaluación de n 1 subconjuntos para el entrenamiento del modelo y 1 subconjunto para la prueba. Este proceso se repite hasta que los n subconjuntos fueron evaluados como prueba. 3 Una estimación del error, es el promedio de los errores considerados para las n evaluaciones de la prueba. 4 El caso más usado es una validación cruzada de 10-fold

35 Cross Validation [2] Figura: Ejemplo Cross-Validation 10-folds.

36 Cross Validation [3] Validación Cruzada de n-folds 1 Caso usualmente recomendado: 10 veces validación cruzada con 10 folds. 2 La principal desventaja es el costo computacional de evaluar K veces n modelos. Se tiene una complejidad de orden O(K n) O(modelo utilizado) 3 En el caso de tener pocos datos, es muy útil considerar leave-one-out cross validation. Funciona igual a n-fold c.v., donde n es el numero de observaciones presentes.

37 Evaluación Modelos de Clasificación [1] Matriz de confusión Real y = +1 Real y = 1 Clasificado y = +1 TP FP Clasificado y = 1 FN TN TP: Verdadero Positivo TN: Verdadero Negativo FP: Falso Positivo (error de tipo 1) FN: Falso Negativo (error de tipo 2)

38 Evaluación Modelos de Clasificación [2] Matriz de confusión Real y = +1 Real y = 1 Clasificado y = +1 TP FP Clasificado y = 1 FN TN N = TP + TN + FP + FN TP + TN Accuracy = N FP FP-rate = FP + TN TP TP-rate = TP + FN

39 Evaluación Modelos de Clasificación [2] Matriz de confusión Real y = +1 Real y = 1 Clasificado y = +1 TP FP Clasificado y = 1 FN TN Precision: Porcentaje de las observaciones correctamente clasificadas. Precision = TP TP + FP Recall: Porcentaje de todas las observaciones que deban ser clasificacdas, sean clasificadas correctamente. Recall = F-measure = TP TP + Fn 2 Precision Recall Precision + Recall

40 Verificación de hipótesis [1] Supongamos que repetimos r veces la evaluación de K veces dos modelos con los mismos conjuntos de entrenamiento y prueba. (i.e. r veces K Holdouts con reemplazo, o r veces Cross-Validation de K-folds) Figura: Se asume que a 1 N(µ 1, σ 1 ) y a 2 N(µ 2, σ 2 ).

41 Verificación de hipótesis [2] Sea x ij = a ij b ij, se considera el siguiente test de hipotesis H 0 : µ D = ɛ donde µ D = µ 1 µ 2 Si se considera, ˆσ = ˆµ = 1 r k 1 r K 1 rx i=1 rx i=1 KX x ij (media observada) j=1 KX (x ij ˆµ) 2 (varianza observada) j=1 ˆµ t = q (Estadístico del test t-student) ( 1 + n 2 r K n 1 )σ 2 n 1 y n 2 determinados por la cantidad de evaluaciones realizadas para modelo 1 y modelo 2 en el K-Cross Validation.

42 Verificación de hipótesis [3] Verificación de la hipotesis H : µ D ɛ si t > t α,r K 1 H : µ D > ɛ si t > t α,r K 1 H : µ D < ɛ si t < t α,r K 1 Cómo concluímos? Por ejemplo si se tiene entonces tenemos que H : µ D > ɛ si t α,r K 1 µ 1 > µ 2 Lo anterior indicaría que el modelo 1 puede ser considerado mejor que el modelo 2, con cierto nivel de significancia.

43 References I Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function. Mathematics of Control, Signals, and Systems, 2(4): Fausett, L., editor (1994). Fundamentals of neural networks: architectures, algorithms, and applications. Prentice-Hall, Inc., Upper Saddle River, NJ, USA. Hornik, K., Stinchcombe, M. B., and White, H. (1990). Universal approximation of an unknown mapping and its derivatives using multilayer feedforward networks. Neural Networks, 3(5): Mitchell, T. M. (1997). Machine Learning. McGraw-Hill, Inc., New York, NY, USA. PDP Research Group, C. (1986). Parallel distributed processing: explorations in the microstructure of cognition, vol. 1: foundations. MIT Press, Cambridge, MA, USA.

44 References II Werbos, P. J. (1994). The roots of backpropagation: from ordered derivatives to neural networks and political forecasting. Wiley-Interscience, New York, NY, USA.