Metodología Experimental

Transcripción

1 Doctorado en Informática Métodos y Técnicas de Minería de Datos Metodología Experimental Juan José Rodríguez Diez jjrodriguez@ubu.es

2 Cuestiones Qué medimos. En principio, tasa de acierto/error. Qué experimentos hacemos. Como repartimos los datos en entrenamiento / test Cómo comparamos. Tests estadísticos. Metodología Experimental JJRD 2/61

3 Evaluación Cómo de bueno es prediciendo el modelo que hemos aprendido. El error en el conjunto de entrenamiento no es un buen indicador del error sobre datos nuevos. Almacenar los datos sería el clasificador óptimo. Rendimiento futuro sobre nuevos datos. Conjunto independiente de los datos de entrenamiento: datos de test. Normalmente solo se dispone de un conjunto de datos etiquetado. Si tenemos muchos datos etiquetados, dividir en entrenamiento y test. A menudo los datos etiquetados son limitados. Técnicas más sofisticadas. Metodología Experimental JJRD 3/61

4 Aspectos de la Evaluación Fiabilidad de las diferencias estimadas en el rendimiento. Elección de la medidas del rendimiento. Número de clasificaciones correctas. Precisión de las estimaciones de probabilidad. Error en predicción numérica. Costes asignados a distintos tipos de error. En muchas aplicaciones prácticas. Metodología Experimental JJRD 4/61

5 Entrenamiento y Test En clasificación la medida natural del rendimiento es la tasa de error. Acierto: la clase se predice correctamente. Error: la clase se predice incorrectamente. Tasa de error: proporción del número de errores cometidos sobre todo el conjunto de ejemplos. Error de resubstitución: tasa de error obtenida sobre el conjunto de entrenamiento. Inevitablemente optimista. Metodología Experimental JJRD 5/61

6 Entrenamiento y Test (II) Conjunto de test: ejemplos independientes que no se han usado de ningún modo en la construcción del clasificador. Tampoco se pueden usar en preprocesamientos. Suposición: los datos de entrenamiento y test son muestras representativas de un mismo problema subyacente. Los conjuntos de entrenamiento y test podrían ser de distinta naturaleza. Por ejemplo, clasificador construido sobre datos de clientes de dos ciudades diferentes. Estimar el rendimiento del clasificador obtenido en la primera ciudad sobre cualquier otra, utilizar la segunda ciudad para el conjunto de test. Metodología Experimental JJRD 6/61

7 Ajuste de Parámetros Los datos de test no se pueden usar de ningún modo para crear el clasificador. Algunos métodos trabajan en dos etapas: Construcción de la estructura básica. Optimizar los valores de los parámetros. Los datos de test no se pueden usar para el ajuste de párametros. Seleccionar entre varios métodos. Usar tres conjuntos independientes: entrenamiento, validación y test. Los de validación se usan para optimizar los parámetros o seleccionar. Metodología Experimental JJRD 7/61

8 Aprovechando los Datos Una vez que la evaluación se ha completado, se pueden usar todos los datos disponibles para construir el clasificador final. Normalmente, cuanto más grande sea el conjunto de entrenamiento mejor será el clasificador (mejoras cada vez más pequeñas). Cuanto más grande sea el conjunto de test, más precisa será la estimación del error. Holdout: dividir los datos originales en entrenamiento y test. Dilema: idealmente, ambos conjuntos deberían ser grandes. Buen clasificador o buena estimación del error Metodología Experimental JJRD 8/61

9 Predicción del Rendimiento Si la estimación de la tasa de error es del 25 %, cómo de cerca estamos a la tasa de error real. Depende del tamaño del conjunto de test. La predicción se puede considerar como lanzar una moneda trucada. Acierto o error en vez de cara o cruz. Sucesión de eventos independientes, proceso de Bernoulli. Intervalos de confianza para la verdadera proporción subyacente. Metodología Experimental JJRD 9/61

10 Intervalos de Confianza Podemos decir, p está en un determinado intervalo con una determinada confianza especificada. Ejemplo: S = 750 aciertos en N = 1000 intentos. Tasa de acierto estimada: 75 %. Con una confianza del 80 %, p está en [73.2, 76.7] Otro ejemplo: S = 75 aciertos en N = 100 intentos. Tasa de acierto estimada: 75 %. Con una confianza del 80 %, p está en [69.1, 80.1] Metodología Experimental JJRD 10/61

11 Media y varianza Media y varianza para un intento Bernouilli: p, p(1 p). Tasa de acierto esperada: f = S/N. Media y varianza para f: p, p(1 p)/n. Para valores de N suficientemente grandes, f sigue una distribución Normal. Intervalo de confianza [ z X z] del c % para una variable con media 0 Pr[ z X z] = c Para una distribución simétrica: Pr[ z X z] = 1 2 Pr[X z] Metodología Experimental JJRD 11/61

12 Límites de Confianza Pr[X z] z 0.1 % % % % % 1.28 [WF05] 20 % % 0.25 Entonces: Pr[ 1.65 X 1.65] = 90 %. Para poder usar esto se necesita transformar la variable f para que tenga media cero y varianza uno. Metodología Experimental JJRD 12/61

13 Transformación de f Valor transformado para f: f p p(1 p)/n Restamos la media, dividimos por la desviación estándar. Ecuación resultante: [ Pr z ] f p z p(1 p)/n = c Resolviendo para p: ( p = f + z2 2N ± z f N f2 N + ) ) z2 / (1 + z2 4N 2 N Metodología Experimental JJRD 13/61

14 Ejemplos f = 75 %, N = 1000, c = 80 % (de modo que z = 1.28). p [0.732, 0.767] f = 75 %, N = 100, c = 80 % (de modo que z = 1.28). p [0.691, 0.801] La suposición de que la distribución es normal solo es válida para N grande (i.e., N > 100). Metodología Experimental JJRD 14/61

15 Estimación por holdout Si la cantidad de datos es limitada. Holdout: reserva una cantidad para test, el resto para entrenamiento. E.g., un tercio para test. Problema: las muestras podrían no ser representativas. E.g., una clase podría no estar presente. Estratificación: asegura que cada clase está representada con aproximadamente las mismas proporciones en los dos subconjuntos. Metodología Experimental JJRD 15/61

16 Holdout repetido Más fiable si repetimos el proceso varias veces con diferentes muestras. En cada iteración se selecciona aleatoriamente una proporción para entrenamiento (posiblemente con estratificación). Las tasas de error de las diferentes iteraciones se promedian para obtener la tasa de error global. No es óptimo, los diferentes conjuntos de test se solapan. Cómo prevenir el solapamiento. Metodología Experimental JJRD 16/61

17 Validación Cruzada Evita el solapamiento de los conjuntos de test. Primer paso: repartir los datos en k subconjuntos del mismo tamaño. Segundo paso: usar cada subconjunto como test, el resto para entrenamiento. k-fold cross-validation. A menudo los subconjuntos se estratifican antes de realizar la validación cruzada. Se promedian las tasas de error. Metodología Experimental JJRD 17/61

18 Validación Cruzada (II) Estándar: 10 fold stratified cross validation. Apoyado por experimentación exhaustiva. La estratificación reduce la varianza del estimador. Ni la estratificación ni la división tienen que ser exactas. Validación cruzada repetida. Para paliar la influencia de la partición aleatoria. E.g.: 10 10, Metodología Experimental JJRD 18/61

19 Dejar Uno Fuera Leave one out (LOO). Validación cruzada con tantos grupos como ejemplos. Ventajas: Cantidad máxima de datos para entrenamiento. Determinista. Inconveniente: muy costoso computacionalmente. Excepciones, e.g., vecino más cercano. Metodología Experimental JJRD 19/61

20 Dejar Uno Fuera (II) No es posible estratificar. El conjunto de test solo tiene un ejemplo. Ejemplo artificial: conjunto completamente aleatorio con el mismo número de ejemplos de las dos clases. Mejor clasificador: predecir la mayoría. Sobre un conjunto nuevo de datos, acierto del 50 %. De acuerdo a LOO, 100 % de error. Metodología Experimental JJRD 20/61

21 Bootstrap Muestreo con reemplazamiento. Un mismo ejemplo puede ser seleccionado varias veces. Métodos de aprendizaje que son sensibles a cuantas veces aparece un valor. Obtener n elementos con reemplazamiento de un conjunto de n elementos. Conjunto de entrenamiento. En el fondo no es un conjunto... Los ejemplos no seleccionados irán al conjunto de test. Metodología Experimental JJRD 21/61

22 0.632 bootstrap Un ejemplo concreto tiene una probabilidad 1 1/n de no ser seleccionado. La probabilidad de acabar en el conjunto de test es ( 1 1 n) n e El conjunto de entrenamiento contendrá aproximadamente el 63.2 % de los ejemplos. Metodología Experimental JJRD 22/61

23 Estimación del error con bootstrap Evaluar sobre los datos de test: excesivamente pesimista. Entrenado con solo el 63 % de los ejemplos. Para compensar: e test e train Repetir varias veces con diferentes muestras, promediar los resultados. Para conjuntos de datos muy pequeños. Mismo conjunto artificial. Si se memoriza: 0 % de error en entrenamiento. Error: Metodología Experimental JJRD 23/61

24 Comparaciones 2 métodos. 1 conjunto. 1 ejecución. McNemar. Varias ejecuciones. Test t pareado (remuestreado corregido). Varios conjuntos. Test de signo sobre el número de victorias. Más de 2 métodos, varios conjuntos. Friedman. Todos contra todos. Nemenyi. Uno contra todos. Bonferroni-Dunn. Metodología Experimental JJRD 24/61

25 Test de McNemar Dos métodos, un conjunto, una ejecución. Entrenamiento R y Test T Entrenar algoritmos A y B sobre R Notación: n ij es el numero de ejemplos clasificados de modo i (0 mal, 1 bien) por A y de modo j por B n 00 n 01 n 10 n 11 Hipótesis nula, los dos algoritmos tienen la misma tasa de error: n 10 = n 01 El estadístico ( n 01 n 10 1) 2 n 01 +n 10 se distribuye aproximadamente como una χ 2 con 1 grado de libertad Si la hipótesis nula es correcta, la probabilidad que esta cantidad sea mayor que χ 2 1,0.95 = es menor que 0.05 [Die98] Metodología Experimental JJRD 25/61

26 McNemar (Exacto) Distribución binomial, probabilidad de s exitos en n intentos: n! s!(n s)! ps q n s Si no se esperan diferencias entre algoritmos, p = q = 0.5 n = n 01 + n 10, m = máx(n 01, n 10 ) La probabilidad de estos resultados es n s=m n! s!(n s)! 0.5n Metodología Experimental JJRD 26/61

27 2 Mét., 1 Conj, Varias Ejecuciones Evaluar los dos con validación cruzada, comparar. Para ciertas aplicaciones, puede ser suficiente. La diferencia puede deberse a que tenemos estimaciones del error. Repetir la validación cruzada. Demostrar convincentemente que un método en particular funciona mejor. Se quiere demostrar que un método A es mejor que B en un dominio particular. Para un tamaño determinado del conjunto de entrenamiento. En promedio, sobre todos los posibles conjuntos de entrenamiento. Metodología Experimental JJRD 27/61

28 2 Mét., 1 Conj, Varias Ejecuciones (II) Supongamos que hay una cantidad infinita de datos en el dominio. Obtener muchas muestras (conjuntos de datos) del tamaño especificado. Obtener una estimación por validación cruzada para cada conjunto y método. Comprobar si la precisión media del método A es mejor que la del método B. Significativamente. Metodología Experimental JJRD 28/61

29 Test t de Student En la práctica, los datos son limitados y tenemos un número limitado de estimaciones para calcular la media. Este test no indica si las medias de dos muestras son significativamente diferentes. Nuestras muestras son las estimaciones obtenidas por validación cruzada para diferentes conjuntos de datos del dominio. Test pareado, porque las muestras individuales están pareadas. Usar las mismas validaciones cruzadas para los dos métodos. Metodología Experimental JJRD 29/61

30 Distribución de las Medias Notación: x 1,... x k, y 1,... y k. Si hay suficientes ejemplos, la media de un conjunto de ejemplos tiene distribución normal Con independencia de la distribución de los propios ejemplos. Sean µ x y µ x los valor verdaderos de las media. No conocemos la varianza de las medias. Estimaciones: σ 2 x/k, σ 2 y/k. Entonces x µ x σ y y µ y tienen aproximadamente una distribución normal, 2 x /k σ 2 y /k con media 0 y varianza 1. Metodología Experimental JJRD 30/61

31 Distribución de Student Para muestras pequeñas (k < 100), la media sigue una distribución de Student con k 1 grados de libertad. Si más de 100, muy similar a la Normal. Ejemplo, para k = validaciones cruzadas. 9 grados de libertad. Pr[X z] 0.1 % 0.5 % 1 % 5 % 10 % 20 % z Metodología Experimental JJRD 31/61

32 Distribución de las Diferencias d i = x i y i, observaciones pareadas La media de las diferencias es la diferencia de las medias. d = x y También tiene una distribución de Student con k 1 grados de libertad. Hipótesis nula: las medias son iguales, la diferencia es nula Variable t-estadístico (media 0, varianza 1): t = d σ 2 d /k Metodología Experimental JJRD 32/61

33 Test de Student: Método Seleccionar un nivel de confianza (típicamente, 1 ó 5 %). Si la diferencia es significativa con un nivel α %, hay una probabilidad de (100 α) % de que las medias verdaderas difieran. Dividir el nivel por dos porque el test tiene dos colas. Determinar, a partir de la tabla, el valor de z que se corresponde con α/2. Si el valor de t es mayor que z o menor que z, rechazar la hipótesis nula (hay una diferencia significativa). Metodología Experimental JJRD 33/61

34 Observaciones no Pareadas Si las observaciones no están pareadas. Incluso se puede tener un número diferente de repeticiones (k y j). Test regular (no pareado) de Student. Grados de libertad: mín(k, j) 1. Estimación de la varianza de la diferencia de las medias: σ 2 x k + σ2 y j Metodología Experimental JJRD 34/61

35 Estimaciones Dependientes Suponíamos que teníamos datos suficientes como para crear varios conjuntos de datos del mismo tamaño. Si no es el caso, necesidad de reutilizar los datos. E.g., validaciones cruzadas sobre los mismos datos con distintas particiones aleatorias. Las muestras son dependientes. Diferencias insignificantes pueden convertirse en significantes. Heurística: test t remuestreado corregido [NB03]. Suponemos holdout repetido, n 1 ejemplos de entrenamiento, n 2 de test. Nuevo estadístico: t = d ( ) 1 + n 2 k n 1 σ 2 d Metodología Experimental JJRD 35/61

36 Comparación sobre varios Dominios [Dem06] Distintos conjuntos de datos (de distintos dominios). Caso particular: dos métodos. Test t pareado para cada conjunto. Resultados de significancia individuales. Un único t-test pareado con los resultados de cada conjunto. Los resultados en distintos conjuntos de datos no son comparables. Se necesita una muestra suficientemente grande ( 30) o distribución normal. Metodología Experimental JJRD 36/61

37 Número de Victorias: Test de Signo Contar el número de conjuntos para el que cada método gana. Si los dos métodos son equivalentes, cada uno debería ganar en la mitad de los conjuntos. Distribución binomial. conjuntos α = α = Un clasificador es significativamente mejor que otro si tiene mejores resultados para al menos el número de conjuntos en la tabla. Los empates se reparten. Para más conjuntos de datos: N/ N/2 (significancia: 5 %). Aproximadamente, N/2 + N Metodología Experimental JJRD 37/61

38 Varios Clasificadores Ranking para cada conjunto de datos. Se ordenan los métodos de mejor a peor. A cada método se le asigna un número con su posición. El mejor el 1, el segundo el 2... Si hay empates, valores promedios. E.g, si 4 métodos tienen el mejor resultado, se les asigna el valor 2.5. Para cada método, promediar sus posiciones. Ordenar de acuerdo a este ranking promedio. A partir de estos rankings se pueden realizar diversos tests estadísticos. Metodología Experimental JJRD 38/61

39 Ejemplo Resultados (AUC) Rankings C4.5 C4.5+m C4.5+cf C4.5+m+cf C4.5 C4.5+m C4.5+cf C4.5+m+cf adult breast cancer cancer wisconsin cmc ionosphere iris liver disorders lung cancer lymphography mushroom primary tumor rheum voting wine ranking promedio: Datos tomados de [Dem06] Metodología Experimental JJRD 39/61

40 Tests sobre los Rankings Test de Friedman. Hipótesis nula: los métodos son equivalentes, los rankings promedios deberían ser equivalentes. Estadístico de Friedman (N conjuntos de datos, k métodos, R j ranking promedio del método j) [ ] χ 2 F = 12N R 2 k(k + 1)2 j k(k + 1) 4 Distribución χ 2 con k 1 grados de libertad. Según Iman y Davenport, este test es demasiado conservador, estadístico alternativo: F F = (N 1)χ2 F N(k 1) χ 2 F Distribución F con k 1 y (k 1)(N 1) grados de libertad. Metodología Experimental JJRD 40/61 j

41 Tests sobre los Rankings (II) Si se rechaza la hipótesis nula, se puede proceder con un test post-hoc. Test de Nemenyi. Dos métodos son significativamente diferentes si sus rankings promedios difieren al menos en CD = q α k(k+1) 6N Clasificadores q q Test de Bonferroni-Dunn, cuándo se compara solo con un clasificador de control. Clasificadores q q Metodología Experimental JJRD 41/61

42 Ejemplo Para los resultados anteriores, X 2 F = 9.28 F F = Distribucion F con k 1 = 3 y (k 1)(N 1) = 39 grados de libertad. Valor crítico para α = 0.05, es Rechazamos la hipótesis nula. section3/eda3673.htm En la hoja de cálculo: =DISTR.F.INV(0,05;3;39) ó =DISTR.F(3,69;3;39) Metodología Experimental JJRD 42/61

43 Ejemplo (II) Si comparamos todos con todos, Nemenyi. CD = 1.25 ó CD = 1.12, dependiendo del nivel (5 % ó 10 %).. CD C4.5.. C4.5+cf. C4.5+m+cf. C4.5+m Si comparamos solo con C4.5, Bonferroni-Dunn. CD = 1.16 (nivel 5 %) C4.5.. C4.5+cf. C4.5+m+cf. C4.5+m [Dem06] Metodología Experimental JJRD 43/61

44 Regresión Mismas estrategias: conjunto de test independientes, validación cruzadas, test de significancia... Diferencia: medidas del error. Valores reales: a 1, a 2,... a n. Valores predichos: p 1, p 2,... p n. Más popular: error cuadrático medio. (p 1 a 1 ) (p n a n ) 2 Fácil de manipular matemáticamente. n Error absoluto medio. p 1 a p n a n n Metodología Experimental JJRD 44/61

45 Mejora de la Media Cuánto mejora el método a predecir el valor medio. Error cuadrático relativo. (p 1 a 1 ) (p n a n ) 2 (a a 1 ) (a a n ) 2 a es el valor medio en el conjunto de entrenamiento. Error absoluto relativo. p 1 a p n a n a a a a n A menudo la selección del método no depende de la medida. Metodología Experimental JJRD 45/61

46 Predicción de Probabilidades Hasta ahora la medida del rendimiento era la tasa de acierto. También denominada función de pérdida 0-1. La pérdida es 0 si se acierta, 1 si se falla. Muchos clasificadores son capaces de asignar una probabilidad a cada predicción. Para ciertas aplicaciones, podríamos comprobar la precisión de las estimaciones de probabilidad. Podría ser mejor acertar con 0.99 que con A veces la predicción puede ser entrada para otros procesos. E.g., análisis humano. Metodología Experimental JJRD 46/61

47 Función de pérdida cuadrática p 1... p k son las estimaciones de probabilidad para un ejemplo. c es el índice de la clase verdadera. a 1... a k = 0, savo a c = 1. Pérdida cuadrática: (p j a j ) 2 = j j c p 2 j + (p c 1) 2 = 1 2p c + j p 2 j Sumar la pérdida de cada ejemplo. Metodología Experimental JJRD 47/61

48 Función de Pérdida de Información log 2 p c Representa el número de bits necesarios para comunicar la clase verdadera. Sean p 1... p k las probabilidades reales de las clases. El valor esperado para la función de pérdida es p 1 log 2 p 1... p k log 2 p k Problema: si se asigna una probabilidad 0 a un evento que ocurre, pérdida infinita. Metodología Experimental JJRD 48/61

49 Discusión Qué función elegir. Ambas promueven la honestidad. La función de pérdida cuadrática tiene en cuenta las estimaciones de probabilidad de todas las clases para el ejemplo. La función de pérdida de información solo se fija en la probabilidad asignada a la clase verdadera. La pérdida cuadrática está acotada, 1 + j p2 j, como mucho 2. La pérdida de información puede ser infinita. Metodología Experimental JJRD 49/61

50 Sobre la Precisión No siempre es adecuado utilizar la precisión (el error) para comparar métodos. Suposiciones: Los costes de los errores son los mismos. Distribución de clases conocida a priori. Ejemplos: fraudes, créditos, inseminación de ganado, diagnosis... Para dos clases: (ciertos, falsos) (positivos, negativos). Metodología Experimental JJRD 50/61

51 Sobre la Precisión (II) Matriz de confusión. positivo clase real negativo clase sí cierto positivo falso positivo predicha no falso negativo cierto negativo Precisión: TP+TN P+N Tasa de ciertos positivos: tp = TP P Tasa de falsos positivos: fp = FP N Metodología Experimental JJRD 51/61

52 Análisis ROC Análisis ROC (Receiver Operation Characteristic), originado en teoría de la señal y común en diagnosis médica. Representación gráfica del rendimiento de clasificadores. Especialmente útiles en problemas desesequilibrados o sensibles al coste. Espacio ROC: pares (fp, tp). Relación entre los beneficios (ciertos positivos) y los costes (falsos positivos). Metodología Experimental JJRD 52/61

53 Análisis ROC (II) Cada clasificador un punto en ese espacio. (0, 0) aquellos clasificadors que siempre predicen negativo. (1, 1) si siempre predice positivo. (0, 1) clasificador perfecto. Un clasificador es mejor que otro si está encima y a la izquierda. Predicción aleatoria: en la diagonal. Metodología Experimental JJRD 53/61

54 Análisis ROC (III) Metodología Experimental JJRD 54/61

55 Análisis ROC (IV) Si el modelo ofrece una salida continua (e.g., probabilidad posterior), cada umbral define un clasificador tasa ciertos positivos tasa ciertos positivos tasa falsos positivos tasa falsos positivos Metodología Experimental JJRD 55/61

56 Análisis ROC (V) [Faw06] Metodología Experimental JJRD 56/61

57 Curvas ROC Metodología Experimental JJRD 57/61

58 Curvas ROC (II) Curvas ROC: habilidad de los clasificadores para generar buenos valores numéricos relativos, aunque no sean buenas probabilidades. Que permitan discriminar bien. Robustas a cambios en la distribución de clases en el conjunto de test. Representación bidimensional del rendimiento. Para comparar es mejor tener un único valor numérico. Área bajo la curva, AUC. Porción del área de un cuadrado unitario, valor entre 0 y 1. Debería ser mayor que 0.5. Un clasificador aleatorio genera la diagonal entre (0,0) y (1,1). Metodología Experimental JJRD 58/61

59 Curvas ROC (III) El área bajo la curva es equivalente a la probabilidad de que el clasificador asigne un valor superior a una instancia positiva que a una negativa, cuando ambas se seleccionan aleatoriamente. Test de rangos de Wilcoxon. Relacionada con el coeficiente de Gini (criterio para construir árboles de decisión), ya que este valor se corresponde con 2 AUC 1. Metodología Experimental JJRD 59/61

60 Referencias [Dem06] [Die98] J. Demšar. Statistical comparisons of classifiers over multiple data sets. Journal of Machine Learning Research, 7:1 30, Thomas G. Dietterich. Approximate statistical test for comparing supervised classification learning algorithms. Neural Computation, 10(7): , [Faw06] Tom Fawcett. An introduction to roc analysis. Pattern Recognition Letters, 27(8): , June [FHOM08] C. Ferri, J. Hernandez-Orallo, and R. Modroiu. An experimental comparison of performance measures for classification. Pattern Recognition Letters, September [GH08] Salvador García and Francisco Herrera. An extension on statistical comparisons of classifiers over multiple data sets for all pairwise comparisons. Journal of Machine Learning Research, 9: , December [Mit97] T. Mitchell. Machine Learning. McGraw Hill, [NB03] [Sal97] Claude Nadeau and Yoshua Bengio. Inference for the generalization error. Machine Learning, 52( ), Steven L. Salzberg. On comparing classifiers: Pitfalls toavoid and a recommended

61 approach. Data Min. Knowl. Discov., 1(3): , [WF05] I. H. Witten and E. Frank. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, 2nd edition, 2005.