Comparación de dos métodos de aprendizaje sobre el mismo problema Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid
Contenido 1. Motivación 2. Test de hipótesis 3. Varias ejecuciones: Test de student 4. Test de student remuestreado corregido 2
1. Motivación Suponer un problema y dos métodos de aprendizaje Pregunta habitual: Cuál de los dos métodos de aprendizaje es preferible utilizar? La respuesta no es sencilla pues depende del criterio utilizado Simplificación: preferir el método con menor tasa de error 3
Primera aproximación Estimar la tasa de error mediante validación cruzada, elegir el de menor error Suficiente en muchas aplicaciones Para disminuir la varianza debida a la elección de la partición: validación cruzada repetida Insuficiente si Aplicación crítica Investigación 4
2. Test de hipótesis Demostrar de forma convincente que un método es mejor que otro Desde un punto de vista estadístico: las diferencias observadas no se deben al azar. Hipótesis nula: las diferencias entre las tasas de error no son significativamente diferentes 5
Situación ideal: datos ilimitados Para cada tamaño de conjunto de entrenamiento Seleccionar suficientes conjuntos de entrenamiento y prueba de forma independiente Estimar tasas de error media Calcular intervalos de confianza para la diferencia (si suficientes conjuntos independientes, normal) Si el intervalo de confianza contiene el cero, no se puede rechazar la hipótesis nula: las diferencias no son significativas 6
En la realidad: datos limitados Pequeño número de estimaciones para obtener la media Peor aún: mala estimación de la varianza (varianza muestral) Incluso si suficientes datos, procedimiento muy costoso Habitualmente, planteamiento alternativo sobre un conjunto de datos limitado 7
Planteamiento del problema 8
Limitaciones de los test de hipótesis Varios test de hipótesis para este problema Cada uno establece requisitos diferentes sobre los conjuntos de datos y métodos de entrenamiento y prueba Errores relacionados con Violación de estos requisitos Exigencias excesivas (insuficientes) del test Error Tipo I: Detectar diferencias cuando no las hay Rechazar la hipótesis nula cuando no deben Error de Tipo II: No detectan diferencias existentes Aceptar la hipótesis nula cuando no deben 9
3. Varias ejecuciones: Test de Student (t test) Suponer que podemos estimar la tasa de error media de los algoritmos A y B sobre distintos conjuntos de datos, independientes, del mismo tamaño Queremos determinar si las tasas de error son significativamente diferentes Como no conocemos la verdadera varianza, las medias siguen al distribución t-student El test tiene más capacidad de discriminación si las muestras están pareadas 10
Estimación de las medias (I) Disponemos de k conjuntos de datos independientes del mismo tamaño x 1,, x k e y 1,, y k estimaciones de la tasas de error obtenidas Dividiendo aleatoriamente cada conjunto en T i, P i, i = 1, k Pareada: ambos métodos usan los mismos T i y P i para estimar x i e y i Estimación de las medias: x e y Valores verdaderos de las medias: µ x y µ y Intervalos de confianza para las medias: S x 2 k y S 2 y k Con S x 2 y S y 2 la varianza muestral estimada a partir de las tasas de error 11
Estimación de las medias (II) (x µ x )/ S x 2 y (y µ k y)/ S 2 y siguen una distribución t- k Student con k 1 grados de libertad 12
Distribución de las medias Para decidir si x e y son significativamente diferentes, consideramos la media de las diferencias, d i = x i y i Legítimo porque las observaciones están pareadas d = x y también sigue un distribución t-student con k 1 grados de libertad El estadístico t = d S d 2 /k, con S d 2 la varianza muestral de d, también sigue una distribución de t-student con (k 1) grados de libertad Hipótesis nula: las medias son iguales, la diferencia es cero (el intervalo de confianza del estadístico contiene al 0) 13
Test de Student Determinar el nivel de confianza (habitualmente 5%) Si la diferencia es significativa con un nivel α%, hay una probabilidad (100 α)% de que las medias difieran Si se usan tablas de una cola, dividir por dos porque el test es de dos colas Buscar en las tablas de (k 1) grados de libertad el valor de z para α/2 Si t z o t z, rechazar la hipótesis nula: la diferencia es significativa 14
Realización práctica del test de Student El test de Student es válido cuando disponemos de conjuntos de datos independientes En la práctica, no disponemos de k conjuntos independientes Variantes Test de Student remuestreado pareado Validación cruzada con test de Student remuestreado pareado Test de Student remuestreado pareado corregido 15
4. Test de Student remuestreado Realización práctica del test de Student El test de Student es válido cuando disponemos de conjuntos de datos independientes En la práctica, no disponemos de k conjuntos independientes Alternativa: el test se realizan con extrayendo repetidas veces conjuntos de entrenamiento y prueba del mismo conjunto de datos disponible Variantes Test de Student remuestreado pareado Validación cruzada con test de Student remuestreado pareado Test de Student remuestreado pareado corregido 16
Test de Student remuestreado pareado Disponemos de un único conjunto de datos D Generamos aleatoriamente k conjuntos de entrenamiento, T k (y k de prueba, P k = D T k ) Aplicamos test de Student a los k conjuntos. Inconveniente: ni T k ni P k son independientes Se obtienen del mismo D Además solapamiento de distintos T k y P k Consecuencia: error de Tipo I inaceptable No utilizar este test Que es popular 17
Validación cruzada con test de Student remuestreado pareado Disponemos de un único conjunto de datos D Validación cruzada de k particiones, pareada En cada partición, calcular x i y y i Test de Student sobre d = x y, calculando el estadístico t = d S d 2 /k Mejora sobre el anterior: los conjuntos de prueba P i no se solapan (los podríamos considerar independientes) Aun así los T i no son independientes y se solapan Error Tipo I aceptable, bajo error tipo II Habitualmente, 10 particiones 18
Estimaciones dependientes por reutilización de datos Si se dispone de pocos datos: reutilización Por ejemplo, validación cruzada repetida (pareada) Las estimaciones no son independientes Diferencias no significativas pueden convertirse en significativas Debido al factor 1/(k R) que afecta a la varianza muestral d t = 2 S d k R 2 Si 10 repeticiones de 10-XV dividimos S d por 100 El error de Tipo I puede ser inaceptable 19
Test de Student remuestreado corregido Heurística: sumar una constante a 1 k R Test heurístico: test t remuestreado corregido: t = d 1 k R + n 2 n 1 S d 2 con k: número de experimentos, n 1 : instancias de entrenamiento, n 2 instancias de prueba Para 10 validaciones cruzadas de 10 particiones: k R = 100, n 2 n 1 = 1 9 Error de tipo I aceptable 20
Conclusiones No hay un criterio único para comparar dos algoritmos de aprendizaje sobre un conjunto de datos Validación cruzada y test de Student remuestrado (corregido) son habituales Todos los métodos deben considerarse como aproximaciones al problema pues se violan las condiciones del test Especialmente la independencia 21
Bibliografía Thomas G. Dietterich. Approximate statistical test for comparing supervised classification learning algorithms. Neural Computation, 10(7):1895 1923, 1998. Claude Nadeau and Yoshua Bengio. Inference for the generalization error. Machine Learning, 52(239 281), 2003. 22