Evaluación de Modelos (II) Carlos Hurtado L. Departamento de Ciencias de la Computación, U de Chile

Documentos relacionados
CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Estadística y sus aplicaciones en Ciencias Sociales 6. Prueba de hipótesis. Facultad de Ciencias Sociales, UdelaR

Teorema Central del Límite (1)

Tema 8: Introducción a la Teoría sobre Contraste de hipótesis

Pruebas de Hipótesis. Diseño Estadístico y Herramientas para la Calidad. Pruebas de Hipótesis. Hipótesis

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

Tema 8: Contraste de hipótesis

Contrastes de hipótesis. 1: Ideas generales

Determinación del tamaño de muestra (para una sola muestra)

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Tema 5. Muestreo y distribuciones muestrales

Conceptos del contraste de hipótesis

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

Contrastes de hipótesis paramétricos

Tema 13 : Intervalos de probabilidad y confianza. Hipótesis y decisiones estadísticas.

Tema 5: Introducción a la inferencia estadística

Validación de los métodos microbiológicos HERRAMIENTAS ESTADISTICAS. Bqca. QM Alicia I. Cuesta, Consultora Internacional de la FAO

Unidad IV: Distribuciones muestrales

Curso de Estadística Aplicada a las Ciencias Sociales. Tema 12. Contraste de hipótesis. Introducción. Introducción

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

BIOESTADISTICA ( ) Evaluación de pruebas diagnósticas. 1) Características del diseño en un estudio para evaluar pruebas diagnósticas.

Tema 7 Intervalos de confianza Hugo S. Salinas

Preliminares Interpolación INTERPOLACIÓN Y APROXIMACIÓN POLINOMIAL

Contraste de hipótesis paramétricas

OTRAS HERRAMIETAS ESTADISTICAS UTILES. Dra. ALBA CECILIA GARZON

Cómo se hace la Prueba t a mano?

ESTADÍSTICA. Tema 4 Regresión lineal simple

Técnicas Cuantitativas para el Management y los Negocios I

Funciones de Regresión No Lineales (SW Cap. 6)

Estructura de este tema. Tema 3 Contrastes de hipótesis. Ejemplo

PATRONES DE DISTRIBUCIÓN ESPACIAL

Tema 4: Probabilidad y Teoría de Muestras

Contrastes de Hipótesis paramétricos y no-paramétricos.

CAPÍTULO 10 ESTIMACIÓN POR PUNTO Y POR INTERVALO 1.- ESTIMACIÓN PUNTUAL DE LA MEDIA Y DE LA VARIANZA 2.- INTERVALO DE CONFIANZA PARA LA MEDIA

TEST DE HIPÓTESIS. Ejemplo: vamos a analizar los resultados de 5 Servicios de Neonatología de una

Prueba de hipótesis para la diferencia de medias

Ejercicio 1(10 puntos)

Práctica 5 ANÁLISIS DE UNA MUESTRA INTERVALOS DE CONFIANZA CONTRASTE DE HIPÓTESIS

INFERENCIA ESTADÍSTICA

Tema 5. Contraste de hipótesis (I)

Tema 4. MODELOS DE DISTRIBUCIONES DISCRETOS.

Hipótesis y decisiones

Podemos definir un contraste de hipótesis como un procedimiento que se basa en lo observado en las muestras y en la teoría de la probabilidad para

en Enfermería del Trabajo

Contrastes de hipótesis estadísticas. Contrastes paramétricos

Métodos Estadísticos Multivariados

Validación Cruzada (cross-validation) y Remuestreo (bootstrapping)

Pruebas de Hipótesis H0 : μ = 6 H1 : μ 6 α = 0.05 zα/2 = 1.96 (6-1,96 0,4 ; 6+1,96 0,4) = (5,22 ; 6,78) 5,6 Aceptamos la hipótesis nula H 0 2.

INTERVALOS DE CONFIANZA Julián de la Horra Departamento de Matemáticas U.A.M.

A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA. Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords

Unidad 1: Probabilidad

1. Introducción Experimento aleatorio. Sucesos y espacio muestral 2

Taller de Validación de Métodos Verificación de Procedimientos de Medidas Cualitativos: Enfermedades Infecciosas. PONENTE: Gabriel A.

ÍNDICE INTRODUCCIÓN... 21

Problemas resueltos. Tema 12. 2º La hipótesis alternativa será que la distribución no es uniforme.

Cómo introducir Prueba de Hipótesis para una media, utilizando experimentos en el salón de clase.

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

LA MEDIDA. Magnitud es todo aquello que puede ser medido. Por ejemplo una longitud, la masa, el tiempo, la temperatura...

TEMA 3: Contrastes de Hipótesis en el MRL

Método de cuadrados mínimos

Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24

ESTADÍSTICA DESCRIPTIVA

Tamaño de la muestra

CURSO: Métodos estadísticos de uso frecuente en salud

Generación de variables aleatorias continuas Método de rechazo

JUEGO DE BASKETBALL. Repaso de Distribuciones de Probabilidad Discretas y Continuas

EL4005 Principios de Comunicaciones Clase No.24: Demodulación Binaria

Clase No. 20: Integrales impropias MAT 251. Joaquín Peña (CIMAT) Métodos Numéricos (MAT 251) / 14

Medidas de Dispersión

Cálculo del tamaño de la muestra

Métodos de Pareo FN1. Fernanda Ruiz Nuñez Noviembre, 2006 Buenos Aires

TAMAÑO DE MUESTRA EN LA ESTIMACIÓN DE LA MEDIA DE UNA POBLACIÓN

INFERENCIA ESTADÍSTICA: CONTRASTES DE HIPÓTESIS

Proyecto Curso Introducción a la Investigación Clínica. Tipo de Curso: Director del Curso: E.U. Magdalena Castro MSc

Pruebas de Bondad de Ajuste

INDICE. Prólogo a la Segunda Edición

Esta proposición recibe el nombre de hipótesis

Pruebas de Hipótesis-ANOVA. Curso de Seminario de Tesis Profesor QF Jose Avila Parco Año 2016

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Estadística con. Práctica 5: Intervalos de Conanza. Test de Hipótesis. Objetivo. 1. Intervalos y test (una sola muestra)

Pruebas de Hipótesis Multiples

EJERCICIOS RESUELTOS DE ESTADÍSTICA II

Técnicas de validación estadística Bondad de ajuste

Tema 9: Contraste de hipótesis.

INFERENCIA ESTADISTICA

Tema 5. Muestreo y distribuciones muestrales

Tema 7: Estadística y probabilidad

Tabla de Test de Hipótesis ( Caso: Una muestra ) A. Test para µ con σ 2 conocida: Suponga que X 1, X 2,, X n, es una m.a.(n) desde N( µ, σ 2 )

Distribución Chi (o Ji) cuadrada (χ( 2 )

Curso de nivelación Estadística y Matemática

Conjuntos, relaciones y funciones Susana Puddu

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Epidemiología. 4. Validez y confiabilidad de las pruebas diagnósticas.

Medidas de dispersión

Es una proposición o supuesto sobre los parámetros de una o más poblaciones

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

CORRELACIÓN Y REGRESIÓN. Juan José Hernández Ocaña

CAPÍTULO IV TRABAJO DE CAMPO Y PROCESO DE CONTRASTE DE LAS HIPÓTESIS

Datos estadísticos. UNIDAD I. ESTADÍSTICA APLICADA A LOS NEGOCIOS

UNIVERSIDAD DEL VALLE DE MÉXICO PROGRAMA DE ESTUDIO DE LICENCIATURA PRAXIS MES XXI

Transcripción:

Evaluación de Modelos (II) Carlos Hurtado L. Departamento de Ciencias de la Computación, U de Chile

Comparación de Modelos Podemos estimar el error de cada modelo y rankear. Una alternativa más sólida es usar técnicas de inferencia estadística

Comparación de Modelos Supongamos que tenemos dos modelos M1 y M2 con errores sobre datos objetivos ¼ 1 ; ¼ 2 No conocemos estos errores, sólo podemos estimarlos. Para compararlos, debemos diseñar una prueba para estimar la diferencia: ¼ d = ¼ 1 ¼ 2

Veremos cuatro Situaciones en que Comparamos Modelos Estrategia de Prueba de los modelos: Holdout vs. Validación Cruzada Relación entre los datos de prueba de los modelo: Independiente: datos de prueba son independientes. Pareado: datos de prueba se pueden parear (folds iguales en validación cruzada).

Test Estadísticos Holdout y Validación Cruzada- Pareado: Test t para diferencia de media: dos muestras pareadas con varianza distinta y desconocida. Holdout Independiente: Test z para diferencia de proporciones: dos muestras no pareadas con varianza distinta y desconocida.

Test Estadísticos (cont.) Validación Cruzada Indep.: Test t para diferencia de medias: dos muestras no pareadas con varianza distinta y desconocida.

Hodout-Independiente Los errores de los modelos se estimaron con datos de prueba diferentes e independientes. Este caso sucede frecuentemente cuando queremos comparar modelos propuestos en distintos artículos científicos. Para el test tenemos: M 1 : p 1 ; n 1 M 2 : p 2 ; n 2

Holdout - Independiente Estimamos la diferencia como d = p 1 p 2 La variable d tiene media ¼ d = ¼ 1 ¼ 2 y varianza ¾d 2 = ¼ 1(1 ¼ 1 ) + ¼ 2(1 ¼ 2 ) n 1 n 2 Y tenemos la sgte aproximación d ¼ d ¾ d» N(0; 1)

Holdout - Independiente: Intervalo de Confianza para la Diferencia Si las muestra son suficientemente grandes, podemos estimar la varianza como S 2 d = p 1(1 p 1 ) n 1 + p 2(1 p 2 ) n 2 Y tenemos el sgte intervalo para la diferencia d z 0:025 S d ¼ d d + z 0:025 S d

Ejemplo: Holdout Independiente: Intervalo de Confianza p n M1 0.9 100 M2 0.8 50 d 0.1 S_d 0.06 Confianza C 0.95 z_(1-c/2) 1.96 Error Estándar (z * S_d) 0.13 LimInf (d ErrorEst) -0.03 LimSup (d + ErrorEst) 0.23

Holdout - Idependiente: Verificación de Hipótesis Sea Definimos las hipótesis Si H 0 z 0 = d S d» N(¼ d ; 1) H 0 : ¼ d = 0 vs. H 1 : ¼ d 6= 0 es cierta tenemos z 0» N(0; 1)

Holdout - Idependiente: Verificación de Hipótesis Rechazamos H 0 ssi: z 0 > z =2 or z 0 < z =2 es el nivel de error (prob. de rechazar H 0 si es cierta).

Holdout - Idependiente: Verificación de Hipótesis Para verificar rechazamos Para verificar rechazamos H 0 : ¼ d = 0 vs. H 1 : ¼ d < 0 H 0 z 0 < z ssi H 0 : ¼ d = 0 vs. H 1 : ¼ d > 0 H 0 z 0 > z ssi

Ejemplo: Holdout - Idependiente: Verificación de Hipótesis p n M1 0.9 100 M2 0.6 50 d 0.3 S_d 0.08 Nivel de Error (alfa) 0.05 z_0 3.97 z_alfa/2 1.96 z_alfa 1.64 Se rechaza H0:d=0 vs H1: d=/=0? Se rechaza H0:d=0 vs H1:d<0? Se rechaza H0:d=0 vs H1:d>0? si no si

Holdout - Pareado Es posible correr los modelos sobre los mismos datos de prueba. Podemos medir el error en cada dato En general esto permite intervalos más exactos. Medimos los errores como variables binarias: M 1 : X 11 ; X 12 ; : : : ; X 1n M 2 : X 21 ; X 22 ; : : : ; X 2n

Holdout - Pareado Estimamos la diferencia: d = 1 nx d i ; d i = X 1i X 2i n La variable i=1 d tiene media ¼ d = ¼ 1 ¼ 2 Varianza de d S 2 d = 1 n 1 nx (d i d) 2 i=1

Holdout - Pareado Tenemos d ¼ d S d pn» t(n 1) Intervalo de 95% de confianza para d d t 0:025 S d p n ¼ d d + t 0:025 S d p n

Holdout - Pareado Verificación de Hipótesis es análoga al caso independiente pero con t 0 = d S d pn» t(n 1)

Validación Cruzada - Pareado Realizamos un experimento de validación cruzada con los mismos datos y partición sobre los dos modelos. Para cada Modelo tenemos los errores medidos en los folds: M 1 : p 11 ; p 12 ; : : : ; p 1k M 2 : p 21 ; p 22 ; : : : ; p 2k

Validación Cruzada - Pareado Estimamos la diferencia como: d = 1 kx d i d k = p 1k p 2k k i=1 La variable Varianza estimada de S 2 d = 1 k 1 d tiene media ¼ d = ¼ 1 ¼ 2 d kx (d k d) 2 i=1

Caso: Validación Cruzada Pareado Tenemos d ¼ d S d pk» t(k 1) Intervalo de 95% de confianza para la diferencia d t 0:025 S d p k ¼ d d + t 0:025 S d p k

Ejemplo: Valiadación Cruzada Pareado: Intervalo de Confianza M1 0.8 0.9 0.7 0.6 0.8 M2 0.75 0.7 0.6 0.5 0.6 d_i 0.05 0.2 0.1 0.1 0.2 d 0.13 S_d 0.07 Confianza C 0.95 Grados de libertad (k-1) 4 t_(1-c/2) 2.78 Error Estándar (t * S_d/sqrt(k)) 0.08 LimInf (d ErrorEst) 0.05 LimSup (d + ErrorEst) 0.21

Caso: Validación Cruzada Pareado Hipótesis nula: Hipótesis alternativa: H 0 : ¼ d = 0 H 1 : ¼ d 6= 0 Aceptamos H 0 con de nivel de error ( 1 de confianza) ssi t 0 > t =2 or t 0 < t =2 t 0 = d S d pk

Validación Cruzada Pareado Para el test rechazamos Para el test rechazamos H 0 : ¼ d = 0 vs. H 1 : ¼ d < 0 t 0 < t H 0 ssi H 0 : ¼ d = 0 vs. H 1 : ¼ d > 0 H 0 ssi t 0 > t

Ejemplo: Validación Cruzada Pareado: Verificación de Hipótesis M1 0.8 0.9 0.7 0.6 0.8 M2 0.75 0.7 0.6 0.5 0.6 d_i 0.05 0.2 0.1 0.1 0.2 d 0.13 S_d 0.07 Grados de libertad (k-1) 4 Nivel de Error (alfa) 0.05 t_0 3.36 t_alfa/2 2.78 t_alfa 2.13 Se rechaza H0:d=0 vs H1: d=/=0? Se rechaza H0:d=0 vs H1:d<0? Se rechaza H0:d=0 vs H1:d>0? si no si

Validación Cruzada - Independiente Cada modelo se evaluó usando validación cruzada con un conjunto de datos distintos o con los mismos datos pero distintos folds. Tenemos los errores (como proporciones) para los folds de cada modelo: M 1 : p 11 ; p 12 ; : : : ; p 1k1 M 2 : p 21 ; p 22 ; : : : ; p 2k2

Validación Cruzada Independiente Estimamos la diferencia como: p 2 = 1 Xk 2 p1 = 1 Xk 1 p d = p 1 p 2 2i k 1 k 2 i=1 La variable p 1i i=1 d tiene media ¼ d = ¼ 1 ¼ 2 Varianza estimada de d S 2 d = S2 1 k 1 + S2 2 k 2

Validación Cruzada Independiente Tenemos la siguiente aproximación Grados de libertad: v = (n 1 1)(n 2 1) (n 2 1)c 2 + (n 1 1)(1 c 2 ) d ¼ d S d c =» t(v) Intervalo de 95% de confianza para la diferencia: d t 0:025 S d ¼ d d + t 0:025 S d S 2 1 k 1 S 2 1 k 1 + S2 2 k 2

Validación Cruzada Independiente Verificación de Hipótesis es análoga al caso anterior pero con t 0 = d S d» t(v)

Ejemplos de modelos que parecen buenos pero no lo son Aplicación: aprobación de créditos Modelo: todo postulante paga el crédito Baja tasa de error Aplicación: diagnóstico de cáncer Modelo: todos los tumores son benignos Baja tasa de error

Contabilización del Costo Los modelos anteriores no son buenos aunque tienen baja tasa de error. Pera el tipo de error que nos interesa, se comportan mal. En muchos casos, un buen modelo debe detectar excepciones, lo que no mide la tasa de error.

Tipos de Error Para evitar lo anterior debemos considerar los distintos tipos de error y su costo: Tabla de contingencia: Clase Predicha si no Clase si VP FN Real no FP VN

Tipos de Error: ejemplo: Modelos de Aprobación de Crédito Clase Predicha si no Clase si 90 0 Real no 10 0 Clase Predicha si no Clase si 80 10 Real no 0 10

Tipos de Error: ejemplo: Modelos de Aprobación de Crédito Clase Predicha si no Clase si 90 0 Real no 10 0 Este no es un buen modelo ya que los falsos positivos significan un alto costo. Clase Predicha si no Clase si 80 10 Real no 0 10 Este modelo es mejor que el anterior, pese a que tienen la misma tasa de error

Matriz de Costos: Aprobación de Crédito Clase Predicha si no Clase si -100 0 Real no 1000 0

Evaluación Sensible al Costo El costo de un modelo sobre un conjunto de datos se puede expresar como: Costo (M,D) = Cvp Evp + Cfn Efn + Cfp Donde: Efp +Cvn Evn Evp, Efn, Efp,Evn: las frecuencias de cada tipo de error. Cvp,Cfn, Cfp,Cvn: los costos de cada tipo de error.

Evaluación Sensible al Costo Es fácil demostrar que: Costo (M,D)=(Cfn-Cvp) Efn + (Cvn-Cfp) Efp + Cte. Es decir, para efectos de evaluar modelos, podemos usar una matriz de la forma: Clase Predicha si no Clase si 0 CFN-CVP Real no CFP CVN 0

Entrenamiento Sensible al Costo Dada una matriz de costos: Clase Predicha si no Clase si 0 CVP -CFN Real no CFP CVN 0 El costo de un error de un dato que está en la clase si es CVP-CFN. El costo de un error de un dato que está en la clase no es CFP CVN.

Entrenamiento Sensible al Costo Idea: usar información de costo en el entrenamiento del modelo El método más básico es estratificación: Duplicar (engrosar) o eliminar datos de alguna clase de forma que la proporción de datos en cada clase sea igual que la proporción del costo del error de cada clase.

Entrenamiento Sensible al Costo Se puede estratificar en forma virtual a medida que se construye el modelo. Por ejemplo, cambiar la distribución de las clases al calcular la entropía. Este método es general: se aplica a cualquier algoritmo de aprendizaje

Ejemplo: Aprobación de Créditos Tenemos la matriz de costos: Clase Predicha si no Clase si -100 0 Real no 1000 0 La transformamos en la sgte matriz de costos: Clase Predicha si no Clase si 0 100 Real no 1000 0

Ejemplo: Aprobación de Crédito El costo de cometer error para un dato de la clase si es 100 El costo de cometer un error para un dato de la clase no es 1000. Luego necesitamos obtener una muestra de entrenamiento donde la relación de la clase si sobre la no sea 1/10.