Reconocimiento de Patrones

Documentos relacionados
Aprendizaje: Boosting y Adaboost

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Puntuación Z ESTADÍSTICA APLICADA A LA EDUCACIÓN I. L.A. y M.C.E. Emma Linda Diez Knoth

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

Validación Cruzada (cross-validation) y Remuestreo (bootstrapping)

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

Teoría del muestreo. Tipos de muestras

Tema 4: Probabilidad y Teoría de Muestras

Contraste de hipótesis Tema Pasos del contraste de hipótesis. 1.1 Hipótesis estadísticas: nula y alternativa. 1.3 Estadístico de contraste

EJERCICIOS DE SELECTIVIDAD

Tema 5. Contraste de hipótesis (I)

Pruebas de Hipótesis Multiples

PATRONES DE DISTRIBUCIÓN ESPACIAL

Fundamentos de Estadística y Simulación Básica

MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. Lic. Esperanza García Cribilleros

Tema 7 Intervalos de confianza Hugo S. Salinas

Teorema Central del Límite (1)

Distribuciones de probabilidad discretas

Matemáticas 2.º Bachillerato. Intervalos de confianza. Contraste de hipótesis

Medidas de dispersión

Distribución Chi (o Ji) cuadrada (χ( 2 )

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

INFERENCIA ESTADISTICA

Unidad IV: Distribuciones muestrales

OTRAS HERRAMIETAS ESTADISTICAS UTILES. Dra. ALBA CECILIA GARZON

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7)

ANALISIS DE FRECUENCIA EN HIDROLOGIA JULIAN DAVID ROJO HERNANDEZ

Taller de Validación de Métodos Verificación de Procedimientos de Medidas Cualitativos: Enfermedades Infecciosas. PONENTE: Gabriel A.

6. Estimación, DISTRIBUCIONES MUESTREO, Y PRUEBA DE

Aprendizaje Automatizado

2. Análisis de varianza

Tabla de Test de Hipótesis ( Caso: Una muestra ) A. Test para µ con σ 2 conocida: Suponga que X 1, X 2,, X n, es una m.a.(n) desde N( µ, σ 2 )

Variables Aleatorias. Introducción

INDICE. Prólogo a la Segunda Edición

EJERCICIOS DE ESTADÍSTICA:

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

1. VALORES FALTANTES 2. MECANISMOS DE PÉRDIDA

Técnicas de validación estadística Bondad de ajuste

GRAFICOS DE CONTROL DATOS TIPO VARIABLES

Probabilidad y Estadística, EIC 311

Pruebas de Acceso a las Universidades de Castilla y León

Objetivos. Epígrafes 3-1. Francisco José García Álvarez

EVALUACION DE RESULTADOS INTRA-LABORATORIO. EDWIN GUILLEN Servicio Nacional de Metrología INDECOPI Simposio de Metrología Lima PERU - Mayo del 2010

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

EJERCICIOS. Curso: Estadística. Profesores: Mauro Gutierrez Martinez Christiam Miguel Gonzales Chávez. Cecilia Milagros Rosas Meneses

Validación de los métodos microbiológicos HERRAMIENTAS ESTADISTICAS. Bqca. QM Alicia I. Cuesta, Consultora Internacional de la FAO

Habilidades Matemáticas. Alejandro Vera

Estadística para la toma de decisiones

Pruebas para evaluar diferencias

Regresión y Correlación

JUNIO Encuentra, si existen, matrices cuadradas A, de orden 2, distintas de la matriz identidad, tales que: A

Área Académica: Gestión Tecnológica. Asignatura (Estadística para el Desarrollo Tecnológico, 3er Semestre) Tema: Muestra y Muestreo

Teoría de la decisión

A. Menéndez Taller CES 15_ Confiabilidad. 15. Confiabilidad

Tema 8. Muestreo. Indice

UNIDAD 6. Estadística

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Análisis de Componentes de la Varianza

GRUPO A GRUPO B Total = 225 Total = 250. Medidas de tendencia central.

Técnicas de validación estadística Bondad de ajuste

PRUEBAS DE ACCESO A LA UNIVERSIDAD L.O.G.S.E

Tema 5. Muestreo y distribuciones muestrales

Conceptos Básicos de Inferencia

Cálculo de Probabilidades II Preguntas Tema 1

PRUEBAS PARA DOS MUESTRAS RELACIONADAS

para una muestra Ref: Apuntes de Estadística, Mtra Leticia de la Torre Instituto Tecnológico de Chiuhuahua

TEOREMA DEL LÍMITE CENTRAL

Tema 2. Descripción Conjunta de Varias Variables

Juan Carlos Colonia INTERVALOS DE CONFIANZA

INTERVALOS DE CONFIANZA Julián de la Horra Departamento de Matemáticas U.A.M.

Intervalos para la diferencia de medias de dos poblaciones

Puntuaciones Estándarizadas, Distribución Normal y Aplicaciones. Dra. Noemí L. Ruiz Limardo 2008 Derechos de Autor Reservados, Revisado 2010

Medidas de Tendencia Central.

TALLER ESTADISTICAS EN EXCEL MSP 21 VERANO 2014

Estructura de este tema. Tema 3 Contrastes de hipótesis. Ejemplo

ESTADÍSTICA. Tema 4 Regresión lineal simple

Transformaciones de variables

LECTURA 01: LA DISTRIBUCIÓN NORMAL GENERAL. LA DISTRIBUCIÓN NORMAL ESTÁNDAR (PARTE I). TEMA 1: LA DISTRIBUCION NORMAL GENERAL.

Cómo se hace la Prueba t a mano?

Prueba Integral Lapso /6

Tema 4: Probabilidad y Teoría de Muestras

3. Correlación. Introducción. Diagrama de dispersión

Z i

Definición de probabilidad

Diseño de Bloques al azar. Diseño de experimentos p. 1/25

Tema 5: Principales Distribuciones de Probabilidad

MEDIDAS DE VARIABILIDAD

2.- Tablas de frecuencias

DISTRIBUCIÓN DE POISSON

Estadística para investigadores: todo lo que siempre quiso saber y nunca se atrevió a preguntar

JUNIO Opción A

= P (Z ) - P (Z ) = P (Z 1 25) P (Z -1 25)= P (Z 1 25) [P (Z 1 25)] = P (Z 1 25) [1- P (Z 1 25)] =

Estadísticos Aplicados en el SPSS 2008

ESTADÍSTICA DESCRIPTIVA

Muestreo. Tipos de muestreo. Álvaro José Flórez. Febrero - Junio Facultad de Ingenierías. 1 Escuela de Ingeniería Industrial y Estadística

ESTADÍSTICA I, curso Problemas Tema 4

Discretas. Continuas

INFERENCIA ESTADÍSTICA

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2011

Transcripción:

Reconocimiento de Patrones Técnicas de validación (Clasificación Supervisada) Jesús Ariel Carrasco Ochoa Instituto Nacional de Astrofísica, Óptica y Electrónica

Clasificación Supervisada Para qué evaluar un clasificador? Para seleccionar cuál clasificador usar ( saber cuál es mejor ) Para estimar el error esperado ( qué tan confiable es )

Técnicas de validación Cómo evaluar un clasificador? Midiendo la calidad ( accuracy ) La mediremos como: accuracy = # aciertos # objetosclasificados

Técnicas de validación Sobre cuál conjunto de objetos evaluar? Dividir la muestra en 2 (entrenamiento y control) Validación cruzada de k particiones Leave one out Bootstrap

Dividir la muestra en 2 Muestra Entrenamiento Control Muestra de Control Clasificada Clasificador accuracy

Dividir la muestra en 2 Cómo dividir la muestra? Separarla en 2 manualmente Separarla aleatoriamente

Dividir la muestra en 2 Problemas En algunos casos la muestra inicial puede ser muy pequeña de modo que no conviene dividirla se reduce aún más la información para entrenar la muestra de control puede ser muy pequeña con lo cual no da información confiable Si se tiene una mala división los resultados no son confiables

Dividir la muestra en 2 Para el segundo problema Repetir la división aleatoria varias veces Calcular el accuracy para cada forma de dividir Promediar los resultados

Validación cruzada Dividir la muestra en k partes (validación cruzada con k pliegues) (k-fold cross validation) Formar el conjunto de entrenamiento con k-1 particiones y el de control con la partición restante Repetir el proceso dejando como control cada una de las particiones Promediar los resultados de todas las pruebas

Validación cruzada Muestra Entrenamiento Control accuracy Entrenamiento Control accuracy Entrenamiento Control accuracy

Validación cruzada Cuantas particiones hacer? Si se hacen 2 particiones dividir la muestra en 2 El máximo valor de k es el número de objetos de la muestra original Usualmente se toma k=10, si la muestra es muy grande se toma k=3, si es muy pequeña se toma el máximo valor de k

Leave one out Tomar un objeto de la muestra como control y los demás como muestra de entrenamiento Repetir el proceso dejando como control cada uno de los objetos de la muestra Promediar los resultados de todas las pruebas

Leave one out Muestra Entrenamiento Control accuracy Entrenamiento : Control accuracy : Entrenamiento Control accuracy

Bootstrap Si la muestra tiene N objetos, seleccionar aleatoriamente con reemplazo (los objetos seleccionados se pueden repetir) un conjunto de entrenamiento de N objetos Formar la muestra de control con los objetos que no hayan sido seleccionados Repetir el proceso k veces Promediar los resultados de todas las pruebas

Técnicas de validación La medida de accuracy es útil si todos los errores son igualmente graves Si esto no es así existen otras medidas de calidad Consideremos la matriz de confusión

Matriz de Confusión C 1 C 2 C r C 1 C 2.. C r n 11 n 12.. n 1r n 21 n 22.. n 2r n 11 n 12.. n 1r n ij = numero de objetos de la muestra que estando en la clase C i fueron puestos en la clase C j

Matriz de Confusión 2 clases C 1 C 2 C 1 TP FN C 2 FP TN TP = verdaderos positivos TN = verdaderos negativos FP = falsos positivos FN = falsos negativos

Otras medidas de calidad accuracy = TP TP + TN + TN + FP + FN error = TP FP + FN + TN + FP + FN sensibilidad = TP TP + FN especificidad = TN FP + TN

Otras medidas de calidad presición = TP TP + FP recuerdo = TP TP + FN Fmeasure = 2 presición recuerdo presición + recuerdo

Significancia Estadística Se utilizan para comparar los resultados de un clasificador contra los de otro clasificador Tiene como objetivo validar que los resultados obtenidos no son debidos al azar Se busca decidir si ambos clasificadores obtienen resultados equivalentes (son competitivos uno con otro) o si uno es mejor que el otro Se utilizan técnicas estadísticas de prueba de hipótesis

Significancia Estadística Comparar dos clasificadores Sobre un solo conjunto de datos Decidir cuál es el mejor para este conjunto de datos Sobre varios conjuntos de datos Decidir cuál es el mejor de manera general

Comparación sobre un solo conjunto de datos Se requiere tener una serie de resultados para cada clasificador sobre los mismos datos Comúnmente estas pruebas se hacen sobre la validación cruzada (particiones iguales para ambos clasificadores) Usualmente la hipótesis que se prueba es que los resultados son equivalentes Si se rechaza la hipótesis se infiere que el clasificador que obtiene mejores resultados es realmente mejor y no se debe al azar.

Significancia Estadística Existen diversas pruebas de significancia estadística. prueba t de Student prueba de los signos de Wilcoxon

Prueba t de student Se calcula donde n es el número de pruebas las µ y σ 2 son las medias y varianzas de los resultados para cada clasificador (1,2) n S S T 2 2 2 1 2 1 2 1 2 1 ˆ ˆ σ σ µ µ µ µ µ µ + = =

Prueba t de student Se supone que T sigue la distribución t de student con 2n-2 grados de libertad Se selecciona un nivel de confianza y se compara con el valor esperado (tabla) Si el valor obtenido es mayor que el de la tabla se rechaza la hipótesis de que son equivalentes Se aplica cuando la población estudiada sigue una distribución normal y la desviación estándar puede aproximarse con los datos.

Prueba t de student

Prueba de los signos de Wilcoxon Supóngase que se tienen n resultados a i y b i con i=1,,n para dos clasificadores A y B El objetivo es comprobar si los clasificadores son equivalentes o no

Prueba de los signos de Wilcoxon Se calcula z i =a i -b i para i=1,,n Se ordenan los z i de acuerdo a su valor absoluto y se calcula su posición p i Se calcula: < > + = = 0 z i 0 z i i i p T p T

Prueba de los signos de Wilcoxon Claramente si no hay valores iguales T + + T = n(n + 1) 2 Se Busca en la tabla si los valores T+ y T- están fuera del intervalo para el nivel de confianza deseado y de ser así se rechaza la hipótesis de que son equivalentes.

Prueba de los signos de Wilcoxon Se aplica a muestras pequeñas, de tamaño entre 6 y 25. Supone que los valores de z i son independientes y siguen una distribución continua y simétrica

Comparación sobre varios conjuntos de datos Comparar promedio de resultados para todos los conjuntos de datos Comparar para cada conjunto de datos y hacer una tabla W/T/L