Minería de Datos. Clasificación Supervisada. Dr. Edgar Acuña Departamento de Ciencias Matemáticas Universidad de Puerto Rico-Mayaguez

Documentos relacionados
La distribución de probabilidad de la variable aleatoria (v. a). Bernoulli, está dada por:

7. DISTRIBUCIOES DISCRETAS DE PROBABILIDAD

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS. Fracciones continuas, ecuación de Pell y unidades en el anillo de enteros de los cuerpos cuadráticos

Tema 2: Análisis Discriminante

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

MODELO DE RESPUESTAS Objetivos 2, 3, 4, 5, 6, 7, Y 8.

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

( ) DISTRIBUCIÓN UNIFORME (o rectangular) 1 b a. para x > b DISTRIBUCIÓN DE CAUCHY. x ) DISTRIBUCIÓN EXPONENCIAL. α α 2 DISTRIBUCIÓN DE LAPLACE

Tema 5. Muestreo y distribuciones muestrales

PROBLEMAS DE LÍMITES Y CONTINUIDAD (MÉTODOS ALGEBRAICOS) lím. lím. Las descomposiciones factoriales se hacen dividiendo sucesivamente por x + 2.

Teorema Central del Límite (1)

Capítulo 8. Análisis Discriminante

DISTRIBUCIONES DE PROBABILIDAD

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

ANALISIS DE FRECUENCIA EN HIDROLOGIA

MATEMÁTICAS BÁSICAS UNIVERSIDAD NACIONAL DE COLOMBIA - SEDE MEDELLÍN CLASE # 12

Departamento de Ingeniería Matemática- Universidad de Chile

PRÁCTICA I. Ejercicios Teóricos

Muestreo de variables aleatorias

Resumen teórico de los principales conceptos estadísticos

T2. El modelo lineal simple

Econometría II Grado en finanzas y contabilidad

NÚMEROS RACIONALES Q

Conceptos del contraste de hipótesis

Unidad 5. Aplicaciones de las derivadas. Objetivos. Al terminar la unidad, el alumno:

Clasificación de desastres y emergencias con representación bipolar del conocimiento

( ) = = ( ) ( ) 1 = La probabilidad de que no ocurra ninguno de los dos es la probabilidad de la intersección de los complementarios ó contrarios.

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple

UPR Departamento de Ciencias Matemáticas RUM MATE 3171 Primer Examen Parcial 21 de octubre de 2010

478 Índice alfabético

Conceptos Básicos de Inferencia

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Regresión Lineal Múltiple

Métodos Estadísticos de la Ingeniería Tema 7: Momentos de Variables Aleatorias Grupo B

1. LÍMITE DE UNA FUNCIÓN REAL

ANÁLISIS DISCRIMINANTE (AD)

2. EL DISEÑO UNIFACTORIAL (COMPARACION DE TRATAMIENTOS)

PRINCIPALES DISTRIBUCIONES DISCRETAS

PROCESOS DE MARKOV. Definiciones en los Procesos de Markov de Primer Orden:

Teoría de la decisión

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

CAPITULO 4. ECUACIONES DIFERENCIALES DE PRIMER ORDEN Introducción

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES

Unidad IV: Distribuciones muestrales

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Métodos Estadísticos Multivariados

TRAZADO DE DIAGRAMA POLAR Y APLICACIÓN DE CRITERIO DE NYQUIST

Estadísticas Pueden ser

Introducción a la Estadística Aplicada en la Química

EVALUACIÓN DEL MÉTODO DE MURPHY PARA LA INTERPRETACIÓN DE SEÑALES EN LA CARTA T 2 MULTIVARIADA

Análisis de datos Categóricos

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)

Tema 8. Fundamentos de Análisis discriminante

Curso de Probabilidad y Estadística

PLAN DE TRABAJO 9 Período 3/09/07 al 28/09/07

viii CAPÍTULO 2 Métodos de muestreo CAPÍTULO 3 Análisis exploratorio de datos

Anova unifactorial Grados de Biología y Biología sanitaria

ÍNDICE CAPÍTULO 1. INTRODUCCIÓN

Análisis de la varianza

Índice general. Pág. N. 1. Capítulo 1 ETAPAS DE UNA INVESTIGACIÓN. Diseño. Población. Muestra. Individuo (Observación, Caso, Sujeto) Variables

MATERIA: ESTADÍSTICA EJEMPLOS DE POSIBLES PREGUNTAS DE EXAMEN. a. Cuáles son las escalas en que pueden estar los datos en un análisis estadístico.

Variables aleatorias

Aplicaciones de apoyo al diagnóstico médico. Identificación de objetos amigos y enemigos. Identificación de zonas afectadas por un desastre natural.

Análisis de la varianza ANOVA

CAPITULO ANÁLISIS ESTADÍSTICO MULTIVARIADO /1/ /2/ En el presente capítulo se realiza el análisis estadístico multivariado de los

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

INDICE. Prólogo a la Segunda Edición

Estimaciones puntuales. Estadística II

CUERPO TÉCNICO, OPCION ESTADISTICA

LA ESTADÍSTICA APLICADA AL ANÁLISIS ECONÓMICO. Introducción 1

ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M.

JUNIO Bloque A

1 Tema 4: Variable Aleatoria Bidimensional y n-dimensional

Regresión Logística. Introducción

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7)

Teorema de Bayes(6) Nos interesan las probabilidades a posteriori o probabilidades originales de las partes p i :

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

MATEMÁTICAS BÁSICAS UNIVERSIDAD NACIONAL DE COLOMBIA - SEDE MEDELLÍN CLASE #28

Tema 6. Variables aleatorias continuas

INFERENCIA ESTADISTICA

Pruebas de Hipótesis Multiples

Universidad Rafael Belloso Chacín (URBE) Cátedra: Fundamentos de Estadística y Simulación Básica Semestre Profesor: Jaime Soto

Diplomado en Estadística Aplicada

Distribuciones Probabilísticas. Curso de Estadística TAE,2005 J.J. Gómez Cadenas

Distribuciones de probabilidad bidimensionales o conjuntas

EL MÉTODO KERNEL DE EQUATING Y SU CONTRAPARTE BAYESIANA NO PARAMÉTRICA: UN ESTUDIO DE COMPARACIÓN BAJO EL DISEÑO DE GRUPOS EQUIVALENTES

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado.

Distribuciones de probabilidad

CONTRASTE DE HIPÓTESIS

Análisis de Estructuras Espaciales Persistentes. Desempleo Departamental en Argentina.

El Movimiento Browniano en la modelización del par EUR/USD

Análisis de Componentes de la Varianza

ESTADISTICA APLICADA: PROGRAMA

6 Variables aleatorias independientes

Cap. 5 : Distribuciones muestrales

Método de cuadrados mínimos

ANÁLISIS DISCRIMINANTE

ANOVA. Análisis de la Varianza. Univariante Efectos fijos Muestras independientes

Transcripción:

Minería de Datos Clasificación Suervisada Dr. Edgar Acuña Deartamento de Ciencias Matemáticas Universidad de Puerto Rico-Mayaguez E-mail: edgar@math.urm.edu, eacunaf@gmail.com Website: math.urm.edu/~edgar 1

El roblema de clasificacion suervisada Muesttra de entrenamiento L P r e d i c t o r s X 1 X X M y El clasificador C(x,L) La clase estimada de x* y*=c(x*,l) Clase

Clasificacion Suervisada un roceso de dos etaas. Construccion del modelo: Se asume que cada objeto ertenece a una clase redefinida, segun es definido en la columna de clases. El modelo es reresentado or reglas de clasificacion, arboles de decision, o formulas matematicas. Uso del modelo, ara clasificar futuros objetos. Estimar la recision del modelo La columna de clases de los objetos de la muestra de rueba es comarado con las clases redichas or el modelo. La muestra de rueba debe ser indeendiente de la muestra de entrenamiento de lo contrario uede ocurrir sobreajuste. La tasa de recision es el orcentaje de objetos de la muestra de rueba que son correctamente clasificadas or el modelo. 3

Clasificacion Suervisada vs. Regresion Clasificacion Suervisada: Predice valores categoricos que reresentan clases. Construye un modelo basado en la muestra de entrenamiento y lo usa ara clasificar nuevos datos. Regresion: Modela funciones de valores continuos. Predice nuevos valores o valores faltantes. Alicaciones mas comunes Arobacion de credito Para detectar osibles mercados de un roducto. En diagnosticos medicos. 4

Metodos de clasificacion suervisada 1. Analisis Discriminante Lineal.. Metodos No Lineales: Discriminacion Cuadratica, Regresion Logistica, Projection Pursuit. 3. Naive Bayes y Redes Bayesianas 4. Clasificadores basados en reglas 5. Arboles de Decision. 6. K vecinos mas cercanos. 7. Clasificadores basados en estimacion de densidad or kernel. Clasificadores que usan mezclas Gausianas. 8. Redes Neurales: El ercetron de multicaas, Funciones bases radiales, maas auto-organizantes de Kohonen. 9. Maquinas de soorte vectorial. 5

Analisis Discriminante Lineal Considerar la siguiente muestra de entrenamiento con atributos y dos clases Y X 1 X X 1 X 11 X 1. X 1 1 X 1 X X.......... 1 X 1n1 X n1 X n1 X 1,n1+1 X,n1+1 X,n1+1 X 1,n1+ X,n1+ X,n1+........ X 1,n1+n X,n1+n X,n1+n 6

Analisis discriminante lineal x Sea el vector de medias de los atributos en clase 1, y sea l x 1 el vector de medias corresondente ara la clase. Considerar que μ 1 y μ son los vectores de media de las resectivas clases oblacionales. Asumir que ambas oblaciones tienen la misma matriz de covarianza, i.e. Σ 1 =Σ =Σ. Esta es conocida como la roiedad de homocedasticidad. Por ahora, no necesitamos asumir que el vector aleatorio de redictoras x=(x1,..x) esta normalmente distribuido. Discriminacion lineal esta basado en el siguiente hecho: una instancia (objeto) x es asignado a la clase C1 si D(x, C1)<D(x,C) (.1) donde D(x,Ci)=(x-μ i ) Σ -1 (x-μ i ), for i=1,, reresenta el cuadrado de de la distancia squared Mahalanobis de x al centro de la clase C i. 7

Analisis discriminante lineal (cont) La exresion (.1) uede ser escrita como ( 1 μ1 μ)' Σ [ x (1/ )( μ1 + μ )] > 0 (.) Usando la muestra de entrenamiento, μ i uede ser estimada or y x i y Σ es estimada or S, la matriz de covarianza combinada, la cual es calculada or ( n1 1) S1 + ( n 1) S S = n + n 1 donde, S1 y S reresentan las matrices de covarianza muestrales del vector de redictoras en cada clase. Luego, la version muestral de (.) esta dada or 1 X X )' S [ x (1/ )(X + X )] 0 (.3) ( 1 1 > El lado izquierdo de la exresion (.3) es llamado la funcion discriminante lineal. 8

Ejemlo: Notas en un curso En una clase de Estadística Alicada I consistente de 3 estudiantes, se toman la siguientes variables E1: Nota del estudiante en el examen 1 (0-100) E: Nota del estudiante en el examen (0-100) PF: Promedio Final del estudiante en la clase (0-100) Nota: Asume los valores P: si el estudiante asa la clase y F si fracasa en la clase. Los rimeros 5 datos son: E1 E PF Nota 1 96 100 100 96 94 99 3 100 91 97 4 93 96 97 5 90 94 95 Se quiere redecir la Nota de un estudiante que tomará la clase en un róximo semestre, bajo las mismas condiciones actuales (mismo rofesor, mismo texto, estudiantes de similar nivel en la clase, etc). 9

Ejemlo(cont) > #Hallando las medias de E1 y E en ambos gruos > med=aly(eje1dis[eje1dis[,4]=="",1:],,mean) > med E1 E 75.54167 73.75000 > medf=aly(eje1dis[eje1dis[,4]=="f",1:],,mean) > medf E1 E 59.5 34.0 > #Hallando las matrices de covarianzas en ambos gruos > cov1 E1 E E1 187.56341 34.86 E 34.86 507.065 > cov E1 E E1 183.4857-97.8571 E -97.8571 106.8571 10

Ejemlo(cont) > #Calculando los coeficientes de la funcion discriminante > covcomb=((nasan-1)*cov1+(nfracasan-1)*cov)/(nasan+nfracasan- ) > coeflda<-(med-medf)%*%solve(covcomb) > coeflda E1 E [1,] 0.08415817 0.0953983 > #Calculando el termino indeendiente > indlda<-0.5*(med-medf)%*%solve(covcomb)%*%(med+medf) > indlda [,1] [1,] 10.801 11

Analisis discriminante Lineal ara datos de examenes E 0 0 40 60 80 100 0.08415817E1 + 0.0953983E < 10.801 f f f f 0.08415817E1 + 0.0953983E > 10.801 f f f f 0 0 40 60 80 100 E1 1

LDA(Fisher, 1936) Fisher obtuvo la funcion discriminante lineal de la ecuacion (.3) ero siguiendo otro camino. El trato de encontrar una combinacion lineal de los atributos x s que seare las clases C1 y C lo mas osible asumiendo que hay homogeneidad de matrices de covariancias (Σ1=Σ=Σ). Mas esecificamente, si y=d'x, entonces, la distancia cuadrada entre las medias de y en cada clase dividida or la varianza de y esta dado or ( d ' μ 1 d d ' ' Σ d μ ) (.4). Esra razon es maximizada cuando d=σ -1 (μ 1 -μ ). Este resultado es obtenido alicando la desigualdad de Cauchy-Schwartz (ver Rao, C. R. Linear Statistical Inference and its alications,. 60). 13

LDA (cont) El numerador es llamado la suma of cuadrados entre gruos (BSS), y el denominador es llamado la suma of cuadrados dentro de gruos (WSS). Un estimado del valor d es S -1 ( x1 x ). Fisher asigno un objecto x a la clase C1 si y=d x=( )' S -1 1 x1 x x esta mas cerca a y1 = (x1 x)'s x1 que a y. El unto medio entre y 1 y y es 1 ( x1 x)'s (x1 + x) Notar que y es mas cerca a y y 1 si y> 1 + y, esto da la ecuacion (.3). 14

Tests for homogeneity of covariance matrices(homocedasticity) The most well know test for cheking homocedasticity (homogeneity of covariance matrices) is the Bartlett test. This test is a modification of the likelihood ratio test, however it is subject to the assumtion of multivariate normal distribution. It makes use of a Chi-Square distribution. Bartlett est is available in SAS. The Mardia test is one of several test to check multivariate normality. Other alternative is to extent the Levene s test for comaring the variance of several univariate oulations. Some statistcal ackages like SPSS use the Box M test to check homocedasticity).

Mardia s test for multivariate Normality (1970) Consideremos que x j (j=1,.n) reresentan las observaciones en la muestra de entrenamiento corresondiente a una clase articular C. Si se consideran variables redictoras entonces cada xj es un vector columna -dimensional. Deseamos robar que el vector aleatorio X=(X1,..X) se distribuye en forma normal multivariada en C. Mardia basa su rueba en las medidas de asimetría y kurtosis, cuyas estimaciones basadas en la muestra de entrenamiento están definidas como : y 1 {( n n 1 3 1 = x )' ( )} j x S xk x n j= 1 k= 1 b b resectivamente. 1 {( n 1 = x j x)' S ( x j x) } n j= 1

Mardia s test (cont) Si la hiótesis nula Ho: x es normal multivariada en la clase C es cierta entonces se uede mostrar que ara n grande ( n/6) b 1 ~ d con d=(/6)(+1)(+) grados de libertad, y χ [ b ( + )]/ (8/ n) ( + ) ~ N(01, ) La rueba de Hawkins (Technometrics, 1981) ermite robar simultáneamente normalidad multivariada y homocedasticidad. No aarece en ningún rograma estadístico.

Examle:Bua > mardia(bua,1) mard1= 40.9489 value for m3= 0 mard= 15.91613 -value for m4= 0 There is not statistical evidence for normality > mardia(bua,) mard1= 1178.14 value for m3= 0 mard= 37.50413 -value for m4= 0 There is not statistical evidence for normality

Clasificacion suervisada desde un unto de vista Bayesiano Suonga que conocemos de antemano la robabilidad ariori π i (i=1,, G) de que un objeto ertenezca a la clase C i. Si no se conoce informacion adicional entonces un objeto cualquiera sera clasificado como erteneciente a la clase C i si π i > π j ara i=1,,..g, j i (3.1) Sin embargo, usualmente alguna informacion adicional es conocida, tal como un vector x de mediciones hechas en el objeto a ser clasificado. En este caso, comaramos la robabilidad de ertenecer a cada clase ara un objeto con vector de mediciones x, y el objeto es clasificado como de clase Ci si P(C i /x)>p(c j /x) ara todo j i (3.) Esta regla de decision es llamada la Regla de minimo error. Esto es equivalente a escribir, i=argmax k P(C k /x) ara todo k en 1,.G. 19

Clasificacion Bayesiana Las robabilidades P(C i /x) son llamadas robabilidades osteriores. Desafortunadamente, estas robabilidades raras veces son conocidas y deben ser estimadas. Esto ocurre en regresion logistica, clasificadores or vecinos mas cercanos, y redes neurales. Una formulacion mas conveniente de la regla anterior uede ser obtenida alicando el teorema de Bayes, que afirma que P( C i / x) = f ( x / Ci ) π i f ( x) (3.3) donde, f(x/ C i ), es la densidad condicional de la clase C i.por lo tanto un objeto sera clasificado en la clase C i si f ( x / C ) π > f ( x/ C ) π (3.4) i i j j ara todo i j. Esto es, i=argmax k f(x/c k )π k 0

Si las densidades condicionales de clase, f(x/ C i ) son conocidas entonces el roblema de clasificacion esta resuelto exlicitamente, como ocurre en el analisis discriminante lineal y cuadratico. Pero frecuentemente las f(x/ C i ) no son conocidas y ellas deben ser estimadas usando la muestra de entrenamiento. Este es el caso de los clasificadores k-nn, los clasificadores basados en estimacion de densidad or kernel y en aquellos basados en mezclas gaussianas. 1

Analisis discriminante lineal como un clasificador Bayesiano Suongamos que tenemos dos clases C 1 y C que siguen una distribucion normal multivariada, N(u 1,Σ 1 ) y N(u,Σ ) resectivamente y que además tienen igual matriz de covarianza Σ 1 =Σ =Σ. Luego la ecuacion (3.4) uede ser escrita como ex[ 1/ ( x u ex[ 1/ ( x u 1 )' Σ )' Σ 1 1 ( x u ( x u 1 ) ) > π π 1 (3.5) Tomando logaritmos en ambos lados se obtiene 1/ [( x u 1 )' Σ 1 ( x u 1 ) ( x u )' Σ 1 π ( x u)] > Ln( ) π 1 (3.6)

Desues de algunas simlificaciones resulta (u 1 -u )'Σ -1 (x-1/(u 1 +u ))> Ln( ) (3.7) Si estimamos los arametros oblacionales, esta desigualdad es similar a la que aarece en (.), exceto or el termino del lado derecho. Si ademas consideramos que las robabilidades a riori son iguales (π 1 =π ) entonces si se obtendria la misma exresion (.). π π 1 3

Ejemlo(cont) > # LDA con riors iguales > lda1<-lda(nota~e1+e,eje1dis,rior=c(.5,.5)) > lda1 > lda1=redict(lda1,eje1dis[,-c(3,4)])$class > error1=sum(lda1!=eje1dis[,4]) > error1 [1] 4 > #LDA con riors onderadas > lda<-lda(nota~e1+e,eje1dis) Prior robabilities of grous: f 0.5 0.75 > lda=redict(lda,eje1dis[,-c(3,4)])$class > error=sum(lda!=eje1dis[,4]) > error [1] 4

LDA ara mas de dos clases Para G clases, el LDA asigna un objecto con vector de atributos x a la clase i tal que i=argmax k x' k S 1 1 x ( 1/ ) x' S x + Ln( πk) Para todo k en 1,, G. Al igual que antes el lado derecho, llamada funcion discriminante, es estimada usando la muestra de entrenamiento. k k 5

Ejemlo: El conjunto de datos Vehicle Library(MASS) ldaveh=lda(vehicle[,1:18],vehicle[,19]) redict(ldaveh)$osterior redict(ldaveh)$class # Estimating the error rate mean(vehicle[,19]!=redict(ldaveh)$class [1] 0.0177 Es estimado que 0.1% de las instancias estan mal clasificadas. 6

La tasa de error de mala clasificacion Dado un clasificador d, su taza de error de mala clasificacion R(d) es la robabilidad de que d clasifique incorrectamente un objeto de una muestra (muestra de rueba) obtenida osteriormente a la muestra de entrenamiento. Tambien es llamado el error verdadero. Es un valor desconocido que necesita ser estimado. 7

Metodos ara estimar la taza de error de mala clasificacion i) Error or resubstitution or error aarente. (Smith, 1947). Este es simlemente la roorcion de instancias en la muestra de entrenamiento que son incorrectamente clasificadas or la regla de clasificacion. En general es un estimador demasiado otimista y uede conducir a conclusiones erroneas cuando el numero de instancias no es demasidado grande comarado con el numero de atributos. Este estimador tiene un sesgo grande. ii) Estimacion dejando uno afuera (LOO). (Lachenbruch, 1965). En este caso una instancia es omitida de la muestra de entrenamiento. Luego, el clasificador es construido y se obtiene la rediccion ara la instancia omitida. Se registra si la instancia fue correcta o incorrectamente clasificada. El roceso es reetido ara todas las instancias y la estimacion del error de mala clasificacion sera la roorcion de instancias clasificadas inconrrectamente. Este estimador tiene oco sesgo ero su varianza tiende a ser grande. 8

Examles of LOO > ldaexa=lda(eje1dis[,1:],eje1dis[,4],cv=true) > mean(eje1dis[,4]!=ldaexa$class) [1] 0.065 > ldaveh=lda(vehicle[,1:18],vehicle[,19],cv=true) > mean(vehicle[,19]!=ldaveh$class) [1] 0.1040 9

Metodos ara estimar la tasa de error de mala clasificacion iii) Validacion cruzada. (Stone, 1974) En este caso la muestra de entrenamiento es dividida al azar en v artes (v=10 es lo mas usado). Luego, el clasificador es construido usando todas las artes menos una. La arte omitida es considerada como la muestra de rueba y se hallan las redicciones de cada una de sus instancias. La tasa de error de mala clasificacion CV es hallada sumando el numero de malas classificaciones en cada arte y dividiendo el total or el numero de instancias en la muestra de entrenamiento. El estimado CV tiene oco sesgo ero una alta variabilidad. Para reducir dicha variabilidad se reite la estimacion varias veces. La estimacion de la varianza del estimador CV es un hard roblem (Bengio and Grandvalet, 004). 30

Ejemlo: crossval(eje1dis,method="lda",reet=0) [1] 0.096875 crossval(vehicle,method= lda,reet=10) [1] 0.06856 iv) El metodo de retencion. Aqui se extrae al azar un orcentaje de los datos (70%) y es considerado como la muestra de entrenamiento y los restantes datos son considerados como la muestra de rueba. El clasificador es evaluado en la muestra de rueba. El exerimento es reetido varias veces y luego se romedia la tasa de error en las muestras de rueba. v) Bootstraing. (Efron, 1983). En este metodo se generan de la muestra de entrenamiento varias muestras con reemlazo. Las que luego se usan ara construir el clasificador. La idea es reducir el sesgo del error aarente. Es casi insesgado ero tiene una varianza grande. Su costo comutational es alto. Existen varias variantes de este metodo. 31