Minería de Datos. Clasificación Supervisada. Dr. Edgar Acuña Departamento de Ciencias Matemáticas Universidad de Puerto Rico-Mayaguez

Minería de Datos Clasificación Suervisada Dr. Edgar Acuña Deartamento de Ciencias Matemáticas Universidad de Puerto Rico-Mayaguez E-mail: edgar@math.urm.edu, eacunaf@gmail.com Website: math.urm.edu/~edgar 1

El roblema de clasificacion suervisada Muesttra de entrenamiento L P r e d i c t o r s X 1 X X M y El clasificador C(x,L) La clase estimada de x* y*=c(x*,l) Clase

Clasificacion Suervisada un roceso de dos etaas. Construccion del modelo: Se asume que cada objeto ertenece a una clase redefinida, segun es definido en la columna de clases. El modelo es reresentado or reglas de clasificacion, arboles de decision, o formulas matematicas. Uso del modelo, ara clasificar futuros objetos. Estimar la recision del modelo La columna de clases de los objetos de la muestra de rueba es comarado con las clases redichas or el modelo. La muestra de rueba debe ser indeendiente de la muestra de entrenamiento de lo contrario uede ocurrir sobreajuste. La tasa de recision es el orcentaje de objetos de la muestra de rueba que son correctamente clasificadas or el modelo. 3

Clasificacion Suervisada vs. Regresion Clasificacion Suervisada: Predice valores categoricos que reresentan clases. Construye un modelo basado en la muestra de entrenamiento y lo usa ara clasificar nuevos datos. Regresion: Modela funciones de valores continuos. Predice nuevos valores o valores faltantes. Alicaciones mas comunes Arobacion de credito Para detectar osibles mercados de un roducto. En diagnosticos medicos. 4

Metodos de clasificacion suervisada 1. Analisis Discriminante Lineal.. Metodos No Lineales: Discriminacion Cuadratica, Regresion Logistica, Projection Pursuit. 3. Naive Bayes y Redes Bayesianas 4. Clasificadores basados en reglas 5. Arboles de Decision. 6. K vecinos mas cercanos. 7. Clasificadores basados en estimacion de densidad or kernel. Clasificadores que usan mezclas Gausianas. 8. Redes Neurales: El ercetron de multicaas, Funciones bases radiales, maas auto-organizantes de Kohonen. 9. Maquinas de soorte vectorial. 5

Analisis Discriminante Lineal Considerar la siguiente muestra de entrenamiento con atributos y dos clases Y X 1 X X 1 X 11 X 1. X 1 1 X 1 X X.......... 1 X 1n1 X n1 X n1 X 1,n1+1 X,n1+1 X,n1+1 X 1,n1+ X,n1+ X,n1+........ X 1,n1+n X,n1+n X,n1+n 6

Analisis discriminante lineal x Sea el vector de medias de los atributos en clase 1, y sea l x 1 el vector de medias corresondente ara la clase. Considerar que μ 1 y μ son los vectores de media de las resectivas clases oblacionales. Asumir que ambas oblaciones tienen la misma matriz de covarianza, i.e. Σ 1 =Σ =Σ. Esta es conocida como la roiedad de homocedasticidad. Por ahora, no necesitamos asumir que el vector aleatorio de redictoras x=(x1,..x) esta normalmente distribuido. Discriminacion lineal esta basado en el siguiente hecho: una instancia (objeto) x es asignado a la clase C1 si D(x, C1)<D(x,C) (.1) donde D(x,Ci)=(x-μ i ) Σ -1 (x-μ i ), for i=1,, reresenta el cuadrado de de la distancia squared Mahalanobis de x al centro de la clase C i. 7

Analisis discriminante lineal (cont) La exresion (.1) uede ser escrita como ( 1 μ1 μ)' Σ [ x (1/ )( μ1 + μ )] > 0 (.) Usando la muestra de entrenamiento, μ i uede ser estimada or y x i y Σ es estimada or S, la matriz de covarianza combinada, la cual es calculada or ( n1 1) S1 + ( n 1) S S = n + n 1 donde, S1 y S reresentan las matrices de covarianza muestrales del vector de redictoras en cada clase. Luego, la version muestral de (.) esta dada or 1 X X )' S [ x (1/ )(X + X )] 0 (.3) ( 1 1 > El lado izquierdo de la exresion (.3) es llamado la funcion discriminante lineal. 8

Ejemlo: Notas en un curso En una clase de Estadística Alicada I consistente de 3 estudiantes, se toman la siguientes variables E1: Nota del estudiante en el examen 1 (0-100) E: Nota del estudiante en el examen (0-100) PF: Promedio Final del estudiante en la clase (0-100) Nota: Asume los valores P: si el estudiante asa la clase y F si fracasa en la clase. Los rimeros 5 datos son: E1 E PF Nota 1 96 100 100 96 94 99 3 100 91 97 4 93 96 97 5 90 94 95 Se quiere redecir la Nota de un estudiante que tomará la clase en un róximo semestre, bajo las mismas condiciones actuales (mismo rofesor, mismo texto, estudiantes de similar nivel en la clase, etc). 9

Ejemlo(cont) > #Hallando las medias de E1 y E en ambos gruos > med=aly(eje1dis[eje1dis[,4]=="",1:],,mean) > med E1 E 75.54167 73.75000 > medf=aly(eje1dis[eje1dis[,4]=="f",1:],,mean) > medf E1 E 59.5 34.0 > #Hallando las matrices de covarianzas en ambos gruos > cov1 E1 E E1 187.56341 34.86 E 34.86 507.065 > cov E1 E E1 183.4857-97.8571 E -97.8571 106.8571 10

Ejemlo(cont) > #Calculando los coeficientes de la funcion discriminante > covcomb=((nasan-1)*cov1+(nfracasan-1)*cov)/(nasan+nfracasan- ) > coeflda<-(med-medf)%*%solve(covcomb) > coeflda E1 E [1,] 0.08415817 0.0953983 > #Calculando el termino indeendiente > indlda<-0.5*(med-medf)%*%solve(covcomb)%*%(med+medf) > indlda [,1] [1,] 10.801 11

Analisis discriminante Lineal ara datos de examenes E 0 0 40 60 80 100 0.08415817E1 + 0.0953983E < 10.801 f f f f 0.08415817E1 + 0.0953983E > 10.801 f f f f 0 0 40 60 80 100 E1 1

LDA(Fisher, 1936) Fisher obtuvo la funcion discriminante lineal de la ecuacion (.3) ero siguiendo otro camino. El trato de encontrar una combinacion lineal de los atributos x s que seare las clases C1 y C lo mas osible asumiendo que hay homogeneidad de matrices de covariancias (Σ1=Σ=Σ). Mas esecificamente, si y=d'x, entonces, la distancia cuadrada entre las medias de y en cada clase dividida or la varianza de y esta dado or ( d ' μ 1 d d ' ' Σ d μ ) (.4). Esra razon es maximizada cuando d=σ -1 (μ 1 -μ ). Este resultado es obtenido alicando la desigualdad de Cauchy-Schwartz (ver Rao, C. R. Linear Statistical Inference and its alications,. 60). 13

LDA (cont) El numerador es llamado la suma of cuadrados entre gruos (BSS), y el denominador es llamado la suma of cuadrados dentro de gruos (WSS). Un estimado del valor d es S -1 ( x1 x ). Fisher asigno un objecto x a la clase C1 si y=d x=( )' S -1 1 x1 x x esta mas cerca a y1 = (x1 x)'s x1 que a y. El unto medio entre y 1 y y es 1 ( x1 x)'s (x1 + x) Notar que y es mas cerca a y y 1 si y> 1 + y, esto da la ecuacion (.3). 14

Tests for homogeneity of covariance matrices(homocedasticity) The most well know test for cheking homocedasticity (homogeneity of covariance matrices) is the Bartlett test. This test is a modification of the likelihood ratio test, however it is subject to the assumtion of multivariate normal distribution. It makes use of a Chi-Square distribution. Bartlett est is available in SAS. The Mardia test is one of several test to check multivariate normality. Other alternative is to extent the Levene s test for comaring the variance of several univariate oulations. Some statistcal ackages like SPSS use the Box M test to check homocedasticity).

Mardia s test for multivariate Normality (1970) Consideremos que x j (j=1,.n) reresentan las observaciones en la muestra de entrenamiento corresondiente a una clase articular C. Si se consideran variables redictoras entonces cada xj es un vector columna -dimensional. Deseamos robar que el vector aleatorio X=(X1,..X) se distribuye en forma normal multivariada en C. Mardia basa su rueba en las medidas de asimetría y kurtosis, cuyas estimaciones basadas en la muestra de entrenamiento están definidas como : y 1 {( n n 1 3 1 = x )' ( )} j x S xk x n j= 1 k= 1 b b resectivamente. 1 {( n 1 = x j x)' S ( x j x) } n j= 1

Mardia s test (cont) Si la hiótesis nula Ho: x es normal multivariada en la clase C es cierta entonces se uede mostrar que ara n grande ( n/6) b 1 ~ d con d=(/6)(+1)(+) grados de libertad, y χ [ b ( + )]/ (8/ n) ( + ) ~ N(01, ) La rueba de Hawkins (Technometrics, 1981) ermite robar simultáneamente normalidad multivariada y homocedasticidad. No aarece en ningún rograma estadístico.

Examle:Bua > mardia(bua,1) mard1= 40.9489 value for m3= 0 mard= 15.91613 -value for m4= 0 There is not statistical evidence for normality > mardia(bua,) mard1= 1178.14 value for m3= 0 mard= 37.50413 -value for m4= 0 There is not statistical evidence for normality

Clasificacion suervisada desde un unto de vista Bayesiano Suonga que conocemos de antemano la robabilidad ariori π i (i=1,, G) de que un objeto ertenezca a la clase C i. Si no se conoce informacion adicional entonces un objeto cualquiera sera clasificado como erteneciente a la clase C i si π i > π j ara i=1,,..g, j i (3.1) Sin embargo, usualmente alguna informacion adicional es conocida, tal como un vector x de mediciones hechas en el objeto a ser clasificado. En este caso, comaramos la robabilidad de ertenecer a cada clase ara un objeto con vector de mediciones x, y el objeto es clasificado como de clase Ci si P(C i /x)>p(c j /x) ara todo j i (3.) Esta regla de decision es llamada la Regla de minimo error. Esto es equivalente a escribir, i=argmax k P(C k /x) ara todo k en 1,.G. 19

Clasificacion Bayesiana Las robabilidades P(C i /x) son llamadas robabilidades osteriores. Desafortunadamente, estas robabilidades raras veces son conocidas y deben ser estimadas. Esto ocurre en regresion logistica, clasificadores or vecinos mas cercanos, y redes neurales. Una formulacion mas conveniente de la regla anterior uede ser obtenida alicando el teorema de Bayes, que afirma que P( C i / x) = f ( x / Ci ) π i f ( x) (3.3) donde, f(x/ C i ), es la densidad condicional de la clase C i.por lo tanto un objeto sera clasificado en la clase C i si f ( x / C ) π > f ( x/ C ) π (3.4) i i j j ara todo i j. Esto es, i=argmax k f(x/c k )π k 0

Si las densidades condicionales de clase, f(x/ C i ) son conocidas entonces el roblema de clasificacion esta resuelto exlicitamente, como ocurre en el analisis discriminante lineal y cuadratico. Pero frecuentemente las f(x/ C i ) no son conocidas y ellas deben ser estimadas usando la muestra de entrenamiento. Este es el caso de los clasificadores k-nn, los clasificadores basados en estimacion de densidad or kernel y en aquellos basados en mezclas gaussianas. 1

Analisis discriminante lineal como un clasificador Bayesiano Suongamos que tenemos dos clases C 1 y C que siguen una distribucion normal multivariada, N(u 1,Σ 1 ) y N(u,Σ ) resectivamente y que además tienen igual matriz de covarianza Σ 1 =Σ =Σ. Luego la ecuacion (3.4) uede ser escrita como ex[ 1/ ( x u ex[ 1/ ( x u 1 )' Σ )' Σ 1 1 ( x u ( x u 1 ) ) > π π 1 (3.5) Tomando logaritmos en ambos lados se obtiene 1/ [( x u 1 )' Σ 1 ( x u 1 ) ( x u )' Σ 1 π ( x u)] > Ln( ) π 1 (3.6)

Desues de algunas simlificaciones resulta (u 1 -u )'Σ -1 (x-1/(u 1 +u ))> Ln( ) (3.7) Si estimamos los arametros oblacionales, esta desigualdad es similar a la que aarece en (.), exceto or el termino del lado derecho. Si ademas consideramos que las robabilidades a riori son iguales (π 1 =π ) entonces si se obtendria la misma exresion (.). π π 1 3

Ejemlo(cont) > # LDA con riors iguales > lda1<-lda(nota~e1+e,eje1dis,rior=c(.5,.5)) > lda1 > lda1=redict(lda1,eje1dis[,-c(3,4)])$class > error1=sum(lda1!=eje1dis[,4]) > error1 [1] 4 > #LDA con riors onderadas > lda<-lda(nota~e1+e,eje1dis) Prior robabilities of grous: f 0.5 0.75 > lda=redict(lda,eje1dis[,-c(3,4)])$class > error=sum(lda!=eje1dis[,4]) > error [1] 4

LDA ara mas de dos clases Para G clases, el LDA asigna un objecto con vector de atributos x a la clase i tal que i=argmax k x' k S 1 1 x ( 1/ ) x' S x + Ln( πk) Para todo k en 1,, G. Al igual que antes el lado derecho, llamada funcion discriminante, es estimada usando la muestra de entrenamiento. k k 5

Ejemlo: El conjunto de datos Vehicle Library(MASS) ldaveh=lda(vehicle[,1:18],vehicle[,19]) redict(ldaveh)$osterior redict(ldaveh)$class # Estimating the error rate mean(vehicle[,19]!=redict(ldaveh)$class [1] 0.0177 Es estimado que 0.1% de las instancias estan mal clasificadas. 6

La tasa de error de mala clasificacion Dado un clasificador d, su taza de error de mala clasificacion R(d) es la robabilidad de que d clasifique incorrectamente un objeto de una muestra (muestra de rueba) obtenida osteriormente a la muestra de entrenamiento. Tambien es llamado el error verdadero. Es un valor desconocido que necesita ser estimado. 7

Metodos ara estimar la taza de error de mala clasificacion i) Error or resubstitution or error aarente. (Smith, 1947). Este es simlemente la roorcion de instancias en la muestra de entrenamiento que son incorrectamente clasificadas or la regla de clasificacion. En general es un estimador demasiado otimista y uede conducir a conclusiones erroneas cuando el numero de instancias no es demasidado grande comarado con el numero de atributos. Este estimador tiene un sesgo grande. ii) Estimacion dejando uno afuera (LOO). (Lachenbruch, 1965). En este caso una instancia es omitida de la muestra de entrenamiento. Luego, el clasificador es construido y se obtiene la rediccion ara la instancia omitida. Se registra si la instancia fue correcta o incorrectamente clasificada. El roceso es reetido ara todas las instancias y la estimacion del error de mala clasificacion sera la roorcion de instancias clasificadas inconrrectamente. Este estimador tiene oco sesgo ero su varianza tiende a ser grande. 8

Examles of LOO > ldaexa=lda(eje1dis[,1:],eje1dis[,4],cv=true) > mean(eje1dis[,4]!=ldaexa$class) [1] 0.065 > ldaveh=lda(vehicle[,1:18],vehicle[,19],cv=true) > mean(vehicle[,19]!=ldaveh$class) [1] 0.1040 9

Metodos ara estimar la tasa de error de mala clasificacion iii) Validacion cruzada. (Stone, 1974) En este caso la muestra de entrenamiento es dividida al azar en v artes (v=10 es lo mas usado). Luego, el clasificador es construido usando todas las artes menos una. La arte omitida es considerada como la muestra de rueba y se hallan las redicciones de cada una de sus instancias. La tasa de error de mala clasificacion CV es hallada sumando el numero de malas classificaciones en cada arte y dividiendo el total or el numero de instancias en la muestra de entrenamiento. El estimado CV tiene oco sesgo ero una alta variabilidad. Para reducir dicha variabilidad se reite la estimacion varias veces. La estimacion de la varianza del estimador CV es un hard roblem (Bengio and Grandvalet, 004). 30

Ejemlo: crossval(eje1dis,method="lda",reet=0) [1] 0.096875 crossval(vehicle,method= lda,reet=10) [1] 0.06856 iv) El metodo de retencion. Aqui se extrae al azar un orcentaje de los datos (70%) y es considerado como la muestra de entrenamiento y los restantes datos son considerados como la muestra de rueba. El clasificador es evaluado en la muestra de rueba. El exerimento es reetido varias veces y luego se romedia la tasa de error en las muestras de rueba. v) Bootstraing. (Efron, 1983). En este metodo se generan de la muestra de entrenamiento varias muestras con reemlazo. Las que luego se usan ara construir el clasificador. La idea es reducir el sesgo del error aarente. Es casi insesgado ero tiene una varianza grande. Su costo comutational es alto. Existen varias variantes de este metodo. 31