INFORME TAREA N 5 SELF-ORGANIZING MAPS

Transcripción

1 Universidad de Chile Facultad de Ciencias Físicas y Matemáticas Departamento de Ingeniería Eléctrica EL4106 Inteligencia Computacional INFORME TAREA N 5 SELF-ORGANIZING MAPS Nombre Alumno : Profesor : Profesor Auxiliar : Sebastián Gálvez Javier Ruiz del Solar Daniel Herrmann Felipe Valdés Fecha : 30/06/2014 Santiago, Chile.

2 Contenido Contenido... II Índice de Figuras y Tablas... III 1. Introducción Desarrollo Teoría División de Base de Datos Estructuras de datos e inicialización red SOM Entrenamiento, Labeling y Clasificación Visualización y Resultados... 7 Red SOM Rectangular, Vecindad tipo bubble... 8 Red SOM Rectangular, Vecindad tipo gaussian Red SOM Rectangular, Vecindad tipo ep Red SOM Rectangular, Vecindad tipo cutgauss... 9 Red SOM Hexagonal, Vecindad tipo bubble Red SOM Hexagonal, Vecindad tipo gaussian Red SOM Hexagonal, Vecindad tipo cutgauss Red SOM Hexagonal, Vecindad tipo ep Normalización Conclusiones Anexos Bibliografía...21

3 Índice de Figuras y Tablas Figura 1: U-Matrix para grilla rectangular... 3 Figura 2: Mapa de Sammon para datos de entrenamiento Figura 3: Tipos de Lattice para la red SOM Figura 4: U-matrix, grilla etiquetada y matriz de confusión para red SOM rectangular con vecindad tipo bubble. Porcentaje correctamente clasificados: 64.11% Figura 5: U-matrix, grilla etiquetada y matriz de confusión para red SOM rectangular con vecindad tipo gaussian. Porcentaje correctamente clasificados: 68.10% Figura 6: U-matrix, grilla etiquetada y matriz de confusión para red SOM rectangular con vecindad tipo bubble. Porcentaje correctamente clasificados: 65.86% Figura 7: U-matrix, grilla etiquetada y matriz de confusión para red SOM rectangular con vecindad tipo cutgauss. Porcentaje correctamente clasificados: 70.90% Figura 8: U-matrix, grilla etiquetada y matriz de confusión para red SOM hexagonal con vecindad tipo bubble. Porcentaje correctamente clasificados: 69.76% Figura 9: U-matrix, grilla etiquetada y matriz de confusión para red SOM hexagonal con vecindad tipo gaussian. Porcentaje correctamente clasificados: 68.16% Figura 10: U-matrix, grilla etiquetada y matriz de confusión para red SOM hexagonal con vecindad tipo cutgauss. Porcentaje correctamente clasificados: 70.23% Figura 11: U-matrix, grilla etiquetada y matriz de confusión para red SOM hexagonal con vecindad tipo ep. Porcentaje correctamente clasificados: 75.91% Figura 12: Mapa de Sammon para datos de entrenamiento normalizados Figura 13: U-Matrix coloreada, malla etiquetada y matriz de confusión para red SOM rectangular con vecindad tipo bubble, usando datos normalizados Figura 14: U-Matrix coloreada, malla etiquetada y matriz de confusión para red SOM hexagonal con vecindad tipo ep, usando datos normalizados

4 Introducción 1. Introducción El objetivo general de esta tarea consiste en utilizar el algoritmo de clustering SOM, analizando su desempeño para distintos parámetros de entrenamiento. Para esto se utilizará la base de datos Wine Data Set, que forma parte del UC Irvine Machine Learning Repository. Esta base de dato contiene 13 características fisicoquímicas medidas para 178 muestras de vino, las cuales son: 1) Alcohol 2) Malic acid 3) Ash 4) Alcalinity of ash 5) Magnesium 6) Total phenols 7) Flavanoids 8) Nonflavanoid phenols 9) Proanthocyanins 10)Color intensity 11)Hue 12)OD280/OD315 of diluted wines 13)Proline La base de datos contiene información de vinos Italianos, producidos en la misma región, pero por 3 productores distintos. Cada productor produce un tipo de vino distinto. En particular, se tiene como objetivo encontrar la correspondencia entre los productores y los clusters caracterizados mediante redes de tipo SOM (Self- Organizing Maps). Para esto se utilizará un programa en Matlab que utilice la herramienta SOM toolbox de Helsinki University of Technology. Cuya documentación, manuales y archivos se encuentran disponibles en: U. de Chile. FCFM. DIE ~1~

5 Desarrollo 2. Desarrollo 2.1. Teoría a) Self-Organizing Maps (SOM) o Mapas de Kohonen Una red SOM permite realizar clustering sobre un conjunto de datos de manera tal que permite realizar un mapeo a una baja dimensionalidad (2D o 3D) para visualizar cómo se agrupan los vectores prototipo y posteriormente realizar cuantización vectorial en el espacio de características. El entrenamiento de este tipo de redes es no supervisado, lo que permite completa automatización del mismo una vez que se definen los parámetros que debe fijar el diseñador. El algoritmo de aprizaje secuencial consiste en presentar ejemplos, buscar el prototipo más cercano y actualizar su posición en el espacio de características, junto a la de sus vecinos en el espacio de prototipos. Para realizar una buena estructura SOM se debe fijar inicialmente su topología, ya que los prototipos se pueden almacenar en distintas topologías de grillas, por ejemplo, hexagonales o rectangulares. Además, es fundamental definir qué tipo de vecindad se utilizará para determinar qué vectores deben actualizar su posición junto al prototipo más cercano a un dato, por lo cual se define la función de vecindad h, la cual puede ser de diversos tipos (gaussiana, cilíndrica, etc.) y debe contar con un radio inicial e ir disminuyo a medida que se avanza en el entrenamiento hasta un radio final. Al igual que en el método K-means, también se deben determinar las posiciones iniciales de los vectores prototipo, que generalmente se hace de manera aleatoria. Por último, también se debe determinar la tasa de aprizaje y la función según la cual cambia en cada instancia del entrenamiento, se recomia comenzar con un valor cercano a 1 e ir disminuyéndola a medida que avanza el tiempo para refinar el aprizaje. b) Labeling y U-matrix Una vez que ya se ha entrenado una red SOM, a cada vector prototipo le puede ser asignado una etiqueta que finalmente representará al cluster en el que se encuentra y permitirá realizar clasificación. Para realizar este etiquetado o labeling, es fundamental identificar las nuevas relaciones geométricas que adoptó la red SOM al ser entrenada, en cuanto a que sus vectores prototipos se encontrarán distanciados entre ellos de manera no uniforme. Para esto se define una matriz que muestra información de las distancias de los vectores prototipo, en base a la información de posiciones y vecindad de la grilla, esta matriz es conocida como U-matrix. En la U. de Chile. FCFM. DIE ~2~

6 Desarrollo Figura 1 se observa un ejemplo de matriz U, en escala de grises, donde los puntos más oscuros denotan una mayor separación entre los vectores prototipo. Figura 1: U-Matrix para grilla rectangular 2.2. División de Base de Datos El programa generado en el archivo separacion.m contiene un script que carga la base de datos usando el comando load Base_de_Datos_Tarea5 y divide la base de datos en los conjuntos de entrenamiento y prueba, para finalmente guardar un archivo Conjuntos_Separados.mat que contiene las matrices entren, labels_entren, prueba, labels_prueba y headers. El script de Matlab identifica los conjuntos de datos de distinto productor y extrae aleatoriamente datos para formar el conjunto de prueba según el parámetro pr_rate, que en este caso se dio como valor 0.4, para obtener el 40% de los datos para prueba. Luego, del conjunto original se restan estos datos para obtener el conjunto de entrenamiento. El desempeño muestra que la representatividad y la proporción de clases se mantiene en niveles similares como muestra Tabla 1. Clase Productor 1 Productor 2 Productor 3 Conjunto [%] [%] [%] Conjunto Original Conjunto Prueba Conjunto Entrenamiento Tabla 1: Representatividad de conjunto original y sus separaciones en prueba y entrenamiento Y se logró que la proporción de conjuntos fuera la pedida. En este caso se logró que el conjunto de prueba fuera 39.89% de los datos, lo que corresponde a 71 muestras. U. de Chile. FCFM. DIE ~3~

7 Desarrollo 2.3. Estructuras de datos e inicialización red SOM En el archivo tarea5.m se desarrolla un script con distintos bloques de código utilizados, el cual se puede ver completamente en la sección de Anexos. En primer lugar, se cargan los conjuntos de entrenamiento y prueba del archivo Conjuntos_Separados.mat generado por el script separacion.m, y se extraen variables como número de datos de entrenamiento e índices que separan los distintos productores. Luego, se inicializan las estructuras de datos para el SOM Toolbox a utilizar, mediante las instrucciones: somdata_en=som_data_struct(entren,'labels',en_labels_som,'comp_names',headers); somdata_pr=som_data_struct(prueba,'labels',pr_labels_som,'comp_names',headers); Antes de inicializar la red SOM y configurar los distintos parámetros, se utiliza una herramienta llamada mapa de Sammon, el cual permite visualizar en cierto grado la orientación que poseen los datos proyectados en el plano bidimensional, con el objetivo de ajustar las dimensiones de la grilla de manera más adecuada, ya que una grilla cuadrada no siempre es lo más adecuado. En la Figura 2 se observa el mapa de Sammon para los datos de entrenamiento, donde claramente se observa que los datos varían con un rango a razón 7:10 aproximadamente. Figura 2: Mapa de Sammon para datos de entrenamiento. En base a esta observación, considerando que idealmente el número de vectores prototipo debe ser inferior al número de datos de entrenamiento, esto es, MxN < 107, se determinó que la red SOM se construya con un tamaño 6x10, utilizando 60 vectores prototipo, formando una grilla rectangular. U. de Chile. FCFM. DIE ~4~

8 Desarrollo Para la primera prueba se determinaron los parámetros de la red y de entrenamiento como se muestra en el siguiente bloque de instrucciones: som_m=6; som_n=10; %MxN a_init=1; a_type='inv';%linear/power/inv radius=[5 1]; %radius_init radius_final epochs=1000; somap = som_randinit (somdata_en,'msize',[som_m som_n]); latt='rect'; %rect/hexa vecindad='bubble'; %cutgauss/gaussian/bubble/ep La variable latt hace referencia al lattice o tipo de grilla donde se guardan los vectores prototipo, la cual puede ser hexagonal o rectangular, como se muestra en la Figura 3. Figura 3: Tipos de Lattice para la red SOM. En una primera instancia se prueba con la red rectangular, sin embargo, se sabe que la malla hexagonal es menos sesgada a las direcciones vertical y horizontal, por lo que permite una inspección visual más adecuada. Se utilizan 1000 épocas de entrenamiento, con 107 datos por época, por lo que hay un total de pasos para el entrenamiento, lo cual permite una buena precisión estadística que se traduce en un ajuste muy fino de los prototipos sin aumentar de sobremanera el tiempo del mismo. En cuanto al radio de la vecindad, se plantea que se inicie con un valor 5 y que termine en 1, para que al comienzo se ordenen rápidamente los vectores y en las etapas finales se refine el ordenamiento. U. de Chile. FCFM. DIE ~5~

9 Desarrollo 2.4. Entrenamiento, Labeling y Clasificación Se define la estructura de entrenamiento, junto a los parámetros definidos anteriormente mediante las instrucciones: somtrain = som_train_struct (somap,'dlen',n_en,'algorithm','sec'); somtrain = som_set(somtrain,'neigh',vecindad,'trainlen',... epochs,'radius_ini',radius(1),'radius_fin',radius(2),... 'alpha_ini',a_init,'alpha_type',a_type); Y luego se entrena usando el algoritmo de entrenamiento secuencial: [somap, st_par]= som_seqtrain(somap,somdata_en,somtrain) Posteriormente se realiza el labeling para etiquetar los vectores prototipo de la red mediante la función somap = som_autolabel(somap,somdata_en,'vote'), la cual usa el modo vote en vez del add como pide el enunciado debido a que el modo vote asigna automáticamente el label más frecuente o con más votos en cada nodo, que es lo que se pide finalmente, y es más directo que utilizar add y luego buscar el label con más votos en cada nodo manualmente. A pesar de esto, existen nodos que quedaron sin etiquetar, los cuales se dejan así, ya que la clasificación con redes SOM permite esto para una cierta fracción de los nodos. Una vez etiquetados los nodos de la red según el productor de vino al que corresponden, se clasifican los datos de prueba mediante el siguiente bloque de instrucciones: [bmus qe]=som_bmus(somap,somdata_pr); pr_real=cell2mat(somdata_pr.labels); pr_classified=num2str(zeros(length(bmus),1)); for i=1:length(bmus) if ~isempty(somap.labels{bmus(i)}) pr_classified(i)=somap.labels{bmus(i)}; else if bmus(i)==1 if ~isempty(somap.labels{bmus(i)+1}) pr_classified(i)=somap.labels{bmus(i)+1}; else pr_classified(i)=sprintf('%i',randi([1 3])); else if ~isempty(somap.labels{bmus(i)+1})&&~isempty(somap.labels{bmus(i)-1}) aux=[somap.labels{bmus(i)-1} somap.labels{bmus(i)+1}]; pr_classified(i)=aux(1,randi([1 2])); else pr_classified(i)=sprintf('%i',randi([1 3])); U. de Chile. FCFM. DIE ~6~

10 Desarrollo Este método asigna la etiqueta del Best Matching Unit (BMU) para cada dato de prueba, si es que ese nodo está etiquetado. Si no, se elige aleatoriamente entre los dos nodos inmediatamente vecinos según el orden definido en la estructura del mapa SOM, los cuales generalmente se condicen con el productor verdadero. En el eventual caso de que alguno de sus dos vecinos tampoco esté etiquetado, simplemente se le otorga un productor aleatorio. Finalmente se calcula una matriz de confusión utilizando las etiquetas verdaderas del productor de cada muestra del conjunto de prueba, obtenio un porcentaje de muestras correctamente clasificadas al promediar los valores relativos de la diagonal de la matriz Visualización y Resultados Para visualizar la organización de la red SOM y el etiquetado de la misma se utiliza la función som_show y som_show_add con distintas modalidades, lo cual permite mostrar una U-matrix coloreada según los vectores prototipo etiquetados para cada productor, y la malla con las etiquetas de los labels más votados en los nodos etiquetados. A continuación se muestran los resultados para distintas combinaciones de los parámetros de entrenamiento y de topología de la red. Para realizar un análisis un tanto más simplificado, se mantienen constantes el tamaño, el radio inicial y final de la red, número de épocas, la tasa de aprizaje inicial y la función de aprizaje, como se inicializó en la sección 2.3. Es decir, se evaluarán diferencias en los resultados para distintos tipos de vecindad y organización de la malla de la red. U. de Chile. FCFM. DIE ~7~

11 Desarrollo Red SOM Rectangular, Vecindad tipo bubble. En la Figura 4 se observan la matriz U, la matriz de confusión y la grilla con etiquetas asignadas para este caso. Si bien el rimiento de clasificación es relativamente bajo, se observa que la red SOM diferencia en cierto grado los clusters asociados a cada productor, cumplio su objetivo. Figura 4: U-matrix, grilla etiquetada y matriz de confusión para red SOM rectangular con vecindad tipo bubble. Porcentaje correctamente clasificados: 64.11%. Red SOM Rectangular, Vecindad tipo gaussian. En este caso el rimiento mejora en un 4% como muestra la Figura 5. Figura 5: U-matrix, grilla etiquetada y matriz de confusión para red SOM rectangular con vecindad tipo gaussian. Porcentaje correctamente clasificados: 68.10%. U. de Chile. FCFM. DIE ~8~

12 Desarrollo Red SOM Rectangular, Vecindad tipo ep. En la Figura 6 se ve que el rimiento de clasificación es muy parecido al caso con vecindad tipo bubble. Figura 6: U-matrix, grilla etiquetada y matriz de confusión para red SOM rectangular con vecindad tipo bubble. Porcentaje correctamente clasificados: 65.86%. Red SOM Rectangular, Vecindad tipo cutgauss. En la Figura 7 se observa que este tipo de vecindad, a pesar de presentar traslape entre los Productores 2 y 3, obtiene el mejor rimiento neto para la red con malla rectangular, logrando un 70.9%. Figura 7: U-matrix, grilla etiquetada y matriz de confusión para red SOM rectangular con vecindad tipo cutgauss. Porcentaje correctamente clasificados: 70.90%. U. de Chile. FCFM. DIE ~9~

13 Desarrollo Red SOM Hexagonal, Vecindad tipo bubble. En la Figura 8 se ve que a contraste con la topología rectangular, una red SOM con malla hexagonal logra mejores resultados para clasificación, llegando a un rimiento de 69.76%. Figura 8: U-matrix, grilla etiquetada y matriz de confusión para red SOM hexagonal con vecindad tipo bubble. Porcentaje correctamente clasificados: 69.76%. Red SOM Hexagonal, Vecindad tipo gaussian. Como muestra la Figura 9, se obtiene un rimiento de 68.16%, muy similar al caso anterior. Se identifica gran traslape entre productores 2 y 3. Figura 9: U-matrix, grilla etiquetada y matriz de confusión para red SOM hexagonal con vecindad tipo gaussian. Porcentaje correctamente clasificados: 68.16%. U. de Chile. FCFM. DIE ~10~

14 Desarrollo Red SOM Hexagonal, Vecindad tipo cutgauss. En este caso, como se ve en la Figura 10, este tipo de vecindad obtiene un 70.9% de datos clasificados correctamente. Figura 10: U-matrix, grilla etiquetada y matriz de confusión para red SOM hexagonal con vecindad tipo cutgauss. Porcentaje correctamente clasificados: 70.23%. Red SOM Hexagonal, Vecindad tipo ep. En la Figura 11 se ve que el rimiento de clasificación es el mejor logrado, llegando a un 75.91%, a pesar de que aún existe un cierto grado de traslape entre las zonas de los productores 2 y 3 en la U-Matrix. Figura 11: U-matrix, grilla etiquetada y matriz de confusión para red SOM hexagonal con vecindad tipo ep. Porcentaje correctamente clasificados: 75.91%. U. de Chile. FCFM. DIE ~11~

15 Desarrollo 2.6. Normalización Realizando una normalización según la varianza al incorporar las líneas de código para las estructuras de datos de entrenamiento y prueba: somdata_en=som_normalize(somdata_en,'var'); somdata_pr=som_normalize(somdata_pr,'var'); En primer lugar, se observa en la Figura 12 que el mapa de Sammon cambia drásticamente, observándose una distribución bastante simétrica y cuyo rango en ambas direcciones es muy similar. En base a esto, se utilizará un tamaño de red igual a 8x8, usando 64 vectores prototipo. Figura 12: Mapa de Sammon para datos de entrenamiento normalizados Luego, mantenio el resto de los parámetros, se evaluaron los mismos casos que antes, llegando a que los mejores rimientos para una malla rectangular se logran usando una vecindad tipo bubble, obtenio un 94.95% como se ve en la Figura 13 y para una malla hexagonal con vecindad tipo ep, logrando clasificar correctamente 93.21% de los datos de prueba, mostrado en la Figura 14, aunque cabe destacar que para vecindad tipo cutgauss también se obtuvo resultados muy cercanos. Para la malla rectangular para las otras funciones de vecindad, en promedio se logró un rimiento del orden de 88%, mientras que el promedio para la malla hexagonal fue de 87% aproximadamente. Se observa que al normalizar los datos, el rimiento de clasificación aumenta considerablemente, esto debido a que las variables de las características poseen rangos de órdenes de magnitud muy distintos, alterando la importancia que se le da a una característica al medir distancias euclidianas. U. de Chile. FCFM. DIE ~12~

16 Desarrollo Figura 13: U-Matrix coloreada, malla etiquetada y matriz de confusión para red SOM rectangular con vecindad tipo bubble, usando datos normalizados. Figura 14: U-Matrix coloreada, malla etiquetada y matriz de confusión para red SOM hexagonal con vecindad tipo ep, usando datos normalizados. En resumen, el mejor clasificador logrado se obtiene para una red SOM rectangular con vecindad tipo bubble al ser entrenada y probada con datos normalizados según varianza, logrando un rimiento de 94.95%. U. de Chile. FCFM. DIE ~13~

17 Conclusiones 3. Conclusiones En primer lugar, se logró implementar los mapas auto-organizativos que realizaron clustering exitosamente, esto gracias a la utilización del SOM Toolbox desarrollado por Helsinki University of Technology. En segundo lugar, se pudo identificar la importancia de la normalización de los datos para implementar este tipo de algoritmo de clustering, debido a que las distancias euclidianas utilizadas se ven considerablemente afectadas cuando existen variables de características con órdenes de magnitud muy diferentes al resto. En este sentido, se logró aumentar el rimiento máximo de clasificación en un 20%, llegando al mejor clasificador para una red SOM rectangular con vecindad tipo bubble. Se puede concluir que los parámetros de entrenamiento y topología de una red SOM son muy determinantes para el nivel de ordenamiento deseado en el espacio de salida, por lo que conviene ayudarse de herramientas como los mapas de Sammon para determinar las dimensiones de la malla, y de heurísticas conocidas para configurar las tasas de aprizaje y el radio de la vecindad. Además, una conclusión interesante del trabajo realizado es que a partir de las redes SOM, se permite visualizar de manera intuitiva en un plano 2D la organización de los distintos clusters de los datos, los cuales pueden ser coloreados según la clase a la que pertenecen, hacio más fácil la visualización de los vectores prototipo asociados a cada cluster. Finalmente, se concluye que fue posible caracterizar los 3 clusters asociados a los productores, en cuanto se logró una clasificación utilizando el mapa SOM con un alto porcentaje de datos clasificados correctamente. U. de Chile. FCFM. DIE ~14~

18 Anexos 4. Anexos A continuación se muestran los códigos contenidos en cada uno de los archivos entregados en la tarea. separacion.m load Base_de_Datos_Tarea5 data=muestras; productor=double(cell2mat(labels))-48; N=length(data(:,1)); nfeats=13; % n de caracteristicas nc=3; % n de clases pr_rate=0.4; % Entrenamiento (60%)... Prueba(40%) %Uno los datos con las clases en una sola matriz, para asociar los %índices de las filas a cada clase distinta. newdata=[data,productor]; %ordeno y obtengo los índices de las muestras de cada clase. [aux ind]=sortrows(newdata,14); szs=zeros(1,nc); ind_bord=zeros(1,nc); %debo encontrar los indices de los que efectivamente pertenecen a cada %clase, para guardarlos en una matriz y luego separarlos. for i=1:nc auxaux=(aux(:,nfeats+1)==i); ind_aux=find(auxaux,1,'last'); ind_bord(i)=ind_aux; szs(i)=sum(auxaux(:)); %también calculo cuántos hay por clase. clear auxaux; %Se quiere pr_rate% de los datos por cada clase para el conjunto de prueba pr_szs=round(szs.*pr_rate); ind_bord_pr=cumsum(pr_szs);%esto me sirve para saber cuántos datos seleccionar por cada clase en las iteraciones. sz_prueba=sum(pr_szs); %tamaño total del conjunto de prueba. prueba=zeros(sz_prueba,nfeats+1); r_vec=zeros(sz_prueba,1); %vector que trá los indices seleccionados. U. de Chile. FCFM. DIE ~15~

19 Anexos %Selección de datos de prueba (20% por cada clase) %primera iteración for i=1:ind_bord_pr(1) r=randi([1 ind_bord(1)]); while(find(r_vec==ind(r))) %selecciono un indice al azar dentro del rango de la clase '1'. % y me aseguro que sea distinto a alguno seleccionado. r=randi([1 ind_bord(1)]); prueba(i,:)=newdata(ind(r),:); %guardo los datos y la clase a la que pertenece el dato elegido en el conjunto de prueba r_vec(i)=ind(r); %guardo el indice para luego borrar ese dato del conjunto y que lo que quede sea el de entrenamiento % repito para el resto de las clases. for j=2:nc for i=(ind_bord_pr(j-1)+1):ind_bord_pr(j) r=randi([(ind_bord(j-1)+1) ind_bord(j)]); while(find(r_vec==ind(r))) r=randi([(ind_bord(j-1)+1) ind_bord(j)]); prueba(i,:)=newdata(ind(r),:); r_vec(i)=ind(r); prueba2 = prueba(randperm(length(prueba(:,1))),:); %desordeno las filas prueba=prueba2; clear prueba2; %extraigo del conjunto original los datos utilizados para el conjunto de prueba entren=newdata; entren(r_vec,:)=[]; sz_entren=length(entren(:,1)); %Verificar representatividad %calculo cantidad de datos por clase en cada conjunto [aux ind]=sortrows(prueba,14); [aux2 ind2]=sortrows(entren,14); ver_szs_prueba=zeros(1,nc); ver_szs_entren=zeros(1,nc); for i=1:nc auxaux=(aux(:,nfeats+1)==i); auxaux2=(aux2(:,nfeats+1)==i); ver_szs_prueba(i)=sum(auxaux(:)); %calculo cuántos datos hay por clase en el conjunto de prueba construido. ver_szs_entren(i)=sum(auxaux2(:)); %y cuántos por clase en el conjunto de entrenamiento clear auxaux; clear auxaux2; U. de Chile. FCFM. DIE ~16~

20 Anexos %verifico proporciones parecidas por clase en ambos conjuntos. (DESCOMENTAR %PARA VERIFICAR) % % repr_total=szs./n % repr_prueba=ver_szs_prueba./sz_prueba % repr_entren=ver_szs_entren./sz_entren % % %verifico proporción 80/20 de los datos en cada conjunto. % % sz_entren/n % sz_prueba/n %Separo datos de información sobre la clase a la que pertenece cada uno. labels_entren = entren(:,14); entren(:,14)=[]; labels_prueba = prueba(:,14); prueba(:,14)=[]; save('conjuntos_separados.mat','entren','labels_entren','prueba','labels_pr ueba','headers') clear all; prodbordes.m function indbord=prodbordes(xlabels) %retorna bordes que separan los 3 grupos distintos de labels %(requiere que estén ordenados) ind1=find((xlabels==1),1,'last'); ind2=find((xlabels==2),1,'last'); ind3=find((xlabels==3),1,'last'); indbord=[ind1 ind2 ind3]; tarea5.m % ********************* TAREA 5 ************************** set(0,'defaultfigurecolormap',gray) clear all; close all; echo off; U. de Chile. FCFM. DIE ~17~

21 Anexos %% Cargar Conjuntos de datos separados y generar estructura de datos para el toolbox load Conjuntos_Separados; %entren, labels_entren, prueba, labels_prueba, headers N_en=length(labels_entren); en_bord=prodbordes(labels_entren); en_labels_som=num2str(labels_entren); %str_array para argumento pr_labels_som=num2str(labels_prueba); somdata_en=som_data_struct(entren,'labels',en_labels_som,'comp_names',heade rs); somdata_pr=som_data_struct(prueba,'labels',pr_labels_som,'comp_names',heade rs); %% Normalización somdata_en=som_normalize(somdata_en,'var'); somdata_pr=som_normalize(somdata_pr,'var'); %% Mapa de Sammon % < % %datos normalizados % norm_entren=som_normalize(entren,'var'); % P = sammon(norm_entren,2); %Permite ver la "orientacion" de los datos % figure; % plot(p(:,1),p(:,2),'x') % title('mapa de Sammon: Proyeccion no lineal 2D de los datos normalizados') % %datos sin normalizar % P = sammon(entren,2); %Permite ver la "orientacion" de los datos % figure; % plot(p(:,1),p(:,2),'x') % title('mapa de Sammon: Proyeccion no lineal 2D de los datos') %% Inicializar red SOM % Cambiar parámetros de diseño AQUÍ som_m=8; som_n=8; %MxN // recomado: 8x8 para Normalizado, 6x10 sin normalizar. a_init=1; a_type='inv';%linear/power/inv radius=[5 1]; %radius_init radius_final epochs=1000; somap = som_randinit (somdata_en,'msize',[som_m som_n]); latt='hexa'; %rect/hexa vecindad='cutgauss'; %cutgauss/gaussian/bubble/ep U. de Chile. FCFM. DIE ~18~

22 Anexos %defino Grilla somap = som_set(somap,'neigh',vecindad,'lattice',latt); %% Estructura de entrenamiento somtrain = som_train_struct (somap,'dlen',n_en,'algorithm','sec'); %seteo parámetros de entrenamiento somtrain = som_set(somtrain,'neigh',vecindad,'trainlen',epochs,'radius_ini',radius(1), 'radius_fin',radius(2),'alpha_ini',a_init,'alpha_type',a_type); %% Entrenamiento [somap, st_par]= som_seqtrain(somap,somdata_en,somtrain); %% Labeling somap = som_autolabel(somap,somdata_en,'vote'); %% Visualizo warning('off','all'); % % U-mat % figure; % colormap(1-gray) % som_show(somap,'umat','all') % colorbar %U-mat con hits en color + labels figure; colormap(1-gray) som_show(somap,'umat','all','empty','labels','subplots',[2 1]) som_show_add('label',somap,'textsize',8,'textcolor','r','subplot',2) h1 = som_hits(somap,somdata_en.data(1:en_bord(1),:)); h2 = som_hits(somap,somdata_en.data(en_bord(1)+1:en_bord(2),:)); h3 = som_hits(somap,somdata_en.data(en_bord(2):en_bord(3),:)); som_show_add('hit',[h1, h2, h3],'markercolor',[1 0 0; 0 1 0; 0 0 1],'Subplot',1) if(som_m==8 && som_n==8) text(0,9.7,['\color{red}productor 1' '\color{black}, ' '\color{green}productor 2'... '\color{black}, ' '\color{blue}productor 3'],'BackgroundColor',[1 1 1],... 'EdgeColor',[0 0 0],'Margin',5) else text(2,7.5,['\color{red}productor 1' '\color{black}, ' '\color{green}productor 2'... '\color{black}, ' '\color{blue}productor 3'],'BackgroundColor',[1 1 1],... 'EdgeColor',[0 0 0],'Margin',5) % Productor 1: ROJO Productor 2: VERDE Productor 3: AZUL colorbar warning('on','all'); U. de Chile. FCFM. DIE ~19~

23 Anexos %% Clasificación de Datos de prueba [bmus qe]=som_bmus(somap,somdata_pr); pr_real=cell2mat(somdata_pr.labels); pr_classified=num2str(zeros(length(bmus),1)); for i=1:length(bmus) if ~isempty(somap.labels{bmus(i)}) pr_classified(i)=somap.labels{bmus(i)}; else if bmus(i)==1 if ~isempty(somap.labels{bmus(i)+1}) pr_classified(i)=somap.labels{bmus(i)+1}; else pr_classified(i)=sprintf('%i',randi([1 3])); else if ~isempty(somap.labels{bmus(i)+1})&&~isempty(somap.labels{bmus(i)-1}) aux=[somap.labels{bmus(i)-1} somap.labels{bmus(i)+1}]; pr_classified(i)=aux(1,randi([1 2])); else pr_classified(i)=sprintf('%i',randi([1 3])); %% Generar matriz de confusión figure; colormap('jet'); C =confusionmat(pr_real,pr_classified); sc=sum(c); for i=1:3 C(:,i)=C(:,i)./sC(i); %normalizo la matriz de confusión imagesc(c) axis('ij') colorbar; xlabel('clases Verdaderas') ylabel('clases Predichas') set(gca,'xtick',[1:3]) set(gca,'xticklabel',['productor 1';'Productor 2';'Productor 3']) set(gca,'ytick',[1:3]) set(gca,'yticklabel',['productor 1';'Productor 2';'Productor 3']) C1=sum(diag(C))/3 ; tt=sprintf('matriz de Confusión: Porcentaje Clasificación correcta: %.2f%%',C1*100); title(tt) U. de Chile. FCFM. DIE ~20~

24 Bibliografía 5. Bibliografía Presentación EL Inteligencia Computacional Self Organizing Map SOM Redes Auto-Organizativas de Kohonen - Prof. Javier Ruiz del Solar- Otoño Presentación EL4106 Inteligencia Computacional Performance Evaluation Otoño SOMToolboxManual SOM Toolbox for Matlab 5 - Esa Alhoniemi, Johan Himberg, Juha Parhankangas and Juha Vesanto - Laboratory of Information and Computer Science in the Helsinki University of Technology Sammon mapping - U. de Chile. FCFM. DIE ~21~