Técnicas de clasificación ordinal aplicadas a un problema de distribución en planta

Transcripción

1 Técnicas de clasificación ordinal aplicadas a un problema de distribución en planta M. Pérez-Ortiz, C. Hervás-Martínez, L. García-Hernández, L. Salas-Morera, A. Arauzo-Azofra Resumen La gran parte de los métodos para clasificación en Aprendizaje Automático están basados en la asunción de que las etiquetas de clases no presentan un orden concreto, a pesar de que esta situación se de en numerosas aplicaciones prácticas. Este artículo explica distintas maneras de abordar la clasificación ordinal y las aplica a un problema de evaluación de distribuciones en planta generadas por un algoritmo genético interactivo. Palabras clave clasificación ordinal, distribución en planta, aprendizaje automático I. Introducción Podemos definir la clasificación como un procedimiento algorítmico para distinguir o describir clases de datos, con el propósito de predecir a qué clase pertenecen dichos datos. En un principio nuestro análisis estará basado en un conjunto de datos ya etiquetados, es decir, datos cuyas clases son conocidas. Normalmente el objeto podrá pertenecer exclusivamente a una clase, ya que estas en la mayoría de los casos, serán disjuntas. De modo que, el objetivo de la clasificación es que dado un vector de entrada x, buscamos asignarlo a una variable categórica y o etiqueta de clase. Este artículo se centrará en el estudio de problemas de aprendizaje supervisado, referidos a la regresión ordinal, la cual, como su nombre indica, predice categorías en una escala ordinal. La clasificación ordinal es aquella en la que la variable a predecir no es de tipo numérico o nominal sino ordinal, de forma que las categorías poseen un orden lógico. Bajo un enfoque ordinal, el gran problema en este tipo de clasificación estriba en que no se posee una noción precisa de la distancia entre clases. Por ejemplo: en una escala de ratios o intervalos sabemos que el 3 está más cerca del 2 que del 5, pero en una escala ordinal como podría ser bueno, regular, malo cómo sabemos, en general, si regular está más cerca de bueno que de malo? Tradicionalmente los problemas de clasificación ordinal han sido abordados mediante un enfoque multinomial, es decir, obviando el orden entre las categorías. Este otro enfoque es una simplificación arriesgada, ya que, volviendo al mismo ejemplo, el hecho de confundir la clase malo con regular sufre una penalización similar a la confusión de la clase malo con bueno (cuando claramente el segundo tipo de error debería de estar más penalizado). En general, las formas estándar para abordar la clasificación ordinal implican simplifi- María Pérez-Ortiz i82perom@uco.es car el problema a uno de regresión [1], usar matrices de coste [2] o reducirlo a un problema de clasificación multiclase [3], entre otras. La regresión ordinal posee numerosas aplicaciones en campos donde la evaluación humana tiene un papel relevante, por ejemplo: psicología, medicina, búsqueda y recuperación de información, marketing, etc. Resumiendo, la regresión ordinal muestra similitudes tanto con la regresión como con la clasificación, porque las etiquetas de clase son discretas y ordinales. Aunque también muestra diferencias. Con respecto a la regresión el número de clases no es infinito y las discriminaciones entre estas clases no están bien definidas. A diferencia de la clasificación la relación entre clases es ordinal. Los algoritmos para clasificación nominal pueden también ser aplicados a problemas de predicción de tipo ordinal obviando la información de orden de las clases. Sin embargo, en este proceso se pierde información, la cual podría mejorar la capacidad predictiva del clasificador. En este artículo presentaremos distintos métodos que se han utilizado para abordar la clasificación ordinal y se aplican a un problema real de distribución en planta. Dicho problema tiene una clara distribución ordinal, ya que la etiqueta de clase corresponde a una determinada calificación asociada al patrón en cuestión, y estas clasificaciones presentarán un orden lógico entre ellas. En este caso aplicaremos la regresión ordinal para la evaluación de diseños de distribución en planta. Realizar un buen diseño de la distribución en planta de una industria tiene una gran importancia sobre la eficacia de la producción [4], ya que incide directamente en factores tales como los costes de manufacturación, la productividad, el tiempo, etc. El problema de distribución en planta ha sido abordado en numerosas ocasiones optimizando medidas cuantitativas relativas a la posición de las instalaciones y sus características. Sin embargo, hay ciertas preferencias que valora un experto que son difíciles de medir. A menudo, éstas no se conocen o no se pueden definir a priori, si no que, en el momento en el que el experto ve una distribución concreta, es cuando se da cuenta de las ventajas o inconvenientes de la misma. Sería interesante poder aprender, a partir de las evaluaciones realizadas por el experto, las mejores características de las distribuciones en planta de un problema concreto y, así, poder automatizar procesos de búsqueda de la mejor distribución posible teniendo en cuenta estas características que no

2 se pueden definir o establecer de manera formal. Esto sería aplicable, por ejemplo, para reducir la fatiga del usuario en un algoritmo genético interactivo [5]. Este artículo se organiza como sigue: en la Sección 2 se describirán distintos métodos propuestos de clasificación ordinal, más tarde en la Sección 3 se darán unas nociones básicas de la base de datos utilizada. En la Sección 4 se analizará el diseño experimental utilizado y los resultados obtenidos por los distintos algoritmos ya comentados en la Sección 2 se especificarán en la Sección 5. Finalmente se muestran las conclusiones extraídas y el trabajo futuro en la Sección 6. II. Métodos En esta sección describiremos los distintos métodos de clasificación ordinal utilizados para resolver el problema presentado de distribución en planta. En su mayor parte, se tratará de métodos muy conocidos en la literatura correspondiente al Aprendizaje Automático, pero que han sido reformulados para lidiar con un determinado orden en la etiqueta de clase. Se denotará el conjunto de datos de entrenamiento como (x i, y i ), siendo i = 1,..., K, donde las patrones se denotan como x i, y las correspondientes etiquetas de clase como y i {1, 2,..., K}. N corresponderá con el número total de patrones y K el número de clases ordenadas por medio de enteros consecutivos de modo que se mantiene un determinado rango entre ellas. A. Clasificación ordinal mediante árboles binarios Este algoritmo (OrdinalClassClassifier) propuesto en [3] aplica una técnica relativamente simple que permite reformular algoritmos de clasificación nominal a ordinal. En primer lugar, se transforman los datos de un problema ordinal con k clases, a k 1 problemas de clasificación binaria. Esto se hace binarizando las variables categóricas, convirtiendo así un atributo ordinal A con V 1, V 2,..., V k posibles valores en k 1 variables binarias, de forma que el atributo i-ésimo representa A > V i. El proceso de entrenamiento comienza entonces transformando la base de datos original, de modo que se genere un nuevo conjunto de datos por cada uno de los k 1 atributos binarios. Este nuevo conjunto contendrá el mismo número de atributos que el inicial, conservando todos los valores iguales excepto el de la variable de clase. Una vez llegados a este punto puede aplicarse el algoritmo elegido para generar un modelo para cada uno de los nuevos conjuntos de datos. A la hora de la predicción de nuevas instancias, el procedimiento consiste en estimar las probabilidades de las k variables categóricas usando para ello los k 1 modelos extraídos del conjunto de entrenamiento y se asigna a la instancia en cuestión la clase con mayor probabilidad. En general las probabilidades de pertenencia a una determinada clase se calculan del siguiente modo: P r(v 1 ) = 1 P r(y i > V 1 ) P r(v i ) = P r(y i > V i 1 ) P r(y i > V i ) P r(v k ) = P r(y i > V k 1 ) Se pueden utilizar distintos algoritmos basados en árboles de decisión utilizando la técnica anteriormente comentada, en este caso, hemos utilizado el algoritmo C4.5 [6], el cual construye árboles de decisión a partir de un conjunto de entrenamiento, usando para ello el concepto de entropía de la información. Este método genera el árbol de decisión a partir de los datos mediante particiones realizadas de forma recursiva. El algoritmo considera todas las combinaciones posibles para dividir el conjunto de datos y selecciona la combinación que obtiene la mayor ganancia de información. Esta técnica es conocida como proporción de ganancia o Gain Ratio, y es una medida basada en la información que considera distintos valores y probabilidades de los resultados de las combinaciones. Una de las características más importantes de este algoritmo es el proceso de poda que realiza, que resulta especialmente útil cuando el conjunto de datos presenta lo que se denominan como casos aislados o outliers. La poda se realiza de modo que el modelo obtenido obtenga una buena capacidad de generalización. B. Regresión Logística Ordinal Este es uno de los modelos diseñados específicamente para regresión ordinal (Proportional Odd Model (POM)), fue diseñado partiendo de una base estadística [7], aplicando regresión logística y un método de umbralización. Parte de la hipótesis de que existe un determinado orden estocástico del espacio X, de modo que se satisface que para cada par x 1 y x 2 se da que P (y C i x 1 ) P (y C i x 2 ) o P (y C i x 1 ) P (y C i x 2 ). Este modelo proviene del concepto de variable latente, en el cual f(x) = w T x es un modelo lineal. En lugar de entrenar una regla de decisión tal que f : X Y, este modelo define una función de densidad de probabilidad sobre las etiquetas de clases para un vector de características x. A grandes rasgos, el método de Regresión Logística Ordinal considera dos asunciones muy importantes acerca de los datos: en primer lugar una distribución de la variable latente, y por otro lado, un determinado orden estocástico del espacio X. Para más información de este método ver [8]. C. Máquinas de Soporte Vectorial Las máquinas de Soporte Vectorial [9] son quizás, el método más utilizado de aprendizaje mediante

3 funciones de tipo kernel o de aproximación local usado en reconocimiento de patrones. El concepto de función kernel formulado como un producto escalar interno en un espacio de características, nos permite construir extensiones de muchos algoritmos ya formulados de manera que el vector x de entrada en forma de producto escalar pueda ser transformado mediante otro tipo de kernel. Esta técnica ha sido aplicada a algoritmos tan conocidos como el Análisis en Componentes Principales o PCA, a los clasificadores basados en el vecino más cercano, el Análisis Discriminante Lineal, o las Máquinas de Soporte Vectorial, entre otros. Las características de los métodos que implementan este tipo de funciones son: Los datos se transforman a un determinado espacio de características. Se buscan las relaciones lineales de los datos en dicho espacio. Se implementan los algoritmos de manera que las coordenadas de los puntos transformados no se necesitan, únicamente el producto escalar entre cada par de vectores de coordenadas. Los pares de productos pueden ser computados eficientemente a partir de los datos originales mediante la función kernel. La idea principal de los métodos SVM es encontrar el hiperplano que mejor separa las clases. Estos métodos están diseñados para realizar una dicotomía entre dos clases (clasificación binaria). Si hubiese más clases el problema se divide en subproblemas donde una clase se discrimina del resto. Este tipo de método proporciona un modelo lineal paramétrico en el que las predicciones están basadas en una combinación lineal de una función kernel evaluada en los datos de entrenamiento. Los parámetros de las Máquinas de Soporte Vectorial se obtienen mediante un problema de optimización convexa, de modo que hay un único óptimo global. La idea básica de SVMs es separar dos clases diferentes, en primer lugar se define para dos clases y más tarde se extiende a multiclase a través de un hiperplano definido por el vector w y los umbrales b. El hiperplano puede definirse del siguiente modo: w φ(x) + b = 0, (1) lo que produce la función de decisión correspondiente: f(x) = y = sgn ( w φ(x) + b), (2) donde y = +1 si x pertenece a la clase correspondiente y y = 1 en otro caso. Como puede verse en [10], el hiperplano separador óptimo es el que maximiza la distancia entre el hiperplano y los puntos más cercanos de ambas clases, y nos lleva así a la mejor predicción para conjuntos no vistos anteriormente. De esta forma, el hiperplano separador con el máximo margen puede ser formulado como un problema de optimización cuadrática. C.1 Clasificación Binaria Extendida usando Máquinas de Soporte Vectorial Este método (Extended Binary Classification (EBC) [11]) está adaptado para Máquinas de Soporte Vectorial o SVM. Parte también de un conjunto de problemas de clasificación binaria, pero el procedimiento para clasificar es diferente al propuesto por Frank & Hall [3] visto en el apartado Árboles de Clasificación Binaria. En este caso, los problemas de clasificación binaria se resuelven de forma conjunta obteniendo así un único clasificador binario, para más tarde transformar las salidas binarias a un determinado rango. Este método se basa en los siguientes tres pasos 1. Transformar todos los datos de entrenamiento (x i, y i ) a datos extendidos de la forma (x (k) i, y (k) i ), 1 k K 1: x (k) i = (x i, k), y (k) i = 2 k < y i 1, (3) pero ponderando los datos del siguiente modo: w yi,k = C yi,k C yi,k+1, (4) donde C es una matriz de coste, con C yi,k 1 C yi,k si k y i y C yi,k C yi,k+1 si k y i. 2. Se utilizará entonces un clasificador binario f con todos los datos extendidos y generará salidas en términos de confianza. 3. Se utiliza una regla de decisión para construir la predicción de nuevos datos. Como se ha dicho, este sistema se ha adaptado para Máquinas de soporte Vectorial, usando un modelo basado en umbrales para estimar f(x, k): f(x, k) = g(x) b k, (5) donde g(x) es una función no lineal definida como g(x) = w φ(x). La adaptación de las SVM originales puede realizarse simplemente definiendo funciones de tipo kernel extendidas. Este tipo de funciones se aplicarán a los ejemplos extendidos (x, k) y corresponderán con el kernel original más el producto interior de las extensiones: K((x, k), (x, k)) = φ(x) φ(x ) + e k e k, (6) donde E es una matriz de (K 1) filas y e k es la fila k-ésima de dicha matriz. En función de la selección de la matriz E, el algoritmo cambiará. En este artículo, usaremos E = I K 1 y la matriz de coste absoluta, aplicada al problema estándar de softmargin propio de los métodos SVM. D. Análisis Discriminante para regresión ordinal El algoritmo LDA (Linear Discriminant Analysis [12]) es un método usado en estadística, aprendizaje automático y reconocimiento de patrones para reducir la dimensión del espacio de datos y encontrar

4 una combinación lineal de características que separen en dos o más clases los objetos. Este método toma en consideración todos los datos (a diferencia de los métodos SVM) además de la distribución de las clases de estos. Su objetivo es proyectar los datos, encontrando así la proyección óptima, minimizando la distancia entre los datos dentro de una misma clase y maximizando la distancia entre clases para conseguir la máxima discriminación a la hora de clasificar. El método comentado en esta sección (Kernel Discriminant Analysis for Ordinal Regression (KD- LOR)) fue propuesto en [13] y extiende el algoritmo KDA tradicional a regresión ordinal, tratándose del primer trabajo que resuelve problemas de regresión ordinal mediante análisis discriminante kernel. A grandes rasgos, esta técnica utiliza el Análisis Discriminante original, pero aplicando una restricción que permitirá la clasificación ordinal. Esta restricción consiste en calcular la proyección óptima para los datos, pero al mismo tiempo manteniendo estos de acuerdo a su rango en dicha proyección. La tarea principal es encontrar una proyección en la que se preserve la información ordinal de las clases. Más concretamente, como ya se ha dicho, la proyección minimizará la distancia entre patrones dentro de una misma clase y maximizará al mismo tiempo la distancia entre patrones de distintas clases. Comenzaremos comentando el método lineal (Linear Discriminant Analysis for Ordinal Regression (LDAOR)), para facilitar la comprensión del lector. El algoritmo intenta alcanzar tres objetivos, maximizar la distancia entre clases, minimizar la distancia dentro de una misma clase y asegurar la información ordinal de estas. De modo que, dado un conjunto de ejemplos de entrenamiento (x i, y i ) R l R, i = {1,..., N}, donde x i R l denota las entradas, y i {1, 2,..., K} denota las correspondientes etiquetas ordinales, K es el número de clases y N es el tamaño del conjunto. Definimos las matrices de covarianza entre clases (S b ) y de covarianza dentro de una misma clase (S w ): S b = 1 N S w = 1 N K N k (m k m)(m k m) T, (7) k=1 K N k (x i m k )(x i m k ) T, (8) k=1 i=1 donde m k = 1 Nk N k i=1 x i y m = 1 N N i=1 x i son respectivamente las medias de la clase K y la media global. Los dos primeros objetivos presentados pueden ser alcanzados mediante la maximización del llamado coeficiente de Rayleigh, una técnica clásica y conocida para resolver este tipo de problema: J(w) = wt S b w w T S w w, (9) donde w es la proyección que estamos buscando. Para maximizar el coeficiente de Rayleigh reformularemos el método propuesto. Tomamos en consideración que maximizar wt S b w w T S ww es lo mismo que minimizar wt S ww w T S b w. Como wt S b w es un escalar lo asociaremos a una variable ρ, que representa la mínima diferencia de las medias proyectadas entre dos clases consecutivas, de forma que si ρ > 0 las medias proyectadas están ordenadas correctamente de acuerdo a su rango ordinal. Finalmente, transformamos el problema de optimización original de la siguiente forma: se trata de minimizar las varianzas de los datos de una misma clase mientras que se maximice la diferencia entre las medias proyectadas de dos clases vecinas: mín J(w, ρ) = w T S w w Cρ, (10) con la restricción de mantener el orden entre dos clases consecutivas propuesta en la forma: w T (m k+1 m k ) ρ. Teniendo en cuenta todos estos pasos, el algoritmo LDAOR se explica en Figura 1, donde K T r y K T s son las matrices de entrenamiento y prueba. Algoritmo LDAOR Entrada: Patrones de entrenamiento (T r), etiquetas de clase de entrenamiento (T rg), patrones de prueba (T s). Salida: Etiquetas de clase de los patrones de prueba (T sg). 1. Calculamos la matriz de covarianzas S w y la matrix Q. 2. Resolvemos el problema de optimización con restricciones lineales. 3. Calculamos la proyección óptima w y los umbrales para discriminar las clases b k. 4. Finalmente, calculamos la pertenencia a la clase (T sg) usando la proyección, los umbrales y los patrones de prueba. Fig. 1. Pasos del algoritmo LDAOR Pero este método trabaja solo con modelos lineales, de modo que para poder utilizar también modelos no lineales, se ha extendido el método LDAOR a su versión kernel o de aproximación local (KDLOR). Considerando que el problema original puede estar en un espacio de dimensión finita, a menudo sucede que en ese espacio los conjuntos a discriminar no son linealmente separables. Por esto se propone que el espacio de dimensión finita original se convierta en un espacio de mayor dimensión, permitiendo así una separación de los patrones más sencilla (lineal). Los productos escalares en el espacio de mayor dimensión se definen en términos de una función kernel K(x, y) seleccionada para resolver el problema. La función de tipo kernel seleccionada para este

5 Fig. 2. Estructura de los datos usados de cada distribución en planta propósito es la gaussiana: ( K(x, y) = exp donde σ 2 es la varianza. ) x y 2 σ 2 III. Base de datos (11) Con el objetivo de ser capaces de imitar la forma en que un experto evalua un diseño de distribución en planta, se han probado los distintos métodos de clasificación ordinal sobre una base de datos de estos diseños. Cada patrón es una distribución en planta que se ha generado de forma aleatoria o por recombinación dentro de un algoritmo genético interactivo [5]. Las distribuciones en planta han sido creadas rellenando la estructura basada en el esquema de bahías flexibles ([14], [15]). La estructura de codificación empleada contiene una tupla que representa el orden de las instalaciones y otra tupla de valores binarios indicando los puntos de división entre bahías. Por ejemplo, la estructura representada en la Figura 2 genera la distribución mostrada en la Figura 3, donde las bahías son las columnas donde aparecen ordenadas las instalaciones. El ancho de cada bahía es flexible estableciéndose de forma que de cabida a las instalaciones correspondientes. Durante la ejecución del algortimo genético interactivo, un usuario experto valoró cada una de las distribuciones en planta en una escala numérica de 1 a 5, siendo preferibles las distribuciones evaluadas con valores más altos. Ésta es la última característica incluida en cada patrón y representa la clase asignada. El objetivo es predecir esta evaluación del usuario en nuevas plantas generadas sobre el mismo problema. Tenemos una base de datos de 1969 patrones con 5 clases y 86 características por patrón relativas a la posición y características de cada distribución. La Figura 4 muestra el histograma de frecuencia por cada clase. Puede apreciarse que existe un desbalanceo de la base de datos, por ello una de las métricas a medir será la mínima sensibilidad, que medirá el valor mínimo de patrones correctamente clasificados por clase. Fig. 4. Histograma de frecuencia por clases. Fig. 3. Ejemplo de distribución en planta La Figura 2 indica el contenido completo de cada patrón de ejemplo para el aprendizaje. A parte de la estructura de la distribución generada, con objeto de facilitar la labor de aprendizaje, se han extraido varias características derivadas que se consideran más descriptivas de cara a la evaluación: cuatro medidas sobre requisitos o aspectos deseables de la planta y las coordenadas del rectangulo de cada instalación a las que da lugar la estructura de distribución generada. IV. Diseño experimental Se ha utilizado un modelo de 30 particiones aleatorias de la base de datos para el diseño experimental. Esta técnica es conocida como 30-holdout y nos asegura que los resultados obtenidos se aproximan en gran medida a los reales, y que no se elige la mejor partición para entrenamiento y generalización. El porcentaje de patrones destinados a entrenar es del 75 % y 25 % para generalizar. Además, se ha usado un modelo en malla para la elección de los parámetros de cada algoritmo, usando para ello un 5-fold, es decir, se ha particionado el conjunto de entrenamiento en 5 particiones diferentes, y se ha usado en cada ejecución una determinada

6 combinación de parámetros correspondiente al modelo en malla y 4 particiones para entrenamiento y 1 para generalización. Los parámetros elegidos finalmente serán los que muestren un mejor desempeño medio para el conjunto de datos. V. Resultados Se usarán 4 métricas bastante conocidas [16] para analizar la eficiencia de los diferentes métodos presentados: CCR, MS, MAE and RMSE. CCR o Porcentaje de Patrones Correctamente Clasificados: ( ) 1 K CCR = n ii, (12) N i=1 donde n ii corresponde al número de patrones que han sido bien clasificados para la clase k, y N es el número total de patrones a predecir. M S o mínima sensibilidad: Esta métrica puede ser definida como el valor mínimo de las sensibilidades para cada clase, es decir el porcentaje de patrones correctamente clasificados de dicha clase: MS = mín{s i ; i = 0,..., K}. (13) donde S i es la sensibilidad de la clase i-ésima. MAE o Error Absoluto Medio: Es el valor absoluto de la desviación media de las etiquetas de clase predichas con respecto a la real: MAE = 1 N N ŷ i y i. (14) i=1 RM SE o Error Cuadrático Medio: Mide cuánto se desvian las predicciones del valor real: RMSE = 1 N (y n ŷ n ) N 2, (15) n=1 donde y n es el valor real y ŷ n el valor estimado. La elección de estas métricas no ha sido arbitraria, se han elegido CCR y MS por ser métricas de umbral, la primera correspondiente a la clasificación total y la segunda a cada clase en particular. En segundo lugar se ha elegido la métrica M AE por su importancia en clasificación ordinal y para finalizar RM SE por ser una métrica de tipo ranking. La Tabla I muestra los resultados de los distintos métodos ordinales explicados anteriormente, comparando además su desempeño con sus equivalentes algoritmos nominales. Los algoritmos OrdinalClass- Classifier y C4.5 han sido configurados y ejecutados en WEKA [17]. Los métodos SVM utilizados están disponibles en una página que contiene una librería asiduamente actualizada para Máquinas de Soporte Vectorial. Por último, los métodos POM y KDLOR han sido implementados en MATLAB. Como puede observarse el método ordinal que mejor desempeño muestra es OrdinalClassClassifier, seguido por EBC(SVM). Para estudiar la significancia de las medias obtenidas, se ha aplicado un test paramétrico (t de Student) comparando en este caso los resultados del algoritmo OrdinalClassClassifier contra EBC(SVM), métodos ordinales que obtienen los mejores resultados para el problema en cuestión. En primer lugar, se comprobó que se cumplían las condiciones para el test paramétrico: independencia de las muestras, misma varianza (usando para ello el test de Levene) y una distribución normal de la muestra (test de Kolmogorow-Smirnov). Los resultados del test mostraron que existen diferencias significativas en los valores medios de CCR, y MAE a favor de el método OrdinalClassClassifier, ya que los p- valores asociados son 0.0 para ambos casos, menores que 0.05 (nivel de significancia escogido). En cuanto a MS no es posible aplicar el test pero las diferencias se encuentran casi a 20 puntos ya que la media del árbol de decisión es 19,76 y la de EBC(SVM) es 0. Por último, aunque el algoritmo OrdinalClass- Classifier presente un mejor desempeño en RM SE no existen diferencias significativas debido a que el p-valor asociado es de VI. Conclusiones Puede concluirse que la aplicación de árboles de decisión es una opción acertada para este problema concreto, ya que muestran una gran diferencia en cuanto a desempeño con respecto al resto de métodos. Además, el tratar la información como ordinal ayuda a mejorar los resultados, como puede comprobarse al comparar los resultados entre OrdinalClassClassifier y su equivalente nominal C4.5, y EBC(SVM) con LibSVM. Los resultados obtenidos son interesantes porque los niveles de error permiten detectar las distribuciones buenas y descartar las plantas evaluadas en las clases inferiores sin perder ninguna importante. De esta forma, es posible realizar una búsqueda intensiva guiada por el modelo aprendido sin tener que consultar al usuario. Esto puede resultar especialmente útil en muchas aplicaciones prácticas para encontrar las distribuciones en planta óptimas. Como trabajo futuro puede destacarse la integración de este sistema de aprendizaje para guiar el Algoritmo Genético Interactivo (IGA) ya citado anteriormente y así liberar al experto de tan ardua tarea. Agradecimientos Este trabajo ha sido subvencionado en parte por el proyecto TIN del Ministerio Español, Comisión de Ciencia y Tecnología (MICYT), fondos FEDER y el proyecto P08-TIC-3745 de la Junta de Andalucía (España). Referencias [1] Stefan Kramer, Gerhard Widmer, Bernhard Pfahringer, and Michael de Groeve, Prediction of ordinal classes using regression trees, in Proceedings of the 12th International Symposium on Foundations of Intelligent Systems, London, UK, 2000, ISMIS 00, pp , Springer-Verlag.

7 TABLA I CCR, MS, MAE y RMSE de todos los métodos Algorithm CCR M AE M S RM SE OrdinalClassClassifier 74,82 ± 1,48 0,328 ± 0,025 23,31 ± 9,51 0,709 ± 0,044 KDLOR 65,20 ± 1,19 0,400 ± 0, ± ± POM 60,72 ± 1,24 0,468 ± 0,014 0,00 ± 0,00 0,789 ± 0,017 EBC(SVM) ± ± ,00 ± 0,00 0,717 ± 0,027 LibSVM 66,05 ± 3,53 0,400 ± 0,037 1,81 ± 5,70 0,724 ± 0,034 C4.5 74,51 ± 2,31 0,357 ± 0,037 22,16 ± 7,35 0,755 ± 0,055 Los mejores resultados se presentan en negrita y los segundos mejores en itálica [2] Sotiris B. Kotsiantis and Panayiotis E. Pintelas, A cost sensitive technique for ordinal classification problems., in SETN, George A. Vouros and Themis Panayiotopoulos, Eds. 2004, vol of Lecture Notes in Computer Science, pp , Springer. [3] Eibe Frank and Mark Hall, A simple approach to ordinal classification, in Proceedings of the 12th European Conference on Machine Learning, London, UK, 2001, EMCL 01, pp , Springer-Verlag. [4] Panagiotis Kouvelis, Abbas A. Kurawarwala, and Genaro J. Gutierrez, Algorithms for robust single and multiple period layout planning for manufacturing systems, European Journal of Operational Research, vol. 63, no. 2, pp , [5] L. Garcia-Hernandez, H. Pierreval, L. Salas-Morera, and A. Arauzo-Azofra, An interactive genetic algorithm with c-means clustering for the unequal area facility layout problem, in Intelligent Systems Design and Applications (ISDA), th International Conference on, 2010, pp [6] J. Ross Quinlan, C4.5: Programs for Machine Learning (Morgan Kaufmann Series in Machine Learning), Morgan Kaufmann, 1 edition, January [7] P. McCullagh, Regression models for ordinal data (with discussion), Journal of the Royal Statistical Society, vol. 42, no. 2, pp , [8] Bercedis Peterson and Frank E Harrell, Partial proportional odds models for ordinal response variables, Applied Statistics, vol. 39, no. 2, pp , [9] Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines (and Other Kernelbased Learning Methods), Cambridge University Press, Cambridge, U.K., 1st edition, [10] Corinna Cortes and Vladimir Vapnik, Support-vector networks, Machine Learning, vol. 20, no. 3, pp , [11] Ling Li and Hsuan-Tien Lin, Ordinal Regression by Extended Binary Classification, in Advances in Neural Information Processing Systems 19, 2007, pp [12] C. M. Bishop, Pattern Recognition and Machine Learning (Information Science and Statistics), Springer- Verlag New York, Inc., Secaucus, NJ, USA, [13] Bing-Yu Sun, Jiuyong Li, Desheng Dash Wu, Xiao-Ming Zhang, and Wen-Bo Li, Kernel discriminant learning for ordinal regression, IEEE Transactions on Knowledge and Data Engineering, vol. 22, pp , [14] X. Tong, A Sequential Construction Technique For Facility Design, Ph.D. thesis, University of Pittsburgh, Department of Industrial Engineering, 1991, Unpublished Doctoral Dissertation. [15] Kuan Yew Wong and Komarudin, Solving facility layout problems using flexible bay structure representation and ant system algorithm, Expert Systems with Applications, vol. 37, no. 7, pp , July [16] R. Caruana and A. Niculescu-Mizil, Data mining in metric space: an empirical analysis of supervised learning performance criteria, in Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. 2004, KDD 04, pp , ACM. [17] M. Hall, E. Frank, G. Holmes, B. Pfahringer, P. Reutemann, and I. H. Witten, The weka data mining software: an update, ACM SIGKDD Explor. Newsletter, vol. 11, pp , 2009.