Técnicas de clasificación ordinal aplicadas a un problema de distribución en planta

Save this PDF as:
 WORD  PNG  TXT  JPG

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Técnicas de clasificación ordinal aplicadas a un problema de distribución en planta"

Transcripción

1 Técnicas de clasificación ordinal aplicadas a un problema de distribución en planta M. Pérez-Ortiz, C. Hervás-Martínez, L. García-Hernández, L. Salas-Morera, A. Arauzo-Azofra Resumen La gran parte de los métodos para clasificación en Aprendizaje Automático están basados en la asunción de que las etiquetas de clases no presentan un orden concreto, a pesar de que esta situación se de en numerosas aplicaciones prácticas. Este artículo explica distintas maneras de abordar la clasificación ordinal y las aplica a un problema de evaluación de distribuciones en planta generadas por un algoritmo genético interactivo. Palabras clave clasificación ordinal, distribución en planta, aprendizaje automático I. Introducción Podemos definir la clasificación como un procedimiento algorítmico para distinguir o describir clases de datos, con el propósito de predecir a qué clase pertenecen dichos datos. En un principio nuestro análisis estará basado en un conjunto de datos ya etiquetados, es decir, datos cuyas clases son conocidas. Normalmente el objeto podrá pertenecer exclusivamente a una clase, ya que estas en la mayoría de los casos, serán disjuntas. De modo que, el objetivo de la clasificación es que dado un vector de entrada x, buscamos asignarlo a una variable categórica y o etiqueta de clase. Este artículo se centrará en el estudio de problemas de aprendizaje supervisado, referidos a la regresión ordinal, la cual, como su nombre indica, predice categorías en una escala ordinal. La clasificación ordinal es aquella en la que la variable a predecir no es de tipo numérico o nominal sino ordinal, de forma que las categorías poseen un orden lógico. Bajo un enfoque ordinal, el gran problema en este tipo de clasificación estriba en que no se posee una noción precisa de la distancia entre clases. Por ejemplo: en una escala de ratios o intervalos sabemos que el 3 está más cerca del 2 que del 5, pero en una escala ordinal como podría ser bueno, regular, malo cómo sabemos, en general, si regular está más cerca de bueno que de malo? Tradicionalmente los problemas de clasificación ordinal han sido abordados mediante un enfoque multinomial, es decir, obviando el orden entre las categorías. Este otro enfoque es una simplificación arriesgada, ya que, volviendo al mismo ejemplo, el hecho de confundir la clase malo con regular sufre una penalización similar a la confusión de la clase malo con bueno (cuando claramente el segundo tipo de error debería de estar más penalizado). En general, las formas estándar para abordar la clasificación ordinal implican simplifi- María Pérez-Ortiz car el problema a uno de regresión [1], usar matrices de coste [2] o reducirlo a un problema de clasificación multiclase [3], entre otras. La regresión ordinal posee numerosas aplicaciones en campos donde la evaluación humana tiene un papel relevante, por ejemplo: psicología, medicina, búsqueda y recuperación de información, marketing, etc. Resumiendo, la regresión ordinal muestra similitudes tanto con la regresión como con la clasificación, porque las etiquetas de clase son discretas y ordinales. Aunque también muestra diferencias. Con respecto a la regresión el número de clases no es infinito y las discriminaciones entre estas clases no están bien definidas. A diferencia de la clasificación la relación entre clases es ordinal. Los algoritmos para clasificación nominal pueden también ser aplicados a problemas de predicción de tipo ordinal obviando la información de orden de las clases. Sin embargo, en este proceso se pierde información, la cual podría mejorar la capacidad predictiva del clasificador. En este artículo presentaremos distintos métodos que se han utilizado para abordar la clasificación ordinal y se aplican a un problema real de distribución en planta. Dicho problema tiene una clara distribución ordinal, ya que la etiqueta de clase corresponde a una determinada calificación asociada al patrón en cuestión, y estas clasificaciones presentarán un orden lógico entre ellas. En este caso aplicaremos la regresión ordinal para la evaluación de diseños de distribución en planta. Realizar un buen diseño de la distribución en planta de una industria tiene una gran importancia sobre la eficacia de la producción [4], ya que incide directamente en factores tales como los costes de manufacturación, la productividad, el tiempo, etc. El problema de distribución en planta ha sido abordado en numerosas ocasiones optimizando medidas cuantitativas relativas a la posición de las instalaciones y sus características. Sin embargo, hay ciertas preferencias que valora un experto que son difíciles de medir. A menudo, éstas no se conocen o no se pueden definir a priori, si no que, en el momento en el que el experto ve una distribución concreta, es cuando se da cuenta de las ventajas o inconvenientes de la misma. Sería interesante poder aprender, a partir de las evaluaciones realizadas por el experto, las mejores características de las distribuciones en planta de un problema concreto y, así, poder automatizar procesos de búsqueda de la mejor distribución posible teniendo en cuenta estas características que no

2 se pueden definir o establecer de manera formal. Esto sería aplicable, por ejemplo, para reducir la fatiga del usuario en un algoritmo genético interactivo [5]. Este artículo se organiza como sigue: en la Sección 2 se describirán distintos métodos propuestos de clasificación ordinal, más tarde en la Sección 3 se darán unas nociones básicas de la base de datos utilizada. En la Sección 4 se analizará el diseño experimental utilizado y los resultados obtenidos por los distintos algoritmos ya comentados en la Sección 2 se especificarán en la Sección 5. Finalmente se muestran las conclusiones extraídas y el trabajo futuro en la Sección 6. II. Métodos En esta sección describiremos los distintos métodos de clasificación ordinal utilizados para resolver el problema presentado de distribución en planta. En su mayor parte, se tratará de métodos muy conocidos en la literatura correspondiente al Aprendizaje Automático, pero que han sido reformulados para lidiar con un determinado orden en la etiqueta de clase. Se denotará el conjunto de datos de entrenamiento como (x i, y i ), siendo i = 1,..., K, donde las patrones se denotan como x i, y las correspondientes etiquetas de clase como y i {1, 2,..., K}. N corresponderá con el número total de patrones y K el número de clases ordenadas por medio de enteros consecutivos de modo que se mantiene un determinado rango entre ellas. A. Clasificación ordinal mediante árboles binarios Este algoritmo (OrdinalClassClassifier) propuesto en [3] aplica una técnica relativamente simple que permite reformular algoritmos de clasificación nominal a ordinal. En primer lugar, se transforman los datos de un problema ordinal con k clases, a k 1 problemas de clasificación binaria. Esto se hace binarizando las variables categóricas, convirtiendo así un atributo ordinal A con V 1, V 2,..., V k posibles valores en k 1 variables binarias, de forma que el atributo i-ésimo representa A > V i. El proceso de entrenamiento comienza entonces transformando la base de datos original, de modo que se genere un nuevo conjunto de datos por cada uno de los k 1 atributos binarios. Este nuevo conjunto contendrá el mismo número de atributos que el inicial, conservando todos los valores iguales excepto el de la variable de clase. Una vez llegados a este punto puede aplicarse el algoritmo elegido para generar un modelo para cada uno de los nuevos conjuntos de datos. A la hora de la predicción de nuevas instancias, el procedimiento consiste en estimar las probabilidades de las k variables categóricas usando para ello los k 1 modelos extraídos del conjunto de entrenamiento y se asigna a la instancia en cuestión la clase con mayor probabilidad. En general las probabilidades de pertenencia a una determinada clase se calculan del siguiente modo: P r(v 1 ) = 1 P r(y i > V 1 ) P r(v i ) = P r(y i > V i 1 ) P r(y i > V i ) P r(v k ) = P r(y i > V k 1 ) Se pueden utilizar distintos algoritmos basados en árboles de decisión utilizando la técnica anteriormente comentada, en este caso, hemos utilizado el algoritmo C4.5 [6], el cual construye árboles de decisión a partir de un conjunto de entrenamiento, usando para ello el concepto de entropía de la información. Este método genera el árbol de decisión a partir de los datos mediante particiones realizadas de forma recursiva. El algoritmo considera todas las combinaciones posibles para dividir el conjunto de datos y selecciona la combinación que obtiene la mayor ganancia de información. Esta técnica es conocida como proporción de ganancia o Gain Ratio, y es una medida basada en la información que considera distintos valores y probabilidades de los resultados de las combinaciones. Una de las características más importantes de este algoritmo es el proceso de poda que realiza, que resulta especialmente útil cuando el conjunto de datos presenta lo que se denominan como casos aislados o outliers. La poda se realiza de modo que el modelo obtenido obtenga una buena capacidad de generalización. B. Regresión Logística Ordinal Este es uno de los modelos diseñados específicamente para regresión ordinal (Proportional Odd Model (POM)), fue diseñado partiendo de una base estadística [7], aplicando regresión logística y un método de umbralización. Parte de la hipótesis de que existe un determinado orden estocástico del espacio X, de modo que se satisface que para cada par x 1 y x 2 se da que P (y C i x 1 ) P (y C i x 2 ) o P (y C i x 1 ) P (y C i x 2 ). Este modelo proviene del concepto de variable latente, en el cual f(x) = w T x es un modelo lineal. En lugar de entrenar una regla de decisión tal que f : X Y, este modelo define una función de densidad de probabilidad sobre las etiquetas de clases para un vector de características x. A grandes rasgos, el método de Regresión Logística Ordinal considera dos asunciones muy importantes acerca de los datos: en primer lugar una distribución de la variable latente, y por otro lado, un determinado orden estocástico del espacio X. Para más información de este método ver [8]. C. Máquinas de Soporte Vectorial Las máquinas de Soporte Vectorial [9] son quizás, el método más utilizado de aprendizaje mediante

3 funciones de tipo kernel o de aproximación local usado en reconocimiento de patrones. El concepto de función kernel formulado como un producto escalar interno en un espacio de características, nos permite construir extensiones de muchos algoritmos ya formulados de manera que el vector x de entrada en forma de producto escalar pueda ser transformado mediante otro tipo de kernel. Esta técnica ha sido aplicada a algoritmos tan conocidos como el Análisis en Componentes Principales o PCA, a los clasificadores basados en el vecino más cercano, el Análisis Discriminante Lineal, o las Máquinas de Soporte Vectorial, entre otros. Las características de los métodos que implementan este tipo de funciones son: Los datos se transforman a un determinado espacio de características. Se buscan las relaciones lineales de los datos en dicho espacio. Se implementan los algoritmos de manera que las coordenadas de los puntos transformados no se necesitan, únicamente el producto escalar entre cada par de vectores de coordenadas. Los pares de productos pueden ser computados eficientemente a partir de los datos originales mediante la función kernel. La idea principal de los métodos SVM es encontrar el hiperplano que mejor separa las clases. Estos métodos están diseñados para realizar una dicotomía entre dos clases (clasificación binaria). Si hubiese más clases el problema se divide en subproblemas donde una clase se discrimina del resto. Este tipo de método proporciona un modelo lineal paramétrico en el que las predicciones están basadas en una combinación lineal de una función kernel evaluada en los datos de entrenamiento. Los parámetros de las Máquinas de Soporte Vectorial se obtienen mediante un problema de optimización convexa, de modo que hay un único óptimo global. La idea básica de SVMs es separar dos clases diferentes, en primer lugar se define para dos clases y más tarde se extiende a multiclase a través de un hiperplano definido por el vector w y los umbrales b. El hiperplano puede definirse del siguiente modo: w φ(x) + b = 0, (1) lo que produce la función de decisión correspondiente: f(x) = y = sgn ( w φ(x) + b), (2) donde y = +1 si x pertenece a la clase correspondiente y y = 1 en otro caso. Como puede verse en [10], el hiperplano separador óptimo es el que maximiza la distancia entre el hiperplano y los puntos más cercanos de ambas clases, y nos lleva así a la mejor predicción para conjuntos no vistos anteriormente. De esta forma, el hiperplano separador con el máximo margen puede ser formulado como un problema de optimización cuadrática. C.1 Clasificación Binaria Extendida usando Máquinas de Soporte Vectorial Este método (Extended Binary Classification (EBC) [11]) está adaptado para Máquinas de Soporte Vectorial o SVM. Parte también de un conjunto de problemas de clasificación binaria, pero el procedimiento para clasificar es diferente al propuesto por Frank & Hall [3] visto en el apartado Árboles de Clasificación Binaria. En este caso, los problemas de clasificación binaria se resuelven de forma conjunta obteniendo así un único clasificador binario, para más tarde transformar las salidas binarias a un determinado rango. Este método se basa en los siguientes tres pasos 1. Transformar todos los datos de entrenamiento (x i, y i ) a datos extendidos de la forma (x (k) i, y (k) i ), 1 k K 1: x (k) i = (x i, k), y (k) i = 2 k < y i 1, (3) pero ponderando los datos del siguiente modo: w yi,k = C yi,k C yi,k+1, (4) donde C es una matriz de coste, con C yi,k 1 C yi,k si k y i y C yi,k C yi,k+1 si k y i. 2. Se utilizará entonces un clasificador binario f con todos los datos extendidos y generará salidas en términos de confianza. 3. Se utiliza una regla de decisión para construir la predicción de nuevos datos. Como se ha dicho, este sistema se ha adaptado para Máquinas de soporte Vectorial, usando un modelo basado en umbrales para estimar f(x, k): f(x, k) = g(x) b k, (5) donde g(x) es una función no lineal definida como g(x) = w φ(x). La adaptación de las SVM originales puede realizarse simplemente definiendo funciones de tipo kernel extendidas. Este tipo de funciones se aplicarán a los ejemplos extendidos (x, k) y corresponderán con el kernel original más el producto interior de las extensiones: K((x, k), (x, k)) = φ(x) φ(x ) + e k e k, (6) donde E es una matriz de (K 1) filas y e k es la fila k-ésima de dicha matriz. En función de la selección de la matriz E, el algoritmo cambiará. En este artículo, usaremos E = I K 1 y la matriz de coste absoluta, aplicada al problema estándar de softmargin propio de los métodos SVM. D. Análisis Discriminante para regresión ordinal El algoritmo LDA (Linear Discriminant Analysis [12]) es un método usado en estadística, aprendizaje automático y reconocimiento de patrones para reducir la dimensión del espacio de datos y encontrar

4 una combinación lineal de características que separen en dos o más clases los objetos. Este método toma en consideración todos los datos (a diferencia de los métodos SVM) además de la distribución de las clases de estos. Su objetivo es proyectar los datos, encontrando así la proyección óptima, minimizando la distancia entre los datos dentro de una misma clase y maximizando la distancia entre clases para conseguir la máxima discriminación a la hora de clasificar. El método comentado en esta sección (Kernel Discriminant Analysis for Ordinal Regression (KD- LOR)) fue propuesto en [13] y extiende el algoritmo KDA tradicional a regresión ordinal, tratándose del primer trabajo que resuelve problemas de regresión ordinal mediante análisis discriminante kernel. A grandes rasgos, esta técnica utiliza el Análisis Discriminante original, pero aplicando una restricción que permitirá la clasificación ordinal. Esta restricción consiste en calcular la proyección óptima para los datos, pero al mismo tiempo manteniendo estos de acuerdo a su rango en dicha proyección. La tarea principal es encontrar una proyección en la que se preserve la información ordinal de las clases. Más concretamente, como ya se ha dicho, la proyección minimizará la distancia entre patrones dentro de una misma clase y maximizará al mismo tiempo la distancia entre patrones de distintas clases. Comenzaremos comentando el método lineal (Linear Discriminant Analysis for Ordinal Regression (LDAOR)), para facilitar la comprensión del lector. El algoritmo intenta alcanzar tres objetivos, maximizar la distancia entre clases, minimizar la distancia dentro de una misma clase y asegurar la información ordinal de estas. De modo que, dado un conjunto de ejemplos de entrenamiento (x i, y i ) R l R, i = {1,..., N}, donde x i R l denota las entradas, y i {1, 2,..., K} denota las correspondientes etiquetas ordinales, K es el número de clases y N es el tamaño del conjunto. Definimos las matrices de covarianza entre clases (S b ) y de covarianza dentro de una misma clase (S w ): S b = 1 N S w = 1 N K N k (m k m)(m k m) T, (7) k=1 K N k (x i m k )(x i m k ) T, (8) k=1 i=1 donde m k = 1 Nk N k i=1 x i y m = 1 N N i=1 x i son respectivamente las medias de la clase K y la media global. Los dos primeros objetivos presentados pueden ser alcanzados mediante la maximización del llamado coeficiente de Rayleigh, una técnica clásica y conocida para resolver este tipo de problema: J(w) = wt S b w w T S w w, (9) donde w es la proyección que estamos buscando. Para maximizar el coeficiente de Rayleigh reformularemos el método propuesto. Tomamos en consideración que maximizar wt S b w w T S ww es lo mismo que minimizar wt S ww w T S b w. Como wt S b w es un escalar lo asociaremos a una variable ρ, que representa la mínima diferencia de las medias proyectadas entre dos clases consecutivas, de forma que si ρ > 0 las medias proyectadas están ordenadas correctamente de acuerdo a su rango ordinal. Finalmente, transformamos el problema de optimización original de la siguiente forma: se trata de minimizar las varianzas de los datos de una misma clase mientras que se maximice la diferencia entre las medias proyectadas de dos clases vecinas: mín J(w, ρ) = w T S w w Cρ, (10) con la restricción de mantener el orden entre dos clases consecutivas propuesta en la forma: w T (m k+1 m k ) ρ. Teniendo en cuenta todos estos pasos, el algoritmo LDAOR se explica en Figura 1, donde K T r y K T s son las matrices de entrenamiento y prueba. Algoritmo LDAOR Entrada: Patrones de entrenamiento (T r), etiquetas de clase de entrenamiento (T rg), patrones de prueba (T s). Salida: Etiquetas de clase de los patrones de prueba (T sg). 1. Calculamos la matriz de covarianzas S w y la matrix Q. 2. Resolvemos el problema de optimización con restricciones lineales. 3. Calculamos la proyección óptima w y los umbrales para discriminar las clases b k. 4. Finalmente, calculamos la pertenencia a la clase (T sg) usando la proyección, los umbrales y los patrones de prueba. Fig. 1. Pasos del algoritmo LDAOR Pero este método trabaja solo con modelos lineales, de modo que para poder utilizar también modelos no lineales, se ha extendido el método LDAOR a su versión kernel o de aproximación local (KDLOR). Considerando que el problema original puede estar en un espacio de dimensión finita, a menudo sucede que en ese espacio los conjuntos a discriminar no son linealmente separables. Por esto se propone que el espacio de dimensión finita original se convierta en un espacio de mayor dimensión, permitiendo así una separación de los patrones más sencilla (lineal). Los productos escalares en el espacio de mayor dimensión se definen en términos de una función kernel K(x, y) seleccionada para resolver el problema. La función de tipo kernel seleccionada para este

5 Fig. 2. Estructura de los datos usados de cada distribución en planta propósito es la gaussiana: ( K(x, y) = exp donde σ 2 es la varianza. ) x y 2 σ 2 III. Base de datos (11) Con el objetivo de ser capaces de imitar la forma en que un experto evalua un diseño de distribución en planta, se han probado los distintos métodos de clasificación ordinal sobre una base de datos de estos diseños. Cada patrón es una distribución en planta que se ha generado de forma aleatoria o por recombinación dentro de un algoritmo genético interactivo [5]. Las distribuciones en planta han sido creadas rellenando la estructura basada en el esquema de bahías flexibles ([14], [15]). La estructura de codificación empleada contiene una tupla que representa el orden de las instalaciones y otra tupla de valores binarios indicando los puntos de división entre bahías. Por ejemplo, la estructura representada en la Figura 2 genera la distribución mostrada en la Figura 3, donde las bahías son las columnas donde aparecen ordenadas las instalaciones. El ancho de cada bahía es flexible estableciéndose de forma que de cabida a las instalaciones correspondientes. Durante la ejecución del algortimo genético interactivo, un usuario experto valoró cada una de las distribuciones en planta en una escala numérica de 1 a 5, siendo preferibles las distribuciones evaluadas con valores más altos. Ésta es la última característica incluida en cada patrón y representa la clase asignada. El objetivo es predecir esta evaluación del usuario en nuevas plantas generadas sobre el mismo problema. Tenemos una base de datos de 1969 patrones con 5 clases y 86 características por patrón relativas a la posición y características de cada distribución. La Figura 4 muestra el histograma de frecuencia por cada clase. Puede apreciarse que existe un desbalanceo de la base de datos, por ello una de las métricas a medir será la mínima sensibilidad, que medirá el valor mínimo de patrones correctamente clasificados por clase. Fig. 4. Histograma de frecuencia por clases. Fig. 3. Ejemplo de distribución en planta La Figura 2 indica el contenido completo de cada patrón de ejemplo para el aprendizaje. A parte de la estructura de la distribución generada, con objeto de facilitar la labor de aprendizaje, se han extraido varias características derivadas que se consideran más descriptivas de cara a la evaluación: cuatro medidas sobre requisitos o aspectos deseables de la planta y las coordenadas del rectangulo de cada instalación a las que da lugar la estructura de distribución generada. IV. Diseño experimental Se ha utilizado un modelo de 30 particiones aleatorias de la base de datos para el diseño experimental. Esta técnica es conocida como 30-holdout y nos asegura que los resultados obtenidos se aproximan en gran medida a los reales, y que no se elige la mejor partición para entrenamiento y generalización. El porcentaje de patrones destinados a entrenar es del 75 % y 25 % para generalizar. Además, se ha usado un modelo en malla para la elección de los parámetros de cada algoritmo, usando para ello un 5-fold, es decir, se ha particionado el conjunto de entrenamiento en 5 particiones diferentes, y se ha usado en cada ejecución una determinada

6 combinación de parámetros correspondiente al modelo en malla y 4 particiones para entrenamiento y 1 para generalización. Los parámetros elegidos finalmente serán los que muestren un mejor desempeño medio para el conjunto de datos. V. Resultados Se usarán 4 métricas bastante conocidas [16] para analizar la eficiencia de los diferentes métodos presentados: CCR, MS, MAE and RMSE. CCR o Porcentaje de Patrones Correctamente Clasificados: ( ) 1 K CCR = n ii, (12) N i=1 donde n ii corresponde al número de patrones que han sido bien clasificados para la clase k, y N es el número total de patrones a predecir. M S o mínima sensibilidad: Esta métrica puede ser definida como el valor mínimo de las sensibilidades para cada clase, es decir el porcentaje de patrones correctamente clasificados de dicha clase: MS = mín{s i ; i = 0,..., K}. (13) donde S i es la sensibilidad de la clase i-ésima. MAE o Error Absoluto Medio: Es el valor absoluto de la desviación media de las etiquetas de clase predichas con respecto a la real: MAE = 1 N N ŷ i y i. (14) i=1 RM SE o Error Cuadrático Medio: Mide cuánto se desvian las predicciones del valor real: RMSE = 1 N (y n ŷ n ) N 2, (15) n=1 donde y n es el valor real y ŷ n el valor estimado. La elección de estas métricas no ha sido arbitraria, se han elegido CCR y MS por ser métricas de umbral, la primera correspondiente a la clasificación total y la segunda a cada clase en particular. En segundo lugar se ha elegido la métrica M AE por su importancia en clasificación ordinal y para finalizar RM SE por ser una métrica de tipo ranking. La Tabla I muestra los resultados de los distintos métodos ordinales explicados anteriormente, comparando además su desempeño con sus equivalentes algoritmos nominales. Los algoritmos OrdinalClass- Classifier y C4.5 han sido configurados y ejecutados en WEKA [17]. Los métodos SVM utilizados están disponibles en una página que contiene una librería asiduamente actualizada para Máquinas de Soporte Vectorial. Por último, los métodos POM y KDLOR han sido implementados en MATLAB. Como puede observarse el método ordinal que mejor desempeño muestra es OrdinalClassClassifier, seguido por EBC(SVM). Para estudiar la significancia de las medias obtenidas, se ha aplicado un test paramétrico (t de Student) comparando en este caso los resultados del algoritmo OrdinalClassClassifier contra EBC(SVM), métodos ordinales que obtienen los mejores resultados para el problema en cuestión. En primer lugar, se comprobó que se cumplían las condiciones para el test paramétrico: independencia de las muestras, misma varianza (usando para ello el test de Levene) y una distribución normal de la muestra (test de Kolmogorow-Smirnov). Los resultados del test mostraron que existen diferencias significativas en los valores medios de CCR, y MAE a favor de el método OrdinalClassClassifier, ya que los p- valores asociados son 0.0 para ambos casos, menores que 0.05 (nivel de significancia escogido). En cuanto a MS no es posible aplicar el test pero las diferencias se encuentran casi a 20 puntos ya que la media del árbol de decisión es 19,76 y la de EBC(SVM) es 0. Por último, aunque el algoritmo OrdinalClass- Classifier presente un mejor desempeño en RM SE no existen diferencias significativas debido a que el p-valor asociado es de VI. Conclusiones Puede concluirse que la aplicación de árboles de decisión es una opción acertada para este problema concreto, ya que muestran una gran diferencia en cuanto a desempeño con respecto al resto de métodos. Además, el tratar la información como ordinal ayuda a mejorar los resultados, como puede comprobarse al comparar los resultados entre OrdinalClassClassifier y su equivalente nominal C4.5, y EBC(SVM) con LibSVM. Los resultados obtenidos son interesantes porque los niveles de error permiten detectar las distribuciones buenas y descartar las plantas evaluadas en las clases inferiores sin perder ninguna importante. De esta forma, es posible realizar una búsqueda intensiva guiada por el modelo aprendido sin tener que consultar al usuario. Esto puede resultar especialmente útil en muchas aplicaciones prácticas para encontrar las distribuciones en planta óptimas. Como trabajo futuro puede destacarse la integración de este sistema de aprendizaje para guiar el Algoritmo Genético Interactivo (IGA) ya citado anteriormente y así liberar al experto de tan ardua tarea. Agradecimientos Este trabajo ha sido subvencionado en parte por el proyecto TIN del Ministerio Español, Comisión de Ciencia y Tecnología (MICYT), fondos FEDER y el proyecto P08-TIC-3745 de la Junta de Andalucía (España). Referencias [1] Stefan Kramer, Gerhard Widmer, Bernhard Pfahringer, and Michael de Groeve, Prediction of ordinal classes using regression trees, in Proceedings of the 12th International Symposium on Foundations of Intelligent Systems, London, UK, 2000, ISMIS 00, pp , Springer-Verlag.

7 TABLA I CCR, MS, MAE y RMSE de todos los métodos Algorithm CCR M AE M S RM SE OrdinalClassClassifier 74,82 ± 1,48 0,328 ± 0,025 23,31 ± 9,51 0,709 ± 0,044 KDLOR 65,20 ± 1,19 0,400 ± 0, ± ± POM 60,72 ± 1,24 0,468 ± 0,014 0,00 ± 0,00 0,789 ± 0,017 EBC(SVM) ± ± ,00 ± 0,00 0,717 ± 0,027 LibSVM 66,05 ± 3,53 0,400 ± 0,037 1,81 ± 5,70 0,724 ± 0,034 C4.5 74,51 ± 2,31 0,357 ± 0,037 22,16 ± 7,35 0,755 ± 0,055 Los mejores resultados se presentan en negrita y los segundos mejores en itálica [2] Sotiris B. Kotsiantis and Panayiotis E. Pintelas, A cost sensitive technique for ordinal classification problems., in SETN, George A. Vouros and Themis Panayiotopoulos, Eds. 2004, vol of Lecture Notes in Computer Science, pp , Springer. [3] Eibe Frank and Mark Hall, A simple approach to ordinal classification, in Proceedings of the 12th European Conference on Machine Learning, London, UK, 2001, EMCL 01, pp , Springer-Verlag. [4] Panagiotis Kouvelis, Abbas A. Kurawarwala, and Genaro J. Gutierrez, Algorithms for robust single and multiple period layout planning for manufacturing systems, European Journal of Operational Research, vol. 63, no. 2, pp , [5] L. Garcia-Hernandez, H. Pierreval, L. Salas-Morera, and A. Arauzo-Azofra, An interactive genetic algorithm with c-means clustering for the unequal area facility layout problem, in Intelligent Systems Design and Applications (ISDA), th International Conference on, 2010, pp [6] J. Ross Quinlan, C4.5: Programs for Machine Learning (Morgan Kaufmann Series in Machine Learning), Morgan Kaufmann, 1 edition, January [7] P. McCullagh, Regression models for ordinal data (with discussion), Journal of the Royal Statistical Society, vol. 42, no. 2, pp , [8] Bercedis Peterson and Frank E Harrell, Partial proportional odds models for ordinal response variables, Applied Statistics, vol. 39, no. 2, pp , [9] Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines (and Other Kernelbased Learning Methods), Cambridge University Press, Cambridge, U.K., 1st edition, [10] Corinna Cortes and Vladimir Vapnik, Support-vector networks, Machine Learning, vol. 20, no. 3, pp , [11] Ling Li and Hsuan-Tien Lin, Ordinal Regression by Extended Binary Classification, in Advances in Neural Information Processing Systems 19, 2007, pp [12] C. M. Bishop, Pattern Recognition and Machine Learning (Information Science and Statistics), Springer- Verlag New York, Inc., Secaucus, NJ, USA, [13] Bing-Yu Sun, Jiuyong Li, Desheng Dash Wu, Xiao-Ming Zhang, and Wen-Bo Li, Kernel discriminant learning for ordinal regression, IEEE Transactions on Knowledge and Data Engineering, vol. 22, pp , [14] X. Tong, A Sequential Construction Technique For Facility Design, Ph.D. thesis, University of Pittsburgh, Department of Industrial Engineering, 1991, Unpublished Doctoral Dissertation. [15] Kuan Yew Wong and Komarudin, Solving facility layout problems using flexible bay structure representation and ant system algorithm, Expert Systems with Applications, vol. 37, no. 7, pp , July [16] R. Caruana and A. Niculescu-Mizil, Data mining in metric space: an empirical analysis of supervised learning performance criteria, in Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. 2004, KDD 04, pp , ACM. [17] M. Hall, E. Frank, G. Holmes, B. Pfahringer, P. Reutemann, and I. H. Witten, The weka data mining software: an update, ACM SIGKDD Explor. Newsletter, vol. 11, pp , 2009.

SVM: Máquinas de Vectores Soporte. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid

SVM: Máquinas de Vectores Soporte. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid SVM: Máquinas de Vectores Soporte Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Contenido 1. Clasificación lineal con modelos lineales 2. Regresión

Más detalles

Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos

Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos I. Barbona - Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos Comparison among

Más detalles

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Introducción a selección de atributos usando WEKA Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Contenido 1 Introducción a WEKA El origen Interfaces

Más detalles

Cómo se usa Data Mining hoy?

Cómo se usa Data Mining hoy? Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta

Más detalles

MÁQUINA DE VECTORES DE SOPORTE

MÁQUINA DE VECTORES DE SOPORTE MÁQUINA DE VECTORES DE SOPORTE La teoría de las (SVM por su nombre en inglés Support Vector Machine) fue desarrollada por Vapnik basado en la idea de minimización del riesgo estructural (SRM). Algunas

Más detalles

Aprendizaje Computacional. Eduardo Morales y Jesús González

Aprendizaje Computacional. Eduardo Morales y Jesús González Aprendizaje Computacional Eduardo Morales y Jesús González Objetivo General La capacidad de aprender se considera como una de los atributos distintivos del ser humano y ha sido una de las principales áreas

Más detalles

Evaluación de modelos para la predicción de la Bolsa

Evaluación de modelos para la predicción de la Bolsa Evaluación de modelos para la predicción de la Bolsa Humberto Hernandez Ansorena Departamento de Ingeniería Telemática Universidad Carlos III de Madrid Madrid, España 10003975@alumnos.uc3m.es Rico Hario

Más detalles

Problemas de clasificación: problemas de localización

Problemas de clasificación: problemas de localización Problemas de clasificación: problemas de localización Emilio Carrizosa Facultad de Matemáticas Universidad de Sevilla ecarrizosa@us.es Belén Martín-Barragán Facultad de Matemáticas Universidad de Sevilla

Más detalles

Redes de Kohonen y la Determinación Genética de las Clases

Redes de Kohonen y la Determinación Genética de las Clases Redes de Kohonen y la Determinación Genética de las Clases Angel Kuri Instituto Tecnológico Autónomo de México Octubre de 2001 Redes Neuronales de Kohonen Las Redes de Kohonen, también llamadas Mapas Auto-Organizados

Más detalles

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Amaro Camargo Erika, Reyes García Carlos A. Instituto Nacional de Astrofísica, Óptica

Más detalles

FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA

FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA Enrique Puertas epuertas@uem.es Francisco Carrero fcarrero@uem.es José María Gómez Hidalgo jmgomez@uem.es Manuel de Buenaga buenga@uem.es

Más detalles

Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web

Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web A Comparison of Approaches to Semi-supervised Multiclass SVM for Web Page Classification Arkaitz Zubiaga,

Más detalles

MÁQUINAS DE VECTORES DE SOPORTE

MÁQUINAS DE VECTORES DE SOPORTE MÁQUINAS DE VECTORES DE SOPORTE Introducción Se tiene información de N individuos codificada de la forma Las variables X son vectores que reúnen información numérica del individuo, las variables Y indican

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Luis Felipe Duque Álvarez. Estudiante de Ingeniería Electrónica. Grupo de Política y Gestión Tecnológica. Universidad Pontificia Bolivariana Medellín.

Luis Felipe Duque Álvarez. Estudiante de Ingeniería Electrónica. Grupo de Política y Gestión Tecnológica. Universidad Pontificia Bolivariana Medellín. Bogotá 15 y 16 de Agosto de 2008 EXTRACCIÓN DE PATRONES DE LA ENCUESTA ANUAL MANUFACTURERA COLOMBIANA EMPLEANDO INTELIGENCIA ARTIFICIAL Luis Felipe Duque Álvarez. Estudiante de Ingeniería Electrónica.

Más detalles

Estudio e Implementación de una Máquina de Soporte Vectorial.

Estudio e Implementación de una Máquina de Soporte Vectorial. Estudio e Implementación de una Máquina de Soporte Vectorial. Lázaro Bustio Martínez, Alejandro Mesa Rodríguez lbustio@ccc.inaoep.mx, amesa@ccc.inaoep.mx Resumen. En este trabajo se presentan las Máquinas

Más detalles

SISTEMAS INTELIGENTES

SISTEMAS INTELIGENTES SISTEMAS INTELIGENTES T11: Métodos Kernel: Máquinas de vectores soporte {jdiez, juanjo} @ aic.uniovi.es Índice Funciones y métodos kernel Concepto: representación de datos Características y ventajas Funciones

Más detalles

Guía docente de la asignatura

Guía docente de la asignatura Guía docente de la asignatura Asignatura Materia Módulo Titulación TÉCNICAS DE APRENDIZAJE AUTOMÁTICO COMPUTACIÓN TECNOLOGÍAS ESPECÍFICAS GRADO EN INGENIERÍA INFORMÁTICA Plan 545 Código 46932 Periodo de

Más detalles

OPTATIVA I: MINERIA DE DATOS

OPTATIVA I: MINERIA DE DATOS UNIVERSIDAD AUTÓNOMA DE CHIHUAHUA Clave: 08MSU007H Clave: 08USU4053W FACULTAD DE INGENIERÍA PROGRAMA DEL CURSO: OPTATIVA I: MINERIA DE DATOS DES: Programa(s) Educativo(s): Tipo de materia: Clave de la

Más detalles

Predicción del índice IBEX-35 aplicando Máquinas de Soporte Vectorial y Redes Neuronales.

Predicción del índice IBEX-35 aplicando Máquinas de Soporte Vectorial y Redes Neuronales. 6th International Conference on Industrial Engineering and Industrial Management. XVI Congreso de Ingeniería de Organización. Vigo, July 18-20, 2012 Predicción del índice IBEX-35 aplicando Máquinas de

Más detalles

Minería de Datos. Preprocesamiento: Reducción de Datos - Discretización

Minería de Datos. Preprocesamiento: Reducción de Datos - Discretización Minería de Datos Preprocesamiento: Reducción de Datos - Discretización Dr. Edgar Acuña Departamento de Ciencias Matemáticas Universidad de Puerto Rico-Mayaguez E-mail: edgar.acuna@upr.edu, eacunaf@gmail.com

Más detalles

1. DATOS DE LA ASIGNATURA

1. DATOS DE LA ASIGNATURA 1. DATOS DE LA ASIGNATURA Nombre de la asignatura: Curso Avanzado de Estadística Titulación: Máster en Matemáticas y aplicaciones Código Breve Descripción: El curso está centrado en dos temas relativamente

Más detalles

Weka como herramienta de data mining

Weka como herramienta de data mining Weka como herramienta de data mining Lic. Aldave Rojas Isaac Alberto Instituto Tecnológico Superior de Ciudad Serdán Abstract El presente trabajo muestra un ejemplo introductorio a la herramienta de Data

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre: : : lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. 12 6 lemas propios de la. 12 6 lemas propios de la.

Más detalles

PROGRAMA DE CURSO. Personal 6 10 3.0 0 7. Electivo para ICC FI2002 Electromagnetismo. Competencia a la que Tributa el Curso. Propósito del Curso

PROGRAMA DE CURSO. Personal 6 10 3.0 0 7. Electivo para ICC FI2002 Electromagnetismo. Competencia a la que Tributa el Curso. Propósito del Curso PROGRAMA DE CURSO Código Nombre CC5206 Introducción a la Minería de Datos Nombre en Inglés Introduction to Data Mining SCT es Horas de Horas Docencia Horas de Trabajo Docentes Cátedra Auxiliar Personal

Más detalles

MEMORIA-RESUMEN DE TRABAJOS REALIZADOS

MEMORIA-RESUMEN DE TRABAJOS REALIZADOS MEMORIA-RESUMEN DE TRABAJOS REALIZADOS Alumno: Tutor: Tesis: IBRAHIM ESPINO MARTÍN FRANCISCO MARIO HERNÁNDEZ TEJERA Integración de técnicas estadísticas, numéricas y de inteligencia artificial para la

Más detalles

Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas

Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas Ing. Juan Miguel Moine Ing. Cristian Germán Bigatti Ing. Guillermo Leale Est. Graciela Carnevali Est. Esther Francheli

Más detalles

PROGRAMACIÓN POR METAS CON NIVELES DE ASPIRACIÓN IMPRECISOS

PROGRAMACIÓN POR METAS CON NIVELES DE ASPIRACIÓN IMPRECISOS Revista de Dirección y Administración de Empresas. Número 19, diciembre 2012 págs. 117-128 Enpresen Zuzendaritza eta Administrazio Aldizkaria. 19. zenbakia, 2012 abendua 117-128 orr. PROGRAMACIÓN POR METAS

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

PROBABILIDAD DE APROBAR MÉTODOS CUANTITATIVOS PARA LA ECONOMÍA I EN EL MARCO DE UN MODELO PROBIT

PROBABILIDAD DE APROBAR MÉTODOS CUANTITATIVOS PARA LA ECONOMÍA I EN EL MARCO DE UN MODELO PROBIT PROBABILIDAD DE APROBAR MÉTODOS CUANTITATIVOS PARA LA ECONOMÍA I EN EL MARCO DE UN MODELO PROBIT Ángel Solano García Mª Isabel González Martínez Universidad de Murcia ABSTRACT Es bien sabido por el futuro

Más detalles

SECUENCIACIÓN DE SISTEMAS DE TIPO JOB SHOP MEDIANTE APRENDIZAJE AUTOMÁTICO

SECUENCIACIÓN DE SISTEMAS DE TIPO JOB SHOP MEDIANTE APRENDIZAJE AUTOMÁTICO SECUENCIACIÓN DE SISTEMAS DE TIPO JOB SHOP MEDIANTE APRENDIZAJE AUTOMÁTICO Paolo Priore Moreno Raúl Pino Diez Alberto Gómez Gómez UNIVERSIDAD DE OVIEDO Una forma habitual de secuenciar de modo dinámico

Más detalles

Máster Universitario en Modelización e Investigación Matemática, Estadística y Computación

Máster Universitario en Modelización e Investigación Matemática, Estadística y Computación 5.5.1. Denominación: Introducción a la Minería de Datos 5.5.2. Breve Descripción del Contenido: Introducción a la minería de datos. Aprendizaje supervisado, modelos no paramétricos y modelos generalizados

Más detalles

UN MODELO PARA LA PREDICCIÓN DE RECIDIVA DE PACIENTES OPERADOS DE CÁNCER DE MAMA (CMO) BASADO EN REDES NEURONALES

UN MODELO PARA LA PREDICCIÓN DE RECIDIVA DE PACIENTES OPERADOS DE CÁNCER DE MAMA (CMO) BASADO EN REDES NEURONALES UN MODELO PARA LA PREDICCIÓN DE RECIDIVA DE PACIENTES OPERADOS DE CÁNCER DE MAMA (CMO) BASADO EN REDES NEURONALES José Alejandro Chiri Aguirre RESUMEN La predicción de recidiva en pacientes que han sido

Más detalles

Inteligencia Artificial. Grado en INFORMÁTICA 4º curso. Modalidad: Presencial

Inteligencia Artificial. Grado en INFORMÁTICA 4º curso. Modalidad: Presencial Grado en INFORMÁTICA 4º curso Modalidad: Presencial Sumario Datos básicos 3 Breve descripción de la asignatura 4 Requisitos previos 4 Objetivos 4 Competencias 5 Contenidos 6 Metodología 6 Criterios de

Más detalles

Decidir cuándo autenticar en dispositivos móviles a partir de modelos de machine learning 1

Decidir cuándo autenticar en dispositivos móviles a partir de modelos de machine learning 1 Decidir cuándo autenticar en dispositivos móviles a partir de modelos de machine learning 1 En los dispositivos móviles como tablets o teléfonos celulares se tiene la opción de implementar o no un sistemas

Más detalles

2 Métodos. Guadalupe Martínez, Ángel Luis Pérez, Mª Isabel Suero & Pedro J. Pardo, Universidad de Extremadura, España Email: mmarbor@unex.

2 Métodos. Guadalupe Martínez, Ángel Luis Pérez, Mª Isabel Suero & Pedro J. Pardo, Universidad de Extremadura, España Email: mmarbor@unex. Concept Maps: Making Learning Meaningful Proc. of Fourth Int. Conference on Concept Mapping Viña del Mar, Chile, 2010 COMPARACIÓN DEL INCREMENTO DE APRENDIZAJE OBTENIDO AL UTILIZAR MAPAS CONCEPTUALES Y

Más detalles

Determinando Automáticamente los Dominios de Competencia de un Sistema de Clasificación Basado en Reglas Difusas: Un Caso de Estudio con FH-GBML

Determinando Automáticamente los Dominios de Competencia de un Sistema de Clasificación Basado en Reglas Difusas: Un Caso de Estudio con FH-GBML Determinando Automáticamente los Dominios de Competencia de un Sistema de Clasificación Basado en Reglas Difusas: Un Caso de Estudio con FH-GBML Julián Luengo 1 Francisco Herrera 1 1 Departamento Ciencias

Más detalles

Tema 5. Reconocimiento de patrones

Tema 5. Reconocimiento de patrones Tema 5. Reconocimiento de patrones Introducción al reconocimiento de patrones y a la clasificación de formas Un modelo de general de clasificador Características discriminantes Tipos de clasificación Clasificadores

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Introducción al Data Mining Clases 5 Cluster Analysis Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Cluster Análisis 1 El término cluster analysis (usado por primera

Más detalles

Con el fin de obtener los datos, se procede con las siguientes instrucciones:

Con el fin de obtener los datos, se procede con las siguientes instrucciones: Capitulo 3. La predicción de beneficios del mercado bursátil Este segundo caso de estudio va más allá en el uso de técnicas de minería de datos. El dominio específico utilizado para ilustrar estos problemas

Más detalles

Support Vector Machine

Support Vector Machine Juan Carlos Caicedo Juan Carlos Mendivelso Maestria en Ingenieria de Sistemas y Computacion Universidad Nacional de Colombia 20 de marzo de 2007 Agenda 1 2 3 4 Outline 1 2 3 4 Clasificador lineal que utiliza

Más detalles

Análisis de expansión de redes de telefonía móvil basándose en indicadores claves de desempeño, utilizando Procesos Gaussianos

Análisis de expansión de redes de telefonía móvil basándose en indicadores claves de desempeño, utilizando Procesos Gaussianos Análisis de expansión de redes de telefonía móvil basándose en indicadores claves de desempeño, utilizando Procesos Gaussianos Jhouben Janyk Cuesta Ramírez. Director: PhD. Mauricio Alexander Álvarez. Facultad

Más detalles

Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software

Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software J. Cuadrado Gallego 1, Miguel Ángel Sicilia 1, Miguel Garre Rubio 1 1 Dpto de Ciencias de la Computación,

Más detalles

Construcción de un árbol balanceado de subclasificadores para SVM multi-clase

Construcción de un árbol balanceado de subclasificadores para SVM multi-clase Construcción de un árbol balanceado de subclasificadores para SVM multi-clase Waldo Hasperué 1,2, Laura Lanzarini 1, 1 III-LIDI, Facultad de Informática, UNLP 2 Becario CONICET {whasperue, laural}@lidi.info.unlp.edu.ar

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

Una heurística para la asignación de máquinas a trabajos fijos

Una heurística para la asignación de máquinas a trabajos fijos VIII Congreso de Ingeniería de Organización Leganés, 9 y 10 de septiembre de 2004 Una heurística para la asignación de máquinas a trabajos fijos José Manuel García Sánchez, Marcos Calle Suárez, Gabriel

Más detalles

Recuperación de información visual utilizando descriptores conceptuales

Recuperación de información visual utilizando descriptores conceptuales Recuperación de información visual utilizando descriptores conceptuales J. Benavent, X. Benavent y E. de Ves Departament d Informàtica (Universitat de València) {esther.deves,xaro.benavent}@uv.es Abstract.

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

Línea de trabajo: Control de los Procesos de Manufactura Optimización de los Procesos de Manufactura 48 20 100 168-6

Línea de trabajo: Control de los Procesos de Manufactura Optimización de los Procesos de Manufactura 48 20 100 168-6 Nombre de la asignatura: ESTADISTICA MULTIVARIADA Línea de trabajo: Control de los Procesos de Manufactura Optimización de los Procesos de Manufactura 48 20 100 168-6 DOC: Docencia; TIS: Trabajo Independiente

Más detalles

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Emmanuel Anguiano-Hernández Abril 29, 2009 Abstract Tratando de mejorar el desempeño de un clasificador Naive

Más detalles

ANÁLISIS DISCRIMINANTE

ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE 1. Introducción 2. Etapas 3. Caso práctico Análisis de dependencias introducción varias relaciones una relación 1 variable dependiente > 1 variable dependiente

Más detalles

Análisis de estrategias de clasificación multiclase en microarrays: relación con medidas de complejidad

Análisis de estrategias de clasificación multiclase en microarrays: relación con medidas de complejidad Análisis de estrategias de clasificación multiclase en microarrays: relación con medidas de complejidad L. Morán Fernández, V. Bolón-Canedo y A. Alonso-Betanzos Laboratorio de I+D en Inteligencia Artificial

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez Curso de Análisis de investigaciones con programas Informáticos 1 UNIVERSIDAD DE JAÉN Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos

Más detalles

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión.

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión. TEMA 9 TÉCNICAS DE INTELIGENCIA ARTIFICIAL PARA EL ANÁLISIS DE LA INFORMACIÓN CONTABLE 9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de

Más detalles

ANÁLISIS DISCRIMINANTE APLICADO AL PROBLEMA DE CREDIT SCORING

ANÁLISIS DISCRIMINANTE APLICADO AL PROBLEMA DE CREDIT SCORING ANÁLISIS DISCRIMINANTE APLICADO AL PROBLEMA DE CREDIT SCORING RESUMEN JUAN MANUEL RIVAS CASTILLO En este documento se emplea el análisis discriminante, que es una técnica del análisis multivariado utilizada

Más detalles

Impacto de la Complejidad del Dominio en las Variaciones del Comportamiento de Procesos de Explotación de Información

Impacto de la Complejidad del Dominio en las Variaciones del Comportamiento de Procesos de Explotación de Información Impacto de la Complejidad del Dominio en las Variaciones del Comportamiento de Procesos de Explotación de Información Marcelo López Nocera Programa de Maestría en Ingeniería de Sistemas de Información.

Más detalles

LAS máquinas de vectores de soporte (SVM, por sus

LAS máquinas de vectores de soporte (SVM, por sus XI SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL. STSIVA 2006 Adaptive Support Vector Machines para predicción de series de tiempo Elkin Eduardo García Díaz, Pedro Andrés Rangel, y Fernando

Más detalles

ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA

ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA Pablo F. Provasi 1 Lucio J. Kleisinger 1 Francisco R. Villatoro 2 1 Dpto. de Informática, Universidad

Más detalles

Sistema inteligente para el tratamiento de ruidos

Sistema inteligente para el tratamiento de ruidos Sistema inteligente para el tratamiento de ruidos G.M.Barrera, F.D.Goldenstein, D.M.López de Luise Universidad de Palermo (Tel.: 54--599-4520, aigroup@palermo.edu). Objetivos y alcance El principal objetivo

Más detalles

GUÍA DOCENTE. Curso Académico 2015/16. Técnicas de Análisis Estadístico basado en Inteligencia

GUÍA DOCENTE. Curso Académico 2015/16. Técnicas de Análisis Estadístico basado en Inteligencia GUÍA DOCENTE Curso Académico 2015/16 1. Técnicas de Análisis Estadístico basado en Inteligencia Artificial 1.1. Datos de la asignatura Tipo de estudios Titulación Nombre de la asignatura Carácter de la

Más detalles

Pablo Martínez-Camblor Subdirección de Salud de Guipuzcoa, Donosti.

Pablo Martínez-Camblor Subdirección de Salud de Guipuzcoa, Donosti. Métodos Estadísticos sticos para Diagnósticos MédicosM Barcelona, uno de marzo de 2008 Pablo Martínez-Camblor Subdirección de Salud de Guipuzcoa, Donosti. MODULO: Diseño de proyectos y análisis estadístico

Más detalles

código Java Solicitudes Reportes AJI resultados API

código Java Solicitudes Reportes AJI resultados API Analizador Java Inteligente López De Luise María Daniela, miembro IT-Lab de la Universidad de Palermo, mlopez74@palermo.edu Agüero Martín Jorge, miembro IT-Lab de la Universidad de Palermo, agüero.martin@gmail.com

Más detalles

Trabajo Final de Reconocimiento de Patrones: Identifiación utilizando PCA, ICA y LDA.

Trabajo Final de Reconocimiento de Patrones: Identifiación utilizando PCA, ICA y LDA. Trabajo Final de Reconocimiento de Patrones: Identifiación utilizando PCA, ICA y LDA. Mauricio Delbracio, Matías Mateu 8 de marzo de 2006 Resumen En este documento, se presenta los resultados del trabajo

Más detalles

Práctica 11 SVM. Máquinas de Vectores Soporte

Práctica 11 SVM. Máquinas de Vectores Soporte Práctica 11 SVM Máquinas de Vectores Soporte Dedicaremos esta práctica a estudiar el funcionamiento de las, tan de moda, máquinas de vectores soporte (SVM). 1 Las máquinas de vectores soporte Las SVM han

Más detalles

EL FILTRO DE KALMAN. Resumen

EL FILTRO DE KALMAN. Resumen EL FILTRO DE KALMAN Carlos Pillajo Universidad Politécnica Salesiana - Ecuador cpillajo@ups.edu.ec Javier E. Sierra Universidad Pontificia Bolivariana Colombia javier.sierra@upb.edu.co Resumen El filtro

Más detalles

ANÁLISIS MULTIVARIANTE. Créditos. Teóricos: 6 Prácticos: 3 Total: 9. Profesoras: Agurtzane Amparan, Silvia Marcaida y Arantza Urkaregi

ANÁLISIS MULTIVARIANTE. Créditos. Teóricos: 6 Prácticos: 3 Total: 9. Profesoras: Agurtzane Amparan, Silvia Marcaida y Arantza Urkaregi Presentación ANÁLISIS MULTIVARIANTE MATEMÁTICAS SEGUNDO CICLO OPTATIVA SEGUNDO CUATRIMESTRE Créditos. Teóricos: 6 Prácticos: 3 Total: 9 Profesoras: Agurtzane Amparan, Silvia Marcaida y Arantza Urkaregi

Más detalles

Métricas de complejidad para la transformación del problema de detección de cáncer basado en

Métricas de complejidad para la transformación del problema de detección de cáncer basado en Índice para la transformación del problema de detección de cáncer basado en mamografías Alumna: Núria Macià Antoĺınez Asesora: Ester Bernadó Mansilla Núria Macià Antoĺınez PFC: 1/49 Índice 1 Planteamiento

Más detalles

TEMA 9: Desarrollo de la metodología de Taguchi

TEMA 9: Desarrollo de la metodología de Taguchi TEMA 9: Desarrollo de la metodología de Taguchi 1 La filosofía de la calidad de Taguchi 2 Control de calidad Off Line y On Line Calidad Off Line Calidad On Line 3 Función de pérdida 4 Razones señal-ruido

Más detalles

CLAVE: LII PROFESOR: MTRO. ALEJANDRO SALAZAR GUERRERO

CLAVE: LII PROFESOR: MTRO. ALEJANDRO SALAZAR GUERRERO Estadística Superior CLAVE: LII PROFESOR: MTRO. ALEJANDRO SALAZAR GUERRERO 1 1. REGRESIÓN LINEAL SIMPLE Y MÚLTIPLE 1.1. Regresión lineal simple 1.2. Estimación y predicción por intervalo en regresión lineal

Más detalles

Una validación de la interpretación no causal del análisis factorial

Una validación de la interpretación no causal del análisis factorial Una validación de la interpretación no causal del análisis factorial José Antonio Pérez-Gil y Rafael Moreno Rodríguez Es muy frecuente asumir que los factores comunes obtenidos en el Análisis Factorial

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

SNOLA - webinar "Aplicación de Técnicas Cuantitativas para el Análisis de Datos Educacionales"

SNOLA - webinar Aplicación de Técnicas Cuantitativas para el Análisis de Datos Educacionales SNOLA - webinar "Aplicación de Técnicas Cuantitativas para el Análisis de Datos Educacionales" Pedro J. Muñoz-Merino e-mail: pedmume@it.uc3m.es, Twitter: @pedmume Universidad Carlos III de Madrid, Spain

Más detalles

Otros aspectos. Procesado de la entrada Procesado de la salida. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid

Otros aspectos. Procesado de la entrada Procesado de la salida. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Otros aspectos Procesado de la entrada Procesado de la salida Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Contenido 1. Procesado de la entrada 1. Motivación y tareas

Más detalles

RECONOCIMIENTO AUTOMATICO DE MATRICULAS

RECONOCIMIENTO AUTOMATICO DE MATRICULAS RECONOCIMIENTO AUTOMATICO DE MATRICULAS Carlos Parra Ramos Universidad Carlos III de Madrid Madrid, España 2006 David Regajo Rodríguez Universidad Carlos III de Madrid Madrid, España 2006 100030583@alumnos.uc3m.es

Más detalles

Cómo obtener un Modelo de Regresión Logística Binaria con SPSS

Cómo obtener un Modelo de Regresión Logística Binaria con SPSS Universitat de de Barcelona. Institut de de Ciències de de l Educació Cómo obtener un Modelo de Regresión Logística Binaria con SPSS Vanesa Berlanga-Silvente y Ruth Vilà-Baños Fecha de presentación:

Más detalles

Inteligencia de Negocio

Inteligencia de Negocio UNIVERSIDAD DE GRANADA E.T.S. de Ingenierías Informática y de Telecomunicación Departamento de Ciencias de la Computación e Inteligencia Artificial Inteligencia de Negocio Guión de Prácticas Práctica 1:

Más detalles

Credit scoring. por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar)

Credit scoring. por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar) Credit scoring por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar) En base a que los bancos modernos otorgan tarjetas de crédito y créditos personales o los niegan? Qué límite de crédito le

Más detalles

Support Vector Machines

Support Vector Machines Support Vector Machines Separadores lineales Clasificacion binaria puede ser vista como la tarea de separar clases en el espacio de caracteristicas w T x + b > 0 w T x + b = 0 w T x + b < 0 f(x) = sign(w

Más detalles

Aproximación evolutiva a la inducción constructiva basada en expresiones algebraicas

Aproximación evolutiva a la inducción constructiva basada en expresiones algebraicas Aproximación evolutiva a la inducción constructiva basada en expresiones algebraicas Manuel Baena García, Rafael Morales Bueno y Carlos Cotta Porras Workshop MOISES Septiembre 2004 1/15 Contenido Inducción

Más detalles

Extracción Automática de Conocimiento en Bases de Datos e Ingeniería del Software

Extracción Automática de Conocimiento en Bases de Datos e Ingeniería del Software Extracción Automática de Conocimiento en Bases de Datos e Ingeniería del Software Mª. José Ramírez Quintana José Hernández Orallo Programa: Programación Declarativa e Ingeniería de la Programación Objetivos

Más detalles

Presentación. Introducción a las técnicas de reconocimiento de patrones. Materia de doctorado en ingeniería/informática

Presentación. Introducción a las técnicas de reconocimiento de patrones. Materia de doctorado en ingeniería/informática Presentación Introducción a las técnicas de reconocimiento de patrones Materia de doctorado en ingeniería/informática Tópicos de minería de datos Materia optativa de LCC Docente: Pablo M. Granitto Horarios:

Más detalles

Tema 5. Análisis de regresión (segunda parte) Estadística II, 2010/11

Tema 5. Análisis de regresión (segunda parte) Estadística II, 2010/11 Tema 5 Análisis de regresión (segunda parte) Estadística II, 2010/11 Contenidos 5.1: Diagnóstico: Análisis de los residuos 5.2: La descomposición ANOVA (ANalysis Of VAriance) 5.3: Relaciones no lineales

Más detalles

Fundamentos de Biología Aplicada I Estadística Curso 2011-2012 Práctica 6: Regresión Logística I

Fundamentos de Biología Aplicada I Estadística Curso 2011-2012 Práctica 6: Regresión Logística I Fundamentos de Biología Aplicada I Estadística Curso 2011-2012 Índice 1. Objetivos de la práctica 2 2. Estimación de un modelo de regresión logística con SPSS 2 2.1. Ajuste de un modelo de regresión logística.............................

Más detalles

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013 VivaMéxico sin PRI Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres Facultad de Ciencias de la Computación Benemérita Universidad Autónoma de Puebla Otoño 2013 IMAGENESpemexmorena Adquisición

Más detalles

Reconocimiento de caras: Eigenfaces y Fisherfaces

Reconocimiento de caras: Eigenfaces y Fisherfaces Reconocimiento de caras: Eigenfaces y Fisherfaces Guillermo Ottado Resumen En este trabajo se describen dos métodos tradicionales utilizados para el reconocimiento de caras, Eigenfaces y Fisherfaces. Se

Más detalles

Lección n 5. Modelos de distribución n potencial de especies

Lección n 5. Modelos de distribución n potencial de especies Lección n 5. Modelos de distribución n potencial de especies 1. Elaboración de modelos de distribución de especies. a. Planteamiento. El modelado del nicho ambiental se basa en el principio de que la distribución

Más detalles

TÉCNICAS NO PARAMÉTRICAS

TÉCNICAS NO PARAMÉTRICAS ASIGNATURA DE MÁSTER: TÉCNICAS NO PARAMÉTRICAS Curso 2015/2016 (Código:22201147) 1.PRESENTACIÓN La asignatura Técnicas No Paramétricas forma parte del Módulo 3 que está compuesto por Cursos Optativos que

Más detalles

Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil

Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil Osvaldo M. Spositto spositto@unlam.edu.ar Martín E. Etcheverry metcheverry@unlam.edu.ar

Más detalles

Minera de datos aplicada a la detección de Cáncer de Mama

Minera de datos aplicada a la detección de Cáncer de Mama Minera de datos aplicada a la detección de Cáncer de Mama Eugenio Hernández Martínez Universidad Carlos III de Madrid 100039081@alumnos.uc3m.es Rodrigo Lorente Sanjurjo Universidad Carlos III de Madrid

Más detalles

Programación Lineal Entera

Programación Lineal Entera Programación Lineal Entera P.M. Mateo y David Lahoz 2 de julio de 2009 En este tema se presenta un tipo de problemas formalmente similares a los problemas de programación lineal, ya que en su descripción

Más detalles

código Java Solicitudes Reportes AJI resultados API

código Java Solicitudes Reportes AJI resultados API Analizador Java Inteligente Agüero Martin Jorge, miembro IT-Lab de la Universidad de Palermo, agüero.marin@gmail.com López De Luise María Daniela, miembro IT-Lab de la Universidad de Palermo, mlopez74@palermo.edu

Más detalles

TEMA 3: TRATAMIENTO DE DATOS EN MS. EXCEL (I)

TEMA 3: TRATAMIENTO DE DATOS EN MS. EXCEL (I) VARIABLES Variable: característica de cada sujeto (cada caso) de una base de datos. Se denomina variable precisamente porque varía de sujeto a sujeto. Cada sujeto tiene un valor para cada variable. El

Más detalles

Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida. Por: Prof. Elena del C. Coba

Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida. Por: Prof. Elena del C. Coba Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida Por: Prof. Elena del C. Coba Encuestas y estudios aplicados al VIH/sida Definir la fuente de los datos: Datos

Más detalles