Técnicas de clasificación ordinal aplicadas a un problema de distribución en planta

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Técnicas de clasificación ordinal aplicadas a un problema de distribución en planta"

Transcripción

1 Técnicas de clasificación ordinal aplicadas a un problema de distribución en planta M. Pérez-Ortiz, C. Hervás-Martínez, L. García-Hernández, L. Salas-Morera, A. Arauzo-Azofra Resumen La gran parte de los métodos para clasificación en Aprendizaje Automático están basados en la asunción de que las etiquetas de clases no presentan un orden concreto, a pesar de que esta situación se de en numerosas aplicaciones prácticas. Este artículo explica distintas maneras de abordar la clasificación ordinal y las aplica a un problema de evaluación de distribuciones en planta generadas por un algoritmo genético interactivo. Palabras clave clasificación ordinal, distribución en planta, aprendizaje automático I. Introducción Podemos definir la clasificación como un procedimiento algorítmico para distinguir o describir clases de datos, con el propósito de predecir a qué clase pertenecen dichos datos. En un principio nuestro análisis estará basado en un conjunto de datos ya etiquetados, es decir, datos cuyas clases son conocidas. Normalmente el objeto podrá pertenecer exclusivamente a una clase, ya que estas en la mayoría de los casos, serán disjuntas. De modo que, el objetivo de la clasificación es que dado un vector de entrada x, buscamos asignarlo a una variable categórica y o etiqueta de clase. Este artículo se centrará en el estudio de problemas de aprendizaje supervisado, referidos a la regresión ordinal, la cual, como su nombre indica, predice categorías en una escala ordinal. La clasificación ordinal es aquella en la que la variable a predecir no es de tipo numérico o nominal sino ordinal, de forma que las categorías poseen un orden lógico. Bajo un enfoque ordinal, el gran problema en este tipo de clasificación estriba en que no se posee una noción precisa de la distancia entre clases. Por ejemplo: en una escala de ratios o intervalos sabemos que el 3 está más cerca del 2 que del 5, pero en una escala ordinal como podría ser bueno, regular, malo cómo sabemos, en general, si regular está más cerca de bueno que de malo? Tradicionalmente los problemas de clasificación ordinal han sido abordados mediante un enfoque multinomial, es decir, obviando el orden entre las categorías. Este otro enfoque es una simplificación arriesgada, ya que, volviendo al mismo ejemplo, el hecho de confundir la clase malo con regular sufre una penalización similar a la confusión de la clase malo con bueno (cuando claramente el segundo tipo de error debería de estar más penalizado). En general, las formas estándar para abordar la clasificación ordinal implican simplifi- María Pérez-Ortiz i82perom@uco.es car el problema a uno de regresión [1], usar matrices de coste [2] o reducirlo a un problema de clasificación multiclase [3], entre otras. La regresión ordinal posee numerosas aplicaciones en campos donde la evaluación humana tiene un papel relevante, por ejemplo: psicología, medicina, búsqueda y recuperación de información, marketing, etc. Resumiendo, la regresión ordinal muestra similitudes tanto con la regresión como con la clasificación, porque las etiquetas de clase son discretas y ordinales. Aunque también muestra diferencias. Con respecto a la regresión el número de clases no es infinito y las discriminaciones entre estas clases no están bien definidas. A diferencia de la clasificación la relación entre clases es ordinal. Los algoritmos para clasificación nominal pueden también ser aplicados a problemas de predicción de tipo ordinal obviando la información de orden de las clases. Sin embargo, en este proceso se pierde información, la cual podría mejorar la capacidad predictiva del clasificador. En este artículo presentaremos distintos métodos que se han utilizado para abordar la clasificación ordinal y se aplican a un problema real de distribución en planta. Dicho problema tiene una clara distribución ordinal, ya que la etiqueta de clase corresponde a una determinada calificación asociada al patrón en cuestión, y estas clasificaciones presentarán un orden lógico entre ellas. En este caso aplicaremos la regresión ordinal para la evaluación de diseños de distribución en planta. Realizar un buen diseño de la distribución en planta de una industria tiene una gran importancia sobre la eficacia de la producción [4], ya que incide directamente en factores tales como los costes de manufacturación, la productividad, el tiempo, etc. El problema de distribución en planta ha sido abordado en numerosas ocasiones optimizando medidas cuantitativas relativas a la posición de las instalaciones y sus características. Sin embargo, hay ciertas preferencias que valora un experto que son difíciles de medir. A menudo, éstas no se conocen o no se pueden definir a priori, si no que, en el momento en el que el experto ve una distribución concreta, es cuando se da cuenta de las ventajas o inconvenientes de la misma. Sería interesante poder aprender, a partir de las evaluaciones realizadas por el experto, las mejores características de las distribuciones en planta de un problema concreto y, así, poder automatizar procesos de búsqueda de la mejor distribución posible teniendo en cuenta estas características que no

2 se pueden definir o establecer de manera formal. Esto sería aplicable, por ejemplo, para reducir la fatiga del usuario en un algoritmo genético interactivo [5]. Este artículo se organiza como sigue: en la Sección 2 se describirán distintos métodos propuestos de clasificación ordinal, más tarde en la Sección 3 se darán unas nociones básicas de la base de datos utilizada. En la Sección 4 se analizará el diseño experimental utilizado y los resultados obtenidos por los distintos algoritmos ya comentados en la Sección 2 se especificarán en la Sección 5. Finalmente se muestran las conclusiones extraídas y el trabajo futuro en la Sección 6. II. Métodos En esta sección describiremos los distintos métodos de clasificación ordinal utilizados para resolver el problema presentado de distribución en planta. En su mayor parte, se tratará de métodos muy conocidos en la literatura correspondiente al Aprendizaje Automático, pero que han sido reformulados para lidiar con un determinado orden en la etiqueta de clase. Se denotará el conjunto de datos de entrenamiento como (x i, y i ), siendo i = 1,..., K, donde las patrones se denotan como x i, y las correspondientes etiquetas de clase como y i {1, 2,..., K}. N corresponderá con el número total de patrones y K el número de clases ordenadas por medio de enteros consecutivos de modo que se mantiene un determinado rango entre ellas. A. Clasificación ordinal mediante árboles binarios Este algoritmo (OrdinalClassClassifier) propuesto en [3] aplica una técnica relativamente simple que permite reformular algoritmos de clasificación nominal a ordinal. En primer lugar, se transforman los datos de un problema ordinal con k clases, a k 1 problemas de clasificación binaria. Esto se hace binarizando las variables categóricas, convirtiendo así un atributo ordinal A con V 1, V 2,..., V k posibles valores en k 1 variables binarias, de forma que el atributo i-ésimo representa A > V i. El proceso de entrenamiento comienza entonces transformando la base de datos original, de modo que se genere un nuevo conjunto de datos por cada uno de los k 1 atributos binarios. Este nuevo conjunto contendrá el mismo número de atributos que el inicial, conservando todos los valores iguales excepto el de la variable de clase. Una vez llegados a este punto puede aplicarse el algoritmo elegido para generar un modelo para cada uno de los nuevos conjuntos de datos. A la hora de la predicción de nuevas instancias, el procedimiento consiste en estimar las probabilidades de las k variables categóricas usando para ello los k 1 modelos extraídos del conjunto de entrenamiento y se asigna a la instancia en cuestión la clase con mayor probabilidad. En general las probabilidades de pertenencia a una determinada clase se calculan del siguiente modo: P r(v 1 ) = 1 P r(y i > V 1 ) P r(v i ) = P r(y i > V i 1 ) P r(y i > V i ) P r(v k ) = P r(y i > V k 1 ) Se pueden utilizar distintos algoritmos basados en árboles de decisión utilizando la técnica anteriormente comentada, en este caso, hemos utilizado el algoritmo C4.5 [6], el cual construye árboles de decisión a partir de un conjunto de entrenamiento, usando para ello el concepto de entropía de la información. Este método genera el árbol de decisión a partir de los datos mediante particiones realizadas de forma recursiva. El algoritmo considera todas las combinaciones posibles para dividir el conjunto de datos y selecciona la combinación que obtiene la mayor ganancia de información. Esta técnica es conocida como proporción de ganancia o Gain Ratio, y es una medida basada en la información que considera distintos valores y probabilidades de los resultados de las combinaciones. Una de las características más importantes de este algoritmo es el proceso de poda que realiza, que resulta especialmente útil cuando el conjunto de datos presenta lo que se denominan como casos aislados o outliers. La poda se realiza de modo que el modelo obtenido obtenga una buena capacidad de generalización. B. Regresión Logística Ordinal Este es uno de los modelos diseñados específicamente para regresión ordinal (Proportional Odd Model (POM)), fue diseñado partiendo de una base estadística [7], aplicando regresión logística y un método de umbralización. Parte de la hipótesis de que existe un determinado orden estocástico del espacio X, de modo que se satisface que para cada par x 1 y x 2 se da que P (y C i x 1 ) P (y C i x 2 ) o P (y C i x 1 ) P (y C i x 2 ). Este modelo proviene del concepto de variable latente, en el cual f(x) = w T x es un modelo lineal. En lugar de entrenar una regla de decisión tal que f : X Y, este modelo define una función de densidad de probabilidad sobre las etiquetas de clases para un vector de características x. A grandes rasgos, el método de Regresión Logística Ordinal considera dos asunciones muy importantes acerca de los datos: en primer lugar una distribución de la variable latente, y por otro lado, un determinado orden estocástico del espacio X. Para más información de este método ver [8]. C. Máquinas de Soporte Vectorial Las máquinas de Soporte Vectorial [9] son quizás, el método más utilizado de aprendizaje mediante

3 funciones de tipo kernel o de aproximación local usado en reconocimiento de patrones. El concepto de función kernel formulado como un producto escalar interno en un espacio de características, nos permite construir extensiones de muchos algoritmos ya formulados de manera que el vector x de entrada en forma de producto escalar pueda ser transformado mediante otro tipo de kernel. Esta técnica ha sido aplicada a algoritmos tan conocidos como el Análisis en Componentes Principales o PCA, a los clasificadores basados en el vecino más cercano, el Análisis Discriminante Lineal, o las Máquinas de Soporte Vectorial, entre otros. Las características de los métodos que implementan este tipo de funciones son: Los datos se transforman a un determinado espacio de características. Se buscan las relaciones lineales de los datos en dicho espacio. Se implementan los algoritmos de manera que las coordenadas de los puntos transformados no se necesitan, únicamente el producto escalar entre cada par de vectores de coordenadas. Los pares de productos pueden ser computados eficientemente a partir de los datos originales mediante la función kernel. La idea principal de los métodos SVM es encontrar el hiperplano que mejor separa las clases. Estos métodos están diseñados para realizar una dicotomía entre dos clases (clasificación binaria). Si hubiese más clases el problema se divide en subproblemas donde una clase se discrimina del resto. Este tipo de método proporciona un modelo lineal paramétrico en el que las predicciones están basadas en una combinación lineal de una función kernel evaluada en los datos de entrenamiento. Los parámetros de las Máquinas de Soporte Vectorial se obtienen mediante un problema de optimización convexa, de modo que hay un único óptimo global. La idea básica de SVMs es separar dos clases diferentes, en primer lugar se define para dos clases y más tarde se extiende a multiclase a través de un hiperplano definido por el vector w y los umbrales b. El hiperplano puede definirse del siguiente modo: w φ(x) + b = 0, (1) lo que produce la función de decisión correspondiente: f(x) = y = sgn ( w φ(x) + b), (2) donde y = +1 si x pertenece a la clase correspondiente y y = 1 en otro caso. Como puede verse en [10], el hiperplano separador óptimo es el que maximiza la distancia entre el hiperplano y los puntos más cercanos de ambas clases, y nos lleva así a la mejor predicción para conjuntos no vistos anteriormente. De esta forma, el hiperplano separador con el máximo margen puede ser formulado como un problema de optimización cuadrática. C.1 Clasificación Binaria Extendida usando Máquinas de Soporte Vectorial Este método (Extended Binary Classification (EBC) [11]) está adaptado para Máquinas de Soporte Vectorial o SVM. Parte también de un conjunto de problemas de clasificación binaria, pero el procedimiento para clasificar es diferente al propuesto por Frank & Hall [3] visto en el apartado Árboles de Clasificación Binaria. En este caso, los problemas de clasificación binaria se resuelven de forma conjunta obteniendo así un único clasificador binario, para más tarde transformar las salidas binarias a un determinado rango. Este método se basa en los siguientes tres pasos 1. Transformar todos los datos de entrenamiento (x i, y i ) a datos extendidos de la forma (x (k) i, y (k) i ), 1 k K 1: x (k) i = (x i, k), y (k) i = 2 k < y i 1, (3) pero ponderando los datos del siguiente modo: w yi,k = C yi,k C yi,k+1, (4) donde C es una matriz de coste, con C yi,k 1 C yi,k si k y i y C yi,k C yi,k+1 si k y i. 2. Se utilizará entonces un clasificador binario f con todos los datos extendidos y generará salidas en términos de confianza. 3. Se utiliza una regla de decisión para construir la predicción de nuevos datos. Como se ha dicho, este sistema se ha adaptado para Máquinas de soporte Vectorial, usando un modelo basado en umbrales para estimar f(x, k): f(x, k) = g(x) b k, (5) donde g(x) es una función no lineal definida como g(x) = w φ(x). La adaptación de las SVM originales puede realizarse simplemente definiendo funciones de tipo kernel extendidas. Este tipo de funciones se aplicarán a los ejemplos extendidos (x, k) y corresponderán con el kernel original más el producto interior de las extensiones: K((x, k), (x, k)) = φ(x) φ(x ) + e k e k, (6) donde E es una matriz de (K 1) filas y e k es la fila k-ésima de dicha matriz. En función de la selección de la matriz E, el algoritmo cambiará. En este artículo, usaremos E = I K 1 y la matriz de coste absoluta, aplicada al problema estándar de softmargin propio de los métodos SVM. D. Análisis Discriminante para regresión ordinal El algoritmo LDA (Linear Discriminant Analysis [12]) es un método usado en estadística, aprendizaje automático y reconocimiento de patrones para reducir la dimensión del espacio de datos y encontrar

4 una combinación lineal de características que separen en dos o más clases los objetos. Este método toma en consideración todos los datos (a diferencia de los métodos SVM) además de la distribución de las clases de estos. Su objetivo es proyectar los datos, encontrando así la proyección óptima, minimizando la distancia entre los datos dentro de una misma clase y maximizando la distancia entre clases para conseguir la máxima discriminación a la hora de clasificar. El método comentado en esta sección (Kernel Discriminant Analysis for Ordinal Regression (KD- LOR)) fue propuesto en [13] y extiende el algoritmo KDA tradicional a regresión ordinal, tratándose del primer trabajo que resuelve problemas de regresión ordinal mediante análisis discriminante kernel. A grandes rasgos, esta técnica utiliza el Análisis Discriminante original, pero aplicando una restricción que permitirá la clasificación ordinal. Esta restricción consiste en calcular la proyección óptima para los datos, pero al mismo tiempo manteniendo estos de acuerdo a su rango en dicha proyección. La tarea principal es encontrar una proyección en la que se preserve la información ordinal de las clases. Más concretamente, como ya se ha dicho, la proyección minimizará la distancia entre patrones dentro de una misma clase y maximizará al mismo tiempo la distancia entre patrones de distintas clases. Comenzaremos comentando el método lineal (Linear Discriminant Analysis for Ordinal Regression (LDAOR)), para facilitar la comprensión del lector. El algoritmo intenta alcanzar tres objetivos, maximizar la distancia entre clases, minimizar la distancia dentro de una misma clase y asegurar la información ordinal de estas. De modo que, dado un conjunto de ejemplos de entrenamiento (x i, y i ) R l R, i = {1,..., N}, donde x i R l denota las entradas, y i {1, 2,..., K} denota las correspondientes etiquetas ordinales, K es el número de clases y N es el tamaño del conjunto. Definimos las matrices de covarianza entre clases (S b ) y de covarianza dentro de una misma clase (S w ): S b = 1 N S w = 1 N K N k (m k m)(m k m) T, (7) k=1 K N k (x i m k )(x i m k ) T, (8) k=1 i=1 donde m k = 1 Nk N k i=1 x i y m = 1 N N i=1 x i son respectivamente las medias de la clase K y la media global. Los dos primeros objetivos presentados pueden ser alcanzados mediante la maximización del llamado coeficiente de Rayleigh, una técnica clásica y conocida para resolver este tipo de problema: J(w) = wt S b w w T S w w, (9) donde w es la proyección que estamos buscando. Para maximizar el coeficiente de Rayleigh reformularemos el método propuesto. Tomamos en consideración que maximizar wt S b w w T S ww es lo mismo que minimizar wt S ww w T S b w. Como wt S b w es un escalar lo asociaremos a una variable ρ, que representa la mínima diferencia de las medias proyectadas entre dos clases consecutivas, de forma que si ρ > 0 las medias proyectadas están ordenadas correctamente de acuerdo a su rango ordinal. Finalmente, transformamos el problema de optimización original de la siguiente forma: se trata de minimizar las varianzas de los datos de una misma clase mientras que se maximice la diferencia entre las medias proyectadas de dos clases vecinas: mín J(w, ρ) = w T S w w Cρ, (10) con la restricción de mantener el orden entre dos clases consecutivas propuesta en la forma: w T (m k+1 m k ) ρ. Teniendo en cuenta todos estos pasos, el algoritmo LDAOR se explica en Figura 1, donde K T r y K T s son las matrices de entrenamiento y prueba. Algoritmo LDAOR Entrada: Patrones de entrenamiento (T r), etiquetas de clase de entrenamiento (T rg), patrones de prueba (T s). Salida: Etiquetas de clase de los patrones de prueba (T sg). 1. Calculamos la matriz de covarianzas S w y la matrix Q. 2. Resolvemos el problema de optimización con restricciones lineales. 3. Calculamos la proyección óptima w y los umbrales para discriminar las clases b k. 4. Finalmente, calculamos la pertenencia a la clase (T sg) usando la proyección, los umbrales y los patrones de prueba. Fig. 1. Pasos del algoritmo LDAOR Pero este método trabaja solo con modelos lineales, de modo que para poder utilizar también modelos no lineales, se ha extendido el método LDAOR a su versión kernel o de aproximación local (KDLOR). Considerando que el problema original puede estar en un espacio de dimensión finita, a menudo sucede que en ese espacio los conjuntos a discriminar no son linealmente separables. Por esto se propone que el espacio de dimensión finita original se convierta en un espacio de mayor dimensión, permitiendo así una separación de los patrones más sencilla (lineal). Los productos escalares en el espacio de mayor dimensión se definen en términos de una función kernel K(x, y) seleccionada para resolver el problema. La función de tipo kernel seleccionada para este

5 Fig. 2. Estructura de los datos usados de cada distribución en planta propósito es la gaussiana: ( K(x, y) = exp donde σ 2 es la varianza. ) x y 2 σ 2 III. Base de datos (11) Con el objetivo de ser capaces de imitar la forma en que un experto evalua un diseño de distribución en planta, se han probado los distintos métodos de clasificación ordinal sobre una base de datos de estos diseños. Cada patrón es una distribución en planta que se ha generado de forma aleatoria o por recombinación dentro de un algoritmo genético interactivo [5]. Las distribuciones en planta han sido creadas rellenando la estructura basada en el esquema de bahías flexibles ([14], [15]). La estructura de codificación empleada contiene una tupla que representa el orden de las instalaciones y otra tupla de valores binarios indicando los puntos de división entre bahías. Por ejemplo, la estructura representada en la Figura 2 genera la distribución mostrada en la Figura 3, donde las bahías son las columnas donde aparecen ordenadas las instalaciones. El ancho de cada bahía es flexible estableciéndose de forma que de cabida a las instalaciones correspondientes. Durante la ejecución del algortimo genético interactivo, un usuario experto valoró cada una de las distribuciones en planta en una escala numérica de 1 a 5, siendo preferibles las distribuciones evaluadas con valores más altos. Ésta es la última característica incluida en cada patrón y representa la clase asignada. El objetivo es predecir esta evaluación del usuario en nuevas plantas generadas sobre el mismo problema. Tenemos una base de datos de 1969 patrones con 5 clases y 86 características por patrón relativas a la posición y características de cada distribución. La Figura 4 muestra el histograma de frecuencia por cada clase. Puede apreciarse que existe un desbalanceo de la base de datos, por ello una de las métricas a medir será la mínima sensibilidad, que medirá el valor mínimo de patrones correctamente clasificados por clase. Fig. 4. Histograma de frecuencia por clases. Fig. 3. Ejemplo de distribución en planta La Figura 2 indica el contenido completo de cada patrón de ejemplo para el aprendizaje. A parte de la estructura de la distribución generada, con objeto de facilitar la labor de aprendizaje, se han extraido varias características derivadas que se consideran más descriptivas de cara a la evaluación: cuatro medidas sobre requisitos o aspectos deseables de la planta y las coordenadas del rectangulo de cada instalación a las que da lugar la estructura de distribución generada. IV. Diseño experimental Se ha utilizado un modelo de 30 particiones aleatorias de la base de datos para el diseño experimental. Esta técnica es conocida como 30-holdout y nos asegura que los resultados obtenidos se aproximan en gran medida a los reales, y que no se elige la mejor partición para entrenamiento y generalización. El porcentaje de patrones destinados a entrenar es del 75 % y 25 % para generalizar. Además, se ha usado un modelo en malla para la elección de los parámetros de cada algoritmo, usando para ello un 5-fold, es decir, se ha particionado el conjunto de entrenamiento en 5 particiones diferentes, y se ha usado en cada ejecución una determinada

6 combinación de parámetros correspondiente al modelo en malla y 4 particiones para entrenamiento y 1 para generalización. Los parámetros elegidos finalmente serán los que muestren un mejor desempeño medio para el conjunto de datos. V. Resultados Se usarán 4 métricas bastante conocidas [16] para analizar la eficiencia de los diferentes métodos presentados: CCR, MS, MAE and RMSE. CCR o Porcentaje de Patrones Correctamente Clasificados: ( ) 1 K CCR = n ii, (12) N i=1 donde n ii corresponde al número de patrones que han sido bien clasificados para la clase k, y N es el número total de patrones a predecir. M S o mínima sensibilidad: Esta métrica puede ser definida como el valor mínimo de las sensibilidades para cada clase, es decir el porcentaje de patrones correctamente clasificados de dicha clase: MS = mín{s i ; i = 0,..., K}. (13) donde S i es la sensibilidad de la clase i-ésima. MAE o Error Absoluto Medio: Es el valor absoluto de la desviación media de las etiquetas de clase predichas con respecto a la real: MAE = 1 N N ŷ i y i. (14) i=1 RM SE o Error Cuadrático Medio: Mide cuánto se desvian las predicciones del valor real: RMSE = 1 N (y n ŷ n ) N 2, (15) n=1 donde y n es el valor real y ŷ n el valor estimado. La elección de estas métricas no ha sido arbitraria, se han elegido CCR y MS por ser métricas de umbral, la primera correspondiente a la clasificación total y la segunda a cada clase en particular. En segundo lugar se ha elegido la métrica M AE por su importancia en clasificación ordinal y para finalizar RM SE por ser una métrica de tipo ranking. La Tabla I muestra los resultados de los distintos métodos ordinales explicados anteriormente, comparando además su desempeño con sus equivalentes algoritmos nominales. Los algoritmos OrdinalClass- Classifier y C4.5 han sido configurados y ejecutados en WEKA [17]. Los métodos SVM utilizados están disponibles en una página que contiene una librería asiduamente actualizada para Máquinas de Soporte Vectorial. Por último, los métodos POM y KDLOR han sido implementados en MATLAB. Como puede observarse el método ordinal que mejor desempeño muestra es OrdinalClassClassifier, seguido por EBC(SVM). Para estudiar la significancia de las medias obtenidas, se ha aplicado un test paramétrico (t de Student) comparando en este caso los resultados del algoritmo OrdinalClassClassifier contra EBC(SVM), métodos ordinales que obtienen los mejores resultados para el problema en cuestión. En primer lugar, se comprobó que se cumplían las condiciones para el test paramétrico: independencia de las muestras, misma varianza (usando para ello el test de Levene) y una distribución normal de la muestra (test de Kolmogorow-Smirnov). Los resultados del test mostraron que existen diferencias significativas en los valores medios de CCR, y MAE a favor de el método OrdinalClassClassifier, ya que los p- valores asociados son 0.0 para ambos casos, menores que 0.05 (nivel de significancia escogido). En cuanto a MS no es posible aplicar el test pero las diferencias se encuentran casi a 20 puntos ya que la media del árbol de decisión es 19,76 y la de EBC(SVM) es 0. Por último, aunque el algoritmo OrdinalClass- Classifier presente un mejor desempeño en RM SE no existen diferencias significativas debido a que el p-valor asociado es de VI. Conclusiones Puede concluirse que la aplicación de árboles de decisión es una opción acertada para este problema concreto, ya que muestran una gran diferencia en cuanto a desempeño con respecto al resto de métodos. Además, el tratar la información como ordinal ayuda a mejorar los resultados, como puede comprobarse al comparar los resultados entre OrdinalClassClassifier y su equivalente nominal C4.5, y EBC(SVM) con LibSVM. Los resultados obtenidos son interesantes porque los niveles de error permiten detectar las distribuciones buenas y descartar las plantas evaluadas en las clases inferiores sin perder ninguna importante. De esta forma, es posible realizar una búsqueda intensiva guiada por el modelo aprendido sin tener que consultar al usuario. Esto puede resultar especialmente útil en muchas aplicaciones prácticas para encontrar las distribuciones en planta óptimas. Como trabajo futuro puede destacarse la integración de este sistema de aprendizaje para guiar el Algoritmo Genético Interactivo (IGA) ya citado anteriormente y así liberar al experto de tan ardua tarea. Agradecimientos Este trabajo ha sido subvencionado en parte por el proyecto TIN del Ministerio Español, Comisión de Ciencia y Tecnología (MICYT), fondos FEDER y el proyecto P08-TIC-3745 de la Junta de Andalucía (España). Referencias [1] Stefan Kramer, Gerhard Widmer, Bernhard Pfahringer, and Michael de Groeve, Prediction of ordinal classes using regression trees, in Proceedings of the 12th International Symposium on Foundations of Intelligent Systems, London, UK, 2000, ISMIS 00, pp , Springer-Verlag.

7 TABLA I CCR, MS, MAE y RMSE de todos los métodos Algorithm CCR M AE M S RM SE OrdinalClassClassifier 74,82 ± 1,48 0,328 ± 0,025 23,31 ± 9,51 0,709 ± 0,044 KDLOR 65,20 ± 1,19 0,400 ± 0, ± ± POM 60,72 ± 1,24 0,468 ± 0,014 0,00 ± 0,00 0,789 ± 0,017 EBC(SVM) ± ± ,00 ± 0,00 0,717 ± 0,027 LibSVM 66,05 ± 3,53 0,400 ± 0,037 1,81 ± 5,70 0,724 ± 0,034 C4.5 74,51 ± 2,31 0,357 ± 0,037 22,16 ± 7,35 0,755 ± 0,055 Los mejores resultados se presentan en negrita y los segundos mejores en itálica [2] Sotiris B. Kotsiantis and Panayiotis E. Pintelas, A cost sensitive technique for ordinal classification problems., in SETN, George A. Vouros and Themis Panayiotopoulos, Eds. 2004, vol of Lecture Notes in Computer Science, pp , Springer. [3] Eibe Frank and Mark Hall, A simple approach to ordinal classification, in Proceedings of the 12th European Conference on Machine Learning, London, UK, 2001, EMCL 01, pp , Springer-Verlag. [4] Panagiotis Kouvelis, Abbas A. Kurawarwala, and Genaro J. Gutierrez, Algorithms for robust single and multiple period layout planning for manufacturing systems, European Journal of Operational Research, vol. 63, no. 2, pp , [5] L. Garcia-Hernandez, H. Pierreval, L. Salas-Morera, and A. Arauzo-Azofra, An interactive genetic algorithm with c-means clustering for the unequal area facility layout problem, in Intelligent Systems Design and Applications (ISDA), th International Conference on, 2010, pp [6] J. Ross Quinlan, C4.5: Programs for Machine Learning (Morgan Kaufmann Series in Machine Learning), Morgan Kaufmann, 1 edition, January [7] P. McCullagh, Regression models for ordinal data (with discussion), Journal of the Royal Statistical Society, vol. 42, no. 2, pp , [8] Bercedis Peterson and Frank E Harrell, Partial proportional odds models for ordinal response variables, Applied Statistics, vol. 39, no. 2, pp , [9] Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines (and Other Kernelbased Learning Methods), Cambridge University Press, Cambridge, U.K., 1st edition, [10] Corinna Cortes and Vladimir Vapnik, Support-vector networks, Machine Learning, vol. 20, no. 3, pp , [11] Ling Li and Hsuan-Tien Lin, Ordinal Regression by Extended Binary Classification, in Advances in Neural Information Processing Systems 19, 2007, pp [12] C. M. Bishop, Pattern Recognition and Machine Learning (Information Science and Statistics), Springer- Verlag New York, Inc., Secaucus, NJ, USA, [13] Bing-Yu Sun, Jiuyong Li, Desheng Dash Wu, Xiao-Ming Zhang, and Wen-Bo Li, Kernel discriminant learning for ordinal regression, IEEE Transactions on Knowledge and Data Engineering, vol. 22, pp , [14] X. Tong, A Sequential Construction Technique For Facility Design, Ph.D. thesis, University of Pittsburgh, Department of Industrial Engineering, 1991, Unpublished Doctoral Dissertation. [15] Kuan Yew Wong and Komarudin, Solving facility layout problems using flexible bay structure representation and ant system algorithm, Expert Systems with Applications, vol. 37, no. 7, pp , July [16] R. Caruana and A. Niculescu-Mizil, Data mining in metric space: an empirical analysis of supervised learning performance criteria, in Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. 2004, KDD 04, pp , ACM. [17] M. Hall, E. Frank, G. Holmes, B. Pfahringer, P. Reutemann, and I. H. Witten, The weka data mining software: an update, ACM SIGKDD Explor. Newsletter, vol. 11, pp , 2009.

MÁQUINA DE VECTORES DE SOPORTE

MÁQUINA DE VECTORES DE SOPORTE MÁQUINA DE VECTORES DE SOPORTE La teoría de las (SVM por su nombre en inglés Support Vector Machine) fue desarrollada por Vapnik basado en la idea de minimización del riesgo estructural (SRM). Algunas

Más detalles

Covarianza y coeficiente de correlación

Covarianza y coeficiente de correlación Covarianza y coeficiente de correlación Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también

Más detalles

Redes de Kohonen y la Determinación Genética de las Clases

Redes de Kohonen y la Determinación Genética de las Clases Redes de Kohonen y la Determinación Genética de las Clases Angel Kuri Instituto Tecnológico Autónomo de México Octubre de 2001 Redes Neuronales de Kohonen Las Redes de Kohonen, también llamadas Mapas Auto-Organizados

Más detalles

SISTEMAS INTELIGENTES

SISTEMAS INTELIGENTES SISTEMAS INTELIGENTES T11: Métodos Kernel: Máquinas de vectores soporte {jdiez, juanjo} @ aic.uniovi.es Índice Funciones y métodos kernel Concepto: representación de datos Características y ventajas Funciones

Más detalles

1.1. Introducción y conceptos básicos

1.1. Introducción y conceptos básicos Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................

Más detalles

Análisis de Datos. Práctica de métodos predicción de en WEKA

Análisis de Datos. Práctica de métodos predicción de en WEKA SOLUCION 1. Características de los datos y filtros Una vez cargados los datos, aparece un cuadro resumen, Current relation, con el nombre de la relación que se indica en el fichero (en la línea @relation

Más detalles

ESTIMACIÓN. puntual y por intervalo

ESTIMACIÓN. puntual y por intervalo ESTIMACIÓN puntual y por intervalo ( ) Podemos conocer el comportamiento del ser humano? Podemos usar la información contenida en la muestra para tratar de adivinar algún aspecto de la población bajo estudio

Más detalles

Indicaciones específicas para los análisis estadísticos.

Indicaciones específicas para los análisis estadísticos. Tutorial básico de PSPP: Vídeo 1: Describe la interfaz del programa, explicando en qué consiste la vista de datos y la vista de variables. Vídeo 2: Muestra cómo crear una base de datos, comenzando por

Más detalles

MÁQUINAS DE VECTORES DE SOPORTE

MÁQUINAS DE VECTORES DE SOPORTE MÁQUINAS DE VECTORES DE SOPORTE Introducción Se tiene información de N individuos codificada de la forma Las variables X son vectores que reúnen información numérica del individuo, las variables Y indican

Más detalles

SVM: Máquinas de Vectores Soporte. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid

SVM: Máquinas de Vectores Soporte. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid SVM: Máquinas de Vectores Soporte Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Contenido 1. Clasificación lineal con modelos lineales 2. Regresión

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

Subespacios vectoriales en R n

Subespacios vectoriales en R n Subespacios vectoriales en R n Víctor Domínguez Octubre 2011 1. Introducción Con estas notas resumimos los conceptos fundamentales del tema 3 que, en pocas palabras, se puede resumir en técnicas de manejo

Más detalles

ANÁLISIS DE DATOS NO NUMERICOS

ANÁLISIS DE DATOS NO NUMERICOS ANÁLISIS DE DATOS NO NUMERICOS ESCALAS DE MEDIDA CATEGORICAS Jorge Galbiati Riesco Los datos categóricos son datos que provienen de resultados de experimentos en que sus resultados se miden en escalas

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión...

8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión... Tema 8 Análisis de dos variables: dependencia estadística y regresión Contenido 8.1. Introducción............................. 1 8.2. Dependencia/independencia estadística.............. 2 8.3. Representación

Más detalles

BASES Y DIMENSIÓN. Propiedades de las bases. Ejemplos de bases.

BASES Y DIMENSIÓN. Propiedades de las bases. Ejemplos de bases. BASES Y DIMENSIÓN Definición: Base. Se llama base de un espacio (o subespacio) vectorial a un sistema generador de dicho espacio o subespacio, que sea a la vez linealmente independiente. β Propiedades

Más detalles

Aprendizaje Computacional. Eduardo Morales y Jesús González

Aprendizaje Computacional. Eduardo Morales y Jesús González Aprendizaje Computacional Eduardo Morales y Jesús González Objetivo General La capacidad de aprender se considera como una de los atributos distintivos del ser humano y ha sido una de las principales áreas

Más detalles

Unidad 1. Fundamentos en Gestión de Riesgos

Unidad 1. Fundamentos en Gestión de Riesgos 1.1 Gestión de Proyectos Unidad 1. Fundamentos en Gestión de Riesgos La gestión de proyectos es una disciplina con la cual se integran los procesos propios de la gerencia o administración de proyectos.

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de CAPITULO 4 JUSTIFICACION DEL ESTUDIO En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de estudios previos y los alcances que justifican el presente estudio. 4.1. Justificación.

Más detalles

Análisis estadístico con Microsoft Excel

Análisis estadístico con Microsoft Excel Análisis estadístico con Microsoft Excel Microsoft Excel ofrece un conjunto de herramientas para el análisis de los datos (denominado Herramientas para análisis) con el que podrá ahorrar pasos en el desarrollo

Más detalles

Administración de Empresas. 11 Métodos dinámicos de evaluación de inversiones 11.1

Administración de Empresas. 11 Métodos dinámicos de evaluación de inversiones 11.1 Administración de Empresas. 11 Métodos dinámicos de evaluación de inversiones 11.1 TEMA 11: MÉTODOS DINÁMICOS DE SELECCIÓN DE INVERSIONES ESQUEMA DEL TEMA: 11.1. Valor actualizado neto. 11.2. Tasa interna

Más detalles

Comenzando con MATLAB

Comenzando con MATLAB ÁLGEBRA LINEAL INGENIERÍA INFORMÁTICA Curso 08/09 PRÁCTICA 1 Comenzando con MATLAB 1 Funcionamiento de Matlab MATLAB es un sistema interactivo basado en matrices para cálculos científicos y de ingeniería.

Más detalles

Práctica 11 SVM. Máquinas de Vectores Soporte

Práctica 11 SVM. Máquinas de Vectores Soporte Práctica 11 SVM Máquinas de Vectores Soporte Dedicaremos esta práctica a estudiar el funcionamiento de las, tan de moda, máquinas de vectores soporte (SVM). 1 Las máquinas de vectores soporte Las SVM han

Más detalles

Tema 3. Espacios vectoriales

Tema 3. Espacios vectoriales Tema 3. Espacios vectoriales Estructura del tema. Definición y propiedades. Ejemplos. Dependencia e independencia lineal. Conceptos de base y dimensión. Coordenadas Subespacios vectoriales. 0.1. Definición

Más detalles

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Introducción a selección de atributos usando WEKA Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Contenido 1 Introducción a WEKA El origen Interfaces

Más detalles

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007 Enunciado Se desea efectuar el testing funcional de un programa que ejecuta transferencias entre cuentas bancarias. El programa recibe como parámetros la cuenta de origen, la de cuenta de destino y el

Más detalles

6 ANÁLISIS DE INDEPENDENCIA O ASOCIACIÓN ENTRE DOS ATRIBUTOS

6 ANÁLISIS DE INDEPENDENCIA O ASOCIACIÓN ENTRE DOS ATRIBUTOS 6 ANÁLISIS DE INDEPENDENCIA O ASOCIACIÓN ENTRE DOS ATRIBUTOS Esquema del capítulo Objetivos 6.1. 6.. 6.3. 6.4. ANÁLISIS DE INDEPENDENCIA O ASOCIACIÓN ENTRE DOS ATRIBUTOS COEFICIENTES DE CONTINGENCIA LA

Más detalles

DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT

DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT REACCIONES ADVERSAS DE LOS MEDICAMENTOS Los fármacos por naturaleza

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

CAPÍTULO 6 SIMULACIONES Y RESULTADOS

CAPÍTULO 6 SIMULACIONES Y RESULTADOS CAPÍTULO 6 SIMULACIONES Y RESULTADOS 6.1 Proceso de Simulación Las simulaciones fueros llevadas a cabo empleando como herramienta la Versión 6.5 Release 13 de Matlab. Para lo cual fue empleado un banco

Más detalles

Inteligencia de Negocio

Inteligencia de Negocio UNIVERSIDAD DE GRANADA E.T.S. de Ingenierías Informática y de Telecomunicación Departamento de Ciencias de la Computación e Inteligencia Artificial Inteligencia de Negocio Guión de Prácticas Práctica 1:

Más detalles

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere. UNIVERSIDAD DE CARABOBO FACULTAD DE CIENCIA Y TECNOLOGÍA DIRECCION DE EXTENSION COORDINACION DE PASANTIAS Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere. Pasante:

Más detalles

Procesos Críticos en el Desarrollo de Software

Procesos Críticos en el Desarrollo de Software Metodología Procesos Críticos en el Desarrollo de Software Pablo Straub AgileShift Imagine una organización de desarrollo de software que consistentemente cumple los compromisos con sus clientes. Imagine

Más detalles

Tema 3. Medidas de tendencia central. 3.1. Introducción. Contenido

Tema 3. Medidas de tendencia central. 3.1. Introducción. Contenido Tema 3 Medidas de tendencia central Contenido 31 Introducción 1 32 Media aritmética 2 33 Media ponderada 3 34 Media geométrica 4 35 Mediana 5 351 Cálculo de la mediana para datos agrupados 5 36 Moda 6

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos

Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos I. Barbona - Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos Comparison among

Más detalles

Capítulo 10. Estudio de un caso con parámetros reales: acuífero de Borden

Capítulo 10. Estudio de un caso con parámetros reales: acuífero de Borden Capítulo 10. Estudio de un caso con parámetros reales: acuífero de Borden Tras la realización de muchos casos sintéticos y un estudio detallado de todos los parámetros que intervienen en el problema y

Más detalles

5.4. Manual de usuario

5.4. Manual de usuario 5.4. Manual de usuario En esta sección se procederá a explicar cada una de las posibles acciones que puede realizar un usuario, de forma que pueda utilizar todas las funcionalidades del simulador, sin

Más detalles

Análisis de medidas conjuntas (conjoint analysis)

Análisis de medidas conjuntas (conjoint analysis) Análisis de medidas conuntas (conoint analysis). Introducción Como ya hemos dicho anteriormente, esta técnica de análisis nos sirve para analizar la importancia que dan los consumidores a cada uno de los

Más detalles

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Emmanuel Anguiano-Hernández Abril 29, 2009 Abstract Tratando de mejorar el desempeño de un clasificador Naive

Más detalles

Aplicaciones de Estadística Descriptiva

Aplicaciones de Estadística Descriptiva Aplicaciones de Estadística Descriptiva Contenidos de la presentación Funciones estadísticas en Excel. Gráficos. El módulo de análisis de datos y las tablas dinámicas de Excel. Información Intentaremos

Más detalles

1. MEDIDAS DE TENDENCIA CENTRAL

1. MEDIDAS DE TENDENCIA CENTRAL 1. MEDIDAS DE TENDENCIA CENTRAL Lo importante en una tendencia central es calcular un valor central que actúe como resumen numérico para representar al conjunto de datos. Estos valores son las medidas

Más detalles

Medidas de tendencia central o de posición: situación de los valores alrededor

Medidas de tendencia central o de posición: situación de los valores alrededor Tema 10: Medidas de posición y dispersión Una vez agrupados los datos en distribuciones de frecuencias, se calculan unos valores que sintetizan la información. Estudiaremos dos grandes secciones: Medidas

Más detalles

PERFIL DEL PUESTO POR COMPETENCIAS Sepa cómo construirlo y evitar bajos desempeños posteriores

PERFIL DEL PUESTO POR COMPETENCIAS Sepa cómo construirlo y evitar bajos desempeños posteriores PERFIL DEL PUESTO POR COMPETENCIAS Sepa cómo construirlo y evitar bajos desempeños posteriores Martha Alicia Alles Es contadora pública nacional, doctora por la Universidad de Buenos Aires en la especialidad

Más detalles

Enfoque propuesto para la detección del humo de señales de video.

Enfoque propuesto para la detección del humo de señales de video. Capítulo 3 Enfoque propuesto para la detección del humo de señales de video. 3.1 Comportamiento del enfoque propuesto. Una visión general del método propuesto se muestra en la figura 2. El método genera

Más detalles

Aproximación local. Plano tangente. Derivadas parciales.

Aproximación local. Plano tangente. Derivadas parciales. Univ. de Alcalá de Henares Ingeniería de Telecomunicación Cálculo. Segundo parcial. Curso 004-005 Aproximación local. Plano tangente. Derivadas parciales. 1. Plano tangente 1.1. El problema de la aproximación

Más detalles

Support Vector Machine

Support Vector Machine Juan Carlos Caicedo Juan Carlos Mendivelso Maestria en Ingenieria de Sistemas y Computacion Universidad Nacional de Colombia 20 de marzo de 2007 Agenda 1 2 3 4 Outline 1 2 3 4 Clasificador lineal que utiliza

Más detalles

Elementos requeridos para crearlos (ejemplo: el compilador)

Elementos requeridos para crearlos (ejemplo: el compilador) Generalidades A lo largo del ciclo de vida del proceso de software, los productos de software evolucionan. Desde la concepción del producto y la captura de requisitos inicial hasta la puesta en producción

Más detalles

RELACIONES DE RECURRENCIA

RELACIONES DE RECURRENCIA Unidad 3 RELACIONES DE RECURRENCIA 60 Capítulo 5 RECURSIÓN Objetivo general Conocer en forma introductoria los conceptos propios de la recurrencia en relación con matemática discreta. Objetivos específicos

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

EJERCICIOS DE MATEMÁTICAS I HOJA 4. Ejercicio 1. Se consideran los vectores

EJERCICIOS DE MATEMÁTICAS I HOJA 4. Ejercicio 1. Se consideran los vectores EJERCICIOS DE MATEMÁTICAS I HOJA 4 Ejercicio 1. Se consideran los vectores u 1 = (1, 1, 0, 1), u 2 = (0, 2, 1, 0), u 3 = ( 1, 1, 1, 1), u 4 = (2, 2, 1, 0) de R 4. Expresa, si es posible, los vectores u

Más detalles

Estructuras de datos: Proyecto 2

Estructuras de datos: Proyecto 2 Estructuras de datos: Proyecto 2 28 de mayo de 2013 Instrucciones Enviar las soluciones por email a los ayudantes, con copia a la profesora. Plazo de entrega: 16 de junio (durante todo el día). Se debe

Más detalles

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. 2.1 Revisión sistema reconocimiento caracteres [9]: Un sistema de reconocimiento típicamente esta conformado por

Más detalles

Análisis de los datos

Análisis de los datos Universidad Complutense de Madrid CURSOS DE FORMACIÓN EN INFORMÁTICA Análisis de los datos Hojas de cálculo Tema 6 Análisis de los datos Una de las capacidades más interesantes de Excel es la actualización

Más detalles

Fundamentos de Biología Aplicada I Estadística Curso 2011-2012 Práctica 6: Regresión Logística I

Fundamentos de Biología Aplicada I Estadística Curso 2011-2012 Práctica 6: Regresión Logística I Fundamentos de Biología Aplicada I Estadística Curso 2011-2012 Índice 1. Objetivos de la práctica 2 2. Estimación de un modelo de regresión logística con SPSS 2 2.1. Ajuste de un modelo de regresión logística.............................

Más detalles

UN ENTORNO A MEDIDA PARA EL DISEÑO Y LA SIMULACIÓN DE MAQUINARIA POR COMPUTADOR

UN ENTORNO A MEDIDA PARA EL DISEÑO Y LA SIMULACIÓN DE MAQUINARIA POR COMPUTADOR UN ENTORNO A MEDIDA PARA EL DISEÑO Y LA SIMULACIÓN DE MAQUINARIA POR COMPUTADOR Manuel González y Javier Cuadrado Departamento de Ingeniería Industrial II, Campus de Esteiro, 15403 Ferrol Universidad de

Más detalles

Puede considerarse un caso especial de l análisis de regresión en donde la variable dependiente es dicotómica («Sí» [1] o «No» [0])

Puede considerarse un caso especial de l análisis de regresión en donde la variable dependiente es dicotómica («Sí» [1] o «No» [0]) Regresión logística Puede considerarse un caso especial de l análisis de regresión en donde la variable dependiente es dicotómica («Sí» [1] o «No» [0]) Se trata de calcular la probabilidad en la que una

Más detalles

Recuperación de información visual utilizando descriptores conceptuales

Recuperación de información visual utilizando descriptores conceptuales Recuperación de información visual utilizando descriptores conceptuales J. Benavent, X. Benavent y E. de Ves Departament d Informàtica (Universitat de València) {esther.deves,xaro.benavent}@uv.es Abstract.

Más detalles

Estructuras algebraicas

Estructuras algebraicas Tema 2 Estructuras algebraicas básicas 2.1. Operación interna Definición 29. Dados tres conjuntos A, B y C, se llama ley de composición en los conjuntos A y B y resultado en el conjunto C, y se denota

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

DIVISAS Evolución y análisis de tipos de cambio(1980-1995)

DIVISAS Evolución y análisis de tipos de cambio(1980-1995) DIVISAS Evolución y análisis de tipos de cambio(1980-1995) Pablo Fernández y Miguel Angel Ariño 1. Evolución de los tipos de cambio 2. Rentabilidad de las divisas 3.Volatilidad de las divisas 4. Autocorrelación

Más detalles

Espacios generados, dependencia lineal y bases

Espacios generados, dependencia lineal y bases Espacios generados dependencia lineal y bases Departamento de Matemáticas CCIR/ITESM 14 de enero de 2011 Índice 14.1. Introducción............................................... 1 14.2. Espacio Generado............................................

Más detalles

1 ENTREVISTA INDIVIDUAL

1 ENTREVISTA INDIVIDUAL 1 ENTREVISTA INDIVIDUAL 1.1 Por qué utilizar esta herramienta en evaluación? La entrevista individual es una técnica de recopilación de información que tiene lugar cara a cara entre el evaluador y la persona

Más detalles

Tema 2. Espacios Vectoriales. 2.1. Introducción

Tema 2. Espacios Vectoriales. 2.1. Introducción Tema 2 Espacios Vectoriales 2.1. Introducción Estamos habituados en diferentes cursos a trabajar con el concepto de vector. Concretamente sabemos que un vector es un segmento orientado caracterizado por

Más detalles

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos Descargado desde www.medwave.cl el 13 Junio 2011 por iriabeth villanueva Medwave. Año XI, No. 2, Febrero 2011. ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos Autor:

Más detalles

Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides

Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides Introducción La visión artificial, también conocida como visión por computador

Más detalles

TEMA 7: Análisis de la Capacidad del Proceso

TEMA 7: Análisis de la Capacidad del Proceso TEMA 7: Análisis de la Capacidad del Proceso 1 Introducción Índices de capacidad 3 Herramientas estadísticas para el análisis de la capacidad 4 Límites de tolerancia naturales 1 Introducción La capacidad

Más detalles

1 Ejemplo de análisis descriptivo de un conjunto de datos

1 Ejemplo de análisis descriptivo de un conjunto de datos 1 Ejemplo de análisis descriptivo de un conjunto de datos 1.1 Introducción En este ejemplo se analiza un conjunto de datos utilizando herramientas de estadística descriptiva. El objetivo es repasar algunos

Más detalles

Comunicaciones Digitales - Ejercicios Tema 3

Comunicaciones Digitales - Ejercicios Tema 3 Comunicaciones Digitales - Ejercicios Tema 3 007. 1. Considere el diagrama de rejilla para un canal discreto equivalente genérico con 4 coeficientes no nulos (memoria K p = 3) y una constelación -PAM.

Más detalles

Editores * : Francisco Meneses Alvaro Parra Luis Zenteno

Editores * : Francisco Meneses Alvaro Parra Luis Zenteno Se Puede Mejorar el Sistema de Ingreso a las Universidades Chilenas? El uso del ranking en la Universidad Católica de Chile, Universidad de Chile y Universidad de Santiago de Chile Editores * : Francisco

Más detalles

Unidad I. 1.1 Sistemas numéricos (Binario, Octal, Decimal, Hexadecimal)

Unidad I. 1.1 Sistemas numéricos (Binario, Octal, Decimal, Hexadecimal) Unidad I Sistemas numéricos 1.1 Sistemas numéricos (Binario, Octal, Decimal, Hexadecimal) Los computadores manipulan y almacenan los datos usando interruptores electrónicos que están ENCENDIDOS o APAGADOS.

Más detalles

Cómo?: Resolviendo el sistema lineal homógeneo que satisfacen las componentes de cualquier vector de S. x4 = x 1 x 3 = x 2 x 1

Cómo?: Resolviendo el sistema lineal homógeneo que satisfacen las componentes de cualquier vector de S. x4 = x 1 x 3 = x 2 x 1 . ESPACIOS VECTORIALES Consideremos el siguiente subconjunto de R 4 : S = {(x, x 2, x 3, x 4 )/x x 4 = 0 x 2 x 4 = x 3 a. Comprobar que S es subespacio vectorial de R 4. Para demostrar que S es un subespacio

Más detalles

Análisis de Resultados

Análisis de Resultados Análisis de Resultados Encuesta Web OnLine Buses: www.encuesta-webonlinebuses.tk Grupo10 1 Datos Generales Técnica: Encuesta Web Medio: Google Forms Unidad de muestreo: Usuarios y potenciales usuarios

Más detalles

Tema 12: Contrastes Paramétricos

Tema 12: Contrastes Paramétricos Tema 1 Tema 1: Contrastes Paramétricos Presentación y Objetivos. Se comienza este tema introduciendo la terminología y conceptos característicos de los contrastes de hipótesis, típicamente a través de

Más detalles

La práctica del análisis de correspondencias

La práctica del análisis de correspondencias La práctica del análisis de correspondencias MICHAEL GREENACRE Catedrático de Estadística en la Universidad Pompeu Fabra Separata del capítulo 18 Análisis de correspondencias múltiples Primera edición:

Más detalles

Sistemas de Información Geográficos (SIG o GIS)

Sistemas de Información Geográficos (SIG o GIS) Sistemas de Información Geográficos (SIG o GIS) 1) Qué es un SIG GIS? 2) Para qué sirven? 3) Tipos de datos 4) Cómo trabaja? 5) Modelos de datos, Diseño Conceptual 6) GeoDataase (GD) 7) Cómo evaluamos

Más detalles

capitulo3 MARCO TEÓRICO Para el diseño de la reubicación de los procesos se hará uso de la Planeación

capitulo3 MARCO TEÓRICO Para el diseño de la reubicación de los procesos se hará uso de la Planeación capitulo3 MARCO TEÓRICO Para el diseño de la reubicación de los procesos se hará uso de la Planeación Sistemática de Layout, SLP por sus siglas en inglés. Se hará uso de la simulación para comparar el

Más detalles

Análisis de componentes principales

Análisis de componentes principales Capítulo 2 Análisis de componentes principales 2.1. INTRODUCCIÓN El Análisis de componentes principales trata de describir las características principales de un conjunto de datos multivariantes, en los

Más detalles

MÓDULO 2: TRATAMIENTO DE DATOS CON HOJA DE CÁLCULO. Tema 6: Análisis Estadístico de Datos. Leire Aldaz, Begoña Eguía y Leire Urcola

MÓDULO 2: TRATAMIENTO DE DATOS CON HOJA DE CÁLCULO. Tema 6: Análisis Estadístico de Datos. Leire Aldaz, Begoña Eguía y Leire Urcola MÓDULO 2: TRATAMIENTO DE DATOS CON HOJA DE CÁLCULO Leire Aldaz, Begoña Eguía y Leire Urcola Índice del tema Introducción Herramientas para Análisis Complemento EZAnalyze INTRODUCCIÓN Las aplicaciones que

Más detalles

Relación entre formación y empleo

Relación entre formación y empleo Relación entre formación y empleo En este capítulo se analiza el impacto que la formación a la que las personas usuarias han accedido ha tenido sobre sus posibilidades de empleo posterior, teniendo en

Más detalles

ESTADÍSTICA SEMANA 4

ESTADÍSTICA SEMANA 4 ESTADÍSTICA SEMANA 4 ÍNDICE MEDIDAS DE DISPERSIÓN... 3 APRENDIZAJES ESPERADOS... 3 DEfinición de Medida de dispersión... 3 Rango o Recorrido... 3 Varianza Muestral (S 2 )... 3 CÁLCULO DE LA VARIANZA...

Más detalles

El modelo Ordinal y el modelo Multinomial

El modelo Ordinal y el modelo Multinomial El modelo Ordinal y el modelo Multinomial Microeconomía Cuantitativa R. Mora Departmento de Economía Universidad Carlos III de Madrid Esquema Motivación 1 Motivación 2 3 Motivación Consideramos las siguientes

Más detalles

Adaptación al NPGC. Introducción. NPGC.doc. Qué cambios hay en el NPGC? Telf.: 93.410.92.92 Fax.: 93.419.86.49 e-mail:atcliente@websie.

Adaptación al NPGC. Introducción. NPGC.doc. Qué cambios hay en el NPGC? Telf.: 93.410.92.92 Fax.: 93.419.86.49 e-mail:atcliente@websie. Adaptación al NPGC Introducción Nexus 620, ya recoge el Nuevo Plan General Contable, que entrará en vigor el 1 de Enero de 2008. Este documento mostrará que debemos hacer a partir de esa fecha, según nuestra

Más detalles

Su éxito se mide por la pertinencia y la oportunidad de la solución, su eficacia y eficiencia.

Su éxito se mide por la pertinencia y la oportunidad de la solución, su eficacia y eficiencia. APUNTES PARA EL CURSO PROCESOS COGNITIVOS: RESOLUCIÓN DE PROBLEMAS Y TOMA DE DECISIONES Elaborado por Vicente Sisto Campos. Se trata de la confluencia de la capacidad analítica del equipo de identificar

Más detalles

Aplicaciones Lineales

Aplicaciones Lineales Aplicaciones Lineales Ejercicio Dada la matriz A = 0 2 0 a) Escribir explícitamente la aplicación lineal f : 2 cuya matriz asociada con respecto a las bases canónicas es A. En primer lugar definimos las

Más detalles

Capítulo 12: Indexación y asociación

Capítulo 12: Indexación y asociación Capítulo 12: Indexación y asociación Conceptos básicos Índices ordenados Archivos de índice de árbol B+ Archivos de índice de árbol B Asociación estática Asociación dinámica Comparación entre indexación

Más detalles

ANALISIS MULTIVARIANTE

ANALISIS MULTIVARIANTE ANALISIS MULTIVARIANTE Es un conjunto de técnicas que se utilizan cuando se trabaja sobre colecciones de datos en las cuáles hay muchas variables implicadas. Los principales problemas, en este contexto,

Más detalles

Ingeniería en Informática

Ingeniería en Informática Departamento de Informática Universidad Carlos III de Madrid Ingeniería en Informática Aprendizaje Automático Junio 2007 Normas generales del examen El tiempo para realizar el examen es de 3 horas No se

Más detalles

CMMI (Capability Maturity Model Integrated)

CMMI (Capability Maturity Model Integrated) CMMI (Capability Maturity Model Integrated) El SEI (software engineering institute) a mediados de los 80 desarrolló el CMM (modelo de madurez de la capacidad de software). CMMI: CMM integrado, una mezcla

Más detalles

Introducción a la Estadística con Excel

Introducción a la Estadística con Excel Introducción a la Estadística con Excel En el siguiente guión vamos a introducir el software Excel 2007 y la manera de trabajar con Estadística Descriptiva. Cargar o importar datos En Excel 2007 podemos

Más detalles

REGRESION simple. Correlación Lineal:

REGRESION simple. Correlación Lineal: REGRESION simple Correlación Lineal: Dadas dos variable numéricas continuas X e Y, decimos que están correlacionadas si entre ambas variables hay cierta relación, de modo que puede predecirse (aproximadamente)

Más detalles

MERCADOS FINANCIEROS: LOS FONDOS DE INVERSIÓN II

MERCADOS FINANCIEROS: LOS FONDOS DE INVERSIÓN II MERCADOS FINANCIEROS: LOS FONDOS DE INVERSIÓN II 28 febrero de 2012 Javier Marchamalo Martínez Universidad Rey Juan Carlos SABER INTERPRETAR LOS RATIOS SIGNIFICATIVOS EN LA GESTIÓN POR BENCHMARK Ratio

Más detalles

1. SOLUCIONES A LOS EJERCICIOS PROPUESTOS

1. SOLUCIONES A LOS EJERCICIOS PROPUESTOS 1 1. SOLUCIONES A LOS EJERCICIOS PROPUESTOS 1.1. ESPACIOS VECTORIALES 1. Analizar cuáles de los siguientes subconjuntos de R 3 son subespacios vectoriales. a) A = {(2x, x, 7x)/x R} El conjunto A es una

Más detalles

Con el fin de obtener los datos, se procede con las siguientes instrucciones:

Con el fin de obtener los datos, se procede con las siguientes instrucciones: Capitulo 3. La predicción de beneficios del mercado bursátil Este segundo caso de estudio va más allá en el uso de técnicas de minería de datos. El dominio específico utilizado para ilustrar estos problemas

Más detalles

Tema 5. Análisis de regresión (segunda parte) Estadística II, 2010/11

Tema 5. Análisis de regresión (segunda parte) Estadística II, 2010/11 Tema 5 Análisis de regresión (segunda parte) Estadística II, 2010/11 Contenidos 5.1: Diagnóstico: Análisis de los residuos 5.2: La descomposición ANOVA (ANalysis Of VAriance) 5.3: Relaciones no lineales

Más detalles

<Generador de exámenes> Visión preliminar

<Generador de exámenes> Visión preliminar 1. Introducción Proyecto Final del curso Técnicas de Producción de Sistemas Visión preliminar Para la evaluación de algunos temas de las materias que se imparten en diferentes niveles,

Más detalles

Modeling the Retrieval Process for an Information Retrieval System using an Ordinal Fuzzy Linguistic Approach

Modeling the Retrieval Process for an Information Retrieval System using an Ordinal Fuzzy Linguistic Approach JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, 52(6):460-475, 2001 Modeling the Retrieval Process for an Information Retrieval System using an Ordinal Fuzzy Linguistic Approach

Más detalles

TEMA 5 ESTUDIOS CORRELACIONALES.

TEMA 5 ESTUDIOS CORRELACIONALES. TEMA 5 ESTUDIOS CORRELACIONALES. 1. INTRODUCCIÓN. 2. CONCEPTO DE CORRELACIÓN. 3. CASOS EN LOS QUE SE UTILIZA LA INVESTIGACIÓN CORRELACIONAL. 4. LIMITACIONES DE LOS ESTUDIOS CORRELACIONALES 1 1. INTRODUCCIÓN.

Más detalles