Supervisión de Procesos Complejos mediante Técnicas de Data Mining con Incorporación de Conocimiento Previo

Transcripción

1 Universidad de Oviedo Departamento de Ingeniería Eléctrica, Electrónica, de Computadores y Sistemas Tesis Doctoral Supervisión de Procesos Complejos mediante Técnicas de Data Mining con Incorporación de Conocimiento Previo Abel Alberto Cuadrado Vega Noviembre 22

2 2

3 Universidad de Oviedo Departamento de Ingeniería Eléctrica, Electrónica, de Computadores y Sistemas TESIS SUPERVISIÓN DE PROCESOS COMPLEJOS MEDIANTE TÉCNICAS DE DATA MINING CON INCORPORACIÓN DE CONOCIMIENTO PREVIO Memoria presentada para la obtención del grado de Doctor por la Universidad de Oviedo Autor: Abel Alberto Cuadrado Vega Directores: Alberto B. Diez González Ignacio Díaz Blanco Gijón, Noviembre de 22

4 4

5 Agradecimientos Este trabajo sólo ha podido salir adelante con la inestimable ayuda y apoyo incondicional de mis directores, Alberto Diez e Ignacio Díaz. Muchas gracias por darme esta oportunidad, por enseñarme, por orientarme, y por proporcionarme proyectos tan interesantes durante estos cuatro años. Una gran parte de la culpa de que, después varios años de agotadora carrera, recuperara la ilusión inicial por hacer Ingeniería Industrial el mismo día que empecé el proyecto fin de carrera la tiene Nacho (bueno, unos meses después; ese día concretamente me dejó a cuadros). Desde entonces, cada día me contagia con su entusiasmo por descubrir cosas nuevas. Gracias a toda la gente del Área de Ingeniería de Sistemas y Automática (incluidos los que ya no están): desde proyectantes, becarios, PAS, profesores, hasta el mismo Director del Departamento, Guillermo Ojea. No podría haberme imaginado un lugar de trabajo mejor. Gracias a Alberto Diez y a Juan Carlos Álvarez por darme unas pistas de lo que es la vida real; a Hilario López, por inspirarme la idea de hacer esta carrera; a Diego Álvarez y a Juan Manuel Guerrero, porque nos ha tocado seguir caminos paralelos desde que empezamos la carrera allá por el 91, y muchas veces me han servido de referencia y me han echado una mano cuando me hacía falta; a Alfonso Fernández de Lera por hacer que pasar la jornada entera en el campus sea más ameno; Gracias a Felipe González, Alfonso Fernández Vázquez, Alberto Pintado y Eva Janeiro, por trabajar tan duramente conmigo en diferentes proyectos (y a Pablo García, que encima me ha prestado una pedalera para la guitarra). Gracias a todos, porque quisiera nombrar uno a uno, y hacer más menciones especiales, pero ni hay espacio ni vienen a cuento aquí. Gracias al personal de Aceralia, porque nos ponen en contacto con la industria real: Faustino Obeso, José Luis Rendueles, Luis Rodríguez Loredo, Pablo Fernández Quiroga y demás. Por supuesto, gracias a mis amigos, sin los cuales la vida sería bastante más aburrida: Ángel, Adriana, Jorge (y ahora Sara también), Eloy, Ana, Pedro C., Pedro F., Fran, José, Joseba, Sonia, Rafa, Ernesto y, cómo no, Carlos (ese ínclito elemento que hasta recuerda alguna que otra rabieta mía 5

6 6 en segundo de EGB). Por último, gracias a mi familia. A mi madre y a mi padre, que han sido capaces de criar a los tres mosqueteros (éstos se llaman Marcos, Sonia y Alberto, no Athos, Porthos y Aramis), y que han confiado en mí y siempre me han ayudado en mi objetivo de trabajar en lo que más me gusta.

7 Resumen La calidad del producto fabricado y la ausencia de fallos en el proceso de fabricación son requisitos fundamentales en una planta industrial. Cada vez se desarrollan métodos más eficaces y eficientes de asegurar el cumplimiento de estos dos requisitos, métodos que generalmente se basan en enfoques totalmente automáticos implementados en un computador. Esta tesis propone un enfoque global de aplicación de técnicas de visualización a la supervisión de procesos que complementa la enorme potencia de cálculo y memoria de un computador con la creatividad y grandes capacidades de percepción visual del ser humano, permitiendo incorporar conocimiento previo que éste posee sobre el proceso, y extraer nuevo conocimiento relacionando leyes físicas, reglas extraídas de la experiencia y datos provenientes del proceso. La idea principal es representar gráficamente toda esta información bajo una misma forma unificada, que, sobre todo, facilita la comprensión del gran volumen de datos que se pueden generar en un proceso. Esta forma unificada de representación está constituida por un espacio de visualización, al que por medio de técnicas de proyección no lineal se traslada información/conocimiento disponible en el espacio de las variables del proceso, espacio éste de muy alta dimensionalidad y por tanto no visualizable directamente. Este esquema se complementa con la aplicación de una técnica de redundancia analítica que se basa en el modelo del proceso constituido por una técnica de proyección y que encaja perfectamente en el marco de este enfoque de Data Mining Visual para la supervisión de procesos complejos. En esta tesis, además, se presenta una aplicación software diseñada según estos mismos principios y se muestran algunos resultados de esta metodología aplicada sobre casos reales: un motor de inducción de 4 kw en laboratorio y un motor de continua de 6 kw de un tren de laminación de la empresa siderúrgica Aceralia. 7

8 8

9 Índice general 1. Introducción y Objetivos Introducción Motivación y objetivos Formulación del problema Técnicas de Supervisión de Procesos Introducción Técnicas basadas en modelos analíticos Ecuaciones de paridad Estimación de parámetros Observadores de estado Técnicas basadas en conocimiento Métodos cualitativos Sistemas expertos basados en reglas Sistemas de inferencia borrosos Técnicas basadas en datos Clasificadores Redundancia analítica basada en datos Control estadístico de procesos Técnicas híbridas Técnicas de visualización Técnicas de Reducción de la Dimensión Introducción Selección de variables Extracción de características Normalización Técnicas de análisis espectral Otras técnicas de extracción de características Técnicas de proyección Técnicas de Proyección Lineal

10 1 ÍNDICE GENERAL Escalado Multidimensional Modelos Autoasociativos Mapas Topológicos Otras técnicas de proyección Data Mining Visual Introducción Formas básicas de representación Proyección de datos El error de modelado Representación visual de conocimiento Etiquetado Planos de componentes Mapa de distancias Mapas de activación Mapas borrosos Mapas de modelos Mapas de correlaciones Residuos en Modelos de Datos Introducción Generación de residuos Detección de Novedades Residuo vectorial Validez del residuo vectorial Representación del residuo vectorial Consideraciones en el uso de residuos Elección de datos para el modelo Modelo con interpolación Metodología de Supervisión Introducción El sistema MAPREX MAPREX: un sistema de monitorización MAPREX: una herramienta de Data Mining Visual Estructura de la aplicación MAPREX Una sesión con MAPREX Selección de señales Visualización de las señales en tiempo real Selección de características Preparación de datos para modelado

11 ÍNDICE GENERAL Generación del modelo Explotación del modelo Resultados Introducción Monitorización de sistemas en tiempo real Descripción del sistema Obtención del modelo Aplicación del modelo Data Mining de procesos industriales Descripción del proceso Obtención del modelo Aplicación del modelo Conclusiones Conclusiones Aportaciones Líneas futuras A. Nomenclatura 123

12 12 ÍNDICE GENERAL

13 Capítulo 1 Introducción y Objetivos 1.1. Introducción El buen funcionamiento de una planta industrial viene condicionado por la eficacia y eficiencia de cada uno de los tres niveles en los que se suele dividir la automatización de la misma: gestión, supervisión y control. Cada nivel tiene unos objetivos diferenciados y actúa sobre el nivel inmediatamente inferior para lograrlos 1. El nivel de gestión es el que marca los objetivos principalmente económicos, realiza la planificación y tiene unos tiempos entre actuaciones sobre el nivel de supervisión relativamente largos. El nivel de supervisión tiene la función de verificar el correcto funcionamiento de la planta, pudiendo incluirse en ello la búsqueda de la calidad en la producción, tan importante hoy en día para cumplir objetivos económicos debido a la gran competencia existente en el mercado mundial. Ello lo consigue por medio de acciones sobre el nivel más bajo, el nivel de control, reconfigurando sus estrategias o realizando acciones radicales, como paradas completas, ante una posibilidad de fallo catastrófico. El nivel de control es el que interacciona de forma más cercana con los procesos de fabricación, actuando directamente sobre la maquinaria y requiriendo velocidades de actuación muy elevadas ante eventos en el proceso. Así pues, la importancia de la supervisión radica, primero, en la necesidad de verificar que los procesos de control funcionan de manera adecuada, y segundo, que lo hagan con la precisión que los objetivos de calidad del producto final requieren. El verificar que el control del proceso funcione de manera adecuada tiene que ver con el buen estado de toda la maquinaria del proceso. Un elemento del proceso en mal estado no estará de acuerdo con los modelos matemáticos que se tienen de él y, por tanto, el sistema de control, 1 O sobre el proceso directamente, en el caso del nivel más bajo, el de control. 13

14 14 CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVOS que se habrá diseñado teniendo en cuenta dichos modelos, no realizará su trabajo correctamente, dando lugar a un producto de baja calidad. También, en caso extremo, se podría producir un fallo grave que pudiera hacer que el proceso de fabricación se detuviera completamente Motivación y objetivos La detención completa de un proceso de fabricación suele conllevar grandes pérdidas económicas. A su vez, un producto de mala calidad es una desventaja para la competitividad de la empresa en los mercados, lo cual supone un obstáculo para el objetivo de maximización de beneficios. Como consecuencia de ello, las estrategias de mantenimiento han evolucionado a lo largo del tiempo para evitar estos inconvenientes interfiriendo lo menos posible en la continuidad del proceso de fabricación. Así, en un sistema de mantenimiento básico, la sustitución de componentes en el proceso de fabricación sólo se realiza cuando se produce el fallo de los mismos (mantenimiento correctivo). Este sistema tiene tres inconvenientes principalmente. Por un lado, un fallo que provoque la parada total del proceso puede producirse en un momento inconveniente, en el que las pérdidas económicas sean mayores respecto a otro momento. Por otro lado, un fallo total en un elemento del proceso puede dar lugar a fallos en elementos adyacentes, y puede convertirse incluso en un problema de seguridad para los trabajadores de la planta, generando accidentes. Una tercera razón también podría ser el stock de componentes que habría que tener para la sustitución. Otra estrategia de mantenimiento que intenta evitar estos inconvenientes es el mantenimiento preventivo, que consiste en la sustitución de componentes en función de datos estadísticos de vida útil de los mismos. Ello permite también planificar paradas del proceso con antelación, cuando sea necesario, para la sustitución. Sin embargo este sistema de mantenimiento también tiene un inconveniente, sobre todo en componentes de alto coste, y es que a veces se desperdician componentes que todavía están en perfecto estado. Además, siempre existe la posibilidad de que los componentes fallen antes de lo previsto. El sistema que actualmente presenta más ventajas es el mantenimiento predictivo o mantenimiento por condición. Por este método se realiza la sustitución de los componentes basándose en el estado de los mismos, deducido a través de su monitorización, ya sea continua o discontinua en función principalmente de lo crítico que sea el elemento dentro del proceso. La función de la supervisión de procesos, por consiguiente, se puede resumir como la verificación del funcionamiento óptimo de procesos, con tres

15 1.2. MOTIVACIÓN Y OBJETIVOS 15 objetivos: Detectar fallos en la maquinaria e instrumentación de forma anticipada para prevenir paradas no planificadas del proceso. Detectar en el proceso desviaciones del funcionamiento correcto y que dan lugar a la fabricación de producto defectuoso o de baja calidad. Actuar o sugerir actuación para volver al óptimo en los dos casos anteriores. Llevar a cabo estos objetivos a través de la monitorización no es, sin embargo, tarea fácil. La mayoría de los procesos industriales se pueden calificar como complejos. Este adjetivo se deriva del hecho de que los procesos industriales generan una cantidad enorme de datos provenientes de muchas variables que suelen estar relacionadas de forma no lineal. La característica de no linealidad es un problema importante, puesto que la mayor parte de la teoría de control de sistemas se centra en sistemas lineales. Un modelo en ecuaciones explícitas de un proceso no lineal suficientemente preciso, si existe, suele ser difícil de tratar. En cuanto al gran número de variables, es un inconveniente debido a la maldición de la dimensionalidad (curse of dimensionality) que plantea que el número de datos que hace falta para hacer estimaciones suficientemente precisas a partir de los mismos (estimación de funciones de densidad de probabilidad, aproximación de funciones, etc.) aumenta exponencialmente con la dimensión del espacio de datos [7]. El problema de la no linealidad, y la dificultad derivada de obtener modelos explícitos, hace que se piense en recurrir a modelos basados en datos frente a otros modelos analíticos basados en ecuaciones explícitas. Respecto al problema de la dimensionalidad, hace necesario el uso de técnicas de reducción de la dimensionalidad para eliminar componentes de los vectores de datos (variables) que no contengan información significativa o que contengan información redundante. Para la supervisión de maquinaria son típicos los métodos que fijan umbrales para determinadas variables como método para detectar problemas (métodos de umbral). Es muy común en máquinas rotativas (motores y generadores eléctricos, bombas, ventiladores, turbinas,... ) medir valores de niveles de vibración (valor eficaz en una banda de frecuencia), que no deberán sobrepasar unos valores estándar o dados por el fabricante para considerar que funcionan correctamente [88]. En estos casos también se suelen emplear métodos algo más sofisticados de análisis espectral de las vibraciones para descubrir qué fallo concreto que se está produciendo. Quizás, el mayor esfuerzo en investigación en los últimos años para la detección y diagnóstico de fallos se ha dirigido hacia enfoques en los que

16 16 CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVOS todo el proceso de detección y diagnóstico, desde la adquisición de datos hasta la señalización e indicación de fallos, se realiza de forma automática. Así, son de aparición frecuente en la bibliografía técnicas como las de redundancia analítica, en las que para el diagnóstico se usan las diferencias entre las salidas de un modelo analítico del proceso y el proceso real. En realidad, el concepto de redundancia analítica se puede referir al uso de cualquier modelo no físico (matemático) para ese fin. Las técnicas que usan un modelo matemático en forma de ecuaciones explícitas, como las de ecuaciones de paridad, las de estimación de parámetros y las de estimación de estado, se pueden englobar dentro de un grupo que podríamos denominar técnicas basadas en modelos analíticos. Sin embargo este grupo de técnicas necesitan para su aplicación un modelo del proceso suficientemente preciso, lo cual es infrecuente en procesos complejos. Gertler, en [37], hace un resumen de estas técnicas para detección y diagnóstico de fallos basadas en modelos para plantas complejas. Otro grupo de técnicas no tienen unos requerimientos tan fuertes en cuanto al conocimiento del modelo del proceso y les basta con un conocimiento impreciso, incompleto o incluso más bien intuitivo, expresado en forma similar al lenguaje humano. Entre ellas se encuentran las técnicas basadas en conocimiento. Éstas incluyen enfoques como el razonamiento cualitativo, la lógica difusa o los sistemas expertos basados en reglas. Por ejemplo, relacionado con este grupo de técnicas, Isermann [44] presenta aplicaciones de lógica difusa para control, supervisión y diagnóstico de fallos. También son posibles combinaciones de modelos analíticos y modelos basados en conocimiento. Así, Ballé [3] enfoca la detección y diagnóstico de fallos en procesos no lineales a través de modelos difusos lineales locales y estimación de parámetros. Isermann [46] integra información analítica y conocimiento heurístico para diagnóstico de fallos a través de lógica difusa. Patton [7] resume varias técnicas disponibles de inteligencia artificial aplicadas al diagnóstico de fallos, y de ellas escoge B-splines cómo método que integra un enfoque cualitativo y otro cuantitativo, y que se demuestra equivalente a los sistemas difusos. Gertler [38] añade la posibilidad de razonamiento aproximado (evidential reasoning) en la metodología basada en modelos, aumentando la capacidad de toma de decisiones en el diagnóstico. Sin embargo, a veces el conocimiento previo sobre el proceso que se posee es prácticamente nulo, pero en cambio se dispone de una gran cantidad de datos de historial de variables del proceso. Para esos casos son aplicables las técnicas basadas en datos. Este tipo de técnicas incluye desde métodos estadísticos hasta métodos de inteligencia artificial como las redes neuronales. Así, dentro de las técnicas basadas en datos se han propuesto metodologías de reconocimiento de patrones (clasificadores), de redundancia analítica con

17 1.2. MOTIVACIÓN Y OBJETIVOS 17 modelos basados en datos y de control estadístico de procesos (Statistical Process Control, SPC). Sorsa [84] aplica con éxito perceptrones multicapa en la detección de fallos, usándolos como clasificadores. Díaz [3] muestra, en cuanto a la generación de residuos a partir de modelos basados en datos, las ventajas de enfoques que tienen en cuenta el dominio de los datos en la etapa de cálculo del modelo (GRNN, por ejemplo) frente a los que no (perceptrón multicapa, Radial Basis Functions networks,... ). Wilson [13] presenta un método en el que se halla un modelo basado en redes RBF (Radial Basis Functions), con el que se realiza una proyección de los datos en un espacio bidimensional y como criterio para detectar fallos se usa el error de modelado. Esto último también lo realiza Harris [39], pero por medio de una red SOM (Self-Organizing Map). También son posibles combinaciones de técnicas basadas en datos con las anteriormente mencionadas. Sugeno [86] estudia el modelado cualitativo basado en lógica difusa a partir de datos. De forma semejante, Lu [59] presenta un sistema de diagnóstico de fallos para automóviles basado en un sistema difuso, con la particularidad de que a partir de datos se deducen reglas y se ajustan las funciones de pertenencia. Bonissone [14] trata las combinaciones posibles entre las distintas técnicas de computación flexible (Soft Computing) aplicadas a tareas de diagnosis, control y predicción. Filippetti [34] hace una recopilación de recientes desarrollos en el diagnóstico de fallos en accionamientos de motores de inducción a través de técnicas de inteligencia artificial, concretamente sistemas expertos basados en reglas, redes neuronales, lógica difusa y neuro-fuzzy. Sin embargo, todas estas técnicas no pueden evitar completamente la posibilidad de detecciones erróneas, y muchas veces no dan información acerca de cómo se realizó cada diagnóstico concreto, o no proporcionan una medida de la fiabilidad de dichos diagnósticos. Esto puede llegar a hacer que el personal técnico desconfíe de los equipos de monitorización basados en éstas técnicas, o bien deje de confiar después de sucesivos diagnósticos erróneos. Un enfoque bien distinto es el proporcionado por la técnicas de visualización aplicadas a la monitorización de la condición [56] [83] [93] [13]. En ellas el diagnóstico final lo realiza el ser humano, gracias a que los datos se han transformado y se representan de forma que éste pueda aprovechar sus habilidades de procesamiento visual de la información, superiores a la de cualquier máquina. Para llevarlo a cabo se cuenta con numerosas técnicas de proyección no lineal, muy usadas en tareas de procesamiento de datos de alta dimensionalidad en numerosos campos de la ciencia, como el Self- Organizing Map (SOM) [53], Generative Topographic Mapping (GTM) [13], Curvilinear Component Analysis (CCA) [23], y otras [89] [79]. Esta tesis se centrará en este enfoque de visualización para la incorporación y extracción

18 18 CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVOS Técnicas basadas en modelos analíticos Técnicas basadas en conocimiento Técnicas basadas en datos Técnicas híbridas Ecuaciones de paridad Estimación de parámetros Observadores de estado Métodos cualitativos Sistemas expertos basados en reglas Sistemas de inferencia borrosos Clasificadores Redundancia analítica basada en datos Control estadístico de procesos Hibridación de técnicas de soft computing Técnicas de visualización Figura 1.1: Clasificación de técnicas de detección y diagnóstico de fallos. de conocimiento en la supervisión de procesos industriales Formulación del problema El planteamiento del problema de la supervisión de procesos complejos se puede realizar a través de la Teoría de Sistemas en Espacio de Estados (ver por ejemplo [69] para una explicación de las ideas básicas). El estado de un sistema (el proceso) puede ser descrito completamente por un conjunto de variables denominadas variables de estado. No existe un único conjunto de variables de estado para un sistema, pero lo que siempre se cumple es que el número de variables de estado en cada conjunto de un sistema es siempre el mismo. Sea x(t) el vector de variables de estado en cada instante de tiempo t. Este vector x(t) describe una trayectoria en el espacio de todos los posibles estados del sistema X R n, siendo n el número de variables de estado del sistema. Esta trayectoria será función del estado inicial del sistema x(t ), y de las entradas u(t) que reciba el sistema en cada instante t t. Esta relación se puede expresar como una ecuación diferencial, denominada ecuación de estado: ẋ(t) = f(x(t), u(t), t) (1.1)

19 1.3. FORMULACIÓN DEL PROBLEMA 19 Las variables de estado de un sistema no tienen por qué ser accesibles para medir, e incluso no necesariamente tienen interpretación física. Sin embargo, los valores de las medidas que se puedan tomar en el sistema, dependerán por un lado de su estado, y por otro de la entrada al sistema, lo cual se puede expresar con la llamada ecuación de salida: y(t) = g(x(t), u(t), t) (1.2) siendo y(t) un vector de medidas del proceso. La dependencia de t en (1.1) y en (1.2) expresa el hecho de que tanto f como g pueden ser, en caso general, variantes con el tiempo. Cuando se trata de procesos complejos, la dimensión del espacio de estados puede ser enorme, haciendo el problema del seguimiento del estado computacionalmente casi imposible. Sin embargo, manejar tal número de variables de estado puede ser totalmente innecesario para los objetivos que se suelen plantear en la supervisión de procesos. Esto es exactamente lo que ocurre, por ejemplo, en el estudio de un fluido. El estado de un fluido puede caracterizarse tanto por variables macroscópicas (presión, temperatura, volumen; tres dimensiones) como por variables microscópicas (posición y cantidad de movimiento de cada molécula; número de dimensiones de orden superior a 1 15 ). La elección de uno u otro punto de vista depende del nivel de detalle necesario para los objetivos del estudio. Así, por ejemplo, para determinar en qué fase se encuentra un fluido en equilibrio, bastan las variables macroscópicas presión y temperatura. Basándose en estas ideas, se puede definir condición de un proceso como un conjunto de estados del mismo que se etiquetan bajo el mismo nombre. La distinción del estado dentro de cada conjunto en general no será relevante para la supervisión. Es decir, una condición que podamos denominar normal, por ejemplo, corresponderá habitualmente a un conjunto de estados, y el conocimiento del estado concreto en cada instante no interesará. Como resultado, el espacio de estados del proceso quedará dividido en regiones y el problema será determinar en qué región se encuentra el proceso en cada instante, no el punto concreto. Un enfoque visual para la supervisión de procesos tiene como objetivo la representación gráfica de las regiones correspondientes a las diferentes condiciones de los procesos. Esto presenta un problema fundamental puesto que, como ya se dijo, las variables de estado pueden no ser accesibles para su medición. La deducción del valor de x(t) a partir de un vector de medidas y(t) en procesos complejos en general tampoco es posible, ya sea por la complejidad de f y g, o por la no observabilidad [69] de dichos procesos. Sin embargo, lo que se pretende no es hallar el valor de x(t), sino que se trata de detectar la presencia del proceso en uno de los conjuntos de

20 2 CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVOS estados, o condiciones. Cabe pensar que el vector de medidas y(t) puede llevar suficiente información sobre el estado para poder discernir en que condición se encuentra el sistema en cada instante. En general, esta hipótesis no es muy restrictiva y suele ser suficiente elegir de forma adecuada las variables a medir en el sistema para que su condición se refleje en el vector de medidas. Esta elección es lo que determina la función g. Como resultado, se traslada el problema de la representación de las regiones de las distintas condiciones en el espacio de estados a un problema equivalente pero en un espacio de medidas. La evolución a lo largo del tiempo del vector de medidas en su espacio puede ser muy complejo. Aun permaneciendo el proceso en una determinada condición, las medidas pueden estar variando de forma rápida y con patrones complicados. Esto provoca que las regiones correspondientes a las distintas condiciones del proceso estén fuertemente entrelazadas, resultando muy dificultosa su interpretación y separación en el mencionado espacio de medidas. Teniendo en cuenta esto, se pueden clasificar las señales del proceso en dos grandes grupos: Señales estáticas, que son señales que pueden considerarse invariantes respecto a la condición del proceso. Señales dinámicas, que son señales que varían aun permaneciendo constante la condición del proceso. De las señales estáticas se puede usar directamente su valor instantáneo para el vector de medidas. En cambio, sobre las señales dinámicas habrá que realizar un proceso denominado extracción de características que pretende obtener un vector de parámetros representativos de la dinámica de la señal (características) que sean constantes respecto a la condición del proceso 2. Se trata así de eliminar la información redundante presente en el complicado patrón de variación de la señal original y que no sirva para diferenciar condiciones del proceso. Como resultado de la extracción de características incluyendo los valores de las señales estáticas, que pueden considerarse resultado de una extracción de características trivial, o haber sufrido un filtrado para eliminar ruido de nuevo se ha trasladado el problema de un espacio a otro, en este caso de un espacio de medidas a un espacio de características. Finalmente, ya sólo queda abordar el problema de la representación gráfica de la trayectoria que será indicación de la condición del proceso en el espacio de características. Salvo procesos muy simples, el espacio de características tendrá una dimensión mayor de tres y no será, por tanto, representable 2 Es decir, que no cambien a menos que cambie la condición del proceso.

21 1.3. FORMULACIÓN DEL PROBLEMA 21 gráficamente. La solución consiste en realizar una proyección del espacio de características en un espacio que se pueda representar (2D, por ejemplo) que se denominará espacio de visualización. En principio se podrían poner dos objeciones a esta solución. La primera es que en el espacio de características aparecerán relaciones no lineales entre variables (características), al igual que ocurría en el espacio de estados original entre las variables de estado. En ese caso, el uso de una técnica de proyección lineal (por ser más simple) hará que probablemente se pierda información referente a la condición del proceso. Es decir, regiones correspondientes a distintas condiciones del proceso podrían aparecer proyectadas en el mismo lugar del espacio de visualización. Como segunda objeción, se podría argumentar que al proyectar se pierde toda la información sobre las variables del proceso que se tenía en el espacio de características y puesto que las características generalmente tendrán un significado físico acerca del proceso, convendría conservarlas. Para evitar el inconveniente apuntado por la primera objeción será necesario utilizar un método de proyección no lineal. Respecto al inconveniente citado en la segunda objeción, a lo largo de esta tesis se verá que empleando las técnicas adecuadas no sólo puede conservarse la información del proceso que se poseía en el espacio de características al proyectar sobre el espacio de visualización, sino que además se facilitará la extracción de nuevo conocimiento en dicho espacio de visualización que relacione variables del proceso del espacio de características. Un esquema que ilustra las ideas mencionadas en este apartado se muestra en la figura 1.2. El resto de esta tesis se distribuye de la siguiente forma. En el capítulo 2 se describen las diferentes técnicas existentes para la supervisión de procesos. En el capítulo 3 se explican las técnicas de reducción de la dimensión que servirán de base para el planteamiento del enfoque de Data Mining Visual para supervisión de procesos que se propondrá en el capítulo 4. Ello se complementa con una descripción, en el capítulo 5, de un método de aplicación de redundancia analítica aprovechando las mismas técnicas de proyección que se usan en Data Mining Visual. En el capítulo 6 se enmarcará este enfoque de Data Mining Visual aplicado a supervisión dentro de un estándar de Data Mining, como es CRISP-DM, y se describirá una implementación real de un sistema de supervisión que aplica las técnicas de los capítulos 4 y 5, un sistema denominado MAPREX. Por último, se muestran algunos resultados de aplicación a un motor de inducción en laboratorio y a un motor de continua de 6 kw de un tren de laminación en el capítulo 7, y se termina con las conclusiones y algunas propuestas de trabajo futuro dentro de la misma línea en el capítulo 8.

22 22 CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVOS El enfoque de Reducción de la Dimensión Espacio de Estados (Inaccesible) ~ 1 15 D Extracción de Características (EC) Usa conocimiento previo sobre la geometría de las regiones O sobre la física del proceso Conocimiento previo Técnica de Proyección (TP) se usa aquí para Pocas o ninguna hipótesis la interpretación sobre los datos. de las regiones. Típicamente aprovecha la estructura estadística de los datos. sensores EC TP? A priori B no physical meaning C Espacio de Medidas (Significado físico) ~ 1 5 D Espacio de Características (Todavía con significado físico) ~1 1 D Espacio de Visualización 2D, 3D Figura 1.2: Esquema de reducción de la dimensión para el enfoque visual de la supervisión de procesos.

23 Capítulo 2 Técnicas de Supervisión de Procesos 2.1. Introducción Para poder hablar acerca de supervisión de procesos es necesario definir previamente ciertos términos fundamentales. Se puede definir supervisión 1 como la monitorización de un sistema físico y la ejecución de las acciones apropiadas para mantener el funcionamiento en caso de fallo. A su vez, se entiende por monitorización (monitoring) como una tarea en tiempo real para determinar las condiciones de un sistema físico registrando información, y reconociendo e indicando anomalías en su comportamiento. Un fallo (fault) es una desviación no permitida de al menos una propiedad característica o variable del sistema respecto al comportamiento considerado aceptable/usual/estándar/nominal. Un fallo total (failure) es un fallo que implica una interrupción permanente de la capacidad del sistema para llevar a cabo una función requerida bajo condiciones de funcionamiento especificadas. Una perturbación es una entrada desconocida y no controlada actuando sobre el sistema. La detección de fallos (fault detection) es determinar si hay fallos presentes en el sistema. El aislamiento de fallos (fault isolation) es la determinación de la localización del fallo, es decir, de qué componente ha fallado. La identificación de fallos (fault identification) es la determinación de la cuantía y el comportamiento a lo largo del tiempo de un fallo. Así, el término diagnóstico de fallos (fault diagnosis) de forma genérica suele referirse algunas veces a detección, aislamiento e identificación de fallos, y otras solamente a aislamiento e identificación de fallos. En la bibliografía 1 Estas y otras definiciones en este apartado han sido tomadas de [45]. 23

24 24 CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS ruido fallos perturbación entradas PLANTA salidas Generador de residuos (con modelo de la planta) residuos Método de decisión diagnóstico Figura 2.1: Diagrama de bloques de la aplicación de redundancia analítica. están bien asentados términos como detección y aislamiento de fallos (FDI, Fault Detection and Isolation) y detección, aislamiento e identificación de fallos (FDII, Fault Detection, Isolation and Identification). El problema de la detección, aislamiento e identificación de fallos es un subconjunto del problema de la supervisión, puesto que en principio no incluye la actuación sobre el sistema estudiado para llevarlo al funcionamiento considerado correcto. Sin embargo, si se puede llegar hasta la identificación del fallo, la acción correctora a realizar suele ser inmediatamente deducible, además de ser muy específica del problema y proceso concreto. Son muchas las herramientas usadas en el problema de la detección, aislamiento e identificación de fallos. Generalmente las técnicas usadas para ese fin se basan en el uso de modelos del sistema, en muy diversas formas, que son usados como referencia para comparar con el comportamiento real del sistema y descubrir fallos (desviaciones en el comportamiento del sistema). Esta idea, denominada redundancia analítica deriva del uso que se hizo tradicionalmente de múltiples elementos (sensores, indicadores, etc.) realizando la misma función (midiendo la misma magnitud) para poder ser comparados y detectar fallos en ellos 2 y a lo que se denomina redundancia física. Un esquema de un sistema de redundancia analítica se representa en la figura 2.1. Existe una clase de métodos, muy empleados, denominados métodos de 2 Con dos se detecta que hay fallo, con más se puede detectar qué elemento, o elementos, según número, han fallado.

25 2.2. TÉCNICAS BASADAS EN MODELOS ANALÍTICOS 25 umbral que, estrictamente hablando, usan modelos muy burdos, en ciertos casos consistentes en la comprobación de límites y el análisis frecuencial (o modelos de señales en general, como lo denomina Isermann [46] [44]). Los modelos más simples después de los mencionados, menos frecuentemente aplicables en procesos complejos, son los modelos lineales. Los modelos lineales de sistemas han sido ampliamente estudiados por la Teoría de Control y para ellos existen multitud de técnicas aplicables a detección de fallos. Otra forma de modelar sistemas, aplicable ya a sistemas más complejos, deriva de la llamada física cualitativa. Los modelos cualitativos son descripciones no numéricas de los sistemas y están orientados a captar los aspectos fundamentales del sistema o mecanismo, suprimiendo gran parte del detalle y manteniendo las propiedades más significativas de su comportamiento. Los sistemas expertos basados en reglas y los sistemas borrosos de inferencia se basan también en este conocimiento impreciso típico del ser humano. Muchas veces no se dispone ni de modelos analíticos ni de conocimiento del proceso pero sí de una cantidad ingente de datos provenientes del mismo. En estos casos tradicionalmente se han aplicado técnicas estadísticas y, más recientemente, han aparecido técnicas que apenas dependen de una estructura fija para el modelo y sí más de un gran número de parámetros que se obtienen a partir de los datos por medio de un aprendizaje o entrenamiento. Las redes neuronales, por ejemplo, son buenos aproximadores de funciones no lineales y son por tanto muy útiles cuando se trata con sistemas complejos. En los siguientes apartados se profundizará algo más en todas éstas técnicas y en sus ámbitos de aplicación, que dependen de la información previa que se tenga del sistema o proceso Técnicas basadas en modelos analíticos Las técnicas basadas en modelos analíticos son aplicables cuando se tienen modelos analíticos del sistema (ecuaciones explícitas). Esto ocurre especialmente con sistemas lineales. En muchos casos, sin embargo, no son aplicables estos métodos porque los modelos disponibles son sólo aproximaciones que no son lo suficientemente precisas [7] [44].

26 26 CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS Ecuaciones de paridad Se basa en expresar el comportamiento del sistema por medio de ecuaciones diferenciales 3 lineales explícitas de la forma: f i (x) = i = 1,..., n (2.1) donde x es el vector de variables y sus derivadas. Cuando, en un momento determinado de la evolución del proceso, no se cumple el modelo dado por esas ecuaciones debido a un fallo se obtiene: f i (x) = ɛ i i = 1,..., n (2.2) donde al menos un ɛ i es distinto de cero. Esos ɛ i se denominan residuos. Un residuo es, en general, un indicador de fallo basado en la desviación entre medidas y cálculos derivados de modelos del sistema. La utilidad de los residuos no reside sólo en su capacidad para detectar fallos, sino también para aislarlos. Esto es posible transformando las ecuaciones de forma que cada ɛ i sea indicador de un determinado fallo [37] [38]. Realmente los residuos nunca son exactamente nulos debidos a imprecisiones del modelo y ruidos en las medidas. Debido a ellos hay que aplicar sobre los residuos métodos de decisión Estimación de parámetros Los métodos de estimación de parámetros se basan en modelos analíticos para detectar e identificar los fallos a través de desviaciones en los parámetros del proceso respecto a valores esperados. Los parámetros del proceso pueden estimarse de forma continua (on line) a través de técnicas como RLS, el filtro de Kalman, etc. Un caso especialmente interesante se presenta cuando los parámetros tienen un significado físico claro (la resistencia del rotor en un motor de inducción, por ejemplo [6]). En esos casos es inmediata la aplicación de conocimiento experto para el aislamiento de los fallos. Una forma particular de estimación de parámetros se aplica cuando existe una variable que no es medible o fácilmente medible directamente, pero se puede deducir de otras variables que si están accesibles para su medición. Las técnicas que se emplean con este fin suelen recibir el nombre de sensores virtuales [73]. 3 O ecuaciones en diferencias para sistemas muestreados.

27 2.3. TÉCNICAS BASADAS EN CONOCIMIENTO Observadores de estado Este tipo de métodos también están basados en modelos analíticos. Se detectan e identifican los fallos a través de la estimación del estado por medio de técnicas como el filtro de Kalman, el filtro de Wiener, etc., denominados, en general, observadores Técnicas basadas en conocimiento Cuando no se dispone de modelos analíticos del proceso, una alternativa la constituye lo que se puede denominar como técnicas basadas en conocimiento. Estas técnicas hacen uso del conocimiento acerca del proceso de carácter incompleto e impreciso, típico del ser humano, y que es codificado y representado de diversas formas, como se verá a continuación Métodos cualitativos Una forma de modelar sistemas aplicable a sistemas complejos deriva de la llamada física cualitativa o también razonamiento cualitativo [35] [57]. Los modelos cualitativos son descripciones no numéricas de los sistemas y están orientados a captar los aspectos fundamentales del sistema o mecanismo, suprimiendo gran parte del detalle y manteniendo las propiedades más significativas de su comportamiento. Por medio de simulación cualitativa se puede obtener la evolución del sistema a través de diferentes estados cualitativos. Un ejemplo puede ser la descripción del estado cualitativo de un balón subiendo: la posición del balón está ascendiendo y la velocidad hacia arriba está descendiendo. Posteriormente, por simulación cualitativa, se obtendría el resultado de que el balón en algún punto de su ascenso se detendrá y comenzará a descender (sucesión de estados cualitativos). En muchos casos, dependiendo del nivel de detalle de la información que se usa en la simulación (resolución), pueden obtenerse diferentes soluciones alternativas para dicha sucesión de estados. Para intentar eliminar estas ambigüedades se puede añadir información cuantitativa. Una simulación semicuantitativa es una simulación cualitativa que usa información cuantitativa, como valores numéricos o intervalos, para restringir (acotar) sus resultados [95] [47].

28 28 CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS Sistemas expertos basados en reglas Los sistemas expertos basados en reglas (rule-based expert systems) identifican fallos por medio de conocimiento sobre el proceso puesto en forma de un conjunto de reglas SI-ENTONCES de la forma: SI síntoma ENTONCES conclusión donde la conclusión de una regla puede servir como síntoma de otra. El sistema experto las evalúa hasta que llega a conclusiones finales que serán sobre la existencia o no de fallos y su aislamiento. Los síntomas en las primeras reglas del árbol de deducciones serán relaciones de observaciones en el proceso (medidas de variables o valores derivados de éstas, propiedades del proceso que pueden ser percibidas por el operador, etc.) [34] [37] [76]. El conjunto de reglas que usa el sistema experto se denomina base de conocimiento. El elemento que realiza el proceso de razonamiento o decisión se denomina motor de inferencia Sistemas de inferencia borrosos Los sistemas de inferencia borrosos (FIS, Fuzzy Inference System) son semejantes a los sistemas basados en reglas del apartado anterior en cuanto a que el conocimiento se expresa en forma de reglas SI-ENTONCES. Sin embargo, los sistemas borrosos son mucho más adecuados cuando se trata con información vaga, imprecisa e incompleta [48] [58]. Un sistema de inferencia borroso (en adelante FIS), cuyo esquema se muestra en la figura 2.2, incluye tres elementos: Un conjunto de reglas, que codifican un conocimiento disponible. Un conjunto de funciones de pertenencia, cuya finalidad es codificar y decodificar información numérica en información difusa (borrosa). Un mecanismo de razonamiento, que realiza la inferencia a partir de las reglas y unas variables de entrada o hechos para obtener unas variables de salidas o conclusiones. Un FIS funciona de la siguiente manera 4. Las variables de entrada pueden ser crisp (valores numéricos concretos) o fuzzy (valores imprecisos). Lo que en la figura 2.2 aparece como (x es A 1 ) es una forma compacta de expresar: (x 1 es A 1 1) y (x 2 es A 2 1) y... y (x n es A n 1) 4 Como ejemplo de FIS se va a explicar el caso de un FIS Mamdani.

29 2.3. TÉCNICAS BASADAS EN CONOCIMIENTO 29 Regla 1 w 1 x es A 1 y es B 1 (Fuzzy) Regla 2 x (Crisp o fuzzy) w 2 x es A 2 y es B 2 Agregador (Fuzzy) (Crisp) Defuzzificador y x es A r Regla r w r y es B r (Fuzzy) Figura 2.2: Diagrama de bloques de un sistema de inferencia borroso. que es el antecedente de la regla. Con (x 1 es A 1 1) se está evaluando la pertenencia del valor de x 1 a un conjunto borroso denominado A 1 1. Al contrario que en la teoría de conjuntos crisp tradicional, donde la pertenencia de un elemento a un conjunto sólo puede ser pertenece o no pertenece (1 o respectivamente), en los conjuntos borrosos la pertenencia puede ser cualquier valor real en el intervalo [, 1], indicando un mayor grado de pertenencia cuanto más se acerque dicho valor a 1. La pertenencia de una variable a un conjunto borroso se define por medio de una función de pertenencia que tiene el mismo dominio que la variable en cuestión y devuelve valores en el intervalo [, 1]. Los resultados de evaluar los (x i es A i j) se combinan por los operadores lógicos ( y, o ) que intervengan en cada regla (en el ejemplo sólo hay y ). Estos operadores lógicos se denominan respectivamente t-norma y t- conorma, y existen varias opciones en cuanto la elección de estos operadores mientras cumplan ciertas condiciones. Se suelen tomar las funciones mínimo y máximo respectivamente. El siguiente paso es evaluar el consecuente entonces (y es B i ). La implicación consiste en recortar la función de pertenencia que aparece en el consecuente, que en este caso denominamos B i, con el resultado que se obtuvo en el antecedente w i (grado de cumplimiento o fuerza de activación). Como resultado se obtiene una nueva función de pertenencia (variable borrosa). Todo estos pasos se realizan para cada regla. Posteriormente hay que agregar los resultados de todas las reglas para obtener un único resultado

30 3 CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS borroso. Ello se suele hacer con una t-conorma (la función máximo, por ejemplo). Finalmente, si lo que se necesita es un resultado crisp, hay que realizar lo que se denomina defuzzificación, que consiste en extraer un único valor a partir de la función de pertenencia resultado de la agregación de las reglas. Existen varios métodos para realizarlo, como pueden ser el centroide del área bajo la función, el bisector de dicha área, la media de los puntos donde la función de pertenencia es máxima, el extremo superior de los puntos donde es máxima, el extremo inferior de los puntos donde es máxima, etc. Se puede observar que un FIS es equivalente a una función no lineal y = f(x), o lo que es lo mismo, una hipersuperficie, y puede constituir, por tanto, un modelo de un proceso [86] [48] [58] [59] [9]. Esta idea se utiliza en el apartado Técnicas basadas en datos Además de los modelos analíticos y el conocimiento físico que se tiene del funcionamiento de un proceso, existe otra importante fuente de información acerca del mismo: las magnitudes medibles en él durante su funcionamiento Clasificadores Los clasificadores son un conjunto de técnicas incluidas en la disciplina denominada Reconocimiento de Patrones que sirven para indicar a qué grupo pertenece un dato muestra de entre un conjunto de grupos predeterminados. Este tipo de técnicas son muy útiles cuando se dispone de datos del proceso para los diferentes estados o tipos de fallos que se quieren detectar, que aparecerán en dichos datos como agrupaciones. Al implementar un clasificador, se le proporcionan los datos de los que se dispone y, posteriormente, ante datos nuevos decide a qué grupo de los datos proporcionados previamente pertenecen. Algunos métodos generan además una probabilidad o grado de pertenencia a cada uno de los grupos, que da una idea de la fiabilidad de la clasificación de cada nuevo dato. Existen multitud de tipos de clasificadores, pero en los siguientes subapartados sólo se menciona un pequeño número de ellos. Una descripción más completa puede encontrarse en bibliografía de Reconocimiento de Patrones [12] [32] [9]. Clasificadores no supervisados Los clasificadores no supervisados (también llamadas técnicas de clustering) no necesitan conocer de antemano la pertenencia de cada dato de

31 2.4. TÉCNICAS BASADAS EN DATOS 31 entrenamiento para realizar los agrupamientos, por lo que estas técnicas se pueden aplicar cuando no se dispone de dicha información. Si se dispone de ella, sin embargo, esa información puede utilizarse posteriormente para evaluar la calidad de los agrupamientos y para etiquetar (ponerle nombre) a cada grupo. Existe una enorme variedad de métodos de clasificación no supervisados. Entre los métodos más conocidos con origen estadístico se tiene k-means. Una generalización de éste empleando funciones de pertenencia borrosas es el llamado fuzzy c-means, que proporciona un grado de certeza de pertenencia a cada grupo de datos. También existen clasificadores no supervisados entre las redes neuronales, como el Self-Organizing Map (SOM). Existen también técnicas que realizan agrupamientos a distintos niveles de detalle. Son las técnicas de Agrupamiento Jerárquico, que pueden tener dos enfoques: aglomerativo, que partiendo de datos individuales van creando grupos cada vez más grandes, y partitivo, que parten de un único grupo que se descompone progresivamente en grupos más pequeños. Clasificadores supervisados Estas técnicas de clasificación de patrones aprovechan la información suministrada por un tutor externo, relativa a la pertenencia a grupos predeterminados de los datos que se usan en su aprendizaje. Entre los métodos con base estadística se encuentran, por ejemplo, los clasificadores de Bayes y el discriminante de Fisher. Otros métodos son Learning Vector Quantization (LVQ) [53] [54], Support Vector Machines [81], redes neuronales feedforward [1] [12] [36] y redes RBF (Radial Basis Functions) [12] [41]. El uso de clasificadores supervisados permite la aplicación posterior de la filosofía del razonamiento basado en casos (Case-Based Reasoning), que para supervisión de procesos consistiría en la interpolación y extrapolación sobre casos ya conocidos en cuanto a diagnóstico y aplicación de acciones correctoras Redundancia analítica basada en datos Una característica deseable en los métodos de clasificación aplicados a FDI es poder detectar novedades (novelty detection), o lo que es lo mismo, datos que no pertenecen a ninguno de los grupos predeterminados y que, por tanto, corresponderán con condiciones nuevas del proceso, condiciones que no se presentan en los datos disponibles previamente. Esta característica está muy relacionada con la generación de residuos. La generación de residuos

32 32 CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS a partir de modelos no sólo es posible con modelos analíticos, sino también con modelos que se pueden denominar basados en datos. Puede decirse que un modelo basado en datos se diferencia de uno analítico en que su estructura es bastante genérica y polivalente, es decir, aplicable a cualquier sistema, lineal o no lineal. En un modelo analítico tiene tanta importancia (o quizá más) la estructura como los parámetros. En un modelo basado en datos, sin embargo, la dificultad estriba en encontrar unos parámetros adecuados. Dichos parámetros se hallarán por aprendizaje o entrenamiento a partir de datos tomados del proceso. Este aprendizaje o entrenamiento consiste en la aplicación de métodos de optimización de una función objetivo relacionada con el error de ajuste a los datos de entrenamiento. La idea básica de la redundancia analítica basada en datos es semejante a la de modelos analíticos. Se le introduce al modelo un vector de variables (características) del proceso y el generador de residuos devuelve un vector de residuos que da indicaciones de fallos. En sucesivos capítulos se verá que usando una técnica de proyección (proyección lineal, red neuronal autoasociativa, mapa topológico, etc.) el generador de residuos puede consistir en proyectar el vector de variables del proceso en el subespacio topológico definido por el modelo de datos, siendo el vector de residuos la diferencia entre en el original y el proyectado [14] [13] [26] [3] Control estadístico de procesos El control estadístico de procesos (Statistical Process Control, SPC) ha sido tradicionalmente aplicado al control de calidad de productos de fabricación por lotes (batch). Básicamente trata de comparar el estado actual del proceso con las condiciones operativas consideradas normales; cuando no está en dichas condiciones normales, se dice que el proceso está fuera de control. Los métodos clásicos se basan en la representación en gráficas de la evolución de unas pocas características de calidad obtenidas en cada lote a partir de muestras del producto final. Los gráficos de Shewhart, CUSUM y EWMA (Exponentially Weighted Moving Average), son métodos monovariable de este estilo [4], aunque también existen versiones multivariable de los mismos. Recientemente se ha derivado hacia enfoques multivariable y on line, más precisos y que permiten acciones correctoras inmediatas sobre el proceso. Ejemplos de este último enfoque son las técnicas Multiway Principal Component Analysis (MPCA) y Multi-way Partial Least Squares (MPLS), muy relacionadas con las técnicas de visualización multivariable del siguiente apartado, y los gráficos de contribución (contribution plots) [63] [42] [33].

33 2.5. TÉCNICAS HÍBRIDAS Técnicas híbridas La clasificación expuesta en este capítulo no pretende abarcar todos los casos posibles, sino quizá los más relevantes en la bibliografía sobre diagnóstico de fallos. Sería importante resaltar que también existen múltiples combinaciones de muchos de ellos, que podríamos denominar técnicas híbridas, y que intentan aprovechar las ventajas de cada técnica, combinando información sobre el proceso de las diversas fuentes: modelos analíticos, conocimiento, datos [14]. El conocimiento a priori particularmente está presente en formas muy diversas y sutiles en forma lingüística, en imágenes,... y todos ellos generalmente son de carácter impreciso, difuso. Los métodos matemáticos que aprovechan estas características de la forma de razonar del ser humano están en auge en los últimos años. Debido a este carácter heterogéneo del conocimiento, muchos de esos métodos hay que clasificarlos como técnicas híbridas puesto que combinan técnicas que por separado se ocupan de un sólo aspecto de la forma de razonar del ser humano. Como primeros ejemplos de aplicación práctica se pueden mencionar la combinación de métodos analíticos con métodos basados en conocimiento como la lógica borrosa [46] [7] [3], el uso de métodos de datos para obtener una interpretación cualitativa [11], sistemas expertos y redes neuronales [99], y la generación de reglas borrosas y funciones de pertenencia a partir de datos [59] [68]. Un caso en el que la hibridación se da frecuentemente es entre técnicas de soft computing. Soft computing (computación flexible) es un grupo de metodologías de computación que incluye la lógica borrosa, las redes neuronales, la computación evolutiva y la computación probabilística [14]. En general son todas metodologías que aprovechan la tolerancia a la imprecisión, la incertidumbre y la verdad parcial para conseguir maleabilidad, robustez, bajo coste en la solución, y mayor compenetración con la realidad. Está especialmente extendida la combinación de redes neuronales con lógica borrosa, aportando las primeras su capacidad para aprender de datos y añadiéndose la posibilidad de interpretar lo aprendido de los datos en términos de lógica borrosa [66] [34] [48] [58]. Un ejemplo de hibridación de computación evolutiva con redes neuronales es el uso de la primera para la elección de la topología o el cálculo de los pesos de las segundas. Un caso particular de hibridación, que se considerará aparte por constituir el tema central de esta tesis, es el caso de las técnicas de visualización.

34 34 CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS Técnicas de visualización El objetivo final de prácticamente todas las técnicas mencionadas hasta ahora es el de detectar y dar diagnósticos de fallos, desde los más incipientes hasta los más severos, a través de la información recogida del proceso en diversas formas y de múltiples procedencias principalmente datos, pero también información proveniente de los sentidos (información visual, auditiva, olfativa, etc.) que es comparada con los modelos del proceso generados a partir de información y conocimiento acerca del proceso disponibles previamente, también en varias formas. Todo ello es realizado generalmente de forma automática 5 por el sistema de diagnóstico, que es una máquina (computador). Sin embargo, con este enfoque, las habilidades del ser humano en cuanto a reconocimiento de patrones (sobre todo de forma visual), superiores a las de cualquier máquina, no son aprovechadas. La idea de las técnicas de visualización es traducir modelos de comportamiento complejos a forma visual [15] [5] [51] [52]. La información se puede codificar para fluir a través de diversos canales visuales de transmisión multidimensional: color, tamaño, posición, forma, movimiento. El espectador (observador), posteriormente, pasa de patrones visuales a la abstracción, genera modelos mentales, razona con ellos e incluso puede filtrar ruido empleando conocimiento a priori. Por supuesto, para que todo ello sea efectivo hay conseguir reducir una cantidad ingente de datos a la información estrictamente necesaria y útil, y elegir las formas de representación gráfica más adecuadas. Esta tesis transcurrirá en esta línea de aplicación de técnicas de visualización. Así, el enfoque aquí adoptado consiste en aplicar las técnicas de reducción de la dimensión para proyectar datos del proceso con multitud de variables sobre un espacio visualizable, para posteriormente cartografiar este espacio, relacionando cada zona con cada condición del proceso, pudiendo usar para este fin conocimiento expresable en forma de reglas difusas (mapas borrosos), modelos analíticos conocidos (mapas de modelos) y casos conocidos datos etiquetados (mapas de activación). Este enfoque también hace posible la extracción de nuevo conocimiento acerca del proceso (data mining, minería de datos) en este espacio de visualización (mapas de correlaciones), dejando todavía la puerta abierta a numerosas ideas dentro de esta misma línea. 5 O semiautomática. Obviamente la información recogida por los sentidos del operario o técnico, por ejemplo, debe introducirse en el sistema de diagnóstico de forma manual.

35 Capítulo 3 Técnicas de Reducción de la Dimensión 3.1. Introducción Las técnicas de reducción de la dimensión se usan típicamente en problemas con manejo de datos de alta dimensionalidad (gran número de variables). Los objetivos más comunes que justifican el empleo de técnicas de reducción de la dimensión son esquivar inconvenientes como la maldición de la dimensionalidad (curse of dimensionality), la mejora de la capacidad de generalización en clasificadores y la reducción de los requerimientos computacionales en la clasificación de patrones [62]. En el marco de Data Mining Visual, en el que se encuadra esta tesis, el objetivo es llegar hasta un espacio visualizable (2D, 3D) donde sean representables los conceptos procedentes del espacio multidimensional original, que son con los que es posible razonar. En la aplicación de Data Mining Visual a procesos complejos son imprescindibles las técnicas de reducción de la dimensión, incluso varias usadas en cadena, puesto que tales procesos son, por naturaleza, de una altísima dimensionalidad. Se puede realizar una clasificación de estas técnicas atendiendo a la aplicación de conocimiento previo, de los datos y del problema en sí, que requieren: Selección de variables. Puede realizarse tanto usando conocimiento previo como sin él (de forma automática). Extracción de características. Generalmente se aplica conocimiento previo en la elección de características. Técnicas de proyección. No suelen aplicar conocimiento previo, sino sólo consideraciones en la geometría de la distribución de los datos. 35

36 36 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Además, este orden expuesto suele ser en general el orden de aplicación a los datos de este tipo de técnicas, y en particular para Data Mining Visual. A lo largo de este capítulo se describirán diversas técnicas disponibles de los tres tipos, haciendo especial énfasis en aquellas más útiles para Data Mining Visual Selección de variables Cuando el número de variables del proceso disponibles inicialmente es extremadamente grande, de tal forma que aparecen problemas derivados de la maldición de la dimensionalidad (curse of dimensionality) [7], puede ser necesario un paso previo de selección de variables, que puede realizarse tanto aplicando conocimiento a priori escogiendo variables que ya se sabe que son significativas en cuanto a la condición del proceso como por métodos estadísticos basándose en medidas de la cantidad de información que contiene cada variable o grupo de variables. Un esquema típico para la selección del subconjunto de variables óptimo por métodos estadísticos tiene dos partes: 1. Escoger un criterio de selección: para decidir de entre dos subconjuntos de variables cual es mejor. Cuando se trata de diseño de clasificadores para reconocimiento de patrones, el criterio suele ser la minimización del error de clasificación. En otros casos los criterios pueden derivar de la Teoría de la Información (entropía, información mutua, etc.). Entre posibles criterios de selección se encuentran los métodos de contrastes de hipótesis y los de medidas de separabilidad de clases (divergencia 1, límite de Chernoff y distancia de Brattacharyya, matrices de dispersión). 2. Ejecutar un procedimiento de búsqueda: escoger subconjuntos de variables para compararlos posteriormente por medio del criterio de selección mencionado. Para esta búsqueda existen multitud de métodos: Búsqueda exhaustiva (exhaustive search). Rama y límite (branch and bound). Selección secuencial hacia adelante (sequential forward selection). Genera soluciones no óptimas pero es más rápido. 1 Una forma de la medida de distancia Kullback-Leibler.

37 3.3. EXTRACCIÓN DE CARACTERÍSTICAS 37 Eliminación secuencial hacia atrás (sequential backward elimination). Al igual que el anterior genera soluciones no óptimas pero es más rápido. Búsqueda flotante (floating search). Algoritmos de Programación Dinámica. Estos métodos son también aplicables a características (resultado de extracciones de características, que se verán en el siguiente apartado) en lugar de a variables. En ese caso, estos métodos se pueden denominar pasivos porque seleccionan características de entre las ya obtenidas. Existen también métodos que se pueden denominar activos que tratan de hallar características que sean óptimas. Se puede encontrar abundante información sobre estas técnicas en algunas de las referencias clásicas de Reconocimiento de Patrones [12] y [9] Extracción de características El primer obstáculo que se encuentra al interpretar los datos que se generan en un proceso es el gran volumen de los mismos. Los datos pueden imaginarse organizados como una gran matriz en la que las filas son las m variables del proceso y las columnas son las n sucesivas muestras de dichas variables tomadas a lo largo del tiempo, como se puede ver en la figura 3.1. El número total de datos vendrá dado por el producto de ambos valores: m n. Una de las justificaciones del proceso de extracción de características es la pretensión de reducir este valor. La razón es la gran carga computacional que suele conllevar en pasos posteriores ese gran volumen de datos. Otra razón para aplicar una extracción de características a los datos procedentes de un proceso es la reducción de la complejidad en la variaciones de los datos. El objetivo último es la detección de diferentes condiciones en el proceso y un patrón de variación complejo en los valores de sus variables a lo largo del tiempo dificulta dicho objetivo. Se trata, en definitiva, de obtener un vector de características invariante a la condición, es decir, que no cambie a menos que cambie la condición del proceso, como se planteó en el apartado 1.3. Respecto a este problema de búsqueda de invarianza ante la condición se puede hablar de dos tipos de señales: 1. Señales estáticas. Son señales consideradas invariantes respecto a la condición del proceso. De ellas se usarán como características sus valores instantáneos (o filtrados, medias, para eliminar ruidos). Ejemplo típico de señal estática es la temperatura.

38 38 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN 2. Señales dinámicas. Son señales que varían aun permaneciendo el proceso dentro de una condición dada. Requieren la aplicación de técnicas que generen características que sean invariantes respecto a la condición. Ejemplo de ello pueden ser las técnicas de análisis espectral, para la obtención de energías en determinadas bandas de frecuencias de cada señal. En estos caso puede obtenerse más de una característica por cada variable del proceso (varias bandas) o puede interesar caracterizar una señal dinámica por un único valor (su valor eficaz por ejemplo). Ejemplo típico de señal dinámica es la vibración. Teniendo en cuenta esto, hay que resaltar que con la extracción de características sobre señales dinámicas se está, de alguna forma, encapsulando la dinámica en las características, convirtiendo así un problema con dinámica en un problema estático. A la hora de escoger las características que se obtendrán a partir de las variables del proceso hay que aplicar conocimiento a priori. El decidir si una determinada señal es considerada estática o dinámica implica un conocimiento sobre la forma de variación de la misma dentro del proceso. Asimismo, en las señales dinámicas sobre las que se aplique análisis espectral, hay que saber previamente qué bandas de frecuencia contienen información que sea significativa en cuanto a descubrir el estado en el que se halla el proceso en cada instante. Como resultado de la extracción de características obtendremos un conjunto de datos que nuevamente se podrán organizar como una matriz de M filas, que corresponderán con cada una de las características, y N columnas que se denominarán muestras y que estarán relacionadas con el tiempo (figura 3.1). Debido al primer objetivo de reducción del número total de datos, se pretenderá que se cumpla: M N < m n (3.1) Hay que mencionar que cuando hay señales dinámicas, el número de características M puede ser mayor que el número de variables que se usaron en la extracción de características m. Por lo tanto, a la hora de escoger características de señales dinámicas, hay que tener siempre presente la maldición de la dimensionalidad para no excederse en el número de éstas. La extracción de características es un paso común a muchas de las técnicas basadas en datos mencionadas en el capítulo anterior, y conviene recalcar la importancia de la extracción de características en cuanto a la efectividad del uso posterior de los datos, sea mediante una técnica estadística o una red neuronal. En cuanto a la proyección de la trayectoria de estado tratada en esta tesis, un adecuado diseño de esta etapa puede significar la diferencia

39 3.3. EXTRACCIÓN DE CARACTERÍSTICAS 39 n muestras m variables EXTRACCIÓN DE CARACTERÍSTICAS M características N muestras Figura 3.1: Estructuras de datos en extracción de características. entre un comportamiento errático del puntero de estado o una pequeña deriva que apunta a un fallo inminente en el proceso Normalización A veces las variables a medir en un sistema o proceso son de magnitudes muy dispares, como por ejemplo temperaturas cercanas a la ambiente en Kelvin (del orden de 1 2 ) y presiones alrededor de la atmosférica en Pascales (del orden de 1 5 ). Sin embargo las técnicas que más adelante se aplicarán sobre los datos suelen ser sensibles a diferencias en el valor relativo de las variables sobre las que se aplican 2. Para paliar este problema es aconsejable realizar lo que se denomina normalización de los datos. La forma más sencilla de normalización es realizar una transformación lineal en cada variable de forma que todos los datos disponibles queden contenidos en el intervalo [ 1, +1]. Aunque simple, este tipo de normalización a [ 1, +1] tiene el inconveniente de que no produce un buen resultado en presencia de outliers (valores atípicos). Otra forma de hacerlo, sin este inconveniente, es usando para una variable x: x = 1 N x k N σ 2 = k=1 1 N 1 N (x k x) 2 (3.2) k=1 siendo la nueva variable normalizada x: x = x x σ (3.3) 2 Este problema suele reflejarse en una mayor influencia de las variables de mayor valor relativo en las funciones de coste, funciones de error o al considerar distancias euclídeas en el espacio de los datos, lo cual la mayor parte de las veces no es lo que se pretende.

40 4 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Este método trata cada variable independientemente. Hay otro método de normalización conocido como whitening que tiene en cuenta las correlaciones entre variables. En este caso se usarán las variables x i agrupadas en un vector x = (x 1,..., x d ) T, con vector de media y matriz de covarianzas para N puntos: x = 1 N Σ = N x k (3.4) k=1 1 N 1 N (x k x)(x k x) T (3.5) k=1 y los vectores transformados se obtienen por x = Λ 1/2 U T (x x) (3.6) donde U es la matriz que tiene como columnas los vectores propios de Σ y Λ la matriz diagonal con los valores propios correspondientes. Sin embargo, ninguno de estos tipos de normalización aprovecha conocimiento previo sobre los límites posibles de variación de las variables. Esto puede generar problemas en ciertos casos, cuyo extremo tendría lugar cuando se usan datos en los que algunas de las variables no presentan ninguna variación a lo largo de toda su historia. Si se usasen estos métodos de normalización se estaría amplificando el ruido existente en las muestras de estas variables, poniéndolo al mismo orden de magnitud que las otras variables. Por ello, en determinadas circunstancias se sugiere un método de normalización que no se basa sólo en características estadísticas de los datos y que es más acorde con el significado físico de las variables: valores por unidad. x = x p. u. = Técnicas de análisis espectral x x base (3.7) Cuando en un proceso hay máquinas rotativas o alternativas, aparecen señales de las que antes se habían denominado dinámicas y que son más fáciles de tratar es más fácil conseguir características invariantes frente a una condición en el dominio de la frecuencia. Las técnicas que sirven para pasar del dominio temporal al frecuencial son la técnicas de análisis espectral. En los siguientes subapartados se describirán varias técnicas de análisis espectral. Sin embargo hay que resaltar que la FFT, que se incluye dentro del siguiente subapartado, es, con mucho, la más utilizada, debido quizás a características como rapidez de cálculo, generalidad y facilidad de aplicación.

41 3.3. EXTRACCIÓN DE CARACTERÍSTICAS 41 La Transformada de Fourier Discreta (DFT) La Transformada de Fourier Discreta (Discrete Fourier Transform, DFT) permite expresar en el dominio de la frecuencia señales que son discretas y periódicas en el dominio del tiempo. Para una secuencia {x k } de N muestras (un periodo de la señal), la DFT se define como: DFT(x k ) = F n = N 1 k= x k e j 2π N kn, k =, 1,..., N 1 (3.8) La DFT así expresada tiene un coste computacional O(N 2 ), lo que la hace inviable en señales de cierta envergadura. Sin embargo, tiene la ventaja de disponer de una versión del algoritmo muy rápida, con un coste O(N log N), denominada Transformada Rápida de Fourier (Fast Fourier Transform, FFT), que puede aplicarse cuando el número de muestras N es potencia de dos. Dada una señal con N muestras, la FFT genera otros N valores complejos, F n, cada uno de los cuales corresponde con el armónico de frecuencia f n, de valor: f n = n f m n =, 1,..., N 1 (3.9) N siendo f m la frecuencia de muestreo. Pese a que la FFT está indicada para señales periódicas, se aplica a señales que no lo son, estrictamente hablando, porque las ventajas que ofrece, sobre todo de rapidez de cálculo, son mayores que sus inconvenientes. Así, puede usarse para obtener estimaciones del espectro de frecuencia de señales y después, de éste, extraer características que sean valores de amplitudes de determinados armónicos, o bien energías o valores eficaces en determinadas bandas de frecuencia de las señales del proceso. Una forma de usar la FFT con una secuencia indefinidamente larga, de tal manera que se obtenga su espectro a lo largo del tiempo, es dividir esta secuencia en sucesivos intervalos solapados y aplicar la FFT a cada uno de los intervalos. Hay que tener en cuenta que a más tamaño de los intervalos menos resolución temporal y más frecuencial, y viceversa. Es lo que se denomina Short-Time Fourier Transform o espectrograma (figura 3.2). Como se mencionó, la FFT tiene un inconveniente al aplicarse a señales que no son realmente periódicas (o a porciones con periodos no enteros de señales periódicas) consistente en una deformación lóbulos, side-lobes en el espectro. Para disminuir este efecto, que se denomina derrame espectral (spectral leakage), se suele multiplicar cada dato dentro de un intervalo por valores que ponderan más los datos centrales y menos los de los extremos del intervalo. Existen distintos tipos de ponderación, denominadas ventanas,

42 42 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN 25 2 Frecuencia (Hz) Tiempo (s) Figura 3.2: Detalle a bajas frecuencias de un espectrograma de la vibración de un motor trifásico con un desequilibrio gradual en la alimentación. Se puede apreciar el aumento gradual del armónico de 1 Hz. Datos muestreados a 2 khz, tamaño de ventana 16384, solapamiento 97,7 %, ventana de Hanning. como ventana de Hanning, ventana de Bartlett, etc., con propiedades bien conocidas en la literatura de Procesamiento Digital de Señal [78] [75]. El efecto secundario de aplicar una de estas ventanas es una distorsión armónica. Cepstrum El cepstrum es el resultado de aplicar la transformada discreta de Fourier inversa sobre el logaritmo del módulo de la transformada discreta de Fourier de la señal: idft(log DFT(x k ) ) (3.1) El cepstrum permite la separación o el desacoplamiento de fenómenos que se presentan asociados de forma no lineal en una señal como resultado de una multiplicación o convolución de otras señales. Ello es posible gracias a que lo que son convoluciones en el dominio del tiempo y multiplicaciones en el de la frecuencia se convierten en sumas en el cepstrum: Y (z) = H(z)U(z) log Y (z) = log H(z) + log Y (z) (3.11) El primer coeficiente del cepstrum es el valor medio del espectro de magnitudes logarítmico y por tanto representa la potencia de la señal. Los primeros coeficientes caracterizan la envolvente del espectro de la señal. Así basta un pequeño número de ellos para representar una versión suavizada de éste.

43 3.3. EXTRACCIÓN DE CARACTERÍSTICAS 43 El cepstrum, por sus propiedades frente a fenómenos convolutivos y multiplicativos, es adecuado, por ejemplo, para el estudio de vibraciones en engranajes [88]. Un campo en el que se aplica muy frecuentemente es el reconocimiento de voz [61]. Predicción lineal (LPC) Otra posibilidad consiste en usar como características los coeficientes a i de un modelo de predicción lineal o autorregresivo: x k = n a i x k i + ν k (3.12) i=1 en el que ν k representa ruido blanco aditivo. Los coeficientes a i se obtienen planteando m ecuaciones: x 1 x... x 1 n a 1. = (3.13) x m x m 1... x m n a n De otra forma: que por mínimos cuadrados: X = W A (3.14) (W T W)A = W T X (3.15) donde W T W es la matriz de autocorrelación de x k. Esta ecuación se resuelve eficientemente con el algoritmo de recursión de Levinson-Durbin. La transformada de Fourier discreta de la función de transferencia del modelo autorregresivo: G(θ) = 1 (3.16) n 1 a k e jkθ k=1 constituye una estimación del espectro de potencias que tiende al obtenido con la FFT al ir aumentando el número de coeficientes a k. Es, por tanto, una envolvente o un promedio del espectro que se obtiene con la DFT, salvo por la escala de amplitudes. También es posible recurrir a una combinación de cepstrum y predicción lineal hallando el primero a partir del espectro autorregresivo. Si los polos

44 44 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN del modelo autorregresivo z = z i están dentro de la circunferencia unidad y la ganancia es unidad, el cepstrum c lp (n) está dado por: 1 p zi n n > c lp (n) = n (3.17) i=1 n Wavelets Uno de los inconvenientes que suele suponer el uso del espectrograma es la solución de compromiso que hay que tomar en cuanto a la resolución temporal y frecuencial, que están determinadas de forma inversa por el tamaño de ventana escogido. Cuando este detalle es importante en determinado análisis, una opción a la que se puede recurrir es wavelets [18]. El análisis con wavelets es semejante al espectrograma con dos diferencias importantes: Ventanas de tamaño variable: más espacio de tiempo donde se quiere información de bajas frecuencias más precisa, y ventanas temporales más cortas donde se precisa más información de altas frecuencias. Funciones base distintas de las senoidales llamadas wavelets: formas de onda de duración limitada que cumplen una serie de propiedades como media nula y cuya forma es más bien irregular. Esta forma permite que las características locales de la señal analizada sean mejor descritas. Consiste por tanto en descomponer la señal original en versiones desplazadas y cambiadas de escala temporal de una wavelet original en lugar de hacerlo en senos y cosenos (o exponenciales complejas) como en el caso del espectrograma. En este caso ya no se representa la amplitud de armónicos frente a frecuencia y tiempo ya que, al no ser las wavelets periódicas, no se habla de frecuencia sino de escala (respecto a una wavelet original). Tampoco se habla de amplitud de armónicos sino de coeficientes de wavelet. La transformada wavelet continua. La transformada wavelet continua de la función f(t) se define de forma muy parecida a la transformada de Fourier: C(escala, posicion) = f(t)ψ(escala, posicion, t) dt (3.18) donde Ψ es la función wavelet. Existen muchas posibilidades para esta función como son la de Haar, las de Daubechies, Biorthogonal, Coiflets, Symlets, etc. cada una de las cuales tiene diferentes propiedades.

45 3.3. EXTRACCIÓN DE CARACTERÍSTICAS 45 Filtro paso-alto detalles H 2 H 1 2 Filtro paso-bajo aproximaciones Figura 3.3: Bloque de filtrado para transformada wavelet discreta. La transformada wavelet discreta. La transformada wavelet continua no es adecuada para la extracción de características por la carga de cálculo que implica. Es necesaria una versión discreta para su cálculo eficiente en un computador. Esta es la transformada wavelet discreta, que se calcula en escalas y tiempos potencias de dos en vez de en todos los posibles como ocurre en la continua. La transformación base consiste en tomar una señal y obtener de ella otras dos, resultado de pasarla por dos filtro, uno paso-alto y otro paso-bajo. Como queremos obtener tantos datos como se tenían inicialmente y sin embargo se tiene el doble, se toma sólo una de cada dos muestras en las dos señales filtradas (submuestreo o downsampling). El esquema del proceso se muestra en la figura 3.3. La señal que contiene las bajas frecuencias es la que más caracteriza la señal original y por eso se denomina de aproximación, mientras que la de altas frecuencias es la de detalle. Si sucesivamente se repite la misma operación sobre la señal de aproximación, como se muestra en la figura 3.4, los datos que se obtienen corresponden a las regiones de frecuencias y tiempos que se representan en la figura 3.5. En algún caso la región de frecuencias de interés podría no estar en la zona de bajas frecuencias sino en otra zona de frecuencias medias, por ejemplo. El proceso anterior se podría realizar eligiendo según convenga la señal de detalle o de aproximación para obtener la zona con mayor resolución frecuencial

46 46 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN H 2 H 1 2 H 2 H 1 2 H H Figura 3.4: Filtrado para transformada wavelet discreta Frecuencia Tiempo (muestras) Figura 3.5: Frecuencias en el filtrado para transformada wavelet discreta.

47 3.3. EXTRACCIÓN DE CARACTERÍSTICAS 47 donde interese. Se entra ya en lo que se denomina wavelet packets. Espectros de orden superior El espectro de potencia de una señal de un proceso estacionario {x k } se puede definir según el teorema de Wiener-Khintchine como la transformada de Fourier de la secuencia de autocorrelación: S xx (θ) = r xx (k)e jkθ (3.19) k= siendo θ la frecuencia normalizada y definiéndose la secuencia de autocorrelación de {x k } como la esperanza: Otra definición equivalente es: r xx (n) = E(x kx k+n ) (3.2) S xx = E{X(θ)X (θ)} (3.21) Los momentos de orden superior son una generalización de la autocorrelación, y como combinaciones no lineales de éstos especialmente útiles se encuentran los cumulantes. En concreto el cumulante de primer orden coincide con la media y el de segundo orden con la autocorrelación: C 1x = E(x k ) (3.22) C 2x (n) = E(x kx k+n ) (3.23) Los cumulantes de orden superior son sensibles a un desplazamiento de media y es, por tanto, conveniente definirlos bajo la suposición de media nula. Si el proceso tiene media no nula se restará la media y se aplicarán las definiciones de los cumulantes al proceso resultante. Los espectros de orden superior o poliespectros se obtienen como generalización de la ecuación (3.19) a los cumulantes de orden superior. Por ejemplo, del cumulante de orden tres: se obtiene el biespectro (figura 3.6): S 3x (θ, φ) = C 3x (m, n) = E(x kx k+m x k+n ) (3.24) m= n= C 3x (m, n)e jnθ e jmφ (3.25) Los cumulantes y poliespectros de orden mayor de dos tienen utilidad debido a las siguientes características que poseen [65]:

48 48 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Figura 3.6: Biespectro de la vibración de un motor de inducción en sus cojinetes. Si y k y x k son procesos independientes entonces los cumulantes de la suma z k = x k +y k son iguales a la suma de cumulantes C nz = C nx +C ny. Si w k es gaussiana entonces sus cumulantes de orden mayor que dos son nulos. De las dos anteriores propiedades se deduce que si w k es gaussiana e independiente de x k y z k = x k + w k, entonces para cumulantes n > 2 (de orden superior a dos) C nz = C nx. Es decir, que estos cumulantes de una señal no gaussiana no se ven afectados por la presencia de ruido gaussiano coloreado. Los cumulantes de orden superior a dos pueden servir para analizar no linealidades en procesos, mientras que la secuencia de autocorrelación no. Los poliespectros, al contrario que el espectro de potencia, son complejos. Es decir, que preservan información de fase. Existen otras herramientas de análisis como son la bicoherencia, que es una versión normalizada del biespectro, y todas las que se derivan para analizar relaciones entre distintas señales, es decir, los cumulantes y poliespectros cruzados. Los cumulantes y poliespectros son útiles en el análisis de vibraciones de motores eléctricos [67] [2] [17] y en mantenimiento predictivo de máquinas eléctricas en general [64].

49 3.4. TÉCNICAS DE PROYECCIÓN Otras técnicas de extracción de características Existen multitud de técnicas aplicables a extracción de características y cada campo tiene distintos subconjuntos de éstas como más usuales. En Reconocimiento del Habla son muy típicas las de análisis espectral, al igual que en Visión Artificial (en la versión bidimensional del análisis espectral). La estadística proporciona muchas posibilidades de generación de características: estadísticos de primer orden (media), de segundo orden (varianza) y de órdenes superiores. Así, por ejemplo, para las señales que denominamos dinámicas es típico usar el valor eficaz, que es equivalente a la desviación típica cuando son señales de media nula, como es el caso de las vibraciones. Algunas de las técnicas que se comentan en el siguiente apartado (como PCA) suelen considerarse dentro de las de extracción de características. En esta tesis no se hace así por el especial uso que se hace de ellas, aplicadas sobre todo a visualización. Nada impediría usarlas para extracción de características, salvo quizás el hecho de que se puede perder el significado físico en las características resultantes Técnicas de proyección Las técnicas de proyección también persiguen el objetivo de reducción de la dimensionalidad de los datos, sólo que en este caso dicha reducción se lleva a cabo sin aplicar conocimiento previo, simplemente por consideraciones de geometría de los datos, de correlaciones entre ellos. Una proyección implica crear una correspondencia de cada punto del espacio de los datos (espacio de entrada o espacio de características) con un punto de un subespacio topológico 3 de menor dimensión intrínseca definido en dicho espacio de entrada (figura 3.7). Cuando el objetivo final es la visualización, este subespacio topológico será bidimensional o tridimensional (considérese 2D por simplicidad), y a su vez se establecerá otra correspondencia (esta vez biyectiva) con otro espacio de igual dimensión (un plano, por simplicidad) fácilmente representable de forma gráfica y llamado espacio de visualización. El requisito fundamental para la técnica de proyección en cuanto a supervisión de procesos es que no se pierda información relevante en la proyección. Siempre se pierde información debido a que la correspondencia entre el espacio de entrada y el subespacio topológico no es biyectiva (es una correspondencia muchos a uno ), pero debe tratarse de que lo que se pierda no sirva 3 O también variedad n-dimensional, como traducción del término inglés manifold.

50 5 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Figura 3.7: Subespacio topológico de dimensión intrínseca 1 dentro de un espacio bidimensional. para discriminar condiciones en el proceso. Este requisito está relacionado con el de conservación de la topología, que se comentará en el apartado Técnicas de Proyección Lineal Análisis de Componentes Principales El Análisis de Componentes Principales (Principal Component Analysis, PCA) consiste en la proyección lineal de los vectores x k del espacio de entrada en un espacio de menos dimensiones tal que tiene como base los vectores propios correspondientes a los valores propios mayores de la matriz de covarianzas Σ y que se llaman componentes principales: Σ = 1 N 1 N (x k x)(x k x) T (3.26) k=1 donde x es la media de los vectores: x = 1 N N x k (3.27) k=1 Puesto que la matriz de covarianzas es real y simétrica sus vectores propios son ortogonales. Cuanto más se reduzca la dimensionalidad (menos vectores

51 3.4. TÉCNICAS DE PROYECCIÓN 51 x 2 u 2 C 1 u 1 C 2 x 1 Figura 3.8: Pérdida de discriminación entre clases en PCA. propios se tomen como base para el espacio final) mayor es el error cometido. Normalmente lo que se pretende es reducir la dimensionalidad lo más posible sin que se pierda la información que discrimina entre las diferentes clases contenidas en los datos. Este problema se puede ilustrar con el sencillo ejemplo de la figura 3.8. Tomando un espacio final unidimensional, la proyección de las clases C 1 y C 2 sería sobre el vector u 1 4. Este procedimiento de reducción de dimensionalidad descrito también recibe el nombre de transformación de Karhunen-Loéve. El PCA tiene como inconveniente, igual que todas las técnicas de proyección lineales, que no da buenos resultados cuando en los datos hay presentes no linealidades. Sin embargo, existen varios intentos de aplicarlos con éxito a casos no lineales por medio de PCA locales [91]. Projection Pursuit Projection Pursuit es un conjunto de técnicas no supervisadas que realizan una proyección lineal que es de algún modo interesante, por medio de la optimización de una cierta función objetivo función de interés llamada índice de proyección (projection index). Una proyección se considera interesante cuando los datos proyectados tienen alguna estructura: correlaciones entre variables, agrupamientos (función de densidad multimodal), etc. La distribución normal es la menos estructurada de todas las posibles. 4 En cambio, si se usase un método supervisado (teniendo en cuenta la información sobre las clases existentes) como el discriminante lineal de Fisher, que se mencionará más adelante, la proyección sería sobre u 2 y no habría pérdida de la información discriminante.

52 52 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Cuando se aplica a estimación de densidad o regresión, projection pursuit sufre menos la maldición de la dimensionalidad que otras técnicas. Por otra parte tiene las desventajas de una técnica lineal y la de requerir una gran carga computacional. PCA es un caso particular de projection pursuit cuando el índice de proyección es la varianza de los datos proyectados. Otros casos particulares especialmente importantes son la técnica de Independent Component Analysis (ICA) [19][43] y el discriminante de Fisher [12][9] [32] Random Projections Esta técnica, de desarrollo muy reciente, consiste en proyectar de un espacio de dimensión d en un espacio de dimensión k, por medio de una matriz k d aleatoria, R, en la que cada vector columna se ha normalizado a módulo unidad. Se aprovecha el hecho de que vectores aleatoriamente escogidos en un espacio de altísima dimensionalidad son casi ortogonales, y por tanto, para d tendiendo a infinito, R tiende a ser ortogonal: R T R I. Se suele usar para reducciones de dimensión d desde ordenes superiores a decenas o centenas de miles hasta una dimensión k de un orden de cientos 5. Random Projections se aplica, típicamente, en Data Mining e indexado en grandes bases de datos de documentos de texto, de audio o de imágenes [49] [1] Escalado Multidimensional Los métodos de escalado multidimensional (Multidimensional Scaling, MDS) son un conjunto de métodos de proyección cuyo objetivo es conseguir en el espacio de salida unas distancias mutuas entre los puntos semejantes a las que éstos tienen en el espacio de entrada. Ello se realiza por minimización de una función de coste. El caso más simple es el de MDS métrico, que tiene como función de coste: E = (X ij Y ij ) 2 (3.28) i j i siendo X = (X ij ) e Y = (Y ij ) las matrices de distancias mutuas de los puntos de entrada x k R n y los de salida y k R p respectivamente. Las distancias no tienen por qué ser euclídeas. Conservar todas las distancias mutuas en los dos espacios sin más es imposible, en general, cuando la dimensión del espacio de salida es menor que la del espacio de entrada. Sin embargo suele interesar conservar más las 5 Por debajo de esos valores esta técnica deja de ser válida.

53 3.4. TÉCNICAS DE PROYECCIÓN 53 distancias más cortas, o lo que es lo mismo, suele interesar una conservación de la topología local. Así surge la Proyección de Sammon, que tiene como función de coste: E = 1 (X ij Y ij ) 2 1 (3.29) c X i j<i ij donde c = i j<i X ij es una constante de normalización. Una evolución de la proyección de Sammon es el método denominado Análisis de Componentes Curvilíneas (Curvilinear Component Analysis, CCA) [23], que tiene como función de coste: E = 1 (X ij Y ij ) 2 F (Y ij, λ y ) (3.3) 2 i j i Como función F generalmente se escoge una función acotada y monótona decreciente para favorecer la preservación de la topología local. Una forma simple podría ser la función escalón: { 1 si Yij λ F (Y ij, λ y ) = y (3.31) si Y ij > λ y donde λ y se hace decrecer a lo largo del entrenamiento. Una ventaja importante de este método es que tiene menos carga computacional que la proyección de Sammon, además de ser capaz de desdoblar datos fuertemente curvados y de permitir escoger la escala a la que las distancias del espacio de entrada se respetan en el espacio de salida. Para las funciones F que cumplan F/ Y ij =, tenemos la siguiente expresión para actualizar los y j : y j = α(t)f (Y ij, λ y )(X ij Y ij ) y j y i Y ij j i (3.32) donde α(t) es un valor que decrece a lo largo del entrenamiento. Para comprobar la conservación de la topología en CCA se usan representaciones dx dy, que no están limitadas a ser usadas sólo con CCA. Un enfoque similar, que puede considerarse también encuadrado dentro de los métodos MDS, denominado Isomap [89], usa distancias geodésicas (camino más corto contenido dentro del subespacio topológico de los datos), característica con la cual se afirma que es capaz de detectar mejor que otras técnicas MDS la geometría de dicho subespacio topológico y su dimensionalidad intrínseca, incluso para casos fuertemente no lineales. También puede considerarse dentro del grupo de MDS la técnica llamada locally linear embedding (LLE) propuesta por Roweis et al. en [79], en la que la función de coste es el error de reconstrucción de cada dato como suma ponderada de sus k vecinos más próximos.

54 54 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN En general, este grupo de técnicas funcionan bien cuando se tienen comportamientos no lineales, pero: tienen una carga computacional relativamente elevada, es necesario iterar para proyectar nuevos puntos, y el espacio de visualización tiene una distribución irregular (aunque esto no es un inconveniente importante) Modelos Autoasociativos Redes Neuronales Autoasociativas Por la capacidad que tienen las redes neuronales feedforward para llevar a cabo mapeos no lineales de un espacio vectorial a otro, sus aplicaciones son innumerables. Una de las más interesantes es la de reducción de la dimensionalidad por proyección no lineal. Se considera un perceptrón multicapa con dos capas de pesos, teniendo d entradas y d salidas y con M neuronas en la capa oculta tal que M < d. Si como objetivo en el entrenamiento se usan los propios vectores de entrada, la red intenta mapear cada vector sobre sí mismo y debido al reducido número de neuronas en la capa oculta la perfecta reconstrucción de todos los vectores de entrada no es, en general, posible. Esta red neuronal realiza un mapeo autoasociativo. Si las neuronas en la capa oculta tienen funciones de activación lineales se puede demostrar que la red realiza una proyección lineal sobre el espacio definido por las M componentes principales de los datos, es decir, que es equivalente al Análisis de Componentes Principales. Es posible conseguir una versión no lineal del Análisis de Componentes Principales añadiendo más capas ocultas con funciones de activación no lineal. Un esquema que se puede proponer es el mostrado en la figura 3.9 donde se presenta un perceptrón multicapa de cuatro capas donde las neuronas de la primera y tercera capas tienen función de activación no lineal, mientras que las de la segunda y cuarta pueden ser lineales. En la salida de las neuronas de la capa oculta aparecerá la proyección no lineal del vector de entrada sobre un espacio de M dimensiones [12]. El único inconveniente que se le puede achacar es la extrapolación que realiza la red cuando se le presenta a la entrada un vector fuera del dominio de los datos de entrenamiento, lo cual puede hacer que no sean muy adecuadas para la generación de residuos [3].

55 3.4. TÉCNICAS DE PROYECCIÓN 55 SALIDAS x 1 x d no lineal z 1 z M no lineal x 1 ENTRADAS x d Figura 3.9: Perceptrón multicapa en configuración autoasociativa. Radial Basis Functions Las redes de funciones base radiales (Radial Basis Functions, RBF) constituyen otro de los modelos de redes neuronales. La principal ventaja que poseen es la relativa rapidez y facilidad de entrenamiento. Este entrenamiento se realiza en dos fases. En la primera se determinan los parámetros de las funciones base por medio de, generalmente, métodos no supervisados. En una segunda fase se determinan los pesos que conforman la capa de salida de la red RBF. Las funciones base radiales tienen su origen en técnicas de interpolación exacta para aproximación de funciones multidimensionales. Se parte de unos datos de salida y j y otros de entrada x j correspondientes, y el objetivo es encontrar la función f tal que: y j = f(x j ) j = 1,..., N (3.33) La función f se escoge como suma ponderada con un conjunto de N funciones base φ i (x) = φ( x x i ), una por cada punto: f(x) = N φ i (x)w i (3.34) i=1 Cuando el número de puntos es muy grande, la carga de cálculos puede ser excesiva si se utiliza una función base centrada en cada punto. En ese caso se suele recurrir a usar un número menor de centros calculados a partir de los puntos de entrada por métodos no supervisados [92].

56 56 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Evaluando la ecuación (3.34) para cada punto, se obtiene el conjunto de ecuaciones siguiente: y kj = M φ i (x j )w ki j = 1,..., N k = 1,..., D (3.35) i=1 donde D es el número de dimensiones del espacio de salida y M el número de centros de las funciones base. El conjunto de ecuaciones se puede poner en forma matricial: Y = WΦ (3.36) siendo Y = (y kj ), W = (w ki ), y Φ = (φ ij ) con φ ij = φ i (x j ). Resolviendo por mínimos cuadrados se obtiene: Las funciones base φ i (x) suelen ser gaussianas: W T = (ΦΦ T ) 1 ΦY T (3.37) φ i (x) = e x µ i 2 /2σ 2 (3.38) donde los µ i son los centros de las funciones base y σ su ancho. Ese ancho σ de las funciones base puede ser igual para todas, distinto para cada una, e incluso matrices, de tal forma que las funciones base dejan de ser esféricas. Existen multitud de métodos para la elección de esas σ, como métodos heurísticos, en los que muchas veces se da su valor en función de las distancias entre centros, métodos de optimización a través de una función de coste, muchas veces calculando las σ de forma simultánea a los centros, etc. [41] [6]. En la ecuación (3.34) se suele añadir un término independiente w que compensa la diferencia de media entre las activaciones de las funciones base y las salidas y j. Este término independiente se puede incorporar al sumatorio con una nueva función base φ (x) = 1. A veces se introduce un término en la ecuación 3.37 para conseguir una solución más suave, refiriéndose éste adjetivo a la (hiper)superficie o mapeo entrada salida y en el sentido de que entradas parecidas correspondan con salidas parecidas. Resulta entonces la ecuación: W T = (ΦΦ T + λi) 1 ΦY T (3.39) donde λ es el coeficiente de regularización. Este resultado deriva de la teoría de regularización que surgió con la idea de estabilizar la solución en problemas mal condicionados por medio de una función auxiliar que integra información a priori acerca de la solución [74] [41].

57 3.4. TÉCNICAS DE PROYECCIÓN Mapas Topológicos Self-Organizing Map Self-Organizing Map (SOM) es una arquitectura de red neuronal de aprendizaje competitivo, no supervisado o auto-organizado que fue propuesta por Kohonen [53] [56] [54] [55]. Está basado en otros métodos de aprendizaje competitivo como Vector Quantization (VQ). El método VQ trata de conseguir un conjunto finito de vectores m i R n llamados vectores de codificación (codebook vectors) con una distribución que aproxime la función de densidad de probabilidad continua de una variable aleatoria vectorial representada por un conjunto de muestras x R n. Ello se consigue con un proceso iterativo que consta de dos partes. Primero, para una muestra x j se busca el vector de codificación más parecido m c (neurona o unidad ganadora ). Segundo, ese vector de codificación se actualiza de forma que sea aún más parecido al x j. Generalmente se usa como criterio de semejanza entre los x j y los m i la distancia euclídea, y entonces el m i más parecido a x j será aquél tal que x j m i sea mínimo. La actualización del vector de codificación será de la forma: m nuevo c = m c + α(k)[x j m c ] (3.4) El proceso se repite para todas las muestras x j, con j = 1,..., N, y todo ello a su vez se repite un cierto número de veces e (número de épocas). Además < α(k) < 1 es un parámetro monótonamente decreciente con el paso o época 6 k (cada vez que se recorren todos los x j ) con k = 1,..., e. Al cabo de cierto número de épocas, el algoritmo converge. Un proceso semejante es el que se lleva a cabo en el algoritmo k-means, pero buscando los m c para todos los x j antes de actualizar ninguno, y luego realizando la actualización de m i haciendo que cada uno de ellos se convierta en la media de los x j que le tienen como vector de codificación más cercano. El aprendizaje para el caso del SOM es igual al del VQ salvo por el hecho de que se fuerza una ordenación en sus unidades m i. Para ello se define previamente dicha ordenación sobre unas unidades g i en un espacio de generalmente dimensión 1 ó 2, denominado espacio de salida o espacio de visualización; esas unidades g i se corresponden una a una con las unidades m i. Esta ordenación suele consistir en un alineamiento de las unidades (en el caso 1D) o de la formación de una rejilla regular (en el caso 2D). También se define en este espacio de visualización una medida de distancia entre las unidades. La ordenación en el espacio de entrada de los m i se consigue, en 6 Se puede comenzar con un valor cercano a 1 y terminar con uno muy cercano a, por ejemplo,1.

58 58 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN el algoritmo de aprendizaje, actualizando no sólo la ganadora m c, sino sino todos los m i tales que sus g i correspondientes son vecinas de la g c : m nuevo v = m v + α(k)[x j m v ] con v = {i d v (g i, g c ) n c (k)} (3.41) donde d v () es la distancia definida en el espacio de visualización y n c (k) es una distancia decreciente 7 con la época k. La vecindad es por tanto decreciente con el número de época, consiguiendo así una rápida ordenación global inicial para, posteriormente, ir afinando de forma local. Otra posibilidad es actualizar en mayor proporción las unidades más cercanas a la ganadora: donde h ci es una función escalar de núcleo: m nuevo v = m v + h ci (k)[x j m v ] (3.42) h ci (k) = h(k) e d2 v (g i,g c)/σ 2 (k) (3.43) En esta ecuación h(k) es equivalente al α(k) de la ecuación (3.41) y σ(k) tiene interpretación semejante al n c (k), indicando la amplitud del campo receptivo, esto es, las neuronas del entorno de la ganadora que se ven afectadas. Ambos se suelen hacer decrecer con la época k. El SOM, una vez entrenado, define una proyección no lineal del espacio de entrada sobre el espacio de visualización, en el que un punto x del primer espacio se proyecta en el segundo como y = g c, siendo g c el nodo de la rejilla correspondiente a la unidad ganadora para el dato x, es decir, el g i correspondiente al vector de codificación m i más cercano a x en el espacio de entrada. Una característica muy importante, puesto que permite la visualización de la proyección por SOM, es la preservación de la topología del espacio de entrada en el espacio de visualización. De acuerdo con esta propiedad, unidades vecinas en el espacio de visualización lo son también en el espacio de entrada. Aunque la preservación de la topología no está totalmente garantizada en el SOM en todas las condiciones, existen medidas que indican en qué grado se cumple [96] [5]. Otra característica del SOM es que sus vectores de codificación se distribuyen para aproximar la función de densidad de probabilidad de los datos de entrenamiento en el espacio de entrada 8, tendiendo a conseguir una distribución uniforme de estos datos proyectados en el espacio de visualización. Esto 7 Típicamente, se puede comenzar con un valor mitad del tamaño de la rejilla. 8 La relación entre densidad de neuronas m(x), valor denominado factor de magnificación, y la densidad de datos de entrenamiento f(x) no es lineal para el algoritmo original de entrenamiento del SOM [54] [41], sino que se tiene aproximadamente: m(x) f 2/3 (x). Sin embargo existen versiones del entrenamiento del SOM que sí consiguen una relación lineal [24].

59 3.4. TÉCNICAS DE PROYECCIÓN 59 hace que el SOM dedique regiones más grandes en el espacio de visualización a las agrupaciones de datos más densas. Debido a su mayor densidad, dichos datos pueden conformar estructuras más complejas, que quedarán mejor descritas en su proyección gracias a esta característica del SOM. Una característica del SOM interesante para métodos de visualización y redundancia analítica basada en datos es que la proyección se realiza en una zona delimitada; nada se proyecta fuera de la rejilla del espacio de visualización. Kernel Regression Self-Organizing Maps El SOM de regresión de núcleo (KR-SOM) es una ampliación del SOM [31] [29] [26] que intenta paliar las desventajas que genera el carácter discreto de éste. Esto incluye la dificultad de detectar ligeras tendencias o derivas que pueda experimentar un proceso, cuando se usa el SOM para proyectar su trayectoria de estado. El KR-SOM constituye una versión continua o interpolada del SOM. Existen dos posibilidades para realizar la interpolación: Interpolación exacta: RBF. Interpolación no exacta: GRNN. Las RBF, que se explicaron en apartados anteriores, son menos interesantes para KR-SOM de cara a la generación de residuos [3]. La definición de KR-SOM se hará con GRNN, que se definirá a continuación. General Regression Neural Network. La regresión de una variable dependiente y sobre una variable independiente (vectorial) x consiste en el cálculo del valor esperado de y para cada valor de x. Cuando disponemos de la función de densidad de probabilidad conjunta f(x, y) el cálculo puede realizarse de la siguiente forma: E[y x] = + + y f(x, y) dy f(x, y) dy (3.44) Si función de densidad de probabilidad conjunta no es conocida, se puede estimar a partir de datos, como media de gaussianas de varianza σ 2 centradas en cada dato del espacio conjunto (x i, y i ); este método se denomina estimador de Parzen. Bajo esas condiciones, se puede demostrar [85] que la siguiente

60 6 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN expresión produce una estimación de E[y x]: ŷ(x) = i x x i 2 e 2σ 2 y i (3.45) i x x i 2 e 2σ 2 refiriéndose el índice i a todos los datos de que se dispone. La ecuación (3.45) recibe el nombre de General Regression Neural Network (GRNN). Definición de KR-SOM. En el KR-SOM la proyección del espacio de entrada sobre el espacio de visualización se realiza usando una GRNN (Generalized Regression Neural Network) que realiza una aproximación de función continua Q : R n R 2 por interpolación a partir de un conjunto de puntos m i de R n y sus correspondientes g i de R 2 : y = Q(x) = i φ( x m i )g i j φ( x m (3.46) j ) De manera análoga, también existe la posibilidad de realizar la proyección del espacio de visualización al espacio de entrada: x = R(y) = i φ( y g i )m i j φ( y g (3.47) j ) La función de núcleo φ suele tomarse de la forma: φ( z ) = e z 2 2σ 2 (3.48) El KR-SOM presenta el problema de la no exacta equivalencia inversa entre la proyección del espacio de entrada al espacio de visualización (proyección directa) y la del espacio de visualización al de entrada (proyección inversa). Esto quiere decir que si se proyecta un punto x del espacio de entrada al espacio de visualización, resultando un punto y, y este punto y a su vez se proyecta de vuelta al espacio de entrada, resulta un punto x que en general x x. De este problema tampoco están exentos otros tipos de mapas topológicos (se verá en GTM), y algunos, como el PSOM de Ritter [77] [98] [97], lo resuelven por iteración. Esto no suele ser un problema grave puesto que el análisis visual cualitativo que se tiene como objetivo en esta tesis no se ve afectado en gran medida por ello. Sin embargo, se puede proponer una solución sencilla y práctica al problema de la no igualdad de la proyección directa-inversa. Esta solución consiste en realizar un SOM interpolado por proyección hacia el espacio de entrada, a

61 3.4. TÉCNICAS DE PROYECCIÓN 61 Espacio de entrada 9 8 Espacio de visualización retroproyección Figura 3.1: KR-SOM de retroproyección. Las neuronas del SOM interpolado de 3 3 aparecen en negro y las neuronas del SOM original de 1 1 aparecen en rojo unidas por la malla azul. través de la ecuación (3.47), de una rejilla fina en el espacio de visualización, o lo que es lo mismo, una rejilla con más neuronas que ocupe el mismo espacio que la rejilla original. Posteriormente este SOM interpolado se usaría como un SOM normal (KR-SOM de retroproyección). También es una solución al problema de elección de parámetros de las RBF porque, al formar los centros de origen una rejilla regular, se pueden fijar las σ 2 todas iguales 9. El esquema de esta idea se muestra en la figura 3.1. Este KR-SOM de retroproyección introduce a su vez un inconveniente respecto a un SOM original del mismo número de neuronas y es que aumenta el número de neuronas interpolantes. Sin embargo, con el progresivo aumento de la capacidad de cálculo del hardware para el mismo coste, es posible cada vez entrenar SOMs más grandes en un tiempo aceptable, con lo que los inconvenientes derivados de su carácter discreto se disipan. Existen alternativas al KR-SOM como PSOM (Parameterized SOM ) [77] [98] [97], que tiene algunos inconvenientes para su aplicación a la metodología usada en esta tesis puesto que la proyección del espacio de entrada al de visualización requiere iteración con un coste computacional relativamente elevado. 9 Cuando los centros origen de la interpolación están regularmente distribuidos, la interpolación es de mayor calidad, y la σ puede ser la mitad de la distancia entre centros, por ejemplo.

62 62 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Generative Topographic Mapping El Generative Topographic Mapping (GTM) es semejante al SOM, pero con base estadística [87] [13]. El GTM es un modelo no lineal de variables latentes en el que se trata de encontrar una representación para una distribución p(t) de datos en un espacio con D dimensiones t = (t 1,..., t D ) en términos de L variables latentes x = (x 1,..., x L ). Para el caso que nos ocupa, la visualización de espacios de alta dimensionalidad, D será alto y L = 2. En GTM en principio se define la proyección del espacio latente sobre el espacio de entrada como una función continua y(x; W). Esta función generalmente tiene la forma: y(x; W) = Wφ(x) (3.49) donde W es una matriz D M de parámetros y φ(x) es un vector de M funciones base, que se suelen tomar de la forma: φ(x) = e x µj 2 2σ j 2 j = 1,..., M (3.5) Los parámetros µ j y σ j se escogen para que las funciones base se repartan adecuadamente por el espacio latente (espacio de visualización). Los parámetros de la matriz W se hallan con un algoritmo de maximización de la esperanza (EM, Expectation Maximization), teniendo en cuenta que en el espacio de entrada se supone una función de densidad de probabilidad: ( ) D/2 β p(t x, W, β) = exp { β2 } 2π y(x; W) t 2 (3.51) y en el espacio latente, en semejanza al SOM, se supone una distribución de probabilidad uniforme en una rejilla regular discreta: p(x) = 1 K K δ(x x i ) (3.52) i=1 donde x i son los K nodos de la rejilla regular discreta en el espacio latente. En la ecuación 3.51 se observa que se ha escogido, para la distribución de t dado x, una gaussiana radialmente simétrica de varianza β 1. Luego, para obtener una proyección del espacio de entrada al de visualización, aplicando el teorema de Bayes se puede calcular la distribución de probabilidad en el espacio de visualización: p(x i t) = p(t x i, W, β) K j=1 p(t x j, W, β) (3.53)

63 3.4. TÉCNICAS DE PROYECCIÓN 63 y usar un valor representativo de dicha distribución p(x i t) (media, mediana,... ) como proyección de un punto t. La proyección por GTM hace que una región del espacio latente pueda estar estirada o comprimida en el espacio de entrada, dependiendo de la distribución de datos en éste [11]. Debido a ello, las agrupaciones de datos del espacio de entrada proyectados en el espacio latente pueden aparecer con una separación relativa mayor o menor de la real. Para cuantificar este estiramiento o compresión se dispone de los factores de magnificación (magnification factors). Se define el factor de magnificación de un punto del espacio latente x como: da da = det1/2 (ψ T W T Wψ) (3.54) siendo da un elemento diferencial de área en el espacio de entrada que es correspondiente al elemento diferencial de área da del espacio latente en torno a x, y siendo ψ(x) una matriz con elementos: siendo las x j las componentes de x Otras técnicas de proyección ψ ij = φ i x j (3.55) Existen muchas otras técnicas de proyección. Por mencionar algunas más, el análisis de componentes principales de núcleo (Kernel PCA) consiste en aplicar PCA lineal a los datos después de haber sido llevados por medio de una transformación no lineal a un espacio de dimensión superior a la del espacio de entrada [8] [82]. Las curvas y superficies principales, propuestas por Hastie y Stuetzle [4], pueden considerarse otra generalización no lineal de PCA. Una curva principal es una curva tal que cada uno de sus puntos es el promedio de todos los datos que se proyectan sobre él.

64 64 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN

65 Capítulo 4 Data Mining Visual 4.1. Introducción El término Data Mining se refiere a la aplicación de un amplio número de métodos para procesar y analizar datos. El objetivo principal del Data Mining es la extracción de conocimiento de grandes bases de datos donde la dimensionalidad (número de variables), complejidad, o número de muestras es demasiado grande para un análisis manual. Está relacionado con campos como el análisis exploratorio de datos (exploratory data analysis) y el descubrimiento de conocimiento en bases de datos (knowledge discovery in databases). El objetivo de la exploración de datos es descubrir propiedades en los datos por medio de medidas descriptivas (estadísticas de cada variable, entre ellas,... ) o visualización. Se trata básicamente de llegar a una cierta comprensión de los datos y, de ahí, a comprender el proceso subyacente [94]. La idea principal del Data Mining es combinar la flexibilidad, creatividad y conocimiento general de una persona con la potencia de cálculo y la capacidad de almacenamiento de un computador para una exploración de datos efectiva. El Data Mining Visual da un paso más, empleando la capacidad de representación gráfica para integrar a la persona en el proceso de exploración de datos, explotando sus capacidades de percepción visual y aprovechando el poco esfuerzo que requiere razonar con objetos visibles. El Data Mining Visual es muy útil cuando se tiene poco conocimiento a priori sobre los datos y puede ser usado para formular hipótesis sobre los mismos, que posteriormente podrán ser verificados en la aplicación de otras técnicas estadísticas y de aprendizaje automático (machine learning). Las técnicas de Data Mining Visual tienen ciertas ventajas frente a éstas técnicas automáticas de estadística y machine learning: 65

66 66 CAPÍTULO 4. DATA MINING VISUAL Tratan más fácilmente con datos no homogéneos y ruidosos. Son intuitivas. No requieren la comprensión de complejos algoritmos matemáticos o estadísticos. Una representación visual de resultados da un mayor grado de confianza que la representación numérica o textual. Existen numerosos enfoques y formas de representación para llevar a cabo Data Mining Visual. Para procesos industriales complejos, en esta tesis se utilizará el enfoque de la reducción de la dimensionalidad, que consiste en proyectar los datos multidimensionales (medidas del proceso o transformaciones de éstas, es decir, características) en un subespacio topológico bidimensional que se hará corresponder con un plano. Esa correspondencia será tal que las propiedades inteligibles del espacio multidimensional (las propiedades que permiten realizar razonamientos directamente con ellas: variables con significado físico, las relaciones entre ellas, etc.) podrán trasladarse al plano para ser representadas y así poder ser usadas para realizar razonamientos en dicho plano[29] [28] [26] [27] [25] [2] [22] Formas básicas de representación El principal problema a la hora de representar datos multidimensionales es precisamente la dimensionalidad. Los medios tradicionales de representación (papel, pantalla) no permiten más que dos dimensiones espaciales. Esta limitación en principio parece sugerir como única alternativa la representación de datos como nubes de puntos (scatter plots, gráficas de dispersión) en un sistema cartesiano típico que codifica valores de dos variables como posición en dos dimensiones 1. Estas simples representaciones de nubes de puntos son muy útiles para descubrir agrupamientos y correlaciones entre variables. Sin embargo, además de la posición en dos dimensiones, existen diversas formas de codificar valores en representaciones visuales como son el tamaño, el color, la forma, la textura, el movimiento, etc [15]. Un ejemplo que muestra la codificación por tamaño se muestra en la figura 4.1, en la que las dos primeras variables x e y se representan en los ejes de coordenadas, mientras que una tercera variable z se muestra como un tamaño de los círculos proporcional al valor de dicha variable z. Un ejemplo semejante, pero codificando con color en lugar de con tamaño se puede ver en la figura Las representaciones 3D en un medio 2D como perspectiva tienen pérdida de información, salvo que sea un medio, como un computador, que permita la rotación interactiva.

67 4.2. FORMAS BÁSICAS DE REPRESENTACIÓN Y X Figura 4.1: Gráfica de puntos dispersos con codificación en tamaño. Otra posibilidad son las matrices de gráficas de nubes de puntos, en las que las gráficas se hacen tomando dos a dos las variables (figura 4.2). La diagonal de la matriz puede aprovecharse para dibujar los valores de las variables frente al número de muestra. Si se trata de series temporales y el número de muestra está relacionado con el tiempo, esto permite extraer conclusiones acerca de las evoluciones temporales. Otra alternativa es table lens, un tipo de representación por codificación en color que permite la detección de relaciones entre variables. Consiste en la ordenación de los vectores muestra en función del valor de una de las variables. Las variables que también presenten una ordenación estarán relacionadas con la primera. En la figura 4.3 están representadas table lens para ordenación de cada una de las tres variables de los datos de ejemplo (de izquierda a derecha, x, y y z respectivamente). Se observa que existe una clara relación directa entre las variables y y z, y una más tenue (en una parte directa y en otra inversa) entre x y z. Finalmente, citar algunas más de entre la infinidad de formas de representación aplicables a Data Mining Visual, como coordenadas paralelas (parallel coordinates), mundos dentro de mundos (worlds within worlds), dense pixel displays, distorsión esférica (spherical distortion), distorsión hiperbólica (hyperbolic distortion), etc. [51] [15].

68 68 CAPÍTULO 4. DATA MINING VISUAL 2 x 4 x y 4 x z y y z z Figura 4.2: Gráficas de puntos dispersos de pares de variables. X Y Z X Y Z X Y Z Figura 4.3: Gráficas table lens para tres variables.

69 4.3. PROYECCIÓN DE DATOS Proyección de datos Un método para visualizar datos multidimensionales es la proyección de los mismos, lineal o no lineal, en un espacio visualizable. En principio se pierde la información de los valores de las variables, pero se conserva la de parecido entre muestras (como vectores) lo que permite un análisis de agrupamientos de forma visual. Sin embargo, ésta pérdida de información se puede evitar, pudiendo trasladarse información inteligible relacionada con las variables originales del espacio de entrada al espacio de visualización. Realizando el planteamiento de la proyección de datos para un proceso, se parte de un espacio de características, en el que cada componente corresponde con una de las características del proceso; este espacio no es visualizable por ser de alta dimensionalidad. El objetivo es realizar una proyección del espacio de características en un espacio de visualización. La técnica de proyección que se vaya a usar para el análisis de procesos debe contemplar las siguientes posibilidades: 1. Proyección del espacio de características sobre el de visualización, que es necesaria para proyectar vectores de características individuales del proceso y, en particular, la trayectoria de estado. Se denominará a esta proyección S mi g i (x), siendo x un punto del espacio de características. 2. Proyección del espacio de visualización sobre el espacio de características, que es necesaria para trasladar información inteligible desde el espacio de características al de visualización 2. Esta proyección debería ser la inversa de la del punto anterior para que la información mostrada en cada punto del espacio de visualización corresponda realmente a dichos puntos 3. Se denominará S gi m i (y), siendo y un punto del espacio de visualización. La proyección (en ambos sentidos) no tiene por qué ser continua o derivable. Sin embargo, si es discreta, conviene que esté definida para una rejilla regular en el espacio de visualización por simplicidad en la representación. Si la proyección es continua normalmente será posible escoger una rejilla regular. Los puntos de esta rejilla regular están identificados en la nomenclatura elegida para la proyección directa e inversa: g i son los puntos de la rejilla en el espacio de visualización y m i son los puntos correspondientes en el espacio de características. 2 Dicho de otra forma, para dibujar los mapas de colores en el espacio de visualización. 3 Sin embargo, cuando se busque una descripción más bien cualitativa esto no importa mientras el error no sea muy grande.

70 7 CAPÍTULO 4. DATA MINING VISUAL Una característica que es especialmente deseable, tanto en la proyección directa como en la inversa, es la conservación de la topología. Esta conservación de la topología es difícil de definir, pero se puede dar como definición más restrictiva la siguiente: una proyección (función, mapeo) conserva la topología cuando puntos adyacentes (cercanos, vecinos) en el espacio inicial lo son también en el espacio final. Respecto a los planteamientos de este apartado, está bastante claro qué significa adyacencia en el espacio de visualización. En el espacio de características no está tan claro y hay que especificar que en dicho espacio interesa que la adyacencia se refiera a dentro del subespacio topológico del proceso, es decir, que la cercanía o lejanía de dos puntos se mida a lo largo del camino de mínima distancia contenido dentro de dicho subespacio topológico. La necesidad de este requisito se explica como la consecución de una trayectoria de estado que no sufra discontinuidades (que no dé saltos ) durante cambios suaves en la condición del proceso. Existen varias técnicas de proyección mencionadas en el capítulo 3 que cumplen todas estas condiciones (o al menos casi todas). Algunas de las técnicas que dan buenos resultados, además de por los requisitos mencionados, por su buen comportamiento en la generación de residuos, son: SOM, KR-SOM y GTM. El SOM es discreto, y por ello no es muy preciso a la hora de revelar tendencias o derivas. El KR-SOM y el GTM son continuos y semejantes, pero ninguno cumple la condición 2 antes mencionada. Por otra parte, el inconveniente del carácter discreto del SOM se puede reducir usando más neuronas, viéndose solamente limitado este número por las capacidades de cálculo y almacenamiento del computador usado en su entrenamiento. Como ejemplo para ilustrar todo lo que se explicará en este capítulo se utilizará un ejemplo de juguete con datos (x, y, z) formando dos grupos. El primero y más pequeño de los grupos son datos con y y z constantes. El segundo se ha generado con la ecuación z = x 2 + y para x, y [ 1, 1] distribuidos de forma uniforme. A las tres variables se les ha añadido ruido gaussiano. En la figura 4.4 se muestran esos datos con una malla de SOM superpuesta que ha sido entrenado con dichos datos El error de modelado Al proyectar un punto del espacio de características sobre el espacio de visualización hay que distinguir dos casos:

71 4.4. EL ERROR DE MODELADO z y x.5 1 Figura 4.4: Malla de SOM en el espacio de entrada con los datos de entrenamiento. 1. El punto está contenido en el subespacio topológico correspondiente al funcionamiento del proceso. 2. El punto está fuera del subespacio del proceso. Es posible detectar en qué caso se está, proyectando en el espacio de visualización y volviendo a proyectar el resultado sobre el espacio de características. Cuando se está en la primera situación (dentro del subespacio), en un caso ideal, se obtendrá el punto inicial. Cuando se está en la segunda situación se obtiene un residuo como diferencia del punto resultante y el original. Al módulo de este vector diferencia se le denomina error de modelado 4. Para todo lo que sigue en este capítulo se estará considerando que estamos en la primera situación. La segunda situación se estudiará ampliamente en el capítulo siguiente. 4 En el SOM se usa en su lugar el término error de cuantificación, heredado de la visión del SOM como un cuantificador en compresión de señal. En este caso puede no ser muy adecuado su uso.

72 72 CAPÍTULO 4. DATA MINING VISUAL 4.5. Representación visual de conocimiento Al realizar la proyección de la trayectoria de estado, no necesariamente se pierde toda referencia con el espacio de características. Es posible representar en el espacio de visualización la información inteligible del proceso disponible en los puntos del subespacio topológico de su modelo. Esta forma de representación se basa en la codificación de toda esa información por medio de colores, conformando unos mapas de colores en el espacio de visualización; cada uno de esos mapas de colores representa el valor de una determinada propiedad que en el espacio de características tiene sentido físico. Para crear estos mapas sólo hay que conocer a qué punto del espacio de características corresponde cada punto del espacio de visualización. Hay que recalcar que todos esos mapas están mostrando el mismo espacio de visualización, pero representando distintas informaciones. En esencia, lo que se va a exponer en los siguientes subapartados es una forma de representar conocimiento en un espacio común, el espacio de visualización Etiquetado El espacio de visualización constituye, como ya se mencionó, un auténtico mapa del proceso. Al igual que en un mapa geográfico se señalan los nombres de las ciudades y los accidentes geográficos, el espacio de visualización puede ser etiquetado para poder localizar de un vistazo zonas particulares del espacio de visualización en cuanto a estados o condiciones del proceso. Para llevarlo a cabo se dispone de múltiples herramientas, que serán descritas en los siguientes apartados Planos de componentes Los planos de componentes o mapas de características permiten conocer a través del espacio de visualización, las coordenadas en el espacio de características de sus puntos correspondientes [53] [56] [54] [55]. Para ello se representa en el espacio de visualización el valor de una de las coordenadas como un color. Existen, por tanto, tantos planos de componentes como dimensiones tenga el espacio de entrada. Para obtener el plano de componentes correspondiente a la coordenada j, se toman los puntos g i del espacio de visualización y se proyectan sobre el espacio de características, obteniéndose como resultado unos puntos m i = (m i1,..., m ij,..., m id ) = S gi m i (g i ), de los que se toman los m ij y se codifican como colores. Por sencillez de representación se habrán escogido

73 4.5. REPRESENTACIÓN VISUAL DE CONOCIMIENTO 73 x y z Figura 4.5: Planos de componentes. unos g i que formen parte de una retícula regular. De esta forma los m ij se representan mediante pixels coloreados en pantalla. En la figura 4.5 se muestran los planos de componentes para los datos de ejemplo Mapa de distancias El modelo de datos que representa al proceso puede verse en el espacio de características como una lámina elástica que se ajusta a los datos que sirvieron para su creación. La lámina elástica puede no sólo adaptarse a la forma que tienen los datos en el espacio de entrada, sino también estirarse y encogerse para representar mejor en el espacio de visualización aquellas zonas que tienen mayor densidad de muestras de entrenamiento. Así, en el caso del SOM, se demuestra que éste tiende a hacer que la distribución de los datos de entrenamiento proyectados en el espacio de salida tengan una distribución aproximadamente uniforme 5. El GTM se plantea en [13] de tal forma que se comporte como el SOM en ese sentido. Parece claro que una información interesante para ser representada en el espacio de visualización es el grado de estiramiento de la lámina elástica. En eso consisten los mapas de distancias en el SOM y KR-SOM, y la representación en el espacio de visualización del factor de magnificación del GTM, que por analogía se pueden denominar de la misma forma. Debido a esta propiedad del SOM y del GTM de estirarse en las zonas donde hay menos densidad de datos, el mapa de distancias sirve para detectar, a través del espacio de visualización, agrupaciones de datos en el espacio de entrada. 5 Propiamente dicho será uniforme en el caso del KR-SOM, que es continuo. En el caso del SOM es una uniforme discreta.

74 74 CAPÍTULO 4. DATA MINING VISUAL Mapa de Distancias Mapa de Activación Figura 4.6: Mapa de distancias y mapa de activación. En la figura 4.6 (izquierda) se muestra el mapa de distancias para el ejemplo de juguete. En ella se pueden observar las zonas correspondientes a dos grupos de datos. Sabiendo que el grupo generado con la ecuación z = x 2 + y contiene más datos y que el SOM tiende a distribuir uniformemente los datos de entrenamiento en el espacio de visualización es fácil deducir que la zona más grande corresponde a dicho grupo Mapas de activación Cuando se quiere saber a qué zona del espacio de visualización corresponde un cierto conjunto de datos, puede pensarse que lo más directo es simplemente dibujar la proyección de todos los datos. Sin embargo esta representación no es muy buena si lo que se quiere conocer es la distribución de los datos proyectados (donde se proyectan más o menos datos), sobre todo si se trata de un mapa discreto (SOM) o cuando los datos mismos están cuantizados: en ambos casos se pueden estar proyectando muchos datos exactamente en el mismo punto, efecto que no sería detectado de forma visual. Ello hace necesario representar, de alguna forma, la densidad de los datos proyectados. Los mapas de activación, propuestos en [31] y [27], son semejantes a una función de densidad de un conjunto de datos proyectados. Para el SOM, los mapas de activación se definen de la siguiente forma. Sea {x k } k=1,...,k un conjunto de datos. El nivel de activación de la unidad i

75 4.5. REPRESENTACIÓN VISUAL DE CONOCIMIENTO 75 del SOM para ese conjunto de datos se define como: k A i = h c(k)i M j=1 h i = 1,..., M (4.1) ij c(k) = arg mín{d(x k, m i )} (4.2) i donde M es el número de neuronas del SOM y c(k) es el índice de la unidad ganadora del SOM para x k. La versión continua para el KR-SOM se obtiene con: A(y) = i φ( y g i )A i j φ( y g (4.3) j ) En el caso del GTM, se dispone directamente de algo equivalente por medio de la ecuación (3.53), que da el equivalente al mapa de activación para una única muestra. Sólo habría que sumar para todos las muestras x k. En la figura 4.6 (derecha) se muestra el mapa de activación para los datos del grupo con y y z constante del ejemplo Mapas borrosos Es posible etiquetar el espacio de visualización sólo con la ayuda de los planos de componentes cuando se sabe qué valores tienen las características para ciertas condiciones del proceso, por ejemplo: Cuando x 1 tiene un valor alto, x 2 toma valores medios y x 4 toma valores negativos entonces el proceso está en el estado E 1 Basta buscar en los planos de componentes las zonas que cumplen esas condición y poner la etiqueta en dichos lugares. Si el número de variables es bajo (dos o tres) puede ser un trabajo sencillo. Sin embargo, con un número de variables alto puede complicarse hasta límites insospechados. Puede observarse que la regla de ejemplo mencionada para identificar cierta condición del proceso tiene un formato que es expresable como una regla borrosa. Se verá también que usando un Sistema de Inferencia Borroso (Fuzzy Inference System, FIS) es posible realizar esa tarea de localización de zonas automáticamente. Los mapas borrosos o mapas de inferencia borrosos [27] [21] [22] permiten la incorporación de conocimiento del proceso expresado en forma de reglas difusas. Así, si f es un sistema de inferencia borroso con una salida τ y tantas entradas como variables del proceso: τ(g i ) = f(m i ) = f(s gi m i (g i )). (4.4)

76 76 CAPÍTULO 4. DATA MINING VISUAL Mapa borroso Figura 4.7: Mapa borroso. Esto permite asignar a cada punto del espacio de visualización un valor, que se codificará con color, y que es la salida del FIS f dándole como entrada el valor de las características del proceso en el punto correspondiente del espacio de características. Así, para el ejemplo utilizado en este capítulo, es posible visualizar las reglas: SI (x ES muy alta) Y (y ES muy alta) Y (z ES muy alta) ENTONCES (condicion1 ES si) SI (x NO ES muy alta) O (y NO ES muy alta) O (z NO ES muy alta) ENTONCES (condicion1 ES no) el mapa borroso resultante es el de la figura 4.7, donde se observa que la pequeña región resaltada coincide con un extremo de la agrupación de datos menor. Esta idea ya fue intuída por Pedrycz, que en [71] usa expresiones de lógica borrosa para obtener interpretaciones cualitativas en los resultados de un SOM usado como clasificador. Los mapas borrosos son, por tanto, una representación en el espacio de visualización de las conclusiones de conjuntos de reglas borrosas que relacionan características del proceso. Esas reglas suelen ser expresión de un conocimiento adquirido por la experiencia Mapas de modelos Los mapas borrosos pueden considerarse como una manera de representar en el espacio de visualización un modelo del proceso expresado en forma de reglas borrosas. De la misma forma es posible también representar en el espacio de visualización modelos analíticos. Los mapas de modelos son útiles

77 4.5. REPRESENTACIÓN VISUAL DE CONOCIMIENTO 77 Mapa de modelo: x 2 +y z= Figura 4.8: Mapa de modelo. para determinar en qué medida un modelo analítico (ecuaciones explícitas) se cumple en cada punto del espacio de características correspondiente a un punto del espacio de visualización [27] [22]. Si se tiene una ecuación que es función de las características consideradas en el espacio de entrada: f(x) = (4.5) se podría evaluar para las imágenes en el espacio de entrada correspondientes a los puntos del espacio de visualización, por ejemplo, en una rejilla regular: f(m i ) = f(s gi m i (g i )) = ɛ i (4.6) donde ɛ i sólo será nulo donde se cumpla el modelo dado por la ecuación 4.5 y será precisamente esta magnitud la que se represente en el espacio de visualización. En la figura 4.8 se muestra el mapa del modelo para la ecuación z = x 2 + y en el ejemplo. Se observa cómo el modelo se cumple para la zona correspondiente al grupo de datos mayor, como era de esperar puesto que esos datos fueron generados de acuerdo con dicha ecuación, al contrario que el grupo menor de datos. Tanto en el caso de los mapas de modelos como en el de los mapas borrosos, lo que realmente se está representando en el espacio de visualización son los subespacios que definen los modelos de ambos tipos: ecuaciones analíticas y reglas respectivamente. Con esta técnica, por lo tanto, estas entidades se

78 78 CAPÍTULO 4. DATA MINING VISUAL convierten en visualizables, lo cual permite conjugar la intuición física, presente en el espacio de características, con la intuición visual y geométrica, presente en el espacio de visualización Mapas de correlaciones El análisis de correlaciones es una técnica muy potente para descubrir relaciones lineales entre pares de variables. Tradicionalmente, esta técnica se ha aplicado sobre el conjunto de datos completo, proporcionando sólo información global. Sin embargo esto no es muy útil en datos de procesos industriales que, por su carácter no lineal, típicamente contienen varios puntos de funcionamiento, donde las correlaciones entre variables del proceso pueden ser diferentes. En [25] [22] se propone la representación en el espacio de visualización de las correlaciones locales entre variables de un proceso a partir de datos del mismo en el espacio de características, representación que se denomina mapa de correlaciones. El enfoque local es posible ponderando los datos en el espacio de características con una función de núcleo: w k (y) = e 1 2 x k S gi m i (y) 2 /σ 2 (4.7) Cada punto del espacio de visualización y (normalmente los g i de la rejilla regular) es proyectado sobre el espacio de entrada, y esta imagen S gi m i (y) es usada como centro de la función de núcleo para calcular la media local y la matriz de covarianzas local: k µ(y) = x k w k (y) k w (4.8) k(y) k C(y) = (c ij ) = [x k µ(y)][x k µ(y)] T w k (y) k w (4.9) k(y) A partir de la matriz de covarianzas local es posible definir de forma directa la matriz de correlaciones local en torno a y como: R(y) = (r ij ) donde r ij = c ij cii c jj. (4.1) El mapa de correlaciones para las variables x i y x j es representado por el valor r ij (o r ji debido a la simetría de las matrices de covarianzas y correlaciones) en cada punto y de la rejilla del espacio de visualización. Observando la figura 4.9, que son los mapas de correlaciones para el ejemplo, se hace más evidente cómo los mapas de correlaciones constituyen, de hecho, una generalización de una matriz de correlaciones, indicando la distribución local de dichas correlaciones.

79 4.5. REPRESENTACIÓN VISUAL DE CONOCIMIENTO 79 x x 1 x y 1 x z y x y y y z z x z y z z Figura 4.9: Mapas de correlaciones.

80 8 CAPÍTULO 4. DATA MINING VISUAL Todos los datos. Variable "z" codificada en color 3 3 Sólo datos con z>.4 y z< y y x x 1 Figura 4.1: Interpretación de las correlaciones entre x e y vista en los mapas de correlaciones. En la figura 4.1 se muestra una interpretación de la variación de la correlación xy de la figura 4.9 en la zona en que cambia el signo de la correlación. Así, considerando la z constante, para x pequeñas (en los planos de componentes se puede ver que es en la parte inferior del mapa) la correlación es positiva, pasando gradualmente a correlación nula y después negativa según aumenta la x (hacia arriba en los mapas). La elección de la variable σ de la ecuación (4.7) influye en el grado de localidad de los mapas de correlaciones. Para valores muy grandes de σ los mapas de correlaciones presentan los valores de correlaciones globales, siendo por tanto cada uno de ellos de un color uniforme. Para valores de σ muy pequeños, los mapas de correlaciones se ven muy influidos por el ruido y los pocos datos que tiene en cuenta para el cálculo de la matrices de covarianzas, lo cual genera mapas ruidosos y resultantes de matrices de covarianzas degeneradas. Los mapas de correlaciones pueden considerarse como la representación en el espacio de visualización de simples modelos locales lineales de carácter cualitativo extraídos de datos, y que pueden ser usados tanto para asistir en la identificación de la condición del proceso en distintas regiones del espacio de visualización, como para extraer nuevo conocimiento sobre el comportamiento del proceso en distintos puntos de funcionamiento.

81 Capítulo 5 Residuos en Modelos de Datos 5.1. Introducción La aplicación de técnicas de redundancia analítica es posible también con modelos basados en datos. La idea principal es desacoplar la parte que podemos denominar explicable por el modelo de la parte no explicable por el modelo en cada muestra del vector de características del proceso. La parte no explicable portaría información altamente específica en relación con situaciones novedosas, las cuales en su mayor parte podrían corresponder con situaciones de fallo. Esto es especialmente aplicable a fallos modelizables como fallos aditivos, puesto que en ciertos casos se puede encontrar relación directa entre el vector de fallo aditivo y el vector de residuos Generación de residuos En general, un modelo del sistema define un subespacio topológico S dentro del espacio de sus variables (características), o lo que es lo mismo, impone unas relaciones entre sus variables, una restricción en los grados de libertad de sus variables. Se puede generar un residuo vectorial ɛ a partir del modelo de la siguiente forma: ɛ = x ˆx (5.1) donde x es el vector de valores instantáneos de las variables del proceso y ˆx es el valor más semejante a x predicho por el modelo: ɛ = x S(x) (5.2) En general S será una función que devuelva x cuando éste esté contenido en el subespacio del proceso (x S) y distinto de x en caso contrario (x / S). 81

82 82 CAPÍTULO 5. RESIDUOS EN MODELOS DE DATOS En el primer caso el residuo vectorial sería nulo y el sistema se encontraría en situación de no fallo (estrictamente hablando, en situación de acorde con el modelo ). En el segundo caso habría una indicación de fallo y será cuestión de la naturaleza de la función S si el residuo es significativo o no para su uso en el aislamiento del fallo, es decir, si provee información válida para llevar a cabo dicho aislamiento [3]. La función S podría ser, en principio, cualquier técnica de proyección, y en concreto, cualquiera de las mencionadas en el apartado Detección de Novedades La detección de novedades (novelty detection) consiste en detectar cuándo un dato nuevo 1 no corresponde con ninguno de los estados del proceso presente en los datos que fueron usados para la creación del modelo [15] [1] [83] [39]. Esto se relaciona con el apartado anterior puesto que un indicador de novedades es: e = x ˆx (5.3) valor escalar que se denomina error de modelado (error de cuantificación, quantization error, en el SOM). Esto, en principio, sólo es válido en los métodos de modelado a partir de datos que tengan en cuenta el dominio de los datos que fueron usados para crear el modelo 2 : si el nuevo dato no está contenido dentro de ese dominio, entonces es una novedad. El problema de detectar cuando un dato x R n pertenece al dominio de una variable aleatoria ξ R n no es directo cuando la información de partida es un conjunto de muestras de dicha variable aleatoria. Este problema está relacionado con la Teoría de Decisión y lo que se conoce en Estadística como detección de valores atípicos (outlier testing). El problema de detección de valores atípicos consiste en descubrir cuándo un dato x puede corresponder con una realización de la variable aleatoria ξ o no. El dominio de la variable aleatoria va implícito en la función de densidad de probabilidad (fdp) de los datos, puesto que corresponde con los valores de x donde esta función es no nula. El caso donde x cae fuera del dominio de ξ es inmediato puesto que es evidente que no puede ser una realización de ξ. Sin embargo cuando x está dentro del dominio de ξ, no se garantiza que sea 1 Sea un dato nuevo un dato que acaba de ser adquirido o que simplemente no fue usado en la creación del modelo. Aunque la palabra es similar, el significado es diferente al del término novedad. 2 Dicho de manera simplificada, que no extrapolen. La interpolación también puede crear algún problema si no se tiene en cuenta, pero puede detectarse como se explica en

83 5.3. DETECCIÓN DE NOVEDADES 83 una realización de ésta, sobre todo en los casos en los que la fdp es próxima a cero. Además esto último siempre ocurrirá en casos en los que la fdp sea no nula en todo R n, como en la distribución normal. La mayor parte de las veces el objetivo es, por tanto, cuantificar al menos qué probabilidades hay de cometer un error en la decisión, ya sean falsos positivos o falsos negativos. La Teoría de Decisión proporciona varias posibilidades para la detección de novedades; aquí se mencionarán algunos métodos especialmente interesantes por su carácter intuitivo o por su carácter práctico. La primera idea es realizar una estimación de la fdp de la variable aleatoria a partir de los datos muestra, poner un umbral 3 para realizar la discriminación, evaluar el dato en la fdp y, si el resultado queda por encima del umbral, el dato se supone realización de la variable aleatoria. Existen también soluciones partiendo sólo del modelo creado a partir de los datos, sin embargo el problema es algo distinto. Generalmente el modelo, al contrario que la fdp, no tiene en cuenta el ruido, refiriéndose este ruido al responsable de la varianza de los datos respecto a la media aproximada por el modelo; un caso especial es GTM, que sí que tiene en cuenta el ruido, en cierta manera, por medio del parámetro β. En estos casos, la solución, que consiste en escoger un umbral para el error de modelado e de la ecuación (5.3), puede tener en cuenta de alguna manera los datos de partida para obtener información sobre el ruido, para posteriormente deducir de ello el umbral más adecuado. Resumiendo, existen al menos tres alternativas como criterio para la detección de novedades: Umbral para la fdp relacionado con la probabilidad de error en la detección. Umbral global para el error de modelado. En GTM podría ser proporcional a 1/β, y en otro caso (SOM, etc.) estimarse a partir de los datos de entrenamiento. Sería como darle un grosor al subespacio topológico del modelo igual en todo él. Umbral para el error de modelado distinto en cada punto perteneciente al subespacio del modelo. Sería como darle al subespacio un grosor distinto en cada punto. 3 Que puede ser un valor tal que al integrar la fdp donde ésta supere dicho valor, dé un resultado de.99, por ejemplo.

84 84 CAPÍTULO 5. RESIDUOS EN MODELOS DE DATOS 5.4. Residuo vectorial Si se considera el vector (5.1) completo (y no sólo su módulo), además de la detección puede haber un aislamiento del fallo puesto que, bajo ciertas condiciones, en un fallo aditivo el vector de residuos es semejante al vector de fallo. Si se produce un fallo en el que el proceso se mueve en una dirección aleatoria dentro de su espacio, cuando este espacio es de alta dimensionalidad es muy probable que el movimiento sea en una dirección ortogonal al subespacio que representa el modelo del proceso 4. Es decir, que podemos obtener un vector semejante al de fallo tomando el vector diferencia entre el punto actual y el más cercano dentro del subespacio del proceso, que es precisamente lo que se plantea en las ecuaciones (5.1) y (5.2) Validez del residuo vectorial Las técnicas que sirven para realizar modelos basados en datos se pueden clasificar en dos grupos: 1. Modelos basados en el soporte 5 de los datos (GRNN, SOM, k-means,... ). Son modelos que aproximan la geometría de la función de densidad de probabilidad. 2. Modelos mínimo-cuadráticos (RBF, perceptrón multicapa autoasociativo). Tratan de minimizar una función de error cuadrático. Los modelos basados en soporte están estadísticamente fundamentados. Tratan de buscar una función objetivo en la que figura la función de densidad de probabilidad (que lleva implícito el soporte de los datos). Los modelos mínimo-cuadráticos, sin embargo, buscan simplemente minimizar el error de aproximación y obtienen como resultado algo parecido a la función identidad: f(x) = x, y entonces: El error de modelado en valor absoluto no se corresponde con la proporción de error cometido. La dirección de los residuos en algunos casos es totalmente no significativa (en cuanto a información útil para aislamiento de fallos, por ejemplo). 4 Esto es idéntico a la idea básica de Random Projections explicada en Soporte o dominio de una variable aleatoria: rango de valores que puede tomar. Se entiende aquí este término en un sentido más amplio, denotando la geometría de la región en el espacio ocupada o poblada por los datos.

85 5.4. RESIDUO VECTORIAL (a) Módulo del vector de residuos con un modelo mínimo-cuadrático (b) Módulo del vector de residuos con un modelo basado en soporte (c) Dirección del vector de residuos con un modelo mínimo-cuadrático (d) Dirección del vector de residuos con un modelo basado en soporte. Figura 5.1: Comparación de los residuos, tanto en módulo como en dirección, para modelos basados en soporte y mínimo-cuadráticos. En el caso ideal, una dirección significativa para los residuos implica que los valores de cada componente son proporcionados con la desviación real de dicha componente, y que los signos de las desviaciones son los correctos. En la figura 5.1 se muestra una comparación de residuos generados con un modelo mínimo-cuadrático (RBF) y con un modelo basado en soporte (GRNN), en la que se comprueba que en el caso del modelo mínimo-cuadrático los residuos son prácticamente nulos aun en puntos lejanos a los datos usados para generar el modelo. Se puede ver intuitivamente lo que ocurre en un caso particular con un perceptrón multicapa autoasociativo. La hipersuperficie que representa está definida en todo el espacio, mientras que el proceso sólo se moverá en

86 86 CAPÍTULO 5. RESIDUOS EN MODELOS DE DATOS x y z Tiempo (muestras) Figura 5.2: Representación del vector de residuos. Ejemplo de fallo aditivo haciendo su aparición en torno a la muestra 9. una zona determinada de ese espacio (su dominio). Es claro que cuando se presente una situación muy lejana a la de los datos de entrenamiento de la red, el punto que la representa probablemente se proyecte en una zona muy alejada de los datos de entrenamiento (de su dominio), con lo cual el residuo será totalmente inútil Representación del residuo vectorial Dado el enfoque eminentemente visual de esta tesis la representación más adecuada para el vector de residuos es un detalle bastante importante. Para una representación de dicho vector a lo largo del tiempo, una simple gráfica tiempo-valor por componente es confusa cuando el número de componentes es grande. Otro tipo de representación, que ha dado excelentes resultados en la práctica, es el mostrado en la figura 5.2. Los valores de las componentes del vector de residuos se muestran codificadas con color (hacia rojos, positivos; hacia azules negativos; verde significa valor nulo) en una gráfica en la que cada línea en el eje vertical corresponde a una componente del vector y el eje horizontal corresponde con tiempos. Este tipo de representación permite diferenciar fácilmente cada una de las componentes y detectar la desviación de cualquiera de ellas del cero con un sólo vistazo Consideraciones en el uso de residuos Se pueden hacer dos consideraciones especiales en cuanto al uso de residuos y respecto al modelo de datos a usar: a) los criterios para escoger los datos para generación del modelo y b) los problemas del carácter interpolante o no del modelo.

87 5.5. CONSIDERACIONES EN EL USO DE RESIDUOS Elección de datos para el modelo Existen dos formas de combinar el uso de residuos y proyección de trayectoria para el diagnóstico de fallos: 1. Introducir en el modelo todas las situaciones disponibles en forma de datos (normales y de fallo). En este caso los residuos detectarán estados no presentes en el modelo, que pueden ser de fallo o simplemente estados considerados normales pero de los que no se tenían datos. 2. Introducir en el modelo sólo situaciones normales. A menudo es más fácil tener datos de situaciones normales puesto que el proceso se encontrará en ese estado la mayor parte del tiempo. Nuevamente, los residuos detectarán estados no presentes en el modelo, que pueden ser de fallo o, en teoría con menor probabilidad, un estado normal no contemplado en el modelo. La única diferencia entre uno y otro caso sería la mayor predisposición del operador del proceso, en el segundo caso, a considerar fallo en un primer momento cualquier aviso que dieran los residuos Modelo con interpolación Cuando se utiliza una técnica de proyección para generar residuos, puede ser importante distinguir cuándo el proceso está en una zona del mapa que corresponde con datos disponibles y cuándo son resultado de interpolación realizada por el modelo entre agrupaciones de dichos datos usados en la generación de dicho modelo. Para distinguir en una determinada proyección si se está en zona modelada hay que mirar tanto el error de modelado/residuos como el mapa de distancias, teniendo en cuenta que en zonas de interpolación, una técnica de proyección continua no genera residuos, y en una discreta (como el SOM) éstos pueden ser mínimos (generalmente hay neuronas interpolantes). Además, en ambos casos, los residuos pueden no ser significativos para el diagnóstico de fallos.

88 88 CAPÍTULO 5. RESIDUOS EN MODELOS DE DATOS

89 Capítulo 6 Metodología de Supervisión 6.1. Introducción Todas las ideas y técnicas concernientes a Data Mining Visual que han sido comentadas en previos apartados, se pueden organizar en el marco de una metodología aplicable a supervisión de procesos complejos que se pueden relacionar con otras metodologías estándar de Data Mining como CRISP-DM [16]. Todo ello puede ilustrarse con el ejemplo de la implementación real de un sistema de monitorización mediante técnicas de Data Mining Visual, una aplicación denominada MAPREX, que ha sido desarrollada en el seno de un proyecto de investigación del Área de Ingeniería de Sistemas y Automática para la supervisión de sistemas de un tren de laminación en caliente de Aceralia Corporación Siderúrgica El sistema MAPREX MAPREX: un sistema de monitorización MAPREX es un sistema de monitorización de la condición basado en SOM. Tiene capacidades de representación de datos típicas en la monitorización de procesos: señales a lo largo del tiempo, espectros, etc.; también tiene la posibilidad de almacenamiento de datos. Además, MAPREX tiene implementadas técnicas de redundancia analítica empleando un modelo basado en datos constituido por un SOM. 89

90 9 CAPÍTULO 6. METODOLOGÍA DE SUPERVISIÓN Comprensión del negocio Comprensión de los datos Preparación de los datos Implantación Generación del modelo Evaluación Figura 6.1: Modelo de referencia CRISP-DM MAPREX: una herramienta de Data Mining Visual El sistema MAPREX es una aplicación instalada en un ordenador portable que permite realizar Data Mining Visual en planta, al mismo pie del proceso. Esto posibilita correlacionar la información que provee MAPREX, representada de diversas formas, con la información procedente de percepciones sensoriales (visual, auditiva, olfativa, etc.) acerca del proceso que sólo es posible obtener in situ. Debido a esto, la emisión de hipótesis sobre la validez y la significancia de los datos tomados del proceso, así como la configuración de una extracción de características sobre estos datos del proceso realizada en tiempo real y la consiguiente comprobación de la utilidad de la información resultante se convierte en una tarea altamente interactiva. MAPREX y CRISP-DM La metodología de supervisión mediante Data Mining Visual encaja perfectamente en un estándar de desarrollo de proyectos de Data Mining como es CRISP-DM (CRoss Industry Standard Process for Data Mining) [16]. El modelo de referencia del CRISP-DM tiene varias fases. La secuencia de fases no es lineal sino que puede implicar vueltas a pasos anteriores, como se muestra en la figura 6.1:

91 6.2. EL SISTEMA MAPREX Entendimiento del negocio: entender los objetivos y requerimientos desde la perspectiva del negocio, y entonces convertir este conocimiento en la definición de un problema de Data Mining y un plan preliminar diseñado para conseguir los objetivos. 2. Comprensión de los datos: recoger datos, familiarizarse con ellos, identificar problemas de calidad de los mismos, y descubrir las primeras cosas interesantes para conjeturar hipótesis respecto a información oculta en ellos. 3. Preparación de los datos: comprende todas las actividades encaminadas a formar el conjunto de datos final que será introducido en las herramientas de generación de modelos. Las tareas de preparación de datos probablemente se lleven a cabo varias veces, sin ningún orden preestablecido. Esto incluye la selección de atributos, registros y tablas, así como la transformación y limpieza de los datos para las herramientas de generación de modelos. 4. Generación del modelo: se seleccionan las técnicas de modelado, se aplican y se calibran sus parámetros a valores óptimos. Suele haber varias técnicas para el mismo problema que pueden tener unos requerimientos distintos en cuanto al formato de los datos, lo cual puede implicar volver al paso anterior de preparación de datos. 5. Evaluación: comprobar si el modelo generado cumple los objetivos impuestos en la fase inicial. Si no los cumple porque no se consideró algún aspecto clave, habrá que volver al paso de comprensión del negocio. 6. Implantación: uso del modelo generado. Puede ser tan simple como la generación de un informe o tan complejo como la implementación de un proceso de Data Mining continuo. MAPREX se enmarca fácilmente dentro de la metodología CRISP-DM. Es a la vez una herramienta de desarrollo de sistemas de supervisión por medio de técnicas de Data Mining Visual y el sistema de supervisión en sí. Así, MAPREX es aplicable en las siguientes fases del modelo de referencia CRISP-DM: Comprensión de los datos: MAPREX dispone de diversas formas de representación de datos, como son formas de onda, espectros, y características; todas ellas son útiles en los primeros pasos para captar las particularidades de los datos procedentes de un proceso. Así, las características son configurables como valores instantáneos 1 para señales 1 Realmente dichas señales se preprocesan a través de un filtro de media.

92 92 CAPÍTULO 6. METODOLOGÍA DE SUPERVISIÓN Comprensión del negocio Comprensión de los datos Preparación de los datos Generación del modelo Evaluación Implantación Determinar los objetivos del negocio Antecedentes Objetivos Criterios de éxito Evaluar situación Inventario de recursos Requerimientos, suposiciones y restricciones Riesgos y contingencias Terminología Costes y beneficios Determinar los objetivos del Data Mining Objetivos del Data Mining Criterios de éxito del Data Mining Producir plan del proyecto Plan del proyecto Evaluación inicial de herramientas y técnicas Tomar datos iniciales Informe de la toma de datos iniciales Describir los datos Informe de descripción de los datos Explorar los datos Informe de exploración de los datos Verificar calidad de los datos Informe de calidad de los datos Conjunto de datos Descripción del conjunto de datos Seleccionar datos Criterios de inclusión/exclusión Limpiar datos Informe de limpieza de datos Construir conjunto de datos Atributos derivados Registros generados Integrar datos Datos combinados Formatear datos Datos reformateados Seleccionar la técnica de modelado Técnica de modelado Suposiciones de modelado Generar diseño de prueba Diseño de prueba Generar modelo Configuración de parámetros Modelos Descripción de modelos Evaluar modelo Evaluación de modelo Revisión de configuración de parámetros Evaluar resultados Evaluación de los resultados de data mining respecto a los criterios de éxito de negocio Modelos aprobados Revisar proceso Revisión del proceso Determinar siguientes pasos Lista de posibles acciones Decisión Planear implantación Plan de implantación Planear monitorización y mantenimiento Plan de monitorización y mantenimiento Generar informe final Informe final Presentación final Revisar proyecto Documentación de la experiencia Figura 6.2: Tareas genéricas y salidas del modelo de referencia CRISP-DM.

93 6.2. EL SISTEMA MAPREX 93 consideradas como estáticas, o como valores espectrales (energías en bandas de frecuencia) para señales consideradas como dinámicas, puesto que la mayor parte de este tipo de señales tienen como origen elementos giratorios en máquinas (que generan magnitudes mecánicas cuasiperiódicas: vibraciones, fuerzas, etc.), corrientes alternas, etc. Preparación de los datos: MAPREX puede realizar extracción de características off line en datos almacenados previamente, con vistas a la generación de un modelo posterior. Generación de modelos: a partir de los datos obtenidos, MAPREX puede generar un modelo basado en SOM, útil para Data Mining Visual tanto on line como off line, con capacidades de proyección de datos y generación de residuos. Evaluación: con el modo simulación, en MAPREX se puede comprobar que el modelo es correcto con datos off line. Si todo funciona correctamente se puede proceder a la evaluación on line y de forma continua, progresiva y simultáneamente a la implantación. Implantación: por el carácter portable del sistema MAPREX es posible llevar todos los pasos anteriormente mencionados al mismo pie del proceso, con lo cual la implantación puede ser inmediata Estructura de la aplicación MAPREX La aplicación MAPREX tiene la estructura que se muestra esquematizada en la figura 6.3: 1. Un módulo de adquisición de datos, que realiza las tareas relacionadas con la adquisición, almacenamiento y representación de señales a lo largo del tiempo junto con sus espectros. 2. Un módulo de extracción de características, que realiza extracciones de características de forma on line y representa la evolución temporal de las características previamente configuradas. También realiza extracciones de características off line que producen datos listos para entrenar un SOM. 3. Un módulo SOM, que entrena SOMs y los ejecuta en tiempo real, usando como entrada los datos que se van generando en una extracción de características sobre las variables del proceso que se van muestreando. Como resultado de la ejecución, el SOM representa la trayectoria

94 94 CAPÍTULO 6. METODOLOGÍA DE SUPERVISIÓN de estado sobre diferentes vistas del espacio de visualización y genera residuos, mostrándolos también gráficamente Una sesión con MAPREX A continuación se describirá una sesión típica con la aplicación. La aplicación MAPREX, al final de una de dichas sesiones, tiene el aspecto de la figura 6.4. Las ventanas que muestra se irán abriendo según se van necesitando en los sucesivos pasos que se relatan en el resto de este apartado Selección de señales El primer paso consiste en seleccionar las señales y configurarlas en el subsistema de adquisición. Los parámetros configurables para cada señal son: Nombre: una cadena alfanumérica que identifique la señal. Sensibilidad: valor que da la relación de número de unidades de la señal por voltio en la entrada. Unidad: cadena alfanumérica que identifica las unidades en la que se mide la magnitud de la señal. Hay que seleccionar también la frecuencia de muestreo en función del máximo ancho de banda de entre las señales, así como el número de datos que se usará en los espectros de las señales, lo cual determinará su resolución. Con esta configuración mínima, MAPREX está listo para adquirir datos Visualización de las señales en tiempo real Una vez iniciada la adquisición de datos, se pueden visualizar las señales en tiempo real, tanto en el dominio del tiempo como en el de la frecuencia. Esto constituye el primer nivel de monitorización de variables del proceso. Ya en este punto se puede obtener información interesante del proceso, que será aprovechada en el siguiente paso de selección de características Selección de características Existen dos formas complementarias para realizar una selección de las características del proceso de forma interactiva con MAPREX: la selección on line y la selección off line.

95 6.3. UNA SESIÓN CON MAPREX 95 Señales en el Tiempo Señales en la Frecuencia Características Adquisición de Datos Extracción de Características registro de señales registro de extracciones de características SOM registro de SOMs entrenados Residuos Proyección de Trayectoria sobre Mapas PROCESO Figura 6.3: Diagrama de bloques de la aplicación MAPREX.

96 96 CAPÍTULO 6. METODOLOGÍA DE SUPERVISIÓN Selección on line La selección on line de características se apoya principalmente en las ventanas de representación temporal y frecuencial de las señales. Como éstas tienen información a muy corto plazo (prácticamente correspondiente al instante), requieren una atención continua. Sin embargo, también es posible representar información a más largo plazo, como resultado de una extracción de características en tiempo real, en la denominada ventana de características. Las características a representar se elegirán por las conclusiones obtenidas de la observación de las señales en tiempo y frecuencia o por conocimiento previo. Las características configurables son valores medios de señales y energías de la señal contenidas en bandas de frecuencia dadas por su frecuencia central y ancho. Selección off line Todo lo mencionado hasta ahora para observación on line de señales se puede realizar de forma off line para análisis sobre archivos de datos previamente capturados: representación temporal, frecuencial y extracción de características. Además, se dispone de una posibilidad adicional que es la de representación de espectrogramas Preparación de datos para modelado La preparación de datos para modelado consiste en la extracción de características, con la configuración elegida como resultado de los pasos previos, sobre archivos seleccionados de datos capturados. Estos archivos se habrán seleccionado de forma que resuman todas las condiciones posibles del proceso Generación del modelo Una vez obtenidos los datos para modelado, el paso siguiente es generar el modelo. El modelo basado en datos implementado en MAPREX es una red neuronal SOM que, una vez escogida su configuración (número de neuronas, vecindad, etc.), puede ser entrenada con los mencionados datos resultado de la extracción de características Explotación del modelo El siguiente paso es el aprovechamiento del modelo generado. Para ello, una vez cargado el archivo del modelo, se puede abrir toda una serie de ventanas que aprovechan las dos aplicaciones que tiene el modelo basado

97 6.3. UNA SESIÓN CON MAPREX 97 en datos constituido por el SOM: proyección de trayectoria y generación de residuos. Proyección de trayectoria Las ventanas que aprovechan la capacidad de reducción de la dimensión del SOM para visualización son ventanas que representan precisamente el espacio de visualización del proceso, en las que se realiza la proyección del vector de características instantáneo que podemos denominar puntero de estado o condición, y en las que, dependiendo del tipo de ventana, se representa de fondo distinta información del proceso codificada con colores y que es como visualizar el proceso en sí. En MAPREX se dispone actualmente de los siguientes tipos: Planos de componentes (ver apartado 4.5.2). Mapa de distancias (ver apartado 4.5.3). Mapas de activación (ver apartado 4.5.4). Mapas de correlaciones (ver apartado 4.5.7). En cualquiera de estas ventanas y en cualquier posición se puede colocar una etiqueta, que aparecerá automáticamente en el resto de ventanas del SOM. Generación de residuos En una ventana adicional MAPREX puede representar en tiempo real el vector de residuos instantáneo generado por el SOM como una cinta que se desliza de derecha a izquierda. En vertical se tienen las características y en horizontal el tiempo, correspondiendo la parte derecha al instante actual. Cuando los residuos son nulos, los residuos son verdes. Cuando aparece un residuo rojo (positivo) quiere decir que la característica correspondiente tiene un valor mayor de lo esperado (de lo estimado por el modelo del SOM). Cuando aparece un residuo azul (negativo) quiere decir que la característica correspondiente tiene un valor menor de lo esperado (de lo estimado por el modelo del SOM). Esto permite conocer al instante: Qué variables están involucradas en el fallo. El sentido de las desviaciones. En qué momento se produjo el fallo.

98 98 CAPÍTULO 6. METODOLOGÍA DE SUPERVISIÓN Figura 6.4: Pantalla de MAPREX durante una sesión típica.

99 Capítulo 7 Resultados 7.1. Introducción En este capítulo se verán casos reales de aplicación de las técnicas expuestas en capítulos anteriores. En primer lugar se mostrará la aplicación a monitorización en tiempo real sobre un pequeño motor de inducción en laboratorio. En segundo lugar se tratará el caso de Data Mining Visual en un proceso industrial real, un tren de laminación en caliente. Estos ejemplos están realizados con MATLAB por razones de nitidez en las figuras. También se muestra una captura de pantalla de la aplicación MAPREX mostrando las posibilidades que ya tiene implementadas referidas al primer caso en estudio Monitorización de sistemas en tiempo real Descripción del sistema El sistema a monitorizar consta de un motor de inducción trifásico de 4kW y dos pares de polos con las características mostradas en el cuadro 7.1. En los ejemplos funcionará siempre en vacío y para variar sus condiciones de funcionamiento se le introducirán asimetrías en su alimentación, tanto de forma total y brusca (eliminando una fase) como de forma gradual (por medio de una resistencia variable en una fase). También se le introducirán asimetrías mecánicas en el eje con una pequeña masa desequilibrante. Para la toma de datos del proceso se utilizaron acelerómetros piezoeléctricos (ICP) para medir vibraciones, sensores de efecto Hall para medir corrientes y una resistencia variable con la temperatura PT-1 para medir la temperatura. El esquema de este sistema se muestra en la figura

100 1 CAPÍTULO 7. RESULTADOS Potencia nominal 5,5 CV Tensión nominal 38 V (Y) Corriente nominal 9 A Velocidad 143 rpm Frecuencia alimentación 5 Hz cos(φ),83 Cuadro 7.1: Características técnicas del motor trifásico. Corriente S Corriente R Vibración Y Vibración Z Asimetría Mecánica m 4 kw 38V 3~ 15 rpm Desequilibrio gradual en la alimentación R R S T Fallos de fase totales Vibración X Figura 7.1: Esquema del equipo de pruebas para el motor trifásico.

101 7.2. MONITORIZACIÓN DE SISTEMAS EN TIEMPO REAL Obtención del modelo Se tomaron datos de temperatura (T ), vibraciones en tres ejes perpendiculares (X, Y y Z) y corrientes en dos (R y S) de las tres fases (denominadas R, S y T ), muestreados a 2 khz por ser aproximadamente el doble del ancho de banda de las señales de vibraciones, las que más ancho de banda tienen de entre todas ellas. Estos datos incluyeron las siguientes condiciones del motor: parado, funcionamiento normal, fallo en fase R, fallo en fase S, fallo en fase T, y la combinación de todas esas condiciones con una asimetría mecánica (desequilibrio) en el eje 1. Esto hace un total de nueve condiciones diferentes. Los fallos en la fase R fueron tanto bruscos como graduales, provocados estos últimos con la resistencia intercalada en dicha fase. Añadido a esto hay que tener en cuenta que los datos fueron tomados en un intervalo largo de tiempo que incluye una variación de la temperatura del motor desde temperatura ambiente (unos 2 o C) hasta unos 5 o C para los datos que posteriormente se usaron en el entrenamiento, llegando hasta unos 6 o C para los datos de test. Posteriormente, como características se escogieron la temperatura y los armónicos múltiplos de la velocidad de giro del motor 1, 2 y 3 (25, 5 y 75 Hercios) para las vibraciones en los tres ejes X, Y y Z, que proporcionan información sobre fallos mecánicos del motor como desalineamientos o desequilibrios del rotor. Por otro lado se tomó, también en los tres ejes de vibración, el armónico de 1 Hz, que es útil para detectar desequilibrios en la alimentación del motor (alimentado a 5 Hz) y, como caso extremo, fallos de fase. Por último, de las dos corrientes se considerará su armónico fundamental de 5 Hz. Esto hace un total de 15 características, que se denominarán como se muestra en la tabla 7.2. Para la extracción de características se consideró la temperatura como variable estática y sólo se usó su valor medio. En el caso del resto de características se usó una STFT con un tamaño de ventana 8192, un solapamiento del 9 % y ponderación por ventana de Hanning, y se calcularon los valores eficaces en bandas de 15 Hz alrededor de las frecuencias centrales correspondientes a cada característica. Esto, aplicado a unos 45 segundos de muestras, generó 915 datos. Con estos datos se entrenó un SOM de Aplicación del modelo El primer paso después del entrenamiento, normalmente, es etiquetar el SOM aprovechando las muestras controladas disponibles. En este caso se disponía de muestras controladas para todas las situaciones consideradas. En 1 Evidentemente, la condición de parado con desequilibrio es idéntica a la de sin desequilibrio.

102 12 CAPÍTULO 7. RESULTADOS Característica Nombre largo Nomb. abreviado Temperatura Temperatura T Armónico 25 Hz vibración eje X X 25Hz X25 Armónico 5 Hz vibración eje X X 5Hz X5 Armónico 75 Hz vibración eje X X 75Hz X75 Armónico 1 Hz vibración eje X X 1Hz X1 Armónico 25 Hz vibración eje Y Y 25Hz Y25 Armónico 5 Hz vibración eje Y Y 5Hz Y5 Armónico 75 Hz vibración eje Y Y 75Hz Y75 Armónico 1 Hz vibración eje Y Y 1Hz Y1 Armónico 25 Hz vibración eje Z Cojinetes 25Hz Z25 Armónico 5 Hz vibración eje Z Cojinetes 25Hz Z5 Armónico 75 Hz vibración eje Z Cojinetes 25Hz Z75 Armónico 1 Hz vibración eje Z Cojinetes 25Hz Z1 Armónico 5 Hz corriente fase R Corriente R 5Hz R Armónico 5 Hz corriente fase R Corriente S 5Hz S Cuadro 7.2: Variables (características) escogidas para el motor trifásico. la figura 7.2 pueden observarse los mapas de activación para algunas de ellas. Se puede destacar la ventaja de los mapas de activación frente a la simple proyección de trayectoria con el ejemplo de la figura 7.3. En este ejemplo aparentemente hay tantos datos en la línea dispersa superior derecha como en el grupo compacto inferior izquierdo. El mapa de activación, sin embargo, revela que en el grupo compacto están la mayoría de los puntos, proyectados unos encima de otros. Una vez etiquetado el SOM, el mapa de distancias tiene el aspecto de la figura 7.4. En este caso concreto todavía habría sido relativamente fácil identificar las condiciones del motor en el espacio de visualización a la vista de los planos de componentes, mostrados en la figura 7.5. Para ello bastaría buscar: dónde los armónicos de 1 Hz de las vibraciones se hacen altos, para encontrar los fallos de fase dónde se anulan las corrientes de cada fase, para identificar sus respectivos fallos dónde los armónicos de 25 Hz 2 se hacen altos, para encontrar qué zonas corresponden a asimetría mecánica en el eje. 2 Frecuencia que corresponde aproximadamente a la velocidad de giro mecánica.

103 7.2. MONITORIZACIÓN DE SISTEMAS EN TIEMPO REAL 13 normal fallo R fallo S fallo T Figura 7.2: Mapas de activación para varios grupos de muestras controladas del motor trifásico.

104 14 CAPÍTULO 7. RESULTADOS Mapa de activacion "parado y normal" Figura 7.3: Comparación entre mapa de activación y trayectoria proyectada para el motor trifásico. Mapa de distancias deseqfallo S deseq fallo S deseqfallo T parado normal deseqfallo R fallo T fallo R Figura 7.4: Mapa de distancias etiquetado para todas las condiciones conocidas del motor trifásico.

105 7.2. MONITORIZACIÓN DE SISTEMAS EN TIEMPO REAL 15 T X25 X5 X75 X1 Y25 Y5 Y75 Y1 Z25 Z5 Z75 Z1 R S Figura 7.5: Planos de componentes para el caso del motor trifásico. En los mapas de correlaciones aparecen algunos detalles interesantes que ilustran la utilidad de los mismos (no se representan aquí por ser su número muy grande). En primer lugar, es fácil identificar de un golpe de vista dónde la correlación global de un cierto signo es predominante buscando colores rojos o azules. En este caso aparecen ejemplos muy claros, con mapas de correlaciones totalmente rojos, como los de todas las combinaciones entre sí de X25, Y25 y Z25. Esto se detectaría incluso observando sus planos de componentes, que son prácticamente idénticos. En la elección de características se escogieron varias de ellas aun sospechando a priori estas correlaciones totales por dos razones: 1. Esta redundancia de información facilita la detección de fallos en sensores. 2. Para conseguir un número de características suficiente para el buen funcionamiento de los residuos. Aun existiendo el problema de la dimensionalidad, es necesario un cierto número mínimo de características para que se cumpla la hipótesis del apartado 5.4. En la figura 7.6(a) se muestra un representación de puntos dispersos de las características Y1 y Z1, donde aparecen dos comportamientos claramente diferenciados: uno con correlaciones dudosas y otro con correlación claramente positiva. En la figura 7.6(b) adyacente, el mapa de correlaciones Y1 Z1 indica claramente a qué condiciones del motor corresponden

106 16 CAPÍTULO 7. RESULTADOS Y1 Z1 (a) Representación de puntos de los datos (b) Mapa de correlaciones locales para el armónico de 1 Hz de la vibración entre el armónico de 1 Hz de la Y frente al de la Z. vibración Y y el mismo de la Z. Figura 7.6: Comparación de los mapas de correlaciones con un representación de puntos dispersos para el motor trifásico. esas dos diferentes situaciones: la primera, a las condiciones con asimetría mecánica en el eje y la segunda, al resto de condiciones. Con datos de prueba tomados para todas las situaciones consideradas, pero a temperaturas mayores que los datos de entrenamiento, se comprobó que el modelo era capaz de reconocer las situaciones que se le presentaban y además avisaba, con el residuo de la temperatura, de que ésta era mayor de lo normal. Esta situación se muestra en la figura 7.7, directamente en una captura de pantalla de la aplicación MAPREX Data Mining de procesos industriales Descripción del proceso Para mostrar algunas de las posibilidades de las técnicas de Data Mining Visual aplicada a procesos se utilizará el ejemplo de un motor de continua en un tren de laminación en caliente de Arcelor, que tiene las características mostradas en el cuadro 7.3. Se dispone de cuatro variables: corriente de campo i f, corriente de inducido i a, velocidad ω y tensión de inducido V a.

107 7.3. DATA MINING DE PROCESOS INDUSTRIALES 17 Figura 7.7: Captura de pantalla de MAPREX mostrando residuos para las mismas condiciones del entrenamiento pero a mayor temperatura para el motor trifásico en laboratorio.