UNIVERSIDAD DE EXTREMADURA



Documentos relacionados
UNIVERSIDAD DE EXTREMADURA

Sistemas de Información Geográficos (SIG o GIS)

App para realizar consultas al Sistema de Información Estadística de Castilla y León

EL MODELO DE DATOS RASTER

Elementos requeridos para crearlos (ejemplo: el compilador)

PROGRAMACIÓN ORIENTADA A OBJETOS Master de Computación. II MODELOS y HERRAMIENTAS UML. II.2 UML: Modelado de casos de uso

Resumen de la Tesina. Autor: Adrià Batet López. Tutor: Víctor Pascual Ayats

SISTEMAS DE INFORMACIÓN II TEORÍA

UNIVERSIDAD DE SALAMANCA

ortosky, una única plataforma para la integración de diferentes formatos y la obtención de un producto mejorado JIDEE BARCELONA Noviembre 2011

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Operaciones Morfológicas en Imágenes Binarias

Análisis de aplicación: Virtual Machine Manager

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

LINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN

Unidad III. Software para la administración de proyectos.

1.- Introducción y objetivos

Base de datos en Excel

Roberto Quejido Cañamero

Un primer acercamiento a la CMDB.

CAPITULO IV. HERRAMIENTAS DE CÓDIGO ABIERTO

SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para. Empresas en Crecimiento

1.1. Introducción y conceptos básicos

Diseño orientado al flujo de datos

Aproximación local. Plano tangente. Derivadas parciales.

MANUAL DE USUARIO DE LA APLICACIÓN DE ACREDITACION DE ACTIVIDADES DE FORMACION CONTINUADA. Perfil Entidad Proveedora

TABLA DE DECISION. Consideremos la siguiente tabla, expresada en forma genérica, como ejemplo y establezcamos la manera en que debe leerse.

Indicaciones específicas para los análisis estadísticos.

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología

CRIPTOGRAFÍA SIMÉTRICA Y ASIMÉTRICA

Tema 2. Espacios Vectoriales Introducción

V Manual de Portafirmas V.2.3.1

Fuente:

Contenidos. INFORME ENCUESTA TELEFÓNICA. Curso

Covarianza y coeficiente de correlación

Gestión de la Configuración

Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI

El objetivo principal del presente curso es proporcionar a sus alumnos los conocimientos y las herramientas básicas para la gestión de proyectos.

Gestión de proyectos

Tecnología IP para videovigilancia... Los últimos avances han hecho posible conectar cámaras directamente a una red de ordenadores basada en el

COMPARACIÓN DE ÁREAS DE FIGURAS POR ESTUDIANTES DE PRIMERO DE MAGISTERIO

El proceso de edición digital en Artelope y CTCE

Modelos de Help Desk

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora

Práctica 5. Curso

Manual CMS Mobincube

Resumen ÁREA DE FACTURACIÓN::INFORMES::Pedidos Detalle Resumen ÁREA DE

Capítulo 5. Cliente-Servidor.

ARREGLOS DEFINICION GENERAL DE ARREGLO

ANÁLISIS DE DATOS NO NUMERICOS

Oficina Online. Manual del administrador

Proyecto Fin de Carrera

Dirección de Planificación Universitaria Dirección de Planificación Universitaria Panamá, Rep. de Panamá Panamá, Rep.

QUÉ ES LA RENTABILIDAD Y CÓMO MEDIRLA. La rentabilidad mide la eficiencia con la cual una empresa utiliza sus recursos financieros.

comunidades de práctica

5.- ANÁLISIS DE RIESGO

Tema 3. Medidas de tendencia central Introducción. Contenido

ETSIINGENIO 2009 DIBUJO DE GRAFOS MEDIANTE ALGORITMOS GENÉTICOS

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones

LiLa Portal Guía para profesores

Se podría entender como una matriz de filas y columnas. Cada combinación de fila y columna se denomina celda. Por ejemplo la celda A1, B33, Z68.

Soporte Técnico de Software HP

SERVIDOR WEB PARA ACCESO EN TIEMPO REAL A INFORMACIÓN METEOROLÓGICA DISTRIBUIDA

10 razones para cambiarse a un conmutador IP

Funcionalidades Software PROYECTOS GotelGest.Net Software para la gestión de Proyectos GotelGest.Net

Interoperabilidad de Fieldbus

Capítulo I. Definición del problema y objetivos de la tesis. En la actualidad Internet se ha convertido en una herramienta necesaria para todas

La pestaña Inicio contiene las operaciones más comunes sobre copiar, cortar y pegar, además de las operaciones de Fuente, Párrafo, Estilo y Edición.

Unidad 1. Fundamentos en Gestión de Riesgos

CAPÍTULO 1 Instrumentación Virtual

NORMAS INTERNACIONALES Y ADQUISICION DE DATOS.

Metodología. del ajuste estacional. Tablero de Indicadores Económicos

Capítulo 9. Archivos de sintaxis

REDES DE ÁREA LOCAL. APLICACIONES Y SERVICIOS EN WINDOWS

Los distintos navegadores para movernos por Internet

Los mayores cambios se dieron en las décadas de los setenta, atribuidos principalmente a dos causas:

ÍTEMS DEL MENÚ CREACIÓN Y GESTIÓN (Última revisión: lunes, 9 de marzo de 2009)

Cómo sistematizar una experiencia?

3.1 DEFINICIÓN. Figura Nº 1. Vector

MODELOS DE RECUPERACION

Mejores prácticas para el éxito de un sistema de información. Uno de los problemas de información dentro de las empresas es contar con datos

WINDOWS : TERMINAL SERVER

Sesión No. 4. Contextualización INFORMÁTICA 1. Nombre: Procesador de Texto

Capítulo I. Planteamiento del problema

1.2 Qué es un Sistemas de Información Geográfica?

DESCRIPCIÓN DEL PROCESO DE RIESGO OPERACIONAL

MUESTREO TIPOS DE MUESTREO

Subespacios vectoriales en R n

ikimap. Comparte cartografía.

Sistemas de Gestión de Calidad. Control documental

1. INTRODUCCIÓN 1.1 INGENIERÍA

I INTRODUCCIÓN. 1.1 Objetivos

Capítulo VI. Diagramas de Entidad Relación

MEDICION DEL TRABAJO

Hot Potatoes, aplicaciones educativas

Usos de los Mapas Conceptuales en Educación

Transcripción:

UNIVERSIDAD DE EXTREMADURA Escuela Politécnica MÁSTER UNIVERSITARIO EN INVESTIGACIÓN EN INGENIERÍA Y ARQUITECTURA (MUIT) ESPECIALIDAD EN: TECNOLOGÍAS INFORMATICAS Y DE LAS COMUNICACIONES (TINC) Trabajo Fin de Máster MUIT-TINC HyperMix: Una nueva herramienta libre para el desmezclado de imágenes hiperespectrales de la superficie terrestre Luis Ignacio Jiménez Gil Septiembre 2012

MÁSTER UNIVERSITARIO EN INVESTIGACIÓN EN INGENIERÍA Y ARQUITECTURA (MUIT) ESPECIALIDAD EN: TECNOLOGÍAS INFORMATICAS Y DE LAS COMUNICACIONES (TINC) Trabajo Fin de Máster MUIT-TINC HyperMix: Una nueva herramienta libre para el desmezclado de imágenes hiperespectrales de la superficie terrestre Autor: Luis Ignacio Jiménez Gil Fdo: Director: Antonio J. Plaza Miguel Fdo: Tribunal Calificador Presidente: Fdo: Secretario: Fdo: Vocal: Fdo: CALIFICACIÓN: FECHA:

Tabla de contenido ÍNDICE DE IMÁGENES... 3 ÍNDICE DE EXPRESIONES Y TABLAS... 6 RESUMEN... 8 CAPÍTULO 1. Motivaciones y objetivos... 10 1.1. Motivaciones... 10 1.2. Objetivos... 12 CAPÍTULO 2. Antecedentes... 14 2.1. Análisis hiperespectral... 14 2.2 El problema de la mezcla... 18 2.3. Firmas espectrales puras.... 21 2.4. Análisis del software disponible para el tratamiento de imágenes hiperespectrales... 24 2.4.1. Software comercial existente para el análisis hiperespectral... 24 2.4.2. Software libre existente para el análisis hiperespectral... 27 2.4.4. Ventajas del software libre para el tratamiento de imágenes hiperespectrales.... 30 CAPÍTULO 3. Algoritmos implementados... 32 3.1. Estimación del número de endmembers... 34 3.1.1. VD... 34 3.1.2. HYSIME... 35 3. 2. Reducción de componentes... 37 3.2.1. PCA... 38 3.2.2. SPCA... 39 3. 3. Extracción de endmembers... 40 1

3.3.1. OSP... 40 3.3.2. N-FINDR... 42 3.4. Unmixing... 45 3.4.1. LSU... 46 3.4.2 ISRA... 46 CAPÍTULO 4. La herramienta HyperMix... 48 CAPÍTULO 5. Resultados experimentales... 56 5.1. Descripción de imágenes hiperespectrales... 56 5.1.1. Sintética (Fractal)... 56 5.1.2. Real (Cuprite)... 60 5.2. Comparativa de resultados... 63 5.2.1. Tiempo computacional... 63 5.2.2. Precisión de los algoritmos de extracción de endmembers frente al ruido... 65 5.2.3. Influencia del ruido en la imagen reconstruida a partir de los datos extraídos... 67 CAPÍTULO 6. Conclusiones y líneas futuras... 70 6.1. Conclusiones... 70 6.2. Líneas futuras... 71 REFERENCIAS BIBLIOGRÁFICAS... 73 APÉNDICE I: PUBLICACIONES RELACIONADAS... 78 Congresos:... 78 2

ÍNDICE DE IMÁGENES Figura 2.1: Ejemplo de imagen multi-espectral de cuatro bandas. Figura 2.2: Procedimiento de análisis hiperespectral. Figura 2.3: Firmas espectrales de vegetación obtenidas por el sensor multiespectral Landsat TM (7 bandas) y el sensor hiperespectral AVIRIS (224 bandas). Figura 1.4: Tipos de píxels en las imágenes hiperespectrales. Figura 2.5: Mezcla macroscópica Figura 2.6: Mezcla íntima. Figura 2.7: modelo lineal de mezcla. Figura 2.8: Interpretación gráfica del modelo lineal de mezcla. Figura 2.9: Interfaz proporcionada por el software ENVI ITT. Figura 2.10: Captura de pantalla de la herramienta PCI Geomatica. Figura 2.11: Captura de una aplicación basada en ORFEO Toolbox para el tratamiento de imágenes. Figura 2.12: Aplicación basada en OTB para segmentación de imágenes. Figura 3.1: Cadena completa de desmezclado o unmixing de imágenes hiperespectrales. Figura 3.2: Ilustración gráfica de la transformación PCA. Figura 3.3: Funcionamiento del algoritmo N-FINDR. Figura 3.4: Representación de la mezcla de tres endmembers. 3

Figura 4.1: Pantalla principal de la versión anterior de la herramienta HyperMix. Figura 4.2: Pantalla inicial de la herramienta HyperMix en la nueva versión. Figura 4.3: De izquierda a derecha las distintas paletas de colores que usa HyperMix. Grey, Envi, Hot, Cold, Bio y Jet. Figura 4.4: Ventana de descarga de imágenes por FTP de la herramienta HyperMix desde Hyperspectral Repository. Figura 4.5: Ventana de selección de imágenes de la herramienta HyperMix desde Hyperspectral Repository. Figura 4.6: Imagen de la pestaña de estadísticas donde se pueden ver los tiempos de ejecución y la diferencia entre las firmas extraídas y las de referencia. Figura 4.8: Foros creados para la consulta de dudas y proponer sugerencias sobre HyperMix. Figura 4.7: Vista general de la página web creada para la difusión de la herramienta Hypermix. Actualmente solo está disponible la versión anterior de la aplicación. Figura 5.1: Imagen Fractal 1 usada para crear la imagen sintética (izquierda). Fractal 1 dividida en clusters (derecha). Figura 5.2: Firmas insertadas en la imagen Fractal 1. Figura 5.3: Verdad terreno del Fractal 1 en escala de grises. Figura 5.4: Imagen hiperespectral AVIRIS sobre la región Cuprite en Nevada, Estados Unidos. Figura 5.5: Mapa de minerales obtenidos por el U.S. Geological Survey a través del algoritmo Tetracorder en la región Cuprite en Nevada, Estados Unidos. 4

Figura 5.6: Firmas espectrales puras correspondientes a los minerales más representativos en la región Cuprite en Nevada, Estados Unidos. Figura 5.7: Representación visual del error de reconstrucción de la imagen original a partir de las firmas extraídas y los mapas de abundancia. Las imágenes están ordenadas, de izquierda a derecha, de mayor señal de ruido a menor señal de ruido. Los colores fríos están más cerca del valor mínimo de error y los más cálidos del máximo. 5

ÍNDICE DE EXPRESIONES Y TABLAS Expresión 2.1: Expresión de un píxel como combinación lineal de las firmas espectrales puras. Expresión 3.1: Cálculo de la matriz de correlación de la imagen. Expresión 3.2: Cálculo de la matriz de covarianza de la imagen. Expresión 3.3: Estimación de la matriz de ruido contenido en la imagen. Expresión 3.4: Expresiones de la matriz de correlación de ruido y de la matriz de correlación de la señal. Expresión 3.5: Descomposición de valores singulares (SVD). Expresión 3.6: Operador de proyección ortogonal utilizado por el algoritmo OSP. Expresión 3.7: Expresión de la abundancia de un conjunto de firmas espectrales puras en un píxel para el algoritmo LSU. Expresión 3.8: Expresión de la abundancia de un conjunto de firmas espectrales puras en un píxel para el algoritmo ISRA. Expresión 5.1: Expresión representativa de una imagen sintética. Expresión 5.2: Definición de la inclusión de ruido en una imagen dada por de Harsanyi y Chang. Tabla 5.1: Resultados experimentales de cada uno de los algoritmos de la herramienta HyperMix en segundos. Tabla 5.2: Resultados obtenidos por la herramienta HyperMix comparando los endmembers extraídos con las firmas de referencia por el método del mínimo en la imagen Fractal1. 6

Tabla 5.3: Resultados obtenidos con la herramienta HyperMix para la image de Cuprite por el método del mínimo con cinco endmembers. Tabla 5.4: Resultados obtenidos por la herramienta HyperMix al reconstruir la imagen a partir de los endmember y los mapas de abundancia. 7

RESUMEN El análisis hiperespectral constituye una nueva técnica en observación remota de la Tierra que permite obtener imágenes con gran resolución espectral (cientos de bandas) para una misma zona de la superficie terrestre. El modelo lineal de mezcla constituye una aproximación clásica al análisis de datos hiperespectrales. Esta técnica generalmente consta de dos partes: 1) la extracción de firmas espectrales puras de materiales presentes en una escena hiperespectral (denominados endmembers en la literatura), y 2) la descomposición de las escenas en fracciones de abundancia relativas a dichos endmembers. Opcionalmente, se pueden añadir otras dos partes que son la estimación de los denominados endmembers presentes en la escena y la reducción de la dimensionalidad de la imagen. En el presente trabajo se ha desarrollado una nueva herramienta que permite realizar todas las etapas del proceso de análisis hiperespectral, tratando, en la medida de lo posible, de presentar dichas etapas de una forma sencilla e intuitiva. Para el desarrollo de la herramienta se ha optado por el lenguaje C++ utilizando para definir la interfaz de usuario, los procesos de entrada-salida y las comunicaciones la biblioteca Qt e incluir los algoritmos implementados por el grupo de investigación de Computación Hiperespectral (HyperComp). Los algoritmos incluidos permiten trabajar en todas las etapas de la cadena de demezclado. Además la herramienta contiene otras funciones útiles para el procesamiento de las imágenes hiperespectrales, entre las cuales la más novedosa sea el acceso a un repositorio de imágenes que el grupo tiene a su disposición. En este trabajo también se incluye una comparativa analítica de los métodos usados para la extracción de endmembers y generación de mapas de abundancia en base a los resultados obtenidos por la propia herramienta en dichas etapas. 8

La memoria del trabajo se encuentra organizada de la siguiente forma. En el primer capítulo se describen las motivaciones y objetivos del trabajo. A continuación, se presentan los antecedentes y trabajos previos sobre análisis, así como un resumen sobre el software existente y las ventajas del software libre. En el siguiente capítulo se describen los algoritmos disponibles en esta versión de la herramienta. A continuación se trata sobre la herramienta y los cambios respecto a la versión anterior. El siguiente capítulo expone los resultados obtenidos por la herramienta en dos supuestos, uno sintético y otro real, utilizando imágenes hiperespectrales de referencia. En el último capítulo se exponen las conclusiones obtenidas del trabajo y se proponen las líneas futuras de trabajo sobre este campo. 9

CAPÍTULO 1. Motivaciones y objetivos 1.1. Motivaciones El trabajo desarrollado en este Trabajo Fin de Máster (TFM) se enmarca dentro de las líneas de trabajo del grupo de investigación de Computación Hiperespectral (HyperComp) de la Universidad de Extremadura, entre las cuales se encuentra el desarrollo de nuevas técnicas para demezclado de imágenes hiperespectrales de la superficie terrestre basadas en la extracción de referencias espectrales puras o endmembers [1]. El presente trabajo se ha centrado en el desarrollo de una herramienta de software libre capaz de manejar algunas de dichas técnicas de forma eficiente con vistas a la utilidad que para un investigador esto pueda significar, y de forma sencilla para ampliar la difusión de este campo de la teledetección a posibles nuevos investigadores. Dichos algoritmos se encontraban disponibles de forma pública únicamente en forma de software propietario, por ejemplo en paquetes como el conocido Research Systems ENVI de ITTVisual Solutions 1. Así el presente Trabajo Fin de Máster pretende el desarrollo de una aplicación que englobe una serie de algoritmos para el tratamiento de imágenes hiperespectrales junto con un conjunto de funcionalidades útiles para la representación y la medición de los resultados ofrecidos por dichos algoritmos. Como ya se ha comentado, la gran ventaja de esta herramienta es que es software libre, permitiendo su libertad de uso, modificación, ampliación y redistribución. Por otro lado, esta característica de la herramienta nos permite pensar en el desarrollo y ampliación por parte del grupo a largo plazo basándose en la colaboración con otros centros dedicados al mismo tipo de investigación. Con todo se eliminan las 1 http://www.ittvis.com/language/en-us/productsservices/envi.aspx 10

restricciones de uso que imponen las licencias de software propietario y los problemas que pueden surgir con actualizaciones no controladas. Es pretensión también del presente trabajo que los principales fundamentos a la hora de desarrollar la aplicación sean el manejo sencillo, óptimo y útil de dichos algoritmos así como de las funcionalidades que se crean necesarias para complementar este manejo utilizando para ello la biblioteca Qt. En concreto, los algoritmos incluidos en la comparativa que abarca la presente memoria son: VD (Virtual Dimensionality), HYSIME, PCA (Principal Component Analysis), SPCA (Spatial Principal Component Analysis), OSP (Orthogonal Subspace Proyections) [2], N-FINDR, LSU (Linear Spectral Unmixing) [1] e ISRA (Image Space Reconstruction Algorimth). 11

1.2. Objetivos Como se ha comentado en el anterior apartado el principal objetivo de este trabajo es el desarrollo de una aplicación para el manejo de algoritmos de procesamiento de imágenes hiperespectrales de forma gráfica y amigable, sin perder de vista la eficiencia y utilidad de los algoritmos que se usan, así como la creación de una plataforma que aglutine el conjunto de trabajos desarrollados por el Grupo de Investigación son los objetivos generales de este Trabajo Fin de Máster. De forma más específica los objetivos que se han ido planteando son los siguientes: Aprender a desarrollar aplicaciones utilizando la biblioteca Qt así como el entorno de desarrollo propio de esta biblioteca (QtCreator) y la extensión de complementos gráficos Qwt en consonancia a distintas tecnologías usadas a este fin. Crear una aplicación de complejidad mínima pretendiendo mejorar la presentación de los resultados y la eficiencia de los algoritmos incluidos, junto con herramientas útiles para el estudio y comparación de los resultados ofrecidos. Reducir al mínimo el número de dependencias que la herramienta pueda tener de cara a una distribución mayor y una difusión positiva de la valoración de esta. Implementar en el lenguaje de programación C++ los algoritmos utilizados en la presente memoria: VD, HYSIME, PCA, SPCA, OSP, NFINDR, LSU e ISRA. Ya que anteriormente las versiones de estos algoritmos se encontraban implementadas en C y las versiones que la 12

herramienta incluía, a pesar de estar en C++, utilizan la librería ORFEO ToolBox, que como se explicará más adelante, ha dejado de utilizarse en el desarrollo de la herramienta. Crear una plataforma abierta a la integración de nuevas tecnologías entre las cuales podemos mencionar CUDA y ejecución de algoritmos y visualización de resultados de forma remota. 13

CAPÍTULO 2. Antecedentes El este capítulo se presentan los principales conceptos básicos que se van a utilizar a lo largo del documento. En primer lugar se describe el concepto de imagen hiperespectral, detallando las particularidades y características propias de este tipo de imágenes de alta dimensionalidad. A continuación se explica el problema de la mezcla que se presenta en este tipo de imágenes así como los diferentes modelos de mezcla que se pueden utilizar, con particular énfasis en la extracción de firmas espectrales puras o endmembers. Por último se realizará un análisis del software actualmente disponible para el procesamiento de las imágenes hiperespectrales. 2.1. Análisis hiperespectral En la actualidad, existe un amplio conjunto de instrumentos o sensores capaces de medir singularidades espectrales en diferentes longitudes de onda a lo largo de áreas espaciales extensas [3]. La disponibilidad de estos instrumentos ha motivado una redefinición del concepto de imagen digital a través de la extensión de la idea de píxel. Así en una imagen en escala de grises podemos decir que un píxel está constituido por un único valor discreto, mientras que, en una imagen hiperespectral, un píxel consta de un conjunto amplio de valores. Estos valores pueden ser entendidos como vectores N-dimensionales [4], siendo N el número de bandas espectrales en las que el sensor mide información. La ampliación del concepto de píxel da lugar a una representación en forma de cubo de datos, tal y como aparece en la Figura 2.1. En este caso el orden de magnitud de N permite realizar una distinción a la hora de hablar de imágenes multidimensionales. Así, cuando el valor de N es reducido, típicamente unas cuantas bandas espectrales [5] se habla de imágenes 14

multi-espectrales, mientras que, cuando el orden de magnitud de N es de cientos de bandas [6] se hablad de imágenes hiperespectrales. Figura 2.1: Ejemplo de imagen multi-espectral de cuatro bandas En este sentido, el análisis hiperespectral se basa en la capacidad de los sensores hiperespectrales para adquirir imágenes digitales en una gran cantidad de canales espectrales muy cercanos entre sí, obteniendo, para cada píxel, una firma espectral característica de cada material [3]. Este proceso facilita la identificación y cuantificación de los materiales en la escena [7,8]. 15

Figura 2.2: Procedimiento de análisis hiperespectral. Tal y como hemos comentado anteriormente, el resultado de la toma de datos por parte de un sensor hiperespectral sobre una determinada escena puede ser representado en forma de cubo de datos, con dos dimensiones para representar la ubicación espacial de un píxel, y una tercera dimensión para representar la singularidad espectral de cada píxel en diferentes longitudes de onda. La Figura 2.2 ilustra el procedimiento de análisis hiperespectral mediante un sencillo diagrama, en el que se ha considerado como ejemplo descriptivo el sensor Airbone Visible Infrared Imaging Spectometer (AVIRIS) de NASA Jet Propulsion Laboratory. La capacidad de observación de este sensor es mucho más avanzada que la de otros dispositivos similares, en particular en términos de relación señal-ruido (SNR) del sensor [6], y permite la obtención de píxels formados por doscientos veinticuatro valores espectrales, a partir de los cuales puede 16

obtenerse una firma espectral característica que será utilizada en el proceso de análisis. Para concluir este subapartado, la Figura 2.3 muestra un ejemplo de dos firmas espectrales asociadas a una cubierta vegetal, utilizada en este caso como un sencillo ejemplo ilustrativo. La primera de ellas (izquierda) fue adquirida por un sensor multiespectral, en concreto, Landsat Thematic Mapper [9], que dispone de un total de siete bandas en el rango 0.48 2.21. La segunda (derecha) fue obtenida por el sensor hiperespectral AVIRIS, anteriormente comentado. Como puede apreciarse en la Figura 2.3, la firma espectral obtenida mediante un sensor hiperespectral se asemeja a un espectro continuo de valores, mientras que la firma proporcionada por un sensor multiespectral es mucho menos detallada. Figura 2.3: Firmas espectrales de vegetación obtenidas por el sensor multiespectral Landsat TM (7 bandas) y el sensor hiperespectral AVIRIS (224 bandas). 17

2.2 El problema de la mezcla Como se ha mencionado en el apartado anterior, la capacidad de observación de sensores hiperespectrales como AVIRIS permite la obtención de una firma espectral detallada para cada píxel de la imagen, dada por los valores de reflectancia adquiridos por el sensor en diferentes longitudes de onda, lo cual permite una caracterización muy precisa de la superficie de nuestro planeta. Conviene destacar que, en este tipo de imágenes, es habitual la existencia de mezclas a nivel de subpíxel, por lo que a grandes rasgos podemos encontrar dos tipos de píxels en estas imágenes: píxels puros y píxel mezcla. Se puede definir un píxel mezcla como aquel en el que cohabitan diferentes materiales [2, 10-12]. Este tipo de píxels son los que constituyen la mayor parte de la imagen hiperespectral, en parte, debido a que este fenómeno es independiente de la escala considerada ya que tiene lugar incluso a niveles microscópicos [13]. La Figura 2.4 muestra un ejemplo del proceso de adquisición de píxels puros (a nivel macroscópico) y mezcla en imágenes hiperespectrales. Figura 2.4: Tipos de píxels en las imágenes hiperespectrales. 18

Los píxels mezcla constituyen la mayor parte de los píxels de una imagen hiperespectral, y su existencia se debe a una de las dos razones que mencionamos a continuación: Mezcla macroscópica. Si el tamaño de píxel no es lo suficientemente grande para separar diferentes materiales, dichos elementos ocuparan el espacio asignado al píxel, con lo que el espectro resultante obtenido por el sensor será en realidad un espectro correspondiente a una mezcla de componentes [14]. Esta situación aparece ilustrada mediante un ejemplo en la Figura 2.5. Figura 2.5: Mezcla macroscópica Mezcla íntima. Pueden obtenerse píxels mezcla cuando diferentes materiales se combinan, dando lugar a lo que se conoce como mezcla intima entre materiales [15,16]. Podemos observar esta situación en la Figura 2.6. 19

Figura 2.6: Mezcla íntima. 20

2.3. Firmas espectrales puras. Un píxel mezcla puede ser descompuesto en una colección de espectros "puros" o "característicos" (denominados endmembers en la terminología) y en un conjunto de valores denominados abundancias que indican la proporción o contribución individual de cada uno de los espectros puros en el píxel mezcla [17]. El modelo utilizado para describir la situación anteriormente comentada es el denominado modelo de mezcla, el cual considera que cualquier escena está constituida por un conjunto de endmembers con propiedades espectrales características y diferentes entre sí, y que aparecen mezclados en distintas proporciones [18,19]. Dentro del modelo de mezcla, se consideran dos posibilidades diferentes: lineal y no lineal. El modelo lineal de mezcla supone que cada haz de radiación solar incidente solamente interactúa con un único componente o endmember, de forma que la radiación total reflejada por un píxel mezcla se puede descomponer de forma proporcional a la abundancia de cada uno de los endmembers en el píxel [20,21]. El modelo lineal proporciona resultados adecuados en gran cantidad de aplicaciones [22], y se caracteriza por su simplicidad [23]. Por su parte, el modelo no lineal ha sido utilizado con gran éxito en determinadas aplicaciones de carácter específico, especialmente en aplicaciones orientadas a estudiar las propiedades de cubiertas vegetales (Zarco-Tejada y col., 2001). Este modelo aparece ilustrado gráficamente en la Figura 2.7. 21

Figura 2.7: modelo lineal de mezcla. Como aparece reflejado en la Figura 2.7 el modelo lineal de mezcla presupone que la proporción de componentes o endmembers que se mezclan en un determinado píxel de la imagen sigue un proceso lineal. Sea s la firma espectral obtenida por un sensor hiperespectral en un determinado píxel. Este espectro puede ser considerado como un vector N-dimensional, donde N es el número de bandas espectrales del sensor. El vector s puede modelarse en términos de una combinación lineal de vectores endmembers,, i=1. Y, de acuerdo con la expresión 2.1 que se muestra a continuación. (2.1) Donde E es el número total de endmembers, es un valor escalar que representa la abundancia del endmember en el píxel, y es un vector de error que debe ser lo más reducido posible. El modelo lineal de 22

mezcla puede interpretarse de forma gráfica utilizando un diagrama de dispersión entre dos bandas poco correlacionadas de la imagen, tal y como se muestra en la Figura 2.8. En la misma, puede apreciarse que todos los puntos de la imagen quedan englobados dentro del triángulo formado por los tres puntos más extremos (elementos espectralmente más puros). Los vectores asociados a dichos puntos constituyen un nuevo sistema de coordenadas con origen en el centroide de la nube de puntos, de forma que cualquier punto de la imagen puede expresarse como combinación lineal de los puntos más extremos, siendo estos puntos son los mejores candidatos para ser seleccionados como endmembers. El paso clave a la hora de aplicar el modelo lineal de mezcla consiste en identificar de forma correcta los elementos extremos de la nube de puntos N-dimensional. Figura 2.8: Interpretación gráfica del modelo lineal de mezcla. 23

2.4. Análisis del software disponible para el tratamiento de imágenes hiperespectrales 2.4.1. Software comercial existente para el análisis hiperespectral En la actualidad existen varios software comerciales dedicados al tratamiento de imágenes hiperespectrales. En este apartado del trabajo vamos a analizar dos de ellos: ENVI y PCI Geomatics. ENVI es un software para el procesamiento y análisis de imágenes geoespaciales utilizado por profesionales GIS, científicos, investigadores y analistas de imágenes propuesto por ITT Visual Information Solutions. ENVI combina procesamientos de las imágenes espectrales más recientes con tecnología de análisis de imagen mediante una interfaz intuitiva y fácil de usar que ayuda a obtener información significativa de las imágenes tratadas. Como programa está constituido sobre lenguaje (IDL) especializado en el manejo de datos multidimensionales y su visualización. Se diferencia de otros programas similares en que contiene funciones especialmente adaptadas al trabajo con información territorial o geográfica. ENVI se caracteriza por ser multiplataforma, existiendo versiones para Windows, Linux y varias versiones de UNIX, lo que lo hace muy versátil, además es el primer software totalmente compatible con ArcGIS [24]. A continuación podemos ver una imagen de ENVI (Figura 2.9). 24

Figura 2.9: Interfaz proporcionada por el software ENVI ITT. El software PCI Geomatics para Procesamiento Digital de Imágenes Satelitales de todo tipo de sensor aeroespacial se ofrece con dos niveles de funciones: o Geomatica Core con todo lo necesario para clasificar imágenes multiespectrales (paquete básico). o Geomatica Prime que ofrece muchas funciones analíticas de geoprocesamiento Raster (paquete ampliado). PCI Geomatica integra en un solo entorno, las herramientas comúnmente utilizadas en la teledetección y análisis espacial [25]. En la Figura 2.10 vemos un ejemplo de esta herramienta. 25

Figura 2.10: Captura de pantalla de la herramienta PCI Geomatica. Ambas herramientas proporcionan un amplio número de funcionalidades de forma sencilla y amigable. Por supuesto, el hecho de que sean software propietario provoca que su uso y las funcionalidades aportadas dependan del soporte dado por las respectivas compañías que los desarrollan. 26

2.4.2. Software libre existente para el análisis hiperespectral En este apartado hablaremos de las herramientas para imágenes hiperespectrales en MATLAB (Hyperspectral Image Analysis Toolbox, HIAT) y de la librería de C++ ORFEO ToolBox, estando este conjunto de herramientas previstas para el análisis de datos hiperespectrales y multiespectrales. HIAT es una colección de funciones que amplían las capacidades del entorno informático numérico MATLAB. Se ha implementado para los sistemas Macintosh y PC con Windows utilizando MATLAB. El propósito de esta caja de herramientas es proporcionar al usuario un entorno en el que pueden utilizar diferentes métodos de procesamiento de imágenes de datos hiperespectrales y multiespectrales. Además estas funciones proporcionan los métodos estándar de procesamiento de imágenes tales como el análisis discriminante, componentes principales, la distancia euclídea, y de máxima verosimilitud. En comparación con las aplicaciones del apartado anterior estos métodos ofrecen algunas de las mismas funcionalidades particularmente útiles para el tratamiento de imágenes hiperespectrales en código libre. Por el contrario, este mismo hecho, al ser código MATLAB, hace que su eficiencia sea, en comparación, bastante reducida. Por otro lado, CNES decide desarrollar ORFEO ToolBox (OTB) como un conjunto encapsulado de algoritmos en una librería de software [26]. El objetivo que se plantean para OTB es establecer una metodología savoir faire ( don de gentes ) para adoptar un enfoque de desarrollo incremental con el objetivo de explotar, de manera eficiente, los resultados obtenidos en el marco de los estudios I + D. Todos los avances desarrollados están basados en FLOSS (Free Open Source Software) o en desarrollos previos por parte del CNES. OTB es distribuido bajo licencia CéCILL (http://www.cecill.info/licences/licence_cecill_v2-27

en.html). En la figura 2.11 podemos ver un ejemplo de aplicación usando la librería ORFEO. OTB está implementado en C++ y se basa principalmente en ITK (Insight Toolkit). ITK es una librería desarrollada por US National Library of Medicine of the National Institutes of Health. Es usada como elemento principal de OTB, por esa razón, muchas las clases de OTB heredan sus funcionalidades de algunas de las clases de ITK. Para establecer una continuidad en el aprendizaje, la documentación de OTB, sigue las mismas líneas de organización y diseño que la documentación de ITK, de tal manera que, para el usuario, la navegación por los distintos métodos y clases de las dos librerías se hace mucho más sencilla. Figura 2.11: Captura de una aplicación basada en ORFEO ToolBox para el tratamiento de imágenes. OTB fue creado desde su inicio (y hasta ahora) de forma colaborativa. La enseñanza, la investigación y los usos comerciales, de este conjunto de herramientas son algunos de los objetivos previstos que se tenían para esta 28

librería. Los desarrolladores proponen, que de usarse, se colabore en su mejora mediante el reporte de errores, la contribución con nuevas clases y su difusión mediante cursos para llegar al mayor número posible de colaboradores, siendo debido a su facilidad de uso, algo realmente factible. De estas sugerencias se observa una clara disposición al mantenimiento a largo plazo y al aumento de nuevas funcionalidades de la librería, el cual, puede ser un punto a tener en cuenta en futuros proyectos. Figura 2.12: Aplicación basada en OTB para segmentación de imágenes. Como conclusión podemos decir que la librería ORFEO ToolBox provee de un conjunto de recursos (como los ofrecidos por software comerciales) para el tratamiento de imágenes hiperespectrales, tanto en la línea que este trabajo trata como en otras como puede ser segmentación (ver Figura 2.12) o clasificación de imágenes, bastante útiles, como pueden ser los métodos de lectura y escritura de imágenes en distintos formatos o la extracción de un píxel concreto, además de las ventajas que supone ser software libre en la investigación y el estudio, así como, en el desarrollo de nuevas funcionalidades. Por añadido provee de estas funcionalidades en código C por lo que su eficiencia, en comparación a otros toolboxes, es mucho mayor. 29

2.4.4. Ventajas del software libre para el tratamiento de imágenes hiperespectrales. En este apartado se comentarán las ventajas del desarrollo mediante software libre de una aplicación en general, y para el tratamiento de imágenes hiperespectrales en particular, frente a herramientas de código propietario como puede ser ENVI. Entre ellas destacaremos las siguientes: Libertad para el usuario para que pueda utilizar el software como más le convenga en cuestiones de modificación y difusión. Estas dos cuestiones son muy importantes para aplicaciones de investigación ya que las aplicaciones se mantienen más actualizadas en el ámbito de nuevos avances en la materia que se trate. La apuesta por el bien común hace que se pueda mejorar aplicaciones o algoritmos de otros desarrolladores teniendo en el mismo tiempo más y mejores aplicaciones ya que no se tiene que partir de cero. En la cuestión económica simplemente hacer hincapié en el bajo o nulo coste de los productos libres con la consiguiente rebaja en los gastos en licencias de uso de software propietario. Esto permite y motiva a tener un mayor número de desarrolladores e investigadores ya que la limitación de puestos de trabajo es menor. El soporte y compatibilidad a largo plazo, más que una ventaja del software libre es una desventaja del software propietario. A un vendedor, una vez alcanzado el número máximo de ventas, le interesa sacar un nuevo producto más que mejorar el presente para 30

que los usuarios sigan trabajando con él. Esto obliga al vendedor a intentar en la medida de lo posible hacer obsoleto el producto anterior. Con el uso de software libre se pretende centrar la atención el uso de la aplicación en sí, teniendo estas vidas más largas ya que se van solucionando los fallos a medida que se descubre y aportando nuevas funcionalidades sin necesidad de aprender un nuevo entorno de trabajo. Por contra un software como ENVI ofrece una garantía de calidad que el software libre no puede asegurar. 31

CAPÍTULO 3. Algoritmos implementados En esta sección describimos los algoritmos de extracción de endmembers y desmezclado espectral que se han incluido en la herramienta desarrollada. Antes de describir las soluciones disponibles Como puede apreciarse en la figura 3.1, la metodología parte de una imagen preprocesada, es decir, corregida geométricamente [27] y atmosféricamente [28]. A continuación, se efectúan los siguientes pasos: 1. Reducción dimensional. Este paso es opcionalmente utilizado por ciertos algoritmos con objeto de reducir la carga computacional de pasos sucesivos mediante la eliminación de ruido e información redundante en la imagen. 2. Identificación de endmembers. En este paso se identifican las firmas espectrales puras que se combinan para dar lugar a pixels mezcla en la imagen. 3. Estimación de abundancias. La abundancia de las firmas espectrales puras o endmembers es estimada en cada pixel de la imagen. 32

Reflectancia (%*100) Imagen pre-procesada PCA, MNF, ICA Imagen reducida dimensionalmente Reducción dimensional LSU, FCLSU Estimación de abundancias Extracción de endmembers 5000 endmembers 4000 3000 2000 1000 Mapas de abundancia 0 300 600 900 1200 1500 1800 2100 2400 Longitud de onda (nm) Figura 3.1: Cadena completa de desmezclado o unmixing de imágenes hiperespectrales. A partir del conjunto de pasos anteriormente descrito, el paso de identificación de endmembers y el paso de estimación de abundancias pueden ser considerados problemas separados. Existe un paso previo opcional que es la estimación del número de endmembers presentes en la imagen a procesar. Este paso proporciona el número teórico de firmas espectrales puras en la imagen. Así los resultados obtenidos por la cadena de demezclado estarán enfocados al caso óptimo. 33

3.1. Estimación del número de endmembers En este paso de la cadena de demezclado los algoritmos proveen de un valor numérico de estimación de las firmas espectrales puras que contiene la imagen hiperespectral que se esta procesando. Dependiendo de la complejidad y la dimensionalidad de la imagen procesada, estos algoritmos pueden ser demasiado costosos en aplicaciones donde el tiempo sea crítico, debido a ello, no se considera una etapa obligatoria de la cadena de demezclado. Dos de los algoritmos más extendidos son Virtual Dimensionality y Hyperspectral Signal Identification by Minimum Error. 3.1.1. VD En el algoritmo Virtual Dimensionality (VD) se denota a la imagen hiperespectral de píxeles, los cuales a su vez son vectores de bandas. En primer lugar el algoritmo calcula los autovalores de la matriz de correlación (3.1) y la matriz de covarianza (3.2) para cada una de las bandas espectrales de la imagen original. (3.1) (3.2) Si una firma espectral en particular hace una contribución al valor propio representado en la señal de energía de una banda espectral, ocurre que su valor propio de correlación asociado será mayor que su valor propio de covarianza correspondiente en esta banda particular. Por otro lado, si el valor propio de correlación estuviera muy cerca del valor propio de 34

covarianza, en ese caso, lo único que habría presente en esa banda sería ruido. Aplicando este concepto, un detector Neyman-Pearson [29] es introducido para la cuestión de si una firma distintiva está presente o no en cada una de las bandas espectrales como un problema de hipótesis binaria donde se genera un determinado detector Neyman-Pearson para la toma de decisiones en base a (probabilidad de falsa alarma) dada. Con todo el problema se reduce pues a establecer un valor de adecuado para obtener la apropiada estimación de las firmas espectrales. 3.1.2. HYSIME El algoritmo Hysime se establece en dos pasos [30]. En primer lugar hacer una estimación del ruido presente en la imagen hiperespectral original. Siendo, y calculamos la matriz de estimación de ruido iterativamente mediante la expresión 3.3. (3.3) Donde [ ] en una iteración desde siendo. En segundo lugar calcular la matriz de correlación del ruido matriz de correlación de la señal. y la ( ) ( ) (3.4) 35

Sea los autovalores de ordenados de forma ascendente las firmas espectrales estimadas son aquellas donde. 36

3. 2. Reducción de componentes El método de análisis de componentes principales o Principal Component Analysis (PCA) aprovecha la elevada correlación existente entre bandas consecutivas de una imagen hiperespectral para reducir su dimensionalidad [31]. La transformación PCA permite obtener un conjunto reducido de bandas (denominadas autovectores) poco correlacionadas entre sí, (ortogonales, en el caso ideal) que contienen la mayor parte de la información presente en la imagen original. Así, el primer autovector contiene el mayor porcentaje de la varianza de la imagen original; el segundo contiene mayor porcentaje de varianza que el tercero, y así sucesivamente. Las últimas bandas de la descomposición suelen venir caracterizadas por un escaso contenido en cuanto a información relevante, estando en su mayor parte compuestas por el ruido presente en la imagen original). De esta forma, la transformación PCA permite separar ruido de información útil [32]. Es importante destacar que el conjunto de bandas resultante de la transformación PCA es obtenido a partir de combinaciones lineales de las bandas originales de la imagen [33]. Esta transformación sirve para reducir la dimensionalidad del conjunto de datos, en el caso de las imágenes hiperespectrales, el número de componentes por píxel. Por ejemplo el algoritmo de extracción de endmembers N-FINDR utiliza los resultados de este algoritmo para extraer dichos endmembers a partir una imagen dimensionalmente reducida. La etapa de reducción dimensional no es, en sí misma, necesaria para el análisis de imágenes hiperespectrales [34]. Sin embargo, se trata de un paso que muchos algoritmos incorporan, debido a la alta dimensionalidad de los datos analizados. La transformación PCA aparece ilustrada de forma gráfica en la Figura 3.1. Como puede apreciarse en la figura, esta transformación permite 37

Banda Y obtener un nuevo sistema de coordenadas sobre el que se proyectan los datos. Componente 1 Componente 2 Banda X Figura 3.2: Ilustración gráfica de la transformación PCA. 3.2.1. PCA El algoritmo comienza creando una matriz a partir de los píxels de la imagen hiperespectral. De esta matriz se extraen los autovectores mediante una descomposición SVD o Singular Value Descomposition, que es una factorización de una matriz real o compleja tal y como se ve en la expresión 3.5. (3.5) Donde es una matriz unitaria de, es una matriz diagonal con números reales no negativos en la diagonal, y es la conjugada transpuesta de que es una matriz unitaria de. Estos autovectores se multiplican por la matriz para obtener la matriz PCA que será base para la imagen de salida. Esta imagen de salida tendrá 38

el mismo número de píxels que la original pero con el número de componentes deseadas. 3.2.2. SPCA O Simple Principal Component Analysis [35] es una versión del algoritmo anterior donde no hace falta calcular la SVD. El método consiste en calcular iterativamente los autovectores de la imagen original de tal manera que en cada iteración se le resta la influencia del mayor autovector. Las condiciones de terminación de esta iteración es la convergencia de los autovectores en base a un valor de margen proporcionado o la finalización del número de iteraciones introducido en la ejecución del algoritmo. 39

3. 3. Extracción de endmembers Estos algoritmos están pensados para calcular, a partir de la imagen hiperespectral y un número deseado o estimado de posibles firmas espectrales puras, los valores de dichas firmas. 3.3.1. OSP El algoritmo OSP fue inicialmente desarrollado para encontrar firmas espectrales utilizando el concepto de proyecciones ortogonales. El algoritmo hace uso de un operador de proyección ortogonal que viene dado por la expresión 3.6. P E I E E E E (3.6) Donde E es una matriz de firmas espectrales, E es la traspuesta de dicha matriz, e I es la matriz identidad. El algoritmo utiliza el operador mostrado anteriormente de forma repetitiva hasta encontrar un conjunto de píxels ortogonales a partir de un píxel inicial. El proceso iterativo efectuado por este algoritmo puede resumirse en los siguientes pasos: 1. Calcular e, el píxel más brillante de la imagen hiperespectral, utilizando la siguiente expresión: e arg ax j j j, donde j es el píxel en las coordenadas j de la imagen. Como puede comprobarse, el píxel más brillante es aquel que resulta en mayor valor al realizarse el producto vectorial entre el vector asociado a dicho píxel y su transpuesto j o lo que es lo mismo, la norma primera del píxel. 40

2. Aplicar un operador de proyección ortogonal que denotamos como P, basado en la expresión anterior, con E E e. Este operador se aplica a todos los píxels de la imagen hiperespectral. 3. A continuación, el algoritmo encuentra un nuevo endmember con el mayor valor en el espacio complementario <e.>, ortogonal a e., de la siguiente forma: e. arg ax j P E j P E j. En otras palabras, el algoritmo busca el píxel con mayor ortogonalidad con respecto a e. 4. El siguiente paso es modificar la matriz E añadiendo el nuevo endmember encontrado, es decir E e e. 5. Seguidamente el algoritmo encuentra un nuevo endmember e con el mayor valor en el espacio complementario<e e >, ortogonal tanto a e como a e Y t, de la siguiente forma: e arg ax j P E j P E j. Es preciso tener en cuenta que, a diferencia del paso 3) en el que E e en este punto el trabajo ortogonal se basa en la matriz E e e. 6. El proceso se repite, de forma iterativa hasta encontrar el número de endmembers que deseemos. Como puede comprobarse en los experimentos realizados, este algoritmo es efectivo a la hora de identificar un conjunto de endmembers espectralmente diferenciados gracias a la condición de ortogonalidad impuesta en el proceso de búsqueda. Como característica negativa, tal y como se muestra en los resultados experimentales el algoritmo puede ser sensible a outliers y píxels anómalos, los cuales podrían ser descartados mediante un proceso capaz de incorporar información espacial de forma previa. 41

3.3.2. N-FINDR El algoritmo N-FINDR utiliza una técnica basada en identificar los endmembers como los vértices del simplex de mayor volumen que puede formarse en el conjunto de puntos. N-FINDR no trabaja con todo el cubo de datos sino con una simplificación del mismo a tantas bandas como endmembers se deseen encontrar. Para este tipo de reducciones se suele utilizar la técnica PCA (Principal Component Analysis) o MNF (Minimum Noise Fraction). El único parámetro que tiene este algoritmo es el número de endmembers a identificar. El funcionamiento del algoritmo se describe en los siguientes pasos: 1. Realizar una reducción de la imagen a un número de bandas igual al número de endmembers que se desean extraer mediante PCA o MNF (en nuestro caso PCA). Seleccionar un número aleatorio de píxels que se etiquetan como endmembers. Ésta selección inicial será refinada de forma iterativa. 2. El segundo paso consiste en seleccionar un píxel de la imagen original. Este píxel se va intercambiando de forma sucesiva a cada uno de los endmembers inicialmente seleccionados. 3. A medida que el píxel se va intercambiando con los endmembers iniciales se calcula el volumen del hiperpolígono formado con el nuevo punto considerado. 4. Si el volumen obtenido tras el intercambio es mayor que el que había antes del intercambio, el nuevo punto trae como consecuencia un reemplazamiento en el conjunto de endmembers y el nuevo píxel 42

pasa a formar parte del conjunto de endmembers. En caso contrario, se deshace el intercambio. 5. Los pasos 3-5 se repiten de forma iterativa hasta comprobar todos los píxels de la imagen. De tal forma que al final del proceso tendremos un conjunto de endmembers tal que su volumen es el mayor posible. Conviene destacar que, en el primer paso del algoritmo, se establece de forma aleatoria un conjunto inicial de endmembers. Si la estimación inicial es adecuada, el algoritmo llegará a la solución óptima. Por el contrario, una estimación inicial errónea puede dar como resultado que no se llegue a la solución óptima sino que nos quedemos en un máximo local de la función de crecimiento del hiperpolígono. El algoritmo presupone que un aumento en el volumen del hiperpolígono definido al incorporar un nuevo píxel en el conjunto de endmembers conlleva una mayor calidad de los mismos. Sin embargo, la Figura 3.3 muestra que el hecho de utilizar un polígono de mayor volumen no asegura una mejor descripción del conjunto de puntos. Un parámetro más fiable es el aumento en el número de píxels que pueden describirse utilizando el nuevo conjunto de endmembers. 43

Figura 3.3: Funcionamiento del algoritmo N-FINDR. Para concluir la descripción de este método, es importante destacar que los endmembers identificados por el algoritmo N-FINDR corresponden a píxels pertenecientes al conjunto de datos original. Utilizando este algoritmo, no es posible generar endmembers artificiales, pues los reemplazamientos se realizan siempre utilizando puntos existentes en el conjunto de muestras disponibles. De este modo, puede ocurrir que los endmembers seleccionados no sean los más puros. Además, el método es sensible a outliers (entendidos como píxels con ruido), situación que puede remediarse en parte al incorporar la información espacial en el proceso de búsqueda. Una vez descritas dos aproximaciones clásicas al problema de extracción de endmembers basadas en información espectral, procedemos a describir métodos que también incorporan información espacial en el proceso. 44

3.4. Unmixing Los píxeles de una imagen, representan áreas de uno a varios metros cuadrados. Estos píxeles, generalmente están compuestos por mezclas de materiales, lo cual nos lleva a la conclusión de que los píxeles puros no son muy frecuentes. Así la firma espectral medida por la mayoría de los sensores en un determinado punto es una mezcla de materiales que puede expresarse como una combinación lineal de los espectros "puros" o endmembers y sus pesos en la combinación lineal dependen de la fracción de área que ocupan. Los píxeles mezcla, pueden analizarse usando un modelo matemático donde el espectro observado es el resultado de la suma de los productos entre el espectro puro del material extremo por el porcentaje de abundancia correspondiente. La Figura 3.4 ilustra lo descrito anteriormente. Figura 3.4: Representación de la mezcla de tres endmembers. 45

3.4.1. LSU A partir de los datos de la imagen hiperespectral, obtener un conjunto de datos según la expresión 3.7. E E E E j (3.7) Donde E la abundancia de ese conjunto de endmembers en ese píxel, E es la matriz con los valores de los endmembers y j es un vector con los valores para un píxel determinado de la imagen. Aplicando esta operación a cada píxel de la imagen podemos obtener imágenes que representan la concentración de un endmember en la imagen (mapas de abundancia). 3.4.2 ISRA O Image Space Reconstruction Algorimth se basa en la expresión 3.8. j j E E E (3.8) Donde es el número de píxels, arg E y j. En base a esta expresión podemos decir que si los valores iniciales del vector de abundancias son positivos las abundancias finales son positivas y si llega a ser cero se mantiene en cero. 46

Este algoritmo iterativo termina cuando la estimación de la siguiente abundancia calculada en comparación con la anterior es muy similar en base a un valor de error establecido de antemano. El ratio de convergencia de este algoritmo es lento aunque pueden utilizarse distintos métodos para acelerar esta convergencia. La ventaja de este algoritmo es que resulta más simple de implementar tanto en software como en hardware. 47

CAPÍTULO 4. La herramienta HyperMix En este capítulo trataremos más en profundidad acerca de la herramienta en si, así como de los cambios realizados respecto a la versión anterior [36,37] y las razones en particular que nos han llevado a ello. En primer lugar señalar que el desarrollo de esta herramienta tiene una serie de objetivos que son: Desarrollo de una aplicación que facilite el manejo y la visualización de los algoritmos para el tratamiento de imágenes hiperespectrales. Difusión mediante una plataforma de los algoritmos desarrollados e implementados por el grupo de investigación en código abierto. Como método de iniciación en la temática de la cadena de demezclado, mediante el uso de algoritmos de una forma gráfica sencilla. Como plataforma donde poder integrar nuevos avances y funcionalidades útiles para el trabajo del grupo de investigación. Por otro lado aunque hay cambios que se pueden percibir a simple vista (Figura 4.1 y 4.2) entre las dos versiones detallaremos una lista de las modificaciones que la herramienta ha sufrido: 1. Se ha sustituido la librería de desarrollo de interfaces de usuario Fast Ligth ToolKit (FLTK) por Qt que es una biblioteca multiplataforma ampliamente usada para desarrollar aplicaciones tanto con interfaz gráfica como sin ella, herramientas para línea de comandos y consolas para servidores. Esta biblioteca es desarrollada como software libre y código abierto, por lo que mantiene la ideología base de la herramienta, donde participa tanto la comunidad como desarrolladores de Nokia (desarrolladores originales) y otras 48

empresas. La razón principal de este cambio radica en que tanto la versión utilizada, como las más recientes de FLTK no ofrecían la posibilidad de trabajar con programación concurrente y paralela. Aunque en esta versión no existe esa necesidad se trataba de sentar las bases para que en el futuro la inserción de estos algoritmos no fuera un contratiempo excesivo. 2. Otra de las librerías fundamentales de la versión anterior de la herramienta era ORFEO ToolBox, que es una librería software libre desarrollada por el CNES (Centre National d Etudes Spatiales de Francia) en el marco del ORFEO Accompaniment Program. A pesar de que esta librería facilitaba el trabajo de implementación de los algoritmos propuestos así como de otros no incluidos en el presente trabajo, se ha decidido dejar de usarla fundamentalmente por mantener la consistencia de HyperMix respecto a otra herramienta desarrollada en el grupo de investigación HyperComp (Hyperspectral Repository [38]). La idea es que todas las herramientas desarrolladas en el grupo compartan las mismas versiones de los algoritmos y, eventualmente, trabajar coordinadas. En esta versión veremos como esta idea ha empezado a fraguarse. 49

Figura 4.1: Pantalla principal de la versión anterior de la herramienta HyperMix. Figura 4.2: Pantalla inicial de la herramienta HyperMix en la nueva versión. Hasta ahora se han mencionado los cambios realizados en las herramientas de desarrollo, a partir de aquí se mencionarán los cambios y las nuevas funcionalidades que la herramienta ofrece. 3. En primer lugar un cambio notable en la funcionalidad de la herramienta es que el número de algoritmos que se ha incluido en esta versión es menor. Esto es debido a que los algoritmos 50

(IEA, VCA, SSEE, AMEE, SCLS, NCLS y FCLS) estaban implementados usando la librería ORFEO ToolBox y han sido eliminados, de momento, por las razones anteriormente dichas. Por el contrario se han incluido los algoritmos SPCA e ISRA permitiendo tener al menos dos algoritmos por etapa de la cadena de demezclado. 4. Relativo a la presentación de las imágenes y los resultados se ha modificado la apariencia de la herramienta, usando pestañas para cada apartado, para ampliar la zona donde se muestran las imágenes, reducir el tamaño de la ventana principal y focalizar la atención del usuario en los resultados concretos que está observando. Se ha incluido a su vez la opción de cambiar la paleta de colores que se desea usar para mostrar los resultados (Figura 4.3). Figura 4.3: De izquierda a derecha las distintas paletas de colores que usa HyperMix. Grey, Envi, Hot, Cold, Bio y Jet. 5. Como se ha mencionado antes un punto importante de la herramienta de cara al futuro es compartir funcionalidades y recursos con otra de las herramientas del grupo, Hyperspectral Repository. De momento la HyperMix incluye acceso a la lista de imágenes que hay almacenadas en el repositorio 51

permitiendo su descarga y su uso así como la consulta de la información referente a las propias imágenes: dimensiones, tipo de datos, etc. Esta opción solo está disponible si, obviamente, la herramienta está conectada a Internet. En las Figuras 4.4 y 4.5 se pueden ver las ventanas que permiten el acceso al repositorio. Figura 4.4: Ventana de descarga de imágenes por FTP de la herramienta HyperMix desde Hyperspectral Repository. Figura 4.5: Ventana de selección de imágenes de la herramienta HyperMix desde Hyperspectral Repository. 52

6. Por último, en la versión anterior se incluía un apartado que permitía generar un fichero.csv con la comparativa de las firmas extraídas con una imagen con las firmas reales de la imagen. Se ha modificado la presentación de dichos resultados partiendo de la premisa de generar los mínimos archivos externos posibles y se ha ampliado la funcionalidad de comparativas mostrando los tiempos de ejecución de cada una de las últimas ejecuciones de los distintos algoritmos (Figura 4.6). Figura 4.6: Imagen de la pestaña de estadísticas donde se pueden ver los tiempos de ejecución y la diferencia entre las firmas extraídas y las de referencia. 53

Para difusión de las distintas versiones de la herramienta HyperMix y notificar las distintas actualizaciones que tenga se ha creado una página web para la aplicación (http://www.hypercomp.es/hypermix). En dicho portal podemos, además de descargar las distintas versiones de la herramienta, hacer consultas sobre temas propuestos en los distintos foros, así como proponer sugerencias para la mejora de la herramienta. En la Figura 4.7 podemos ver la vista general de la página de la herramienta HyperMix actualmente. La página requiere que el usuario se registre para poder participar y descargar la aplicación. Figura 4.7: Vista general de la página web creada para la difusión de la herramienta Hypermix. Actualmente solo está disponible la versión anterior de la aplicación. La idea de la página es centralizar las dudas y proponer soluciones accesibles sobre la herramienta que cualquier usuario de esta pueda tener. Además es una buena plataforma donde difundir nuevas versiones y obtener nuevas ideas. Como se puede ver en la Figura 4.8 existe espacio para comunicar tanto problemas de instalación y errores no detectados en la 54

herramienta como sugerencias para la herramienta y consulta del manual de usuario y los distintos trabajos publicados sobre la herramienta. Figura 4.8: Foros creados para la consulta de dudas y proponer sugerencias sobre HyperMix. 55

CAPÍTULO 5. Resultados experimentales 5.1. Descripción de imágenes hiperespectrales En el presente trabajo se contemplan tanto imágenes sintéticas como imágenes reales. Las imágenes sintéticas nos proporcionan un conocimiento verdadero del terreno y por tanto se puede evaluar cuantitativamente la capacidad de los algoritmos empleados para extraer correctamente los endmembers. Por el contrario, estas imágenes no corresponden a ninguna situación real y por lo tanto en ellas no influyen factores que sí están presentes en las imágenes reales, como pueden ser, los efectos de la atmósfera o las características del propio sensor. Por otro lado tenemos las imágenes reales en las cuales resulta más difícil determinar con exactitud la verdad terreno, con lo que los resultados obtenidos son menos precisos. 5.1.1. Sintética (Fractal) La imagen que vamos a considerar en este estudio como imagen sintética esta generada a partir de un patrón similar a los hallados en la naturaleza. Al generar esta imagen (Fractal) se consideró un patrón fractal, ya que son patrones geométricos recursivamente, lo que nos permite obtener esa similitud que buscábamos. Figura 5.1: Imagen Fractal usada para crear la imagen sintética (izquierda). Fractal dividida en clusters (derecha). 56

Las imágenes fractales se han generado con una gran variedad de colores, es decir, se ha intentado que el ancho de banda de la imagen sea lo más amplio posible para poder extraer el máximo número de clusters. Las imágenes se dividen en clusters o clases para a continuación insertar una firma espectral en cada cluster, es por ello que el número de clusters debe ser mayor que el número de firmas puras que queramos insertar. Para dividir en clusters las imágenes fractales se ha utilizado un algoritmo de clasificación de píxels no supervisado: k-means [39]. Al generar la imagen fue necesario decidir qué firma se iba a introducir en cada cluster Las firmas que fueron insertadas fueron obtenidas aleatoriamente de una librería espectral de minerales proporcionada por el Instituto Geológico de Estados Unidos (USGS), cuya versión completa dispone de un total de 420 firmas espectrales correspondientes a diferentes minerales. La librería espectral se encuentra disponible en la siguiente dirección web: http://speclab.cr.usgs.gov. En la Figura 5.2 se muestran las firmas espectrales de minerales consideradas en las simulaciones. Figura 5.2: Firmas insertadas en la imagen Fractal 1. 57

Es importante destacar que en la imagen fractal se han insertado nueve firmas puras. En la Figura 5.3 se puede observar las fracciones de abundancia en escala de grises de la verdad terreno del Fractal 1, lo cual ofrece una idea acerca del aspecto de la imagen hiperespectral simulada. Figura 5.3: Verdad terreno del Fractal 1 en escala de grises. 58