La abeja tampoco rehuye la informática Dra. Pilar Carrión n Pardo Universidad de Vigo Escuela Superior de Ingeniería Informática Coloquios Abiertos 1
Qué queremos hacer? Tipo de polen Sistema de Visión por Computador Tarjeta de de Calidad 2
Sistema de clasificación del polen apícola? Rubus Pelotilla a clasificar Cytisus Castanea... 3
Colaboradores Universidad de Vigo Grupo de Palinología Aplicada y Viticultura (Facultad de Ciencias). Grupo Sistemas Informáticos III (Escuela Superior de Ingeniería Informática). Financiación Xunta de Galicia. "Estudio de la selección cotidiana de plantas poliníferas en apis meliferal e influencia del contenido proteico del pollenkitt y textura de la pelotilla curbicular". 4
Cómo actuar? (Método científico) Conocimiento del problema a resolver. Conocimiento de las propuestas existentes en el mundo. Diseño de las hipótesis de experimentación. Desarrollo de modelos matemáticos. Evaluación del sistema propuesto. 5
El polen apícola El polen apícola es un producto elaborado por las abejas. Rubus Cytisus Castanea 6
Importancia Producto comercial apreciado por: Complemento alimenticio. Fines terapéuticos. En cosmética. Posible fuente de aminoácidos y ácidos grasos esenciales. Su composición química se debe a su procedencia floral. Su origen floral será diferente en función de la vegetación del lugar en el que estén situadas las colmenas. 7
Elaboración Cada especie de planta produce granos de polen específicos en su forma, color, tamaño, estructura, simetría, polaridad, sistema apertural y propiedades químicas. Vernonia Citrus Senecio Pseudobombax Acacia 8
Elaboración Las abejas confeccionan pelotillas con polen de una única especie de planta (fidelidad de la abeja a la especie de planta). Diferentes abejas de una misma colmena, en el mismo periodo de tiempo, llevan a la colmena pelotillas de polen monoespecíficas de especies de plantas distintas. Producto final = Conjunto de pelotillas diversas 9
Identificación del origen floral Se necesita determinar el origen floral de los diferentes granos de polen agregados en forma de pelotillas, así como la cantidad relativa de polen de cada especie de planta. METODOS TRADICIONALES: Análisis a microscopía óptica. De preparaciones de granos de polen. Método fiable, pero requiere tiempo y personal especializado. Análisis colorimétrico. Identificación por color de pelotillas de polen. Método poco preciso y requiere personal cualificado. MÉTODO PROPUESTO: Identificación de la clase de planta de procedencia de los granos de polen por la textura de las pelotillas monoespecíficas. 10
Hipótesis Identificar el origen floral del polen apícola a partir de la textura de la superficie de las pelotillas de polen. Las pelotillas de polen son monoespecíficas. La morfología del grano de polen es característica de cada especie. 11
Hipótesis Ceanothus Sphraeraleca Polygonella Callirhoe Granos de polen: Forma, Tamaño y Ornamentación distinta. Helianthus 12
Aplicación a la Palinología No existen aproximaciones computacionales al análisis del polen apícola. Identificación de granos de polen (utilizando microscopía óptica o electrónica). 13
Sistema de reconocimiento de patrones en imágenes 14
Adquisición de las imágenes 15
Muestras de pelotillas de polen Cytisus Quercus Raphanus Eficiencia. Imágenes en niveles de grises 16
Muestras de pelotillas de polen Rubus Castanea 17
Problemas encontrados (1) Zonas desenfocadas en la imagen 18
Problemas encontrados (2) Tonalidad dependiente del sistema de procesado del polen y adquisición de la imagen Cytisus de Viana Cytisus de Pontevedra 19
Sistema de clasificación del polen apícola Preprocesamiento Imagen digital de pelotilla de polen Normalización Reconocimiento de de regiones enfocadas Generación de de características de de textura Género de la pelotilla de polen Diseño Diseño del del clasificador Selección de de características Clasificador 20
Normalización de imágenes Proceso de recolección del polen. Diferencias en la iluminación en la adquisición de las imágenes. Influencia en la intensidad del nivel de gris de la imagen Creencia: la estructura espacial de la imagen se mantiene. Función de normalización f out (x, y) = f in (x, y) E µ Media Energía 21
Normalización de imágenes Normalización 22
Reconocimiento de regiones enfocadas Definición de métricas basadas en: entropía de la imagen, bordes o frecuencias espaciales altas. Cuarto Momento Estadístico (CME). Regiones con valores más altos de CME representarán a zonas más enfocadas. Estimador de la Agudeza de los Bordes (EAB). Cálculo de la varianza sobre una imagen de puntos de borde (operador Sobel). Estimador de las Frecuencias Espaciales Altas (EFEA). Es una medida de la fortaleza de las altas frecuencias. 23
Reconocimiento de regiones enfocadas Procedimiento de extracción de regiones enfocadas: Recorrido de la imagen Se seleccionan regiones de NxN píxeles (N=256). Para cada ROI calcular la métrica correspondiente (CME, EAB, EFEA). Selección de las ROIs que alcanzan los valores más altos para las métricas. 24
Etapa de preprocesado CME EAB EFEA 25
Extracción de características X1 1.5 X2 13.4 X3 3.3 X4 5.7...... X1 1.4 X2 13.5 X3 3.2 X4 5.7... X1 2 X2 14.2 X3 3.2 X4 7.1...... X1 3.2 X2 9.7 X3 0.5 X4 1.3......... 26
Extracción de características Caracterizar la superficie de la pelotilla de polen apícola TEXTURA Aproximaciones clásicas Estadísticas Estadísticos de primer orden (11 características) Matriz de co-ocurrencia de niveles de grises (7 características) Matriz de dependencias en un vecindario (5 características) Matriz de hileras de niveles de gris (5 características) De filtrado Análisis multirresolución utilizando ondículas (wavelets) Esquema de filtrado multiescalar 27
Extracción de características Esquema de filtrado multiescalar * Máscaras de filtrado Convolución Árbol de Canales Filtrados (FCT) Diagrama de versiones filtradas de la imagen Nivel i, L=2i+3 (i=0,1,2,... L=3,5,7,9,...) Características: Estadísticos de primer orden calculados sobre cada nodo del árbol (varianza, energía, entropía, tercer y cuarto momento estadístico). 28
Extracción de características Esquema de filtrado multiescalar Vectores de características: Estadísticos para los canales filtrados de un nivel del árbol. Primer nivel: 9 imágenes x 5 estadísticos = 45 características Un estadístico calculado sobre todos los canales filtrados de todos los niveles. 3 niveles: 9+25+36 imágenes x 1 estadístico= 70 características Formar vectores con alguna fórmula de hibridación de las dos anteriores. 29
Selección de características Escalar Máxima sensibilidad individual (MSI) Factor de discriminación de Fisher (FDR) Vectorial Método de búsqueda flotante (FSM) Global Análisis de componentes principales (PCA) 30
Clasificador 98% X1 1.5 X2 13.4 X3 3.3 X4 5.7...... X1 1.4 X2 13.5 X3 3.2 X4 5.7... 3% 0,5% X1 2 X2 14.2 X3 3.2 X4 7.1...... X1 3.2 X2 9.7 X3 0.5 X4 1.3......... 31
Diseño del clasificador Lineales Clasificadores de mínima distancia (MDC). Distancia Euclídea. Distancia de Mahalanobis. Clasificador k-nn (KNN). No Lineales Redes neuronales (Perceptron Multicapa, MLP). Máquinas de Soporte Vectorial (SVM). 32
Validación Cruzada Evaluación del sistema Conjunto de entrenamiento Cálculo % acierto sobre el conjunto test 1 pelotilla para test N-1 pelotillas para entrenar N veces Ideal: porcentaje de acierto del 100% 33
Base de imágenes Colmenas Géneros Marcón Lobios Viana Totales Castanea 20 20 20 60 Cytisus 20 20 20 60 Quercus 0 20 20 40 Castanea Raphanus 0 20 20 40 Cytisus Castaño Rubus 20 20 20 60 Totales 60 100 100 260 Quercus Raphanus Rubus Retama Roble Rábano Zarza 34
Etapas Experimentales Imagen digital bolita polen Preprocesamiento Preprocesamiento Generación Generación de de características características de de textura textura Clasificación Clasificación Género de la bolita de polen Estudio de viabilidad Extracción de características Etapa de preprocesado Etapa de clasificación 35
Estudio de viabilidad Cytisus y Rubus Marcón y Viana 80 Generación de Ene_O, de Preprocesado Ent_O, Var_O, TM_O, CM_O (4 nodos*4niveles=16) características Estad_nivel_i_O (i=1,2,3,4) (5 estadísticos*4 de de textura nodos=20) Estad_O (5 estadísticos *16 nodos=80) Daubechies 20 Estadísticos Métrica CME de Primer Orden (EPO) (11) Coeficientes de Haralick (CH) (7) Coeficientes a partir de la matriz de dependencia de niveles de grises en vecindarios (NGLDS) (5) Coeficientes a partir de la matriz de longitudes de hileras de niveles de grises (GLRLS) (5) Filtrados basados en ondículas (Mallat) Características Estadísticas (CE) (28) 36
Estudio de viabilidad Generación de de características de de textura Selección de de características Análisis de componentes principales (PCA) Máxima Sensibilidad Individual (MSI) Factor de Discriminación de Fisher (FDR) Método de Búsqueda Flotante (FSM) Validación cruzada Clasificador de mínima distancia (MDC) Distancia de Mahalanobis 37
90 80 70 60 50 40 30 20 10 0 Estudio de viabilidad CH 38 GLRLS CE Ene_O Ent_O Var_O TM_O CM_O Estad_nivel_1_O Estad_nivel_2_O Estad_nivel_3_O Estad_nivel_4_O Estad_O Vectores de características de textura PCA MIS FDR FSM NGLDS EPO Porcentaje de acierto (%)
Estudio de viabilidad EPO CH NGLDS GLRLS CE Ondículas PCA MIS FDR FSM Sensibilidad 80% Rubus 90% Cytisus 70% 39
Etapa de clasificación Cytisus, Rubus, Castanea, Quercus y Raphanus (Lobios, Viana y Pontevedra) 260 muestras Selección de de características Diseño Diseño del del clasificador Clasificador Clasificador de Mínima Distancia (CMD) Clasificador K-NN Red Neuronal (MLP) Máquinas de Soporte Vectorial (SVM) 40
Etapa de clasificación Estadísticos Ondículas TM_FCT Ene_FCT FCT_niv_i Var_FCT CM_FCT Ent_FCT MDC KNN MLP SVM Métrica EAB 41
Etapa de clasificación Porcentaje de acierto (%) 90 80 70 60 50 40 30 20 10 0 EPO MDC KNN MLP SVM EPO 50 41 53 53 CH 52 60 60 71 NGLDS 42 52 57 60 GLRLS 40 52 51 52 CE 62 65 70 75 Estad_O 64 54 66 63 FCT_niv_0 67 63 68 74 FCT_niv_1 62 61 65 74 FCT_niv_2 67 67 69 77 Var_FCT 69 65 68 73 TM_FCT 56 51 55 66 CM_FCT 58 57 61 65 Ene_FCT 71 65 70 75 Ent_FCT 68 66 74 81 CH NGLDS GLRLS CE Estad_O FCT_niv_0 FCT_niv_1 FCT_niv_2 Var_FCT TM_FCT CM_FCT Ene_FCT Ent_FCT MDC KNN MLP SVM Vectores de características de textura 42
Etapa de clasificación Clase Clase Observada Real Cytisus Rubus Castanea Quercus Raphanus Cytisus 83,4 13,3 3,3 0 0 Rubus 21,7 78,3 0 0 0 Castanea 1,7 1,7 85 8,3 3,3 Quercus 2,5 2,5 7,5 75 12,5 Raphanus 0 0 0 10 90 43
Evaluación del sistema Primer estudio científico de la aplicación de la visión por computador a la clasificación del polen apícola. Clasificación correcta del 81% con los 5 géneros de plantas cuyo polen es más abundante en el polen apícola de Galicia y tres lugares geográficos de procedencia (EAB +FCT+SVM). La metodología propuesta presenta un comportamiento uniforme con todas las clases. Estos resultados presentan gran interés por su posible aplicación sistemática en la determinación del origen geográfico del polen apícola. 44
Líneas futuras La incorporación sobre el color, morfología y tamaño de las pelotillas de polen pueden ayudar a construir un espacio de características donde la separabilidad entre las clases sea mayor. 45
La abeja tampoco rehuye la informática Gracias por la asistencia Pilar Carrión pcarrion@uvigo.es 46