Reconocimiento de Caracteres: Un abordaje invariante a translación, rotación y escala



Documentos relacionados
Lenguajes III Análisis y Diseño de Algoritmos

UN SISTEMA DE VIDEO VIGILANCIA PARA DETECCIÓN DE CAÍDAS

Análisis Espacial aplicando Técnicas de Inteligencia Artificial

Academia de la carrera de Licenciatura en Informática del Instituto Tecnológico de Aguascalientes

Aplicaciones. Inteligencia Computacional Carrera de Ingeniería Informática

UNIVERSIDAD DEL VALLE DE MÉXICO PROGRAMA DE ESTUDIO DE LICENCIATURA PRAXIS MES XXI

Conjuntos y Sistemas Difusos (Lógica Difusa y Aplicaciones)

Filtrado de Imágenes y Detección de Orillas Utilizando un Filtro Promediador Móvil Multipunto Unidimensional

Dimensionamiento y Planificación de Redes

Análisis de imágenes digitales

Extracción de características

[Aguilar & Toledo 95] Aguilar David, Toledo Vicente, Diseño de un OCR utilizando

Bloque temático: Sistemas de Reconocimiento de Patrones

Predicción de una serie de tiempo caótica

Reconstrucción Tridimensional a Partir de Varias Imágenes

DOCTORADO EN INGENIERÍA DEL LENGUAJE Y DEL CONOCIMIENTO. Área: Ingeniería del Lenguaje y del Conocimiento

Control con Lógica Difusa

Visión Artificial Avanzada

Introducción a la Criptología

Esquemas algorítmicos: Introducción

T10. Transformaciones geométricas

Bibliografía básica. Rosen, K. H. (2004). Matemática discreta y sus aplicaciones. Madrid: McGraw-Hill. ISBN:

Segmentación de una cartera de clientes usando aprendizaje de máquina

LABORATORIO No. 3 MODELAMIENTO Y ANALISIS DINAMICO DE SISTEMAS ELECTRICOS

Análisis de imágenes digitales

Red Neuronal para el Reconocimiento de Patrones

Reconocimiento de Huellas Dactilares

TÓPICOS SELECTOS DE OTROS CURSOS

CAPITULO 3: PASOS REALIZADOS PARA LA DETECCIÓN DE BORDES DE IMÁGENES A COLOR

Reconocimiento de rostros con Redes Neuronales Convolucionales

UNIVERSIDAD TECNOLOGICA DE PEREIRA FACULTAD DE INGENIERIAS

Clasificación. Agrupación de las partes de una imagen de forma homogénea

Descriptores de Forma

CONTROL PREDICTIVO GENERALIZADO PARA SISTEMAS NO LINEALES UTILIZANDO UNA NEURONA DIFUSA RECURRENTE

Diseño Gráficos de Control

Inteligencia Artificial. Grado en INFORMÁTICA 4º curso. Modalidad: Presencial

MSC. Oscar Alberto Chávez Bosquez LIA. Ericsson Saldívar Correa Robles. Fecha de elaboración: 28 de Mayo de 2010 Fecha de última actualización:

Organización y Gestión de Archivos

I I. Technical Report. "Algoritmo de segmentación de imágenes 3D usando los k-vecinos mas cercanos " Ismael Haddad Casadevall

VI ANÁLISIS DE LA ESTRUCTURA DE VARIABLES AMBIENTALES CON MIRAS A LA GENERACIÓN SINTÉICA DE DATOS


Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

PROGRAMA DE CURSO. Personal CC3301 Programación de Software de Sistemas Resultados de Aprendizaje

INGENIERÍA EN TECNOLOGÍAS DE LA INFORMACIÓN

INGENIERÍA EN TECNOLOGÍAS DE LA INFORMACIÓN

Pontificia Universidad Católica del Ecuador

REACTORES QUÍMICOS UNIDAD I REACTORES HOMOGÉNEOS

Programación Dinámica

RESTAURACIÓN DE CONTORNOS

Arquitectura FPGA para un Procesador Matricial

Estudio Comparativo de Técnicas Espaciales para la Identificación de Defectos en Textiles

Pattern Classification

PROGRAMA DE CURSO. Horas de Trabajo Personal Horas de Cátedra. Resultados de Aprendizaje

CAPÍTULO Inteligencia Artificial y Redes Neuronales Artificiales

Ingeniería de Calidad

Manual del Usuario para el programa de reconocimiento de caracteres.

Figura 1: Propiedades de textura: (a) Suavidad, (b) Rugosidad y (c) Regularidad

APENDICE C Ondas Planas. La propagación de una onda escalar esta descrita por la siguiente ecuación diferencial parcial: u 2 2 u

Taller de Programación Dinámica

UNIVERSIDAD NACIONAL AUTÓNOMA LICENCIADO EN CIENCIAS DE LA COMPUTACIÓN

Segmentación de Imágenes Parte 2

CICY CICY Centro de Investigación Científica de Yucatán, A. C.

Asignaturas antecedentes y subsecuentes

Métodos Avanzados para Análisis y Representación de Imágenes

Universidad Autónoma del Estado de México. La minería de datos en el proceso de KDD ( Knowledge Discovery and Data Mining)

Extracción de Regiones

PRACTICA No. 1 ENSAYO DE TRACCION UNIAXIAL PARA DIFERENTES TIPOS DE MATERIALES

RecAM. Reconocimiento Automático de Matrículas

MICRODISEÑO CURRICULAR Ingeniería de Sistemas. Créditos TPS TIS TPT TIT

Universidad Autónoma de San Luis Potosí Facultad de Ingeniería Programas Analíticos del Área Mecánica y Eléctrica

Predicción basada en vecinos

Examen correspondiente a la evaluación alternativa. Procesamiento de imágenes digitales curso 2007/2008

ASIGNATURA DE MODELADO DE SISTEMAS DE ENERGÍAS RENOVABLES

Introducción Curso: Procesamiento Digital de Imágenes

Optica de Fourier y filtrado espacial

Asignatura: Horas: Total (horas): Obligatoria Teóricas 3.0 Semana 5.0 Optativa X Prácticas Semanas 80.0 de elección

INGENIERÍA EN ENERGÍAS RENOVABLES EN COMPETENCIAS PROFESIONALES ASIGNATURA DE MODELADO DE SISTEMAS EN ENERGÍAS RENOVABLES

ANX-PR/CL/ GUÍA DE APRENDIZAJE

CÁTEDRA: GEOLOGÍA ESTRUCTURAL Trabajo Práctico Nº 4 Análisis de la Deformación Interna (Strain)

Tema 6: DESCRIPTORES DE LA IMAGEN Y RECONOCIMIENTO I N G E N I E R Í A I N F O R M Á T I C A

Reconocimiento de objetos en fotografías Dr. Wilfrido Gómez Flores

3º ESO - UNIDAD 12.- TRASLACIONES, GIROS Y SIMETRÍAS EN EL PLANO

Reconocimiento de Patrones Trabajo Final - Reconocimiento de LETRAS

3. Selección y Extracción de características. Selección: Extracción: -PCA -NMF

CAPÍTULO 2. Desde el punto de vista más simple, hoy una imagen digital consiste de lo que se puede ver

Visión Artificial Unidad de Competencia I Introducción a la Visión Artificial

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

Representación y Descripción

UNIVERSIDAD DE ANTIOQUIA FACULTAD DE CIENCIAS EXACTAS Y NATURALES MEDELLÍN - COLOMBIA. Evaluaciones 4 otros total: 64 horas de clase

ANX-PR/CL/ GUÍA DE APRENDIZAJE. ASIGNATURA Algoritmica y complejidad. CURSO ACADÉMICO - SEMESTRE Primer semestre

Procesamiento digital de imágenes

OPTATIVA I: MINERIA DE DATOS

Aplicación de Visión por Computador para el Reconocimiento Automático de Placas Vehiculares utilizando OCR s Convencionales.

Geometría de las superficies

Algoritmos para strings. Bioinformática Elvira Mayordomo

Reducción de Ruido por medio de Redes Neuronales

Nuevas Adquisiciones (Maestría en Energía Eólica)

Tareas 20% Primer Examen Parcial 20% Segundo Examen Parcial 20% Proyecto Final 25% Examen Final 15%

Transcripción:

Reconocimiento de Caracteres: Un abordaje invariante a translación, rotación y escala Jesús P. Mena-Chalco jmena@vision.ime.usp.br Departamento de Ciência da Computação Instituto de Matemática e Estatística Universidade de São Paulo II Congreso de Ingeniería e Investigación Científica - 2006 Universidad Tecnológica del Perú 10/11/2006

El problema Reconocer los caracteres de una imagen dada como entrada y extraer el texto para un archivo texto editable. Imágenes de entrada en niveles de gris, con contenido dispuesto horizontalmente y de arriba para abajo.

Sistema de reconocimiento de patrones?

Contenido 1. Método simplicado de un sistema de reconocimiento de patrones. 2. Extracción de características. 3. Entrenamiento. 4. Reconocimiento / Clasificación / Test. 5. Resultados. 6. Conclusiones.

Cómo reconocer un caracter? El reconocimiento invariante de objetos (IOR, invariant-object recognition) permite identificar un objeto independiente de su posición (trasladada o rotacionada) y tamaño (grande o pequeño) [CJ01]. Gran variedad de abordajes propuestos: Técnicas ópticas. Análisis basados en descriptores de Fourier. Modelos de redes neuronales. Momentos invariantes. Algoritmos genéticos. Heurísticas [TMRSSG00].

Sistema de reconocimiento de patrones

Extracción de características: Heurística En modelos invariantes de reconocimiento de patrones, esta etapa es definida como la extracción apropiada de características invariantes que serán usadas para el reconocimiento. A. Momento de inércia de la imagen, que cuantifica la inércia de un objeto rotacionado considerando su distribución de masa. I = m 1 r 2 1 + m 2 r 2 2 +... + m N r 2 N El momento de inércia depende de la posición del eje de rotación y de la figura, siendo invariante a translación y rotación.

Extracción de características: Heurística A. Momento de inércia del caracter. Una imagen bidimensional puede ser representada como una función contínua f(x, y) donde cada pixel sea considerado una partícula con masa igual al valor de la intensidad del pixel. Para imágenes binarias el momento de inércia con respecto a su centróide es: I = N d 2 i = i=1 N ((x i C x ) 2 + (y i C y ) 2 ) i=1 donde (C x, C y ) son las coordenadas del centróide del caracter, N es el total de pixels, y (x i, y i ), para i = 1... N, son as coordenadas de los pixels. Invariáncia a escala: I N = I/N 2

Extracción de características: Heurística B. Características topológicas invariantes, basado en el hecho que el círculo es la única figura geométrica que es perfectamente invariante a rotación. Son usados círculos igualmente espaciados y centrados en (C x, C y ).

Extracción de características: Heurística

Entrenamiento

Entrenamiento En esta etapa se usa el algoritmo del vecino holográfico mas próximo (HNN, Holographic nearest neighbor). Dado un conjunto de entrenamiento S, representamos el vector de características del elemento k como: S k = (c k 1, c k 2,..., c k M, r k ) donde c 1,..., c M son as características extraídas, y r k es la respuesta asociada (clase).

Entrenamiento Cada una das características é mapeada a variables polares usando la función de relación sigmoidal: θ k i = 2π(1 + e (µ sk i )/σ ) 1 donde µ y σ son respectivamente el promédio y la desviación estándar de cada una de las características. Permite mapear cada característica s k i a valores de fase entre (0, 2π) [Sou92].

Entrenamiento Representación tabular de las características, valores de fase y clase de las muestras del conjunto de entrenamiento: Caracter Clase Características Fases 1 rm+1 1 c 1 1... c 1 M θ1 1... θm 1 2 rm+1 2 c 2 1... c 2 M θ1 2... θm 2.. N-1 r N 1 M+1 c1 N 1... c N 1 M θ N 1 1... θ N 1 M N rm+1 N c N 1... c N M θ1 N... θm N (µ 1, σ 1 )... (µ M, σ M ) θ k i = 2π(1 + e (µ sk i )/σ ) 1

Reconocimiento

Reconocimiento Cuando un nuevo patrón es presentado, debe ser seleccionado el caracter mas próximo (similar) del conjunto de entrenamiento. Puede ser calculada la distancia mínima entre el nuevo patrón (θ t ) y los valores obtenidos en la fase de entrenamiento (θexp) para cada característica. De esa forma el mínimo valor de las N muestras del conjunto de entrenamiento con el nuevo patrón de entrada será la respuesta: M (θi(exp) k θk i(t) )2 i=1 i.e., la clase atribuída al nuevo patrón será r k M+1.

Reconocimiento

Ima genes utilizadas Entrenamiento: 343 (828x1300) Reconocimiento:344 (830x1300) Reconocimiento de Caracteres: Un abordaje invariante a translacio n, rotacio n y escala

Resultados Fue realizada una comparación de desempeño entre la implementación de OCR con algunos programas disponibles en el internet: GNU Ocrad (http://www.gnu.org/software/ocrad/ocrad.html) GOCR 0.41 (http://jocr.sourceforge.net/) SimpleOCR 3.1 (http://www.simpleocr.com/) Cuneiform OCR 6.0 (http://www.ocr.com/)

Resultados Taza de acierto: Sea A el texto extraído computacionalmente, y M o texto obtenido por la digitación manual. Primero se calculó una subsecuencia de longitud máxima S entre A e M [CLR90]. La taza de acierto fue obtenida por S M, donde S denota el tamaño de la subsecuencia máxima encontrada y M el tamaño del texto (solución). Programa OCR Imagen 343 Imagen 344 GNU Ocrad 70.21 % 66.80 % GOCR 0.41 69.82 % 70.12 % SimpleOCR 3.1 83.29 % 81.02 % Cuneiform OCR 6.0 90.86 % 85.60 % Implementación del OCR 95.59 % 84.93 %

Resultados ----------------------------------------------------------------------------- Maria Irma riu. Maria rma riu. Maria lrma riu. Diferecia: 1 / 15 ----------------------------------------------------------------------------- que, espaventada. fugiu. O galo pedrês investiu, de porrete. Empavesado e que, espaventada fugiu. O galo pedrês investiu, de porrete. Empavesado e que, espaventada, fugiu. O galo pedrês investiu, de porrete. Empavesado e Diferencia: 1 / 73 ----------------------------------------------------------------------------- berto... Vem aqui no galinheiro, só porque gosta de confusão e algazarra. e o... em aqui o galinheiro, rq e gosta de confusão e alga rra. heno... Aem aqui uo galinheiro, a Mrqne gosta de confusão e algamrra. Diferencia: 12 / 73

Conclusiones El método utilizado usa información topológica (heurística) para la extracción de características. El trabajo realizado por Torres-Mendez y colaboradores [TMRSSG00] presenta buenos resultados para el reconocimiento de caracteres con alta resolución, así un número mayor de círculos concéntricos permite obtener características con mejor resolución. La invariáncia a rotación aplicada a reconocimiento de caracteres permite reconocer letras diferentes como únicas. Por ejemplo: u-n, p-b-q-d, etc.

Referencias [CJ01] [CLR90] L. F. Costa and R. M. Cesar Jr. Shape Analysis and Classification: Theory and Practice. CRC Press, Inc., Boca Raton, FL, USA, 2001. T. H. Cormen, C. E. Leiserson, and R. L. Rivest. Introduction to Algorithms. The MIT Press, 1990. [Sou92] B. Soucek, editor. Fuzzy, Holographic, and Parallel Intelligence: The Sixth- Generation Breakthrough. Sixth Generation Computer Technologies Series. John Wiley and Sons, New York, 1992. [TMRSSG00] L. A. Torres-Mendez, J. C. Ruiz-Suárez, L. E. Sucar, and G. Gómez. Translation, rotation, and scale-invariant object recognition. IEEE Transactions on Systems, Man, and Cybernetics, Part C, 30(1):125 130, 2000.