Reconocimiento de Caracteres: Un abordaje invariante a translación, rotación y escala Jesús P. Mena-Chalco jmena@vision.ime.usp.br Departamento de Ciência da Computação Instituto de Matemática e Estatística Universidade de São Paulo II Congreso de Ingeniería e Investigación Científica - 2006 Universidad Tecnológica del Perú 10/11/2006
El problema Reconocer los caracteres de una imagen dada como entrada y extraer el texto para un archivo texto editable. Imágenes de entrada en niveles de gris, con contenido dispuesto horizontalmente y de arriba para abajo.
Sistema de reconocimiento de patrones?
Contenido 1. Método simplicado de un sistema de reconocimiento de patrones. 2. Extracción de características. 3. Entrenamiento. 4. Reconocimiento / Clasificación / Test. 5. Resultados. 6. Conclusiones.
Cómo reconocer un caracter? El reconocimiento invariante de objetos (IOR, invariant-object recognition) permite identificar un objeto independiente de su posición (trasladada o rotacionada) y tamaño (grande o pequeño) [CJ01]. Gran variedad de abordajes propuestos: Técnicas ópticas. Análisis basados en descriptores de Fourier. Modelos de redes neuronales. Momentos invariantes. Algoritmos genéticos. Heurísticas [TMRSSG00].
Sistema de reconocimiento de patrones
Extracción de características: Heurística En modelos invariantes de reconocimiento de patrones, esta etapa es definida como la extracción apropiada de características invariantes que serán usadas para el reconocimiento. A. Momento de inércia de la imagen, que cuantifica la inércia de un objeto rotacionado considerando su distribución de masa. I = m 1 r 2 1 + m 2 r 2 2 +... + m N r 2 N El momento de inércia depende de la posición del eje de rotación y de la figura, siendo invariante a translación y rotación.
Extracción de características: Heurística A. Momento de inércia del caracter. Una imagen bidimensional puede ser representada como una función contínua f(x, y) donde cada pixel sea considerado una partícula con masa igual al valor de la intensidad del pixel. Para imágenes binarias el momento de inércia con respecto a su centróide es: I = N d 2 i = i=1 N ((x i C x ) 2 + (y i C y ) 2 ) i=1 donde (C x, C y ) son las coordenadas del centróide del caracter, N es el total de pixels, y (x i, y i ), para i = 1... N, son as coordenadas de los pixels. Invariáncia a escala: I N = I/N 2
Extracción de características: Heurística B. Características topológicas invariantes, basado en el hecho que el círculo es la única figura geométrica que es perfectamente invariante a rotación. Son usados círculos igualmente espaciados y centrados en (C x, C y ).
Extracción de características: Heurística
Entrenamiento
Entrenamiento En esta etapa se usa el algoritmo del vecino holográfico mas próximo (HNN, Holographic nearest neighbor). Dado un conjunto de entrenamiento S, representamos el vector de características del elemento k como: S k = (c k 1, c k 2,..., c k M, r k ) donde c 1,..., c M son as características extraídas, y r k es la respuesta asociada (clase).
Entrenamiento Cada una das características é mapeada a variables polares usando la función de relación sigmoidal: θ k i = 2π(1 + e (µ sk i )/σ ) 1 donde µ y σ son respectivamente el promédio y la desviación estándar de cada una de las características. Permite mapear cada característica s k i a valores de fase entre (0, 2π) [Sou92].
Entrenamiento Representación tabular de las características, valores de fase y clase de las muestras del conjunto de entrenamiento: Caracter Clase Características Fases 1 rm+1 1 c 1 1... c 1 M θ1 1... θm 1 2 rm+1 2 c 2 1... c 2 M θ1 2... θm 2.. N-1 r N 1 M+1 c1 N 1... c N 1 M θ N 1 1... θ N 1 M N rm+1 N c N 1... c N M θ1 N... θm N (µ 1, σ 1 )... (µ M, σ M ) θ k i = 2π(1 + e (µ sk i )/σ ) 1
Reconocimiento
Reconocimiento Cuando un nuevo patrón es presentado, debe ser seleccionado el caracter mas próximo (similar) del conjunto de entrenamiento. Puede ser calculada la distancia mínima entre el nuevo patrón (θ t ) y los valores obtenidos en la fase de entrenamiento (θexp) para cada característica. De esa forma el mínimo valor de las N muestras del conjunto de entrenamiento con el nuevo patrón de entrada será la respuesta: M (θi(exp) k θk i(t) )2 i=1 i.e., la clase atribuída al nuevo patrón será r k M+1.
Reconocimiento
Ima genes utilizadas Entrenamiento: 343 (828x1300) Reconocimiento:344 (830x1300) Reconocimiento de Caracteres: Un abordaje invariante a translacio n, rotacio n y escala
Resultados Fue realizada una comparación de desempeño entre la implementación de OCR con algunos programas disponibles en el internet: GNU Ocrad (http://www.gnu.org/software/ocrad/ocrad.html) GOCR 0.41 (http://jocr.sourceforge.net/) SimpleOCR 3.1 (http://www.simpleocr.com/) Cuneiform OCR 6.0 (http://www.ocr.com/)
Resultados Taza de acierto: Sea A el texto extraído computacionalmente, y M o texto obtenido por la digitación manual. Primero se calculó una subsecuencia de longitud máxima S entre A e M [CLR90]. La taza de acierto fue obtenida por S M, donde S denota el tamaño de la subsecuencia máxima encontrada y M el tamaño del texto (solución). Programa OCR Imagen 343 Imagen 344 GNU Ocrad 70.21 % 66.80 % GOCR 0.41 69.82 % 70.12 % SimpleOCR 3.1 83.29 % 81.02 % Cuneiform OCR 6.0 90.86 % 85.60 % Implementación del OCR 95.59 % 84.93 %
Resultados ----------------------------------------------------------------------------- Maria Irma riu. Maria rma riu. Maria lrma riu. Diferecia: 1 / 15 ----------------------------------------------------------------------------- que, espaventada. fugiu. O galo pedrês investiu, de porrete. Empavesado e que, espaventada fugiu. O galo pedrês investiu, de porrete. Empavesado e que, espaventada, fugiu. O galo pedrês investiu, de porrete. Empavesado e Diferencia: 1 / 73 ----------------------------------------------------------------------------- berto... Vem aqui no galinheiro, só porque gosta de confusão e algazarra. e o... em aqui o galinheiro, rq e gosta de confusão e alga rra. heno... Aem aqui uo galinheiro, a Mrqne gosta de confusão e algamrra. Diferencia: 12 / 73
Conclusiones El método utilizado usa información topológica (heurística) para la extracción de características. El trabajo realizado por Torres-Mendez y colaboradores [TMRSSG00] presenta buenos resultados para el reconocimiento de caracteres con alta resolución, así un número mayor de círculos concéntricos permite obtener características con mejor resolución. La invariáncia a rotación aplicada a reconocimiento de caracteres permite reconocer letras diferentes como únicas. Por ejemplo: u-n, p-b-q-d, etc.
Referencias [CJ01] [CLR90] L. F. Costa and R. M. Cesar Jr. Shape Analysis and Classification: Theory and Practice. CRC Press, Inc., Boca Raton, FL, USA, 2001. T. H. Cormen, C. E. Leiserson, and R. L. Rivest. Introduction to Algorithms. The MIT Press, 1990. [Sou92] B. Soucek, editor. Fuzzy, Holographic, and Parallel Intelligence: The Sixth- Generation Breakthrough. Sixth Generation Computer Technologies Series. John Wiley and Sons, New York, 1992. [TMRSSG00] L. A. Torres-Mendez, J. C. Ruiz-Suárez, L. E. Sucar, and G. Gómez. Translation, rotation, and scale-invariant object recognition. IEEE Transactions on Systems, Man, and Cybernetics, Part C, 30(1):125 130, 2000.