Reconocimiento Automático de Voz

Documentos relacionados
Reconocimiento Automático de Voz basado en Técnicas de Comparación de Patrones

y clasificación de los reconocedores de voz

UNIVERSIDAD DE GRANADA PROCESAMIENTO DE VOZ

Procesamiento de voz - Reconocimiento de voz I

Juegos Interactivos para la Rehabilitación Fonatoria

Modelo de producción de la voz

Capítulo I. Reconocimiento de voz. 1.1 Antecedentes

PERCEPCIÓN DEL HABLA Reconocimiento de Palabras Habladas

Modelos de producción de voz. Curso de doctorado 2001/2002 Inmaculada Hernáez

APLICACIONES DE NEGOCIO PARA INTELIGENCIA ARTIFICIAL. Copyright 2017 Accenture All rights reserved.

Organización. Autómatas probabilísticos (AEFP) Definición de Autómata. Modelo de Markov. Ejemplo de AEFP. Modelos basados en autómatas probabilísticos

Procesamiento del Audio. Eduardo Morales Vargas

Procesamiento de la señal de voz

VQ. Algorítmica de reconocimiento de voz VQ.1. Reconocimiento de patrones

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

Coeficientes Cepstrales en Frecuencia Mel y Dynamic Time Warping para Reconocimiento Automatico del Habla

LA FRECUENCIA FUNDAMENTAL DE LA VOZ Y SUS EFECTOS EN RECONOCIMIENTO DE HABLA CONTINUA

Bases Formales de la Computación: Sesión 3. Modelos Ocultos de Markov

La fonética judicial. La comparación de muestras de habla

TEMA 5: RECONOCIMIENTO DE LOCUTORES Y DE VOZ.

Capítulo 1. Sistemas de reconocimiento y síntesis de voz

Procesamiento digital de voz

Reconocimiento automático de palabras en documentos históricos usando redes neuronales convolucionales

3. ESTRUCTURA DE UN CONVERSOR TEXTO-VOZ

Redes Neuronales. Introducción a las redes neuronales Carlos Andrés Delgado S.

Procesamiento de voz - Reconocimiento de voz II

Reconocimiento de Patrones DRA. LETICIA FLORES PULIDO

FUNDAMENTOS DEL RECONOCIMIENTO AUTOMÁTICO DE LA VOZ. Introducción (I)

PROCESAMIENTO DE VOZ. RETOS ACTUALES. PROYECTOS CIC

Figura 1: Propiedades de textura: (a) Suavidad, (b) Rugosidad y (c) Regularidad

Universidad Fermín Toro. Cabudare Lara

Visión Artificial Unidad de Competencia I Introducción a la Visión Artificial

Unidad I Introducción a la programación de Sistemas. M.C. Juan Carlos Olivares Rojas

Estabilización Inteligente de Sistemas Eléctricos de Potencia (Parte II)

Tema 4: Introducción al Aprendizaje Automático

COMUNICACIÓN Y LENGUAJE. EL PROCESO DE COMUNICACIÓN HUMANA.

T E S I S UNIVERSIDAD NACIONAL AUTÓNOMA DE MEXICO FACULTAD DE INGENIERIA

3. Señales. Introducción y outline

PROJECT GLASS : REALIDAD AUMENTADA, RECONOCIMIENTO DE IMÁGENES Y RECONOCIMIENTO DE VOZ.

Seguimiento de los parámetros del modelo del tracto vocal

LENGUAJES Y GRAMÁTICAS

Reconocimiento Automático de Habla

I. LA SÍNTESIS DE VOZ

Aprendizajes para la programación y evaluación de competencias básicas. 2. Tablas de los aprendizajes de Primaria

Biometría por voz: fundamentos, tecnología y aplicaciones

Modelos del Lenguaje. Qué es un ML? Modelos basados en N-gramas Modelos basados en Gramáticas Propuesta de T.D

EL LENGUAJE ESCRITO EN EL CICLO INICIAL Y SU ARTICULACIÓN. Eugenia Orellana Etchevers

Sintetizadores y Corpus de voz

Inteligencia artificial

Modelos ocultos de Markov para el reconocimiento automático del habla. Una breve introducción

PLAN DE UNIDAD DE APRENDIZAJE. II/2015 Cuatro horas académicas semanales Noemi M. Baptista Villegas

2.1.-Percepción del habla. Características.

ESTADISTICA ELEMENTAL

LOS SISTEMAS ADAPTATIVOS

Capitulo 1: Introducción al reconocimiento de patrones (Secciones )

Especialidades en GII-TI

Índice general. Manual de introducción a la lingüística descriptiva

Las tecnologías del habla en español

Universidad de Costa Rica Sistema de Aplicaciones Estudiantiles SAE

INSTITUCIÓN EDUCATIVA SAN CRISTÓBAL

Cómo funciona el español?

Capítulo 4. SAPI. 4.1 Qué es Microsoft Speech Application Program Interface (SAPI)?

Victrola de La Transformada de Fourier

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Tópicos Avanzados: Inteligencia Computacional I

Indique la respuesta correcta (d=ninguna de las anteriores, e=todas las anteriores)

SISTEMAS INFORMÁTICOS PROGRAMACION I - Contenidos Analíticos Ing. Alejandro Guzmán M. TEMA 2. Diseño de Algoritmos

Capítulo 9. Introducción a los lenguajes formales. Continuar

Introducción al procesamiento del lenguaje natural (PLN)

Procesamiento de voz - El mecanismo de producción

Introducción a la minería de datos. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Análisis Inteligente de Datos: Introducción

Introducción a la minería de datos

Página 1 de 12 CONCEPTOS INFORMÁTICOS BÁSICOS

PROCESAMIENTO DE SEÑALES. Procesamiento de señales e imágenes biomédicas

Transcripción:

Reconocimiento Automático de Voz Presentación basada en las siguientes Referencias: [1] Rabiner, L. & Juang, B-H.. Fundamentals of Speech Recognition, Prentice Hall, N.J., 1993. [2] Rabiner, L. & Juang, B-H.. Speech Recognition by Machine, Chap. 47 in The Digital Signal Processing Handbook, CRC Press, IEEE Press, 1998. Caracterización de de los los Sistemas de de Reconocimiento de de Voz Los sistemas de reconocimiento automático de voz se caracterizan teniendo en cuenta diferentes aspectos: 1. La forma en que el usuario le habla a la máquina. Existen básicamente tres formas: Palabra Aislada: el usuario habla palabras individuales (o frases) tomadas de un vocabulario determinado. Palabras Conectadas: el usuario habla en forma fluida una sucesión de palabras pertenecientes a un vocabulario restringido (e.g. dígitos telefónicos). Habla continua: Habla continua: el usuario habla fluidamente usando palabras de un vocabulario grande (usualmente ilimitado). ProDiVoz Reconocimiento Automático de Voz 2

2. Tamaño del vocabulario de reconocimiento Pequeño: capaz de reconocer hasta 100 palabras. Mediano: entre 100 y 1000 palabras. Grande: más de 1000 palabras. 3. El conocimiento de los patrones de voz del usuario Sistemas dependientes del locutor: adaptados a locutores particulares. Sistemas independientes de locutor: trabajan con un población de locutores grande, la mayoría de los cuales son desconocidos para el sistema. Sistemas adaptables: se adaptan al locutor particular mientras el sistema está en uso. ProDiVoz Reconocimiento Automático de Voz 3 4. Grado de conocimiento acústico-lingüístico usado por el sistema. Sólo conocimiento acústico. No usan conocimiento lingüístico. Integración de conocimiento acústico y lingüístico. El conocimiento lingüístico está usualmente representado por restricciones sintácticas y semánticas sobre la salida del sistema de reconocimiento. 5. Grado de diálogo entre el usuario y la máquina. Unidireccional (o pasivo). El usuario habla y la máquina realiza una acción como respuesta. Sistema de diálogo activado por la máquina. El sistema es el iniciador del diálogo, requiriendo información del usuario via una entrada verbal. Sistema de diálogo natural. Sistema de diálogo natural. La máquina conversa con el locutor, le solicita entradas, actúa en función de las entradas y trata de clarificar ambigüedades. ProDiVoz Reconocimiento Automático de Voz 4

Fuentes de de Variabilidad de de las las Señales de de Voz El reconocimiento automático de voz es una tarea inherentemente difícil debido a la variabilidad de las señales de voz. Algunas fuentes de variabilidad incluyen: Variabilidad en un locutor en mantener una pronunciación consistente y en el uso de palabras y frases. Variabilidad entre locutores debido a diferencias fisiológicos (e.g. diferente longitud del tracto vocal), acentos regionales, idiomas extranjeros, etc. Variabilidad entre transductores cuando se habla frente a diferentes micrófonos o aparatos telefónicos. Variabilidad introducida por el sistema de transmisión (redes de comunicación teléfonos celulares, etc.). Variabilidad en el ambiente, que incluyen conversaciones extrañas y eventos acústicos de fondo, como ruidos, etc. ProDiVoz Reconocimiento Automático de Voz 5 Enfoques de de Reconocimiento Automático de de Voz 1. 1. Enfoque Acústico-Fonético Consiste en detectar sonidos elementales y asignarles determinados rótulos. La base de este enfoque es la hipótesis de que en el lenguaje hablado existe un número finito de unidades fonéticas distintas (fonemas) y que estas unidades pueden caracterizarse por un conjunto de propiedades acústicas que se manifiestan en la señal hablada en función del tiempo. Si bien las propiedades acústicas de los fonemas son altamente variables con el locutor y con los fonemas vecinos (co-articulación de sonidos), se asume que las reglas que gobiernan la variabilidad son simples y pueden ser aprendidas fácilmente por el sistema de reconocimiento. ProDiVoz Reconocimiento Automático de Voz 6

El reconocimiento consiste básicamente de dos pasos: Primer paso: segmentación y rotulado. La señal es dividida en regiones acústicas a las que son asignados uno o más fonemas, resultando en una caracterización de la señal de voz mediante un reticulado de fonemas. Segundo paso: se trata de determinar una palabra (o conjunto de palabras) válida a partir de la secuencia de fonemas rotulados en el primer paso. Se introducen en esta etapa restricciones lingüísticas (vocabulario, sintaxis, y reglas semánticas) ProDiVoz Reconocimiento Automático de Voz 7 s(n) Sistema de Análisis Detector Característica 1 Segmentación control Bancos de Filtros LPC Detector Característica Q Formantes Frecuencia Tonal /no tonal Energía Rotulado Fig. 1: Sistema de Reconocimiento de Voz basado en enfoque acústico-fonético. ProDiVoz Reconocimiento Automático de Voz 8 Palabra reconocida

La primera etapa en el procesamiento (que es común a todos los enfoques) es la etapa de análisis de voz, que provee una representación (espectral) de las características inestacionarias de la señal de voz. Los métodos más comunes en esta etapa son análisis con banco de filtros y análisis LPC (Linear Predictive Coding). En la siguiente etapa es la extracción de característica en donde se convierten las medidas espectrales en un conjunto de parámetros que describen la propiedades acústicas de las unidades fonéticas. Estos parámetros pueden ser: nasalidad (presencia o ausencia de resonancia nasal), fricación (presencia o ausencia de excitación aleatoria en la voz), ubicación de los formantes (frecuencias de las 3 primeras resonancias), clasificación entre sonidos tonales y no tonales, etc. ProDiVoz Reconocimiento Automático de Voz 9 La tercer etapa del procesamiento es la etapa de segmentación y rotulado en donde el sistema trata de encontrar regiones estables donde las características cambian poco, que son rotuladas teniendo en cuenta cuan bien la característica en la región se ajusta a unidades fonéticas individuales. Esta es usualmente la etapa más difícil de llevar a cabo en forma confiable. El resultado de la etapa de segmentación y rotulado es un reticulado de fonemas a partir del cual se determina la palabra (o secuencia de palabras) que mejor se ajusta, teniendo en cuenta restricciones lingüísticas (de vocabulario, de sintaxis, y semánticas). ProDiVoz Reconocimiento Automático de Voz 10

Fig. 2: Segmentación y rotulado de la secuencia de dígitos en inglés seven-six (tomado de [1]). ProDiVoz Reconocimiento Automático de Voz 11 2. 2. Enfoque de de Reconocimiento de de patrones Consiste básicamente en dos pasos: Primer Paso: entrenamiento de patrones Segundo Paso: comparación de patrones La característica principal de este enfoque es que usa un marco matemático bien definido y que establece representaciones consistentes de los patrones de voz que pueden usarse para comparaciones confiables a partir de un conjunto de muestras rotuladas, usando algoritmos de entrenamiento. La representación de los patrones de voz puede ser una plantilla (template), o un modelo estadístico (HMM: Hidden Markov Model), que puede aplicarse a un sonido (más pequeño que una palabra), una palabra, o una frase. ProDiVoz Reconocimiento Automático de Voz 12

En la etapa de comparación de patrones se realiza una comparación directa entre la señal de voz desconocida (a reconocer) y todos los posibles patrones aprendidos en la etapa de entrenamiento, de manera de determinar el mejor ajuste de acuerdo a algún criterio. Entrenamiento Entrenamiento Modelos o Templates Análisis de Voz Señal de Voz Reconocimiento Comparación de patrones Lógica de Decisión Palabra reconocida Fig. 3: Reconocimiento de Voz basado en reconocimiento de patrones. ProDiVoz Reconocimiento Automático de Voz 13 3. 3. Enfoque de de Inteligencia Artificial En este enfoque se intenta automatizar el procedimiento de reconocimiento de acuerdo a la forma en que una persona aplica su inteligencia en la visualización, análisis y caracterización de la voz basada en un conjunto de características acústicas. Algunas técnicas que se emplean son: sistemas expertos (redes neuronales) que integran conocimientos prácticos fonéticos, sintácticos, semánticos para la segmentación y el rotulado, y usan herramientas tales como rede neuronales artificiales para aprender las relaciones entre eventos fonéticos. ProDiVoz Reconocimiento Automático de Voz 14