TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS

Documentos relacionados
TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS

TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS

Podriamos conversar con las maquinas como lo hacemos con los humanos?

Seguimiento de los parámetros del modelo del tracto vocal

TECNOLOGIAS DE LA VOZ

3. Señales. Introducción y outline

CONTENIDOS MÍNIMOS SEPTIEMBRE. DEPARTAMENTO DE MATEMÁTICAS

Coeficientes Cepstrales en Frecuencia Mel y Dynamic Time Warping para Reconocimiento Automatico del Habla

Probabilidad y Estadística

Índice 1. Introducción Imagen digital. Formación imagen Histograma de una imagen digital 2. Transformaciones puntuales. Introducción.

Números reales. Valor absoluto. Desigualdades. Distancias entre la recta real. Intervalos y entornos.

Iniciación a la demostración en matemáticas: métodos, razonamientos, lenguajes, etc.

MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I Y II CONTENIDOS BACHILLERATO

MATEMÁTICAS APLICADAS A LAS CCSS I (1º BACHILLERATO)

DIPLOMADO EN MODELOS ECONOMÉTRICOS DINÁMICOS. Coordinador: M.F. Esperanza Sainz López

Aproximación funcional por mínimos cuadrados

ESTADÍSTICA II Código: 8314

Procesamiento digital de voz

Experimentos Introducción

Expresión decimal. Aproximación y estimación. Notación científica. Polinomios. Divisibilidad de polinomios. Regla de Ruffini.

IDENTIFICACIÓN DE SISTEMAS MÉTODOS POR SUB-ESPACIOS

Estimación de Parámetros. Jhon Jairo Padilla A., PhD.

Estimación de Parámetros. Jhon Jairo Padilla A., PhD.

MATEMÁTICAS I CRITERIOS DE EVALUACIÓN Y COMPETENCIAS CLAVE ESTÁNDARES DE APRENDIZAJE EVALUABLES

Tema Contenido Contenidos Mínimos

Identificación mediante el método de los mínimos cuadrados

DEPARTAMENTO: Matemáticas NOMBRE DEL CURSO: Probabilidad y Estadística CLAVE: 1016M ACADEMIA A LA QUE PERTENECE: Probabilidad y Estadística

Contenidos IB-Test Matemática NM 2014.

Victrola de La Transformada de Fourier

INSTITUTO POLITÉCNICO NACIONAL SECRETARIA ACADEMICA DIRECCIÓN DE ESTUDIOS PROFESIONALES EN INGENIERÍA Y CIENCIAS FÍSICO MATEMÁTICAS

Procesamiento de voz - Reconocimiento de voz II

MATEMÁTICAS I Y II CONTENIDOS BACHILLERATO

I.E.S. DE INGENIO Avda. de los Artesanos, INGENIO POC-PC EVALUACIÓN CONTENIDOS MÍNIMOS CURSO CURSO: 1º BACH.

Análisis espectral de señales periódicas con FFT

Técnicas de aprendizaje sobre series temporales

Análisis de coyuntura con series temporales. Metodología A. Espasa (dt 9003 BE)

CRITERIOS DE EVALUACIÓN DE 4º ESO- Opción B

LOS CONTENIDOS DE MATEMÁTICAS EN LOS BACHILLERATOS ITALIANOS

MATEMÁTICAS 2º BACHILLERATO

Prediccion Lineal de la Parte Causal de la Autocorrelacion para la Identificacion del Locutor en Ambientes Ruidosos

Interfaz hombre máquina basado en el análisis de los gestos faciales mediante visión artificial

El por qué del procesado de 64 bits

PROGRAMA DETALLADO VIGENCIA TURNO UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA DE LA FUERZA ARMADA 2009 DIURNO INGENIERIA ELECTRICA ASIGNATURA

Todos los ejercicios de esta prueba tendrán el mismo valor, salvo que se especifique en el propio examen lo contrario.

Utilización de la MUESTRA TESTIGO en la medida del impacto de los cambios en la EPA en el primer trimestre de 2005.

SISTEMA DE ECUACIONES LINEALES

1º ESO SECUENCIACIÓN DE CONTENIDOS: 1º Evaluación: 1-Los números naturales 4.-Los números enteros. 5.- Los números decimales. 6.- El sistema métrico

Temario Prueba de Cobertura II Semestre 2017

Diplomado en Estadística Aplicada

Reconocimiento Automático de Voz basado en Técnicas de Comparación de Patrones

Aplicaciones del Tratamiento de Señales. Parte 1: Grabación y Reproducción de Señales de Voz

MATEMÁTICAS 2º DE BACHILLERATO

Estudio estadístico de la rentabilidad económica de una instalación solar térmica

5. MODELO DE ANÁLISIS DEL CICLO TERMODINÁMICO. El método aplicado para modelar el ciclo de la Turbina se basa en el ciclo

SELECCIÓN Y SECUENCIACIÓN DE CONTENIDOS PARA MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I. BLOQUE 1 : ARITMÉTICA Y ÁLGEBRA

Clasificación de sistemas

Syllabus. Curso:SEXTO. Materia:ESTUDIOS MATEMÁTICOS

Germán Bassi. 9 de septiembre de X(i) = 1 N 1T X. i=1

28 de mayo de Hospital Cĺınico Universitario Virgen de la Arrixaca. Reducción de rudio en imágenes portales. adquiridas con dosis bajas

Teoría de Telecomunicaciones

Apéndice A. El sistema de reconocimiento.

Procesamiento de voz - Reconocimiento de voz I

PFC: Localización de robots mediante filtro de Kalman

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

MATEMÁTICAS I (1º BACHILLERATO)

Diplomado en Econometría Coordinadora académica: M.F. Esperanza Sainz López

RECOMENDACIÓN UIT-R TF MEDICIONES DE LA INESTABILIDAD DE FRECUENCIA Y EN EL TIEMPO (FASE) (Cuestión UIT-R 104/7)

1: EL CONCEPTO DE CONTROL INVERSO ADAPTATIVO

Naturaleza.- Asignatura teórico práctica, perteneciente al área de estudios específicos.

Capítulo 2. Métodos estadísticos Simulación estadística. Simulación univariante

Bachillerato Internacional. Matemáticas Nivel Medio. Programa para el curso 1º ( )

Herramientas software para la docencia de la señal de voz en Ingeniería Técnica de Telecomunicaciones

Contenido Capítulo 1 Introducción Capítulo 2 Conceptos Básicos Capítulo 3 Procesamiento de Imágenes en el Dominio Espacial

7. REGRESIÓN POR MÍNIMOS CUADRADOS: REGRESIÓN POLINOMIAL. Jorge Eduardo Ortiz Triviño

VQ. Algorítmica de reconocimiento de voz VQ.1. Reconocimiento de patrones

Pronóstico del clima basado en la escala de datos Zambretti

LA PREDICCIÓN DE LA DEMANDA EN EVALUACIÓN DE PROYECTOS

LABORATORIO No. 0. Cálculo de errores en las mediciones. 0.1 Introducción

MATEMÁTICAS. PRIMERO DE E.S.O.

EXPERIMENTOS PRELIMINARES DE VERIFICACIÓN DE LOCUTORES CON UNA BASE DE DATOS REALISTA

Este manual se ha elaborado como material de guía y apoyo para que el alumno se inicie, tanto desde un punto de vista teórico como aplicado, en el

transmisión de señales

Introducción a los Sistemas de Control

1º BACHILLERATO HUMANIDADES Y CIENCIAS SOCIALES MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I PENDIENTES

3. RELACION ENTRE DOS CONJUNTOS DE DATOS.

Contenidos mínimos Criterios de evaluación Ejemplos de preguntas

DEPARTAMENTO DE MATEMÁTICAS. IES GALLICUM

Requisitos para la cuantificación en SPECT y PET. Rafael Puchal Radiofísico Barcelona

PROGRAMA DE ESTADÍSTICA DESCRIPTIVA

INDICE. Prólogo a la Segunda Edición

Codificación de audio MPEG. Álvaro Pardo

TECNICAS DE MODELADO AR ROBUSTO DE LA SENAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS

Universidad Nacional Autónoma de México Facultad de Psicología

MÓDULO X. LA DINÁMICA DE LA ECONOMÍA MUNDIAL PROGRAMA OPERATIVO MATEMÁTICAS ECONOMETRÍA I. Profesor: Noé Becerra Rodríguez.

Realzado de Imagen. 11 de junio de El histograma de una imagen digital con niveles de gris en la amplitud de [0, L 1], es función discreta

Documento de Trabajo

MATEMÁTICAS APLICADAS A LAS CCSS II (2º BACHILLERATO)

INDICE Prefacio 1. Introducción 2. Distribuciones de frecuencia: tablas estadísticas y graficas

Tratamiento Estadístico de Señales Universidad de la República Facultad de Ingeniería. Monografía final: Filtro de Kalman para lápiz digitalizador

PROGRAMA DETALLADO VIGENCIA TURNO UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA DE LA FUERZA ARMADA 2009 DIURNO INGENIERÌA EN SISTEMAS ASIGNATURA

Transcripción:

UNIVERSIDAD POLITECNICA DE CATALUÑA Departamento de Teoria de la señal y comunicaciones TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS Autor: Francisco Javier Hernando Pericas Director: Climent Nadeu i Camprubi Barcelona, mayo 1993

Conclusiones 285 Capítulo 7 CONCLUSIONES En esta tesis se han presentado y revisado diversas técnicas de reconocimiento robusto del habla en ambientes ruidosos relacionadas con las etapas de parametrización de la señal de voz y comparación de vectores de características. A partir de un estudio comparativo de estas técnicas en un aplicación monolocutor de palabras aisladas, utilizando un sistema de reconocimiento basado en la cuantificación vectorial y los modelos ocultos de Markov, se han extraído las siguientes conclusiones fundamentales para el caso de ruido blanco y ruido real de coche [Her93b]: - En el caso de que la señal de voz esté perturbada por la presencia de ruido blanco, el efecto del preénfasis no es deseable. El ruido blanco es espectralmente plano, mientras que la señal de voz tiene concentrada su energía en las bajas frecuencias. En consecuencia, si se aplica un filtro paso-alto resulta que se realza la zona del espectro en que el ruido presenta mayor potencia relativa respecto a la señal. - Cuando se utilizan técnicas de prsdicción lineal en la etapa de parametrización de la señal de voz, es preferible el uso de un orden de predicción relativamente alto. Así, por ejemplo, utilizando una frecuencia de muestreo de 8 khz el orden de predicción usual es 8 y se han obtenido importantes mejoras de los resultado utilizando ordenes 12 (en las pruebas con ruido blanco) y 16 (en las pruebas con ruido real de

286 Conclusiones coche). La conveniencia de este orden relativamente alto es debido al hecho de que los coeficientes de autocorrelación de orden bajo están más contaminados que los coeficientes de orden alto, en el caso de los tipos de ruido considerados. - Se obtiene una importante mejora de resultados utilizando ventanas cepstrales crecientes, como la ventana rampa o la inversa de la desviación típica de cada coeficiente cepstral. Con ello se consigue desenfatizar los coeficientes cepstrales de orden inferior, que son los más contaminados por estos tipos de ruido. - La representación cepstral basada en la técnica de predicción lineal de la parte causal de la autocorrelación (OSALPC), propuesta en esta tesis, alcanza excelentes resultados en condiciones severas de ruido y es menos sensible a los factores anteriores que la predicción lineal clásica. Esta técnica se ha derivado a partir de la interpretación de la predicción lineal clásica y del uso de un sistema sobredeterminado de ecuaciones de Yule-Walker como técnicas de predicción lineal en el dominio de la autocorrelación, en lugar de sobre la señal misma. Su uso en reconocimiento de habla ruidosa es muy interesante debido a su simplicidad, su eficiencia computacional y sus altas tasas de acierto en condiciones severas de ruido, que superan ampliamente a las técnicas mencionadas y a la representación SMC, con la cual está estrechamente relacionada. En ausencia de ruido, sin embargo, se produce un ligero empeoramiento de las prestaciones con respecto a la predicción lineal clásica debido a que no realiza una deconvolución completa de la señal de voz. - Utilizando técnicas de predicción lineal y en ausencia de ponderación cepstral, la transformación bilineal robustece al cepstrum frente al ruido blanco aditivo. Ello es debido a que la transformación bilineal expande la zona de bajas frecuencias que es donde la señal de voz tiene más energía y, por lo tanto, es más robusta a este tipo de ruido. Sin embargo, cuando se utilizan las ponderaciones usuales sobre el cepstrum derivado del modelo de predicción lineal la transformación bilineal no ayuda al reconocimiento de habla ruidosa. - Las representaciones instantáneas de la señal son menos robustas que las dinámicas frente al ruido, por lo cual resulta de gran utilidad el uso de parámetros dinámicos del espectro y de la energía. No sólo han proporcionado buenos resultados los parámetros dinámicos de primer orden, calculados como el coeficiente de regresión lineal de los parámetros instantáneos en un intervalo finito, sino también los parámetros dinámicos de orden superior n, estimados como el coeficiente de regresión de orden n-ésimo o como el coeficiente de regresión lineal del parámetro dinámico de

Conclusiones 287 orden n-1. Aunque la mejora proporcionada por la adición de un nuevo parámetro de orden superior disminuye con el orden n, en las prueba experimentales se han conseguido mejoras apreciables utilizando hasta parámetros dinámicos de tercer orden. Se ha observado, además, que el intervalo de estimación de los parámetros dinámicos se ha de ajustar en cada aplicación, ya que depende de las condiciones de ruido, el algoritmo de estimación y el orden del parámetro. En cuanto a la forma de incorporar estos parámetros a un sistema de reconocimiento basado en la cuantificación vectorial y los modelos ocultos de Markov, la estrategia que ha proporcionado mejores resultados es la utilización de cuantificadores independientes para cada información, en lugar de distancia compuesta. - La distancia de proyección supera a la distancia euclídea en condiciones muy severas de ruido, mientras que en ausencia de ruido y relaciones señal-ruido moderadas el comportamiento de las dos distancias es muy similar. - En condiciones severas de ruido es conveniente utilizar un cuantificador vectorial con un diccionario de pocas palabras-código, lo cual puede justificarse si se tiene en cuenta que en este caso se producirán menores errores de cuantificación debidos al ruido cuanto mayor sea la región del espacio de características asignada a cada palabra-código. - Los modelos semicontinuos y de múltiple etiquetado superan notablemente en prestaciones a los modelos discretos en condiciones ruidosas y en ausencia de ruido debido a una disminución considerable de los errores de cuantificación. En el proceso de cuantificación vectorial de los modelos ocultos de Markov discretos se elige únicamente la palabra-código que dista menos del vector a cuantificar y se descarta la información sobre el grado en que dicho vector se ajusta a otras palabras-código. Esta información puede ser especialmente importante en el caso de habla ruidosa, ya que la decisión tomada por el cuantificador del modelo discreto puede ser fácilmente modificada por el ruido añadido a la señal. Sin embargo, en los modelos semicontinuos y de múltiple etiquetado el cuantificador vectorial proporciona información sobre la distancia relativa a las palabras-código más cercanas y, por tanto, se conserva parte de esta información. Los resultados de reconocimiento correspondientes a los modelos semicontinuos y a los de múltiple etiquetado son muy similares. Sin embargo, estos últimos son mucho más eficientes desde el punto de vista computacional. La utilización combinada de varias de estas técnicas puede proporcionar excelentes resultados en reconocimiento del habla en ambientes ruidosos. La

288 Conclusiones interrelación existente entre estas técnicas forma parte de un trabajo futuro de investigación. Sin embargo, a partir de los resultados experimentales de esta tesis, se puede observar claramente que el múltiple etiquetado hace supèrflua la sustitución de la distancia de proyección por la euclídea. También se concluye que la utilización de parámetros dinámicos es siempre beneficiosa, exceptuando cuando se usa la parametrización OSALPC en ausencia de ruido. Este último resultado es debido a que la estimación espectral proporcionada por esta parametrización no es suficientemente precisa y, por tanto, la acentuación de sus cambios temporales puede no ser conveniente.