Capítulo 2: Sistemas de síntesis de voz.

Documentos relacionados
I. LA SÍNTESIS DE VOZ

2. SÍNTESIS DE VOZ Y SEGMENTACIÓN AUTOMÁTICA DE UNIDADES

Sintetizadores y Corpus de voz

3. ESTRUCTURA DE UN CONVERSOR TEXTO-VOZ

TECNOLOGIAS DE LA VOZ

Procesamiento del Audio. Eduardo Morales Vargas

CAPÍTULO 1 INTRODUCCIÓN

III. LA BASE DE DATOS.

Aplicaciones del Tratamiento de Señales. Parte 1: Grabación y Reproducción de Señales de Voz

COMUNICACIONES MÓVILES

Seguimiento de los parámetros del modelo del tracto vocal

Análisis Espectral mediante DFT PRÁCTICA 4

Programa. Introducción 1. Generación y percepción de la señal de voz 2. Técnicas avanzadas

Síntesis de Voz en Español

Vídeo Digital Examen de Junio de 2004

Análisis Espectral mediante DFT PRÁCTICA 4

INGENIERIA DE TELECOMUNICACIÓN TRATAMIENTO DIGITAL DE LA SEÑAL I CURSO 2005/2006 TEMA 5: ANALISIS ESPECTRAL DE SEÑALES MEDIANTE LA DFT

Herramientas software para la docencia de la señal de voz en Ingeniería Técnica de Telecomunicaciones

Trabajo de Grado presentado para optar al título de Ingeniero de Sonido. Asesor: Santiago Ruiz Sánchez

Análisis Espectral mediante DFT PRÁCTICA 4

Proyecto Especial Señales y Sistemas

TECNOLOGÍAS DEL HABLA: CONVERSIÓN DE TEXTO A VOZ

Tema 1. Producción de Voz y Fonética

Reconocimiento Automático de Voz

UNIVERSIDAD DE GRANADA PROCESAMIENTO DE VOZ

Introducción al Procesamiento del Habla

Materiales en la web http//liceu.uab.es/ ~joaquim/teaching/ Phonetics/Oviedo_03/ Oviedo_03.html

Modelo de producción de la voz

5. FUNCIONALIDAD DE VOZ: REPRODUCCIÓN, GRABACIÓN, SÍNTESIS Y RECONOCIMIENTO

Introducción a Modelos Espectrales

Primera parte (3 puntos, 25 minutos):

Tecnologías del habla

V. ESTUDIO DE LA ENTONACIÓN.

TICRM - Tecnologías del Habla Codificación de Voz. 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridos

Vídeo Digital Examen de Junio de 2003

8. ANÁLISIS Y SÍNTESIS DE SONIDOS DE PIANO

Modelo de fuente glotal para extraer características de la identidad del locutor

CONVERSIÓN DE TEXTO A VOZ USANDO MODELOS OCULTOS DE MARKOV

Reconocimiento Automático de Locutor

Temas Avanzados en Procesado de Señales

Interfaces conversacionales

Filtros senoc-enventanado Filtros personalizados. clase 11

Sintetizador Básico de Voz

Primera parte (2.5 puntos, 20 minutos):

Primera parte (2.5 puntos, 20 minutos):

INSTITUTO POLITÉCNICO NACIONAL

Victrola de La Transformada de Fourier

Procesamiento digital de voz

Tipo Optativa Impartición Cuatrimestral Créditos ETCS 3,75 Curso 5.º Código 42604

$63(&7267e&1,&26'(/ /,0,7$&,21(6. Ángel de la Torre Vega. Dpto. Electrónica y Tecnología de Computadores. Universidad de Granada

Eclipse SDK 3.3: Utilizado para el desarrollo del software de la aplicación web.

Síntesis del habla. Helenca Duxans Barrobés Marta Ruiz Costa-jussà PID_

Reconocimiento y Síntesis de voz. Escrito por Cristina Villoria Martes, 31 de Marzo de :11

1. INTRODUCCIÓN 1.1 LAS TECNOLOGÍAS DEL HABLA EN LAS APLICACIONES TELEFÓNICAS

Síntesis de Voz Prof. Eduardo López Gonzalo

Fundamentos de producción y tratamiento de audio mediante com

Modelos de producción de voz. Curso de doctorado 2001/2002 Inmaculada Hernáez

Fonética práctica UVG Sololá de julio 2016

TEMA 4: CODIFICACIÓN DE LA VOZ.

T E s 1 s MAESTRO EN INGENIERIA. FERNANDO DEL l RIO AVILA UNIVERSIDAD NACIONAL AUTONOMA

Software Desarrollado: la aplicación HAdDA

ELO 385 Laboratorio de Procesamiento Digital de Señales Laboratorio 5: Transformada Discreta de Fourier Parte I

Procesamiento de la señal de voz

Procesamiento de voz - El mecanismo de producción

El Sistema de Producción de Voz

Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov

Realzado de Imagen. 11 de junio de El histograma de una imagen digital con niveles de gris en la amplitud de [0, L 1], es función discreta

!Pausas!Ritmo!Velocidad de elocución!timbre de la voz. !Acento!Tono!Melodía!Entonación. Acento. elocución. voz. Los elementos suprasegmentales

Juegos Interactivos para la Rehabilitación Fonatoria

Técnicas de Compresión de Datos:

Naturalidad y expresividad en la conversión de texto en habla: las consonantes róticas en coda silábica en

INDICE 1. Panorama 2. Señales Analógicas 3. Señales Discretas 4. Sistemas Analógicos 5. Sistemas en Tiempo Discreto

3. Señales. Introducción y outline

Vídeo Digital Examen de Junio de 2001

Figura 1: Propiedades de textura: (a) Suavidad, (b) Rugosidad y (c) Regularidad

DESCRIPCIÓN DEL RESULTADO DE INVESTIGACIÓN

6.542J, J, HST.712J CURSO PRÁCTICO EN FISIOLOGÍA, ACÚSTICA Y PERCEPCIÓN DEL HABLA Otoño del Programa 06/09/01 TEMAS A CUBRIR

Síntesis sustractiva

Prof. María L. Calvo Clase del 23 y 24 de abril de 2012

Revisión de Técnicas de Estimación de Pulso Glotal basadas en Filtrado Inverso *

Síntesis de Voz. Prof. Eduardo López Gonzalo Dpto. Señales, Sistemas y Radiocomunicaciones

Fonética práctica UVG Sololá de julio El uso de Praat. ryanbennett/fonetica-practica

Procesamiento y análisis de imágenes digitales II

Programa de la asignatura Curso: 2009 / 2010 ACÚSTICA INDUSTRIAL (4084)

1: EL CONCEPTO DE CONTROL INVERSO ADAPTATIVO

Conversión de texto en habla

FUENTES DE ALIMENTACION CONMUTADA INSTRUCTOR RAUL ROJAS REATEGUI

Tratamiento Digital de Señales

Síntesis de voz mediante Modelos Ocultos de Markov

TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS

3. ANÁLISIS DE SEÑALES

Diseño de herramientas de asistencia a la logopedia en una plataforma distribuida

SECCIÓN I CONOCIMIENTOS PREVIOS DE FÍSICA

Índice 1. Introducción Imagen digital. Formación imagen Histograma de una imagen digital 2. Transformaciones puntuales. Introducción.

Capítulo 6 Análisis Espectral basado en FFT

24/10/10. Grado de Español: Lengua y Literatura Raúl Urbina Fonturbel. Acústica

Podriamos conversar con las maquinas como lo hacemos con los humanos?

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN

La fonética judicial. La comparación de muestras de habla

Transcripción:

Capítulo 2:. 2.1. Introducción. Si bien existen varias clasificaciones posibles de los sistemas de síntesis de voz, la más común de todas ellas es aquella que se refiere al tipo de codificación de la señal de voz y al número de reglas que se necesitan para su reconstrucción posterior. Así podemos distinguir [Galanes, 95]: - Sintetizadores articulatorios. En los sintetizadores articulatorios el objetivo es el de controlar un modelo del aparato fonador, de manera semejante a como lo hace el cerebro, constituyendo los parámetros de control (parámetros circuitales) de dicho modelo, la posición de los distintos órganos articulatorios y las leyes que rigen su movimiento. Estos sintetizadores presentan la dificultad de la obtención y control de parámetros para su manejo (dificultad en el análisis de la posición y movimiento de los órganos articulatorios de una persona que habla normalmente, así como de cara a la coordinación y derivación de la gran cantidad de parámetros de control, existentes a la entrada del sintetizador), lo que ha motivado que sean actualmente los menos desarrollados. - Sintetizadores por formantes. Están constituidos por una serie de filtros que modelan las resonancias (formantes) del tracto vocal, y que están excitados por un sistema de fuentes que modelan tanto la vibración de las cuerdas vocales como el ruido que se produce en la fricación. La principal ventaja que ofrecen estos sistemas es que trabajan con parámetros que mantienen una relación directa con el mecanismo de producción del habla, y son fácilmente manipulables de cara al control del sintetizador. 7

Dependiendo del control que se haga de los parámetros, se puede establecer una subdivisión entre: - Sistemas de síntesis por regla: los parámetros se calculan con arreglo a un conjunto de reglas dependientes del contexto (un fonema de una clase precedido por otro de otra clase presenta un espectro de una forma determinada). - Sistemas de análisis-síntesis: los parámetros se obtienen por análisis o parametrización de segmentos de voz natural. Los sintetizadores por formantes gozan de gran difusión por el atractivo que presentan para estudios fonéticos. FUENTE FILTRO F1 FILTRO F2 FILTRO F3 FREC PRIMER FREC SEGUNDO FREC TERCER SINTETIZADOR POR S EN SERIE F0 Y AMPLIT 1º FUENTE F 1 F 2 F0 Y AMPLIT 2º F0 Y AMPLIT 3º + F3 SINTETIZADOR POR S EN PARALELO Figura 2.1. Esquema básico de los sintetizadores por formantes. 8

- Sintetizadores derivados de las técnicas de predicción lineal (LPC). Se basan en la posibilidad de modelar el tracto vocal como una serie de cilindros huecos de diámetro variable. Las propiedades de la onda sonora, después de haber pasado por todos ellos, pueden predecirse teniendo en cuenta que cada uno de los cilindros condiciona la forma de la onda sonora al entrar en el siguiente. Este cálculo complejo se simplifica mediante la utilización de la predicción lineal, y aprovechando la periodicidad de la onda sonora. Existen varias clases dependiendo del método concreto de codificación empleado, siendo los más extendidos hoy día los sintetizadores multipulso (MLPC). Como características generales cabría citar su baja complejidad y su buena calidad. - Sintetizadores por concatenación de forma de onda. En estos sintetizadores se intenta aumentar la calidad de la señal generada por medio de una minimización del ruido de codificación, para lo que se concatenan unidades digitalizadas (pregrabadas) y se ajusta su prosodia original a la de la nueva frase. Podemos distinguir entre: - Sintetizadores basados en métodos PSOLA (Pitch-Synchronous Overlap- Add). Este tipo concreto va a ser el que nosotros utilizamos y será explicado más adelante. - Sistemas basados en Codificación Armónica. - Codificadores multibanda. A cambio de su elevada complejidad, estos son los sistemas que nos ofrecen una mayor calidad. Como un caso especial de este tipo de sintetizadores, se encuentran los sintetizadores por selección. Estos sistemas se basan en la selección de las unidades a concatenar de cara a la síntesis en función de sus características prosódicas. En este tipo de sintetizadores, a diferencia de los casos anteriores no se realiza ningún tipo de 9

codificación ni de modificación prosódica, concatenándose directamente las unidades pregrabadas. 2.1.1. Comparación De Los Sistemas De Síntesis Más Utilizados Haciendo un resúmen de todo lo dicho hasta ahora, tenemos que los sintetizadores por formantes presentan la ventaja de permitir manipular las características de la fuente de voz. Por el contrario, en los sintetizadores por concatenación la fuente de voz es única y corresponde a la grabación de los difonemas, lo que debe realizarse por un locutor capaz de controlar y mantener constante la calidad de la voz para evitar cambios repentinos en el espectro de la fuente en el medio de las sílabas. En cuanto a la calidad de la voz sintética, con el método de concatenación se consiguen mejores resultados. Además la síntesis por concatenación permite alcanzar un alto grado de naturalidad. 10

2.2. La síntesis TD-PSOLA. La síntesis TD-PSOLA (Time Domain Pitch-Synchronous Overlap-Add) forma parte de las técnicas de síntesis por concatenación de forma de onda, que como ya se subrayó en el capítulo anterior tratan de conseguir una mejora en la calidad de la síntesis a través de la concatenación de unidades digitalizadas pregrabadas, minimizándose así el ruido de codificación. Adicionalmente al proceso de adquisición y grabado de dichas unidades, será necesario un procesado previo de las mismas con el fin de obtener la información prosódica de las mismas que necesita el algoritmo. Dado que la concatenación directa de unidades no es posible (al tener éstas normalmente una prosodia distinta de la buscada), el principal problema que se va a plantear reside en las modificaciones que son necesarias para adaptar la prosodia de las unidades pregrabadas, a la prosodia del texto (procedente del bloque de procesado lingüístico del Conversor Texto-Voz) en donde se desean utilizar, sin que se produzcan pérdidas graves o apreciables de calidad. El algoritmo TD-PSOLA, al igual que el resto de técnicas PSOLA trata de hacer dicha adaptación a través de modificaciones en la transformada de Fourier, afectando dichas modificaciones de forma conjunta a la frecuencia fundamental y a la duración de las unidades. Hay que destacar que también es posible realizar una modificación de la energía de las unidades, aunque este aspecto se puede considerar como un toque final de calidad en los sistemas, debiéndonos centrar fundamentalmente en los dos primeros y dejando este último para las fases finales de desarrollo. En relación a este aspecto, el tratamiento más frecuente que se llevará a cabo será el de hacer una normalización de las energías de las unidades de la base de datos con respecto de un valor determinado, dado que en principio las unidades vendrán de contextos diferentes, y tendrán energías muy distintas. El fín perseguido con dicha normalización es el de conseguir que a la hora de concatenar las unidades, todas ellas posean aproximadamente la misma energía, traduciéndose este aspecto en enunciados con una intensidad sonora aproximadamente uniforme, y por lo tanto con una mayor calidad. 11

El algoritmo TD-PSOLA presenta la ventaja frente al resto de métodos PSOLA de que, al hacerse todas las modificaciones en el dominio temporal, se elimina la carga de cálculo debida a la FFT. Teóricamente, nos ofrece la posibilidad de modificar la frecuencia en un rango de, aproximadamente, unas dos octavas (de la mitad de la frecuencia original al doble de ésta), aunque en la práctica el intervalo permitido se acorta bastante si queremos mantener un determinado grado de calidad. El proceso de síntesis. Como ya se dijo anteriormente, el punto de partida de la síntesis es una secuencia de unidades digitalizadas pregrabadas a concatenar, cuyas características prosódicas tendremos que modificar para adaptarnos a las de una determinada secuencia objetivo que habrá sido generada previamente a partir de un texto por un módulo anterior del Conversor Texto-Voz. Este módulo es el encargado de generar la prosodia de dicho texto de una forma automática, es decir, a partir de un texto de entrada que es lo que se desea sintetizar se encargará de generar otro fichero de texto que constituirá la entrada del sintetizador. En este fichero, además de aparecer las unidades procedentes de la base de datos que serán necesarias para sintetizar el texto, lo hará la prosodia de dichas unidades en la frase en concreto, esto es, sus características de duración y tono medio, ya que como se reseñó anteriormente una simple representación textual de los mensajes no nos sirve para poder modelar el fenómeno del habla. Las unidades a considerar pueden ser fonemas, difonemas o trifonemas, estando en todos los casos éstas constituidas por una serie de periodos básicos de señal que vienen delimitados por las marcas de pitch (marcas colocadas sobre la señal que tratan de reflejar los momentos de cierre de la glotis). Estas marcas reciben el nombre de marcas de análisis, y son provenientes del procesado previo que fue citado al comienzo del apartado. 12

Figura 2.2. Señal de voz con sus marcas de pitch. 1 2 3 4 Fig. 2.3 Marcas de pitch y periodos de la señal. La forma que tiene el algoritmo TD-PSOLA de conseguir las modificación de las características prosódicas de las unidades almacenadas en la base de datos es mediante la repetición en el tiempo de los periodos básicos constituyentes de las mismas con una determinada cadencia, lo que consigue modificar la estructura de armónicos de las unidades originales sin llegar a perturbar el espectro fino de la señal. Estos periodos básicos se enventanan de una forma síncrona con las marcas de pitch, de tal forma que la longitud de las ventanas sea siempre mayor que un periodo fundamental, existiendo un solape entre periodos consecutivos. Habitualmente el enventanado realizado es de Tukey, con una longitud de ventana que es el doble del periodo 13

fundamental y centrado en las marcas de pitch, hecho que contribuye a minimizar el efecto de la reverberación producido por la copia de señales a corto plazo y a suavizar las transiciones espectrales. El primer paso a seguir, una vez realizado el enventanado de la señal de análisis, será el cálculo del número de marcas de pitch que tendrá la señal sintetizada: nº _ marcas _ sintesis = duracion + 1 T medio 0 Donde T 0 medio es el periodo medio del difonema a generar. En cuanto a la posición de dichas marcas, hay que tener en cuenta que el tono no va a ser constante a lo largo de la unidad a generar, no encontrándose por lo tanto las marcas de pitch equiespaciadas a lo largo de la misma. Partiremos de un valor inicial para el primer periodo del difonema, T 0 inicial, debiendo terminar en un valor T 0 final para el último periodo. Una posibilidad que presenta la ventaja de conseguir una evolución continua de la entonación, es la de suponer que la curva de tono se comporta de forma lineal a lo largo de la unidad. De esta forma se puede determinar la posición de las marcas de síntesis sin más que calcular el escalón de la curva de síntesis. Así: T0 final T0inicial escalon = n º _ marcas _ s int esis 2 marca [] i = T inicial i + escalon ( i 1) 0 To To+esc To+2esc To+3esc 14

Fig. 2.4 Posición de las marcas de síntesis. El siguiente paso a realizar, consiste en establecer una correlación entre los periodos de la señal de análisis y los periodos de la señal de síntesis, de cara a realizar la copia o la supresión de los periodos de la señal original del eje de análisis al de síntesis. Dado que cada uno de los nuevos periodos a generar, en principio, tendrá una duración diferente a la del periodo original del que provienen, habrá que realizar una serie de transformaciones sobre los mismos que básicamente consistirán en lo siguiente: - Si el periodo a generar tiene una duración inferior a la del periodo original eliminaremos muestras del mismo. - Si por el contrario la duración es mayor, completaremos con ceros las muestras del periodo original. Eje de análisis 1 2 3 Eje de síntesis 1 2 2 3 Fig. 2.5 Correlación entre los ejes de análisis y síntesis. El último paso para la obtención de la señal sintetizada consiste en un filtrado Overlapp-Add entre los periodos consecutivos y 15

enventanados de la señal de síntesis. Al igual que el enventanado de análisis, el enventanado en la síntesis también es de Tukey, tiene un tamaño de dos periodos básicos de señal, y está centrado en las marcas de pitch de síntesis. Con este proceso conseguimos una señal simétrica a partir de un espectro modificado de forma arbitraria. Más información sobre el algoritmo TD-PSOLA se puede encontrar en [Galanes, 95]. 16