I. LA SÍNTESIS DE VOZ

Documentos relacionados
Modelo de producción de la voz

3. ESTRUCTURA DE UN CONVERSOR TEXTO-VOZ

Fonética y Fonología españolas

TECNOLOGIAS DE LA VOZ

V. ESTUDIO DE LA ENTONACIÓN.

Juegos Interactivos para la Rehabilitación Fonatoria

6.542J, J, HST.712J CURSO PRÁCTICO EN FISIOLOGÍA, ACÚSTICA Y PERCEPCIÓN DEL HABLA Otoño del Programa 06/09/01 TEMAS A CUBRIR

3.6. Resonancia y formantes

PRÁCTICA 1 MODULACIONES LINEALES Modulación en doble banda Lateral: DBL Modulación en banda Lateral Única: BLU

Procesamiento digital de voz

Conversión de texto en habla

Síntesis aditiva. 1. Introducción 2

DEPARTAMENTO DE SEÑALES, SISTEMAS Y RADIOCOMUNICACIONES ELECTRÓNICA DE COMUNICACIONES. EXAMEN EXTRAORDINARIO 6 DE SEPTIEMBRE DE

TECNOLOGÍAS DEL HABLA: CONVERSIÓN DE TEXTO A VOZ

Aplicaciones del análisis acústico en los estudios de la voz humana

TEMA 1: SISTEMAS MODELADOS POR ECUACIONES DIFERENCIALES EN INGENIERÍA QUÍMICA. CLASIFICACIÓN. GENERALIDADES.

GLOSARIO 349. intensidad relativa de una vocal o una sílaba en una palabra. morfema ligado, que se añade a otro morfema

Capítulo I. El reconocimiento de voz

6. DESCRIPCIÓN DE LA BASE DE DATOS SES

Síntesis de Voz. Prof. Eduardo López Gonzalo Dpto. Señales, Sistemas y Radiocomunicaciones

Comunicaciones I. Capítulo 4 CODIFICACIÓN Y MODULACIÓN

Síntesis de voz en el dialecto venezolano por medio de la concatenación de difonos

AUDIO DIGITAL. Diego Cabello Ferrer Dpto. Electrónica y Computación Universidad de Santiago de Compostela

2. SEÑALES Y SISTEMAS DISCRETOS EN EL TIEMPO. Una señal puede ser definida como una portadora física de información. Por ejemplo,

Universidad de Alcalá

A/ Los sonidos del. José Ignacio Hualde con Sonia Colina 1 CAMBRIDGE UNIVERSITY PRESS

EIE SISTEMAS DIGITALES Tema 8: Circuitos Secuenciales (Síntesis) Nombre del curso: Sistemas Digitales Nombre del docente: Héctor Vargas

Filtros Digitales II Lic. Matías Romero Costas

Los sonidos del habla

UNIVERSIDAD DE GRANADA PROCESAMIENTO DE VOZ

Sistema de conversión texto-voz en lengua gallega basado en la selección combinada de unidades acústicas y prosódicas.

MATERIALES TRANSFORMADOS: HERRAMIENTAS Y CLASIFICACIÓN

NOTA: Este documento se ha realizado intencionalmente con un formato de borrador.

Fonética y fonología Introducción al lenguaje Material de clase: semana del 4 de marzo de 2002

REPETIDOR SINTETIZADO VHF

Introducción al procesamiento digital de señales en tiempo real

5. PLL Y SINTETIZADORES

INTRODUCCIÓN. Depósito Legal: NA3220/2010 ISSN: REVISTA ARISTA DIGITAL

TSTC. Dpt. Teoría de la Señal, Telemática y Comunicaciones. Robótica Industrial. Universidad de Granada

ETAPAS DE SALIDA Etapa de salida Clase A Inconvenientes

Herramientas software para la docencia de la señal de voz en Ingeniería Técnica de Telecomunicaciones

Clasificación de los Convertidores DAC

PRÁCTICA DE CHATTER SUPERVISIÓN AUTOMÁTICA DE PROCESOS

Diseño de un Sistema de Codificación de Predicción Lineal (LPC)

Síntesis del habla. Helenca Duxans Barrobés Marta Ruiz Costa-jussà PID_

1. Concepto de amplificación de señales en los circuitos de control Amplificadores estáticos Amplificadores magnéticos...

PROGRAMACIÓN. UNIDAD II. ALGORITMO PROFA : HAU MOY

UNIVERSIDAD DE LOS ANDES FACULTAD DE ARQUITECTURA Y DISEÑO ESCUELA DE ARQUITECTURA

Tema 3. Electrónica Digital

RECOMENDACIÓN UIT-R BS *,** Medición del nivel de tensión del ruido de audiofrecuencia en radiodifusión sonora

TEMA I: INTRODUCCIÓN A LOS CIRCUITOS SECUENCIALES

Asignación de Prosodia en Sistemas TTS

PLANTA PILOTO PARA EL DESARROLLO DE UN NUEVO SISTEMA PRODUCTIVO DE DESCASCARADO DE AVELLANA. Empresa : COSELVA, S.C.C.L.

3 SISTEMAS DE PROCESAMIENTO DIGITAL DE SEÑALES. ha desarrollado durante los últimos 30 años gracias a los avances tecnológicos de

II Unidad Diagramas en bloque de transmisores /receptores

1 RESUMEN. PDF created with FinePrint pdffactory Pro trial version

Circuitos con fuentes independientes de corriente y resistencias, circuitos R, I

Métodos, Algoritmos y Herramientas

Fundamentos de audio digital

1.- CORRIENTE CONTINUA CONSTANTE Y CORRIENTE CONTINUA PULSANTE

TEMA 7: VOCALES 1. LOS FONEMAS VOCÁLICOS Y SUS REALIZACIONES

Consideraciones eléctricas y conceptos básicos sobre la generación, transmisión y distribución de energía Unidad 1 Parte 2.

Definiciones. Ruido: Sonido no deseado, desagradable o molesto

EE DSP3. Ejemplo visual de una señal electrica:

Revisión de Técnicas de Estimación de Pulso Glotal basadas en Filtrado Inverso *

El Espectro Electromagnético Radiación Ionizante y NO Ionizante

Los Modos de Articulación

Técnicas de Programación

UNIDAD DE TRABAJO Nº2. INSTALACIONES DE MEGAFONÍA. UNIDAD DE TRABAJO Nº2.1. Descripción de Componentes. Simbología FILTROS

Cómo se ve la voz? Recibido: 19 de julio de 2007 Aceptado: 26 de julio de 2007

PRINCIPIOS BASICOS DE AUDIO COMO ESCUCHA EL SER HUMANO

Unidad 0. Recuerdo que

Registros de desplazamiento

Midi y Audio Digital. Qué es el MIDI?

FUNDAMENTOS DE TELECOMUNICACIONES MULTIPLEXACIÓN. Marco Tulio Cerón López

Actualmente el acceso a las computadoras y a los servicios que éstas nos ofrecen es cada

CAPITULO VI: Generadores de Sonido

EL OSCILOSCOPIO Introducción

Sistemas Electrónicos Digitales. Práctica 2 Implementación de un filtro FIR basado en estructura MAC

El Espectro Electromagnético Radiación Ionizante y NO Ionizante

Formulación del problema de la ruta más corta en programación lineal

Algoritmos. Medios de expresión de un algoritmo. Diagrama de flujo

índice Prefacio Capítulo 1: La lingüística: Ciencia cognitiva 1 PorAntxon Olarrea

Representación en el espacio de estado. Sistemas Control Embebidos e Instrumentación Electrónica UNIVERSIDAD EAFIT

Fundamentos de la producción y percepción de la señal de voz

Mecanismos fisiológicos implicados en la adquisición del lenguaje verbal oral:

PRÁCTICA 1 ANÁLISIS DE SEÑALES EN EL DOMINIO DE LA FRECUENCIA: EL ANALIZADOR DE ESPECTROS

PRÓLOGO... CAPÍTULO 1. Introducción a los sistemas de radiofrecuencia...

Electrónica Analógica 1

LENGUA CASTELLANA Y LITERATURA 2º BACHILLERATO UNIDAD 1 LA COMUNICACIÓN. EL NIVEL FÓNICO

CAPITULO 1 INTRODUCCION AL PROYECTO

PERCEPCIÓN DEL HABLA Reconocimiento de Palabras Habladas

SISTEMAS INFORMÁTICOS PROGRAMACION I - Contenidos Analíticos Ing. Alejandro Guzmán M. TEMA 2. Diseño de Algoritmos

Computadora y Sistema Operativo

MODELOS DE INVESTIGACION DE OPERACIONES

No puedo creerlo! Ritmo Cada una de las lenguas tiene su propio ritmo. El ritmo puede ser afectado por diferentes factores, por ejemplo:

Aproximación a lo aproximante: problemas teórico-metodológicos asociados a este modo articulatorio

2. DISEÑO EXPERIMENTAL

PRÁCTICA 1 ANÁLISIS DE SEÑALES EN EL DOMINIO DE LA FRECUENCIA: EL ANALIZADOR DE ESPECTROS

Transcripción:

I. LA SÍNTESIS DE VOZ I.1 Introducción. Muchos sistemas de laboratorio y dispositivos comerciales realizan la conversión automática de un texto a voz sintetizada. El progreso en este área ha sido posible debido a los avances en la teoría lingüística, en el modelo de caracterización acústica-fonética de los sonidos, en el modelado matemático de generar voz, en la programación estructurada y en el diseño hardware de los ordenadores. Los pasos seguidos en todo proceso de síntesis son: primero, un conjunto de módulos analiza el texto de entrada para determinar la estructura de la sentencia y la composición fonética de cada palabra y un segundo conjunto de módulos transforma esta representación lingüística abstracta en voz. I.2 Sistemas de síntesis de voz. Los métodos para sintetizar voz han cambiado mucho a lo largo de los años, desde los primeros sistemas que utilizaban dispositivos eléctricos 1

y mecánicos resonantes hasta los sintetizadores modernos que emplean ordenadores o circuitos digitales de diseño específico. En la actualidad, la clasificación más común de los sistemas de síntesis de voz es atendiendo a las reglas que se siguen para la reconstrucción de la voz, distinguiéndose los siguientes cuatro sistemas: Sintetizadores articulatorios. En éstos se realiza una analogía entre parámetros relativos a los órganos articulatorios y sus movimientos con parámetros circuitales. Pueden proporcionar una calidad altísima, pero es muy difícil obtener y controlar parámetros para un sintetizador de este tipo. Sintetizadores por formantes. Son una serie de filtros que modelan el tracto vocal, excitados por fuentes que simulan las cuerdas vocales. Gozan de gran difusión. Sintetizadores derivados de las técnicas de predicción lineal (LPC). Son sintetizadores de análisis-síntesis, en los que los parámetros que controlan la función de transferencia del filtro que simula el tracto vocal son parámetros LPC. Sintetizadores por concatenación de forma de onda. Concatenan unidades pregrabadas para generar nuevas frases, con lo que intentan aumentar la calidad de la señal generada minimizando el ruido de codificación. La complejidad es alta, pero la calidad obtenida es muy buena. Vamos a centrarnos un poco más en los dos sistemas más extendidos y con más interés en la actualidad: el de formantes y el de concatenación. Además será en un sintetizador por concatenación al que incorporaremos los parámetros obtenidos en nuestro estudio, aunque como explicaremos posteriormente estos parámetros se calculan independientemente del método de síntesis empleado. 2

I.3 Síntesis por formantes. Estos sintetizadores se basan en la teoría acústica de producción de voz, que en su forma más sencilla, dice que es posible ver la voz como el resultado de la excitación de un filtro lineal por una o más fuentes sonoras. 1.3.1. Modelos de la fuente de voz. Las fuentes primarias del sonido son tonos, producidos por la vibración de las cuerdas vocales y ruido turbulento causado por una diferencia de presión a través de una constricción, es decir, el ruido producido por la fricación. La fuente de voz usada en los sintetizadores por formantes ha evolucionado desde los trenes de impulsos filtrados o los dientes de sierra de los primeros diseños hasta modelos matemáticos mucho más complejos que permiten tener control sobre parámetros como la frecuencia fundamental, la amplitud, la proporción de tiempo que la glotis está abierta en un periodo, lo abrupto de la forma de onda y diplophonic vibration (los periodos alternos son más similares de los adyacentes), como el desarrollado por Klatt en un sintetizador de formantes. Los modelos de forma de onda glotales más recientes producen espectros que incluyen ceros. 3

1.3.2. Modelos de la función de transferencia del tracto vocal. El filtro lineal simula los efectos resonantes del tubo acústico formado por la faringe, la cavidad bucal y los labios. La función de transferencia del este tracto vocal puede modelarse como un conjunto de polos (cada par de polos complejos conjugados produce un pico local en el espectro, conocido como formante). A veces, la representación de la función de transferencia del tracto vocal en términos de polos se ha completado con ceros (antiresonadores) para modelar las propiedades absorbentes del sonido que tienen los tubos secundarios en articulaciones complejas como las nasales, las vocales nasalizadas y las fricativas. Si se considera que el efecto de los ceros son poco perceptibles acústicamente, se llega a un modelo de sintetizador de formantes en paralelo para modelar la función de transferencia del tracto vocal. En este sistema se suman las salidas de un conjunto de resonadores conectados en paralelo y la ganancia de cada formante es controlada por un parámetro independiente. Este modelo es defendido por Holmes. Por su parte Klatt propone un sintetizador híbrido con formantes en cascada o serie para la síntesis de los fonemas sonoros y con formantes en paralelo para la síntesis de las oclusivas. I.3.3 Parámetros del sintetizador por formantes. Los parámetros que controlan un sintetizador de formantes son del tipo de Ancho de banda del primer resonador serie, Frecuencia central del cuarto resonador paralelo o Ganancia del generador de onda glotal. El control de estos parámetros ofrece una subdivisión entre: 4

Síntesis por regla: en la que los parámetros se calculan con arreglo a un conjunto de reglas dependientes del contexto. Sistemas de análisis-síntesis: en los que los parámetros se obtienen por análisis o parametrización de segmentos de voz natural. Los sintetizadores de formantes tienen también un conjunto de reglas para predecir las duraciones de los segmentos sintetizados y la curva de tono fundamental. I.4 Síntesis por concatenación. Otro método o estrategia para sintetizar voz consiste en coger trozos de voz natural pregrabadas como bloques básicos que se concatenan para reconstruir una expresión arbitraria. I.4.1 Unidades de concatenación. El tipo de unidad a concatenar es un parámetro crítico para conseguir una buena calidad de la voz sintetizada: hay que llegar a un compromiso entre la calidad intersegmental posible (a mayor longitud de los segmentos, menos puntos de concatenación y por lo tanto mayor calidad) y la cantidad de memoria necesaria para almacenar las unidades pregrabadas. Los trozos grabados no pueden ser palabras por dos motivos fundamentales. En primer lugar, la pronunciación de una frase es muy diferente a la de una secuencia de palabras recitadas aisladamente, ya que en una frase las palabras tienen una duración más corta que cuando están aisladas y el ritmo, entonación y acentuación, que dependen de factores semánticos y sintácticos, son totalmente 5

antinaturales cuando se concatenan palabras grabadas aisladamente. Un segundo problema las innumerables palabras existentes en un idioma, si tenemos en cuenta por ejemplo los nombres propios, así como la formación de palabras mediante sufijos, prefijos y conjugaciones. La sílaba es una unidad interesante lingüísticamente, pero hay un gran número de ellas. Otra unidad probada fue el fonema, cuyo número es de unos 30, pero el resultado de concatenar fonemas no es satisfactorio debido a efectos coarticulatorios entre fonemas adyacentes que producen cambios de las manifestaciones acústicas de un fonema dependiendo del contexto. Los efectos coarticulatorios tienden a minimizarse en el centro acústico de un fonema, lo cual llevó a Peterson a proponer el difonema, el trozo de voz que va desde la mitad de un fonema a la mitad del siguiente fonema, como la unidad más satisfactoria para la concatenación. En castellano, donde se pueden considerar unos 30 alófonos, el número máximo de difonemas sería de 30 2 = 900 (que muestreados a 16 KHz y 16 bits ocuparían unos 5 Mbytes), pero no todos se utilizan. Además puede ser necesario introducir alófonos diferentes para hacer la distinción entre las vocales acentuadas y átonas o la inclusión de trifonemas, que son una extensión a agrupaciones de tres fonemas cuando los efectos de coarticulación son tan grandes que no es posible la segmentación en difonemas. Se puede reducir la longitud de la memoria necesitada para el almacenamiento de las unidades: a) evitando las unidades difonema formadas por consonante + consonante que no se puedan dar en el lenguaje b) tratando algunos alófonos en determinados contextos como una unidad de tipo fonema, como por ejemplo los fricativos sordos. 6

Como resultado de ésta reducción de alófonos, el sintetizador BORIS del GTH tiene un corpus de síntesis con 455 unidades, de las cuales, 231 son difonemas, 208 trifonemas y 16 fonemas o semifonemas. Este corpus ocupa entre 2 y 3 Mbytes. Otra elección crítica es la de la extracción de las unidades y la selección del punto de corte. Los difonemas deben ser grabados por un locutor que sea capaz de controlar y mantener constante la calidad de la voz de forma que no haya cambios repentinos en el espectro de la fuente en el medio de las sílabas. La unidad (difonema, trifonema o fonema) debe de ser extraída de algún contexto puesto que no son unidades que puedan ser grabadas aisladamente. Los contextos posibles son: en frase natural: se graban frases diferentes que contienen al menos una unidad. en frase portadora: se graba una frase con una estructura fija donde se cambia solamente una palabra o un par de palabras que contienen la unidad a segmentar. en palabra aislada en logatomos: palabras cortas que incluyen la unidad requerida y no tienen porqué tener significado semántico. El método con un mayor rendimiento (medido como relación entre la naturalidad y el esfuerzo dedicado) es el de los logatomos ya que se simplifica mucho la tarea de selección de las unidades sin penalizar la naturalidad más que en el caso de grabar palabras aisladas. En estos dos métodos se pierde naturalidad frente a los que utilizan frases, pues la pronunciación es mucho más cuidadosa, con lo que suena menos natural. Sin embargo, en el método de grabación de las frases se graba mucho más material del que se utiliza para la síntesis, la elaboración de 7

las frases a grabar es laboriosa y al no estar las unidades en el foco semántico es fácil que el locutor pronuncie variedades alofónicas no contempladas o que incluso haya alófonos que desaparezcan (se buscan frases en las que las unidades no estén en el foco semántico para que su pronunciación sea más natural). Una vez obtenida la grabación queda por realizar dos tareas fundamentales: a) La identificación o marcación de los fonemas que componen la grabación que suele realizarse de forma manual, aunque en los últimos años se han empezado a aplicar técnicas de reconocimiento de habla para marcar automáticamente las frases, palabras o logatomos grabados. b) La selección del punto de corte: en la que se pueden destacar dos estrategias que buscan la suavización de la transición entre unidades adyacentes para reducir el efecto sonoro del habla cortada o de diptonguización: 1. puede escogerse el punto de corte mediante un preprocesado o algoritmo de selección óptima que pretende minimizar la distancia entre el alófono de la unidad actual y el mismo alófono de la unidad siguiente 2. no utilizar ningún algoritmo de selección óptima y resolver la falta de continuidad formántica por métodos de suavizado durante la síntesis. Esta segunda opción es la adoptada en el sintetizador BORIS I.4.2 Modificaciones prosódicas. En estos sistemas hay que ajustar la prosodia original de las unidades pregrabadas a la prosodia de la frase. Las modificaciones prosódicas 8

son de tres tipos: modificación de la frecuencia fundamental, modificación de la duración y modificación de la energía. Como veremos posteriormente, en este trabajo intentaremos reproducir una serie de emociones mediante la modificación de éstos parámetros prosódicos. Un grave inconveniente de estos métodos es el coste de modificar la prosodia de un segmento manteniendo un nivel de calidad alto. Existen varios métodos de modificación prosódica de los que los más extendidos son los métodos PSOLA (Pitch-Synchronous OverLap-Add): modificación de la prosodia por Recubrimiento y Adicción, por la mayor calidad obtenida. Bajo el nombre genérico de PSOLA existen tres técnicas diferentes según el dominio donde se realicen las modificaciones espectrales: así tendremos FD-PSOLA donde las modificaciones se realizan en el dominio de la transformada de Fourier, TD-PSOLA donde las modificaciones se realizan en el dominio temporal y LP-PSOLA en las que se realizan estas modificaciones sobre el residuo de una análisis LPC de la señal original. Las modificaciones de frecuencia posibles entran siempre dentro de un rango que aproximadamente es de dos octavas (de la mitad de la frecuencia original al doble de ésta). Fuera de este rango la calidad disminuye y esto, como veremos, nos llevará a plantear otras soluciones para la síntesis de emociones para aquellos casos en que se produzca distorsión. I.5 Comparación de los métodos de síntesis. La principal ventaja del sintetizador de formantes es que permite la manipulación de las características de la fuente de voz. Esto puede ser importante en la síntesis de emociones, puesto que como veremos, la 9

fuente de voz puede cambiar de una emoción a otra, y una de las formas de expresar el enfado consiste en añadir una componente de ruido a la fuente de voz. Sin embargo, la calidad de la voz normal generada con este método es peor respecto a la generada por el método de concatenación. Por el contrario, la síntesis mediante concatenación la fuente de la voz es única y corresponde a la grabación de los difonemas, que generalmente corresponderán a una pronunciación normal. 10