CAPÍTULO 1 INTRODUCCIÓN

CAPÍTULO 1 INTRODUCCIÓN 1.1 SISTEMAS DE CONVERSIÓN TEXTO-VOZ Bajo la denominación de Tecnologías del Habla se engloban conocimientos que pertenecen a un conjunto variado de campos del saber, entre ellos la Psicología, la Fisiología, la Lingüística, la Acústica, el Procesado de Señal y la Inteligencia Artificial. De todos estos campos, será el de la conversión texto a voz el centro de nuestros estudios. Debido al carácter interdisciplinar de los sistemas de conversión de texto a voz es necesario el progreso conjunto de todas las áreas involucradas para conseguir mejoras significativas en el sistema global. La finalidad de estos sistemas es realizar la conversión automática de un texto a voz sintetizada. El progreso en este campo ha sido posible gracias a importantes avances en la teoría lingüística, en el modelado acústico-fonético de los sonidos, en la generación de voz artificial y en el diseño de los ordenadores, tanto a nivel software como hardware. Se puede definir la síntesis de texto a voz como un proceso compuesto de dos pasos: primero, analizar el texto de entrada para determinar la estructura de la sentencia y la composición fonética de cada palabra (procesado lingüístico-prosódico) y segundo, transformar esta representación lingüística abstracta en voz (procesado acústico). 1

símbolos PROCESADO representación PROCESADO voz LINGÜÍSTICO ACÚSTICO PROSÓDICO fonético-prosódica Figura 1.1 Diagrama de bloques general de un sistema de conversión texto-voz Los sistemas de síntesis de voz se suelen clasificar en función del método seguido para la reconstrucción de la voz. Se distinguen cuatro sistemas: SINTETIZADORES ARTICULATORIOS Establecen una analogía entre parámetros relacionados con los órganos articulatorios y sus movimientos y parámetros circuitales. Proporcionan voz sintética de alta calidad pero tienen en inconveniente de que los parámetros son muy difíciles de obtener y controlar automáticamente. SINTETIZADORES POR FORMANTES Modelan el tracto vocal a través de un conjunto de filtros, excitados por fuentes que simulan las cuerdas vocales. Este tipo de sintetizadores tiene una amplia difusión pero la calidad de la voz sintetizada es menor. SINTETIZADORES DERIVADOS DE LAS TÉCNICAS DE PREDICCIÓN LINEAL (LPC) Son sintetizadores de análisis-síntesis que trabajan con parámetros LPC para controlar la función de transferencia del filtro que simula el tracto vocal. SINTETIZADORES POR CONCATENACIÓN DE FORMA DE ONDA Concatenan unidades pregrabadas para generar frases. Pretenden mejorar la calidad de la voz sintetizada minimizando el ruido de codificación. Tienen una complejidad variable pero la voz generada es de alta calidad. 2

Los más utilizados en la actualidad son el sintetizador de formantes y el de concatenación, por ello realizaremos a continuación un análisis más detallado de ambos. 1.1.1 SINTETIZADORES POR FORMANTES Estos sintetizadores están basados en la teoría acústica de producción de voz, según la cual, una o más fuentes sonoras excitan un filtro lineal, el tracto vocal, dando como resultado la señal de voz. La excitación del tracto vocal es debida a la vibración de las cuerdas vocales, las cuales producen un obstáculo al paso del aire originando los sonidos. EXCITACIÓN FILTRO LINEAL (TRACTO VOCAL) SEÑAL DE VOZ Figura 1.2 Modelo simplificado de producción de voz La fuente de voz usada en los sintetizadores ha ido variando a lo largo del tiempo. Los modelos más antiguos utilizaban trenes de impulsos o dientes de sierra. Más tarde se pasó a modelos matemáticos cada vez más complejos que permiten controlar los parámetros principales de la señal glotal: frecuencia fundamental, amplitud, tiempo de apertura de la glotis en un período, etc. CLASIFICACIÓN DE LOS SINTETIZADORES POR FORMANTES Se pueden establecer dos clasificaciones distintas: 1. Atendiendo a la función de transferencia del tracto vocal. - Sintetizadores por formantes en paralelo. En este modelo se suman las salidas de un conjunto de resonadores y la ganancia de cada formante se controla con un parámetro independiente. 3

- Sintetizadores híbridos. En los cuales se combinan formantes en serie para la síntesis de los fonemas sonoros y formantes en paralelo para la síntesis de las oclusivas. 2. Según el control de los parámetros fundamentales. - Sintetizadores por regla. Los parámetros se calculan siguiendo un conjunto de reglas dependientes del contexto. - Sintetizadores por análisis-síntesis. Los parámetros se obtienen por análisis o parametrización de segmentos de voz natural. 1.1.2 SINTETIZADORES POR CONCATENACIÓN Estos sintetizadores se basan en tener un conjunto de pequeños segmentos de voz tomados de un hablante, que se van concatenando para formar el discurso deseado. La unidad elegida para la concatenación es el parámetro clave de estos sintetizadores. Para decidir el tamaño y número de estas unidades hay un compromiso entre la calidad de la voz que se quiere sintetizar, y limitaciones de memoria de datos. Los trozos grabados no pueden ser palabras por dos razones fundamentales. La primera es que la manera de pronunciar una frase es muy distinta a la de una secuencia de palabras aisladas, ya que en una frase la duración de las palabras es más corta. Además la concatenación de palabras grabadas aisladamente produce una voz sintética de baja calidad, poco natural. La segunda razón es el elevado número de palabras existentes en un idioma concreto, lo que implicaría una gran cantidad de memoria para almacenar las unidades pregrabadas. La sílaba es una unidad lingüísticamente interesante pero tiene el inconveniente del número de sílabas diferentes que hay; por ejemplo, en inglés existen unas 10.000 sílabas distintas. El fonema es otra unidad a considerar, en inglés hay unos 40 fonemas, en español 24. Sin embargo todos los esfuerzos por concatenar formantes habían fracasado debido al fenómeno de la coarticulación entre fonemas adyacentes. Los efectos coarticulatorios tienden a minimizarse en el centro acústico de un fonema, lo cual llevó a Peterson a proponer como unidad de concatenación el difonema, es decir, el trozo de voz que va desde la mitad de un fonema a la mitad del siguiente, o dicho de otra manera, la transición entre sonidos. Ejemplos de difonemas podían ser: [a-b], [r-a], [o-l]. En un principio se estimó la existencia de unos 1600 difonemas diferentes, aunque 4

no todos ocurren (Peterson y otros, 1958; Sivertsen, 1961). Además es necesario incluir alófonos diferentes para hacer la distinción entre vocales tónicas y átonas. Por ejemplo, las oclusivas [b], [d] y [g] tienen sus correspondientes alófonos fricativos. Por otra parte, hay que contemplar la posibilidad de cambiar la duración y el contorno de la frecuencia fundamental de un difonema, o quizás almacenar variantes de cada difonemas con diferente prosodia. Wang y Peterson (1958) estimaron que se necesitarían al menos 8000 difonemas, pero los sistemas actuales tienen un inventario de unas 1000 unidades [Klatt 87]. Nuestro conversor texto-voz tiene un inventario de 455. El diseño de una colección de unidades no es una tarea inmediata, sino que requiere sucesivas revisiones y ajustes para mejorar la calidad de la voz sintética, muchas veces de una forma más artesanal que teórica. Cuando los efectos de la coarticulación son muy grandes se emplean trifonemas (agrupaciones de tres fonemas) en lugar de difonemas. Ejemplos: [r-a-b], [k-o-m]. Para terminar debemos decir que los trabajos para concatenar formates continúan en la actualidad y recientemente se han obtenido éxitos, por lo que se abren nuevas expectativas en este campo. 1.1.3 COMPARACIÓN DE LOS SISTEMAS DE SÍNTESIS MÁS UTILIZADOS Los sintetizadores de formantes permiten manipular las características de la fuente de voz. Por el contrario, en los sintetizadores por concatenación la fuente de voz es única y corresponde a la grabación de los difonemas, lo que debe realizarse por un locutor capaz de controlar y mantener constante la calidad de la voz para evitar cambios repentinos en el espectro de la fuente en el medio de las sílabas. En cuanto a la calidad de la voz sintética, con el método de concatenación se consiguen mejores resultados. Además la síntesis por concatenación permite alcanzar un alto grado de naturalidad. 5

FORMANTES SISTEMA ACIERTOS (%) MITalk-79 93 Prose-2000 3.0 94 DECtalk 1.8 97 PREDICCIÓN LINEAL LPC-10, no quantization 86 CONCATENACIÓN Síntesis de difonemas 66 Digitalizado Natural, 5 KHz, 12 bits Tabla 1.1. Comparación de sintetizadores respecto a la inteligibilidad de palabras aisladas 93 1.2 APLICACIONES DE LOS CONVERSORES El objetivo principal de los sistemas de conversión texto a voz es la generación automática de mensajes orales a partir de su representación escrita. Hoy día es cada vez más frecuente la comunicación con máquinas que hablan, anuncios electrónicos en las estaciones de tren, servicios telefónicos sin operadores humanos, juegos interactivos. Estos son sólo algunos ejemplos de las múltiples posibilidades que ofrece la conversión automática de texto a voz. Entre las aplicaciones más comunes de los conversores texto-voz podemos citar: - anuncios - ayuda mediante guía telefónica - servicios bancarios - sistemas interactivos de voz (acceso a bases de datos) - lectura de información variable: pronósticos meteorológicos, estado del tráfico, noticias - lectura de correo electrónico, fax - lectura de textos para ciegos En cualquiera de las aplicaciones el mensaje a reproducir se especifica de forma simbólica y después se convierte en voz. Las diferentes características de las aplicaciones imponen diferentes restricciones en la complejidad de dicha conversión. 6

1.2.1 CLASIFICACIÓN DE LAS APLICACIONES DESDE EL PUNTO DE VISTA DE LOS MENSAJES MENSAJES A GENERAR Unos pocos mensajes prefijados Combinación de un número limitado de frases Palabras aisladas con estructura fija Palabras aisladas con estructura arbitraria Habla continua REPRESENTACIÓN SIMBÓLICA Un código para cada mensaje Un código para cada frase Texto enriquecido con información de la entonación Texto claro, sencillo Texto sin limitaciones Tabla 1.2. Clasificación de las aplicaciones desde el punto de vista de los mensajes Esta clasificación intenta ilustrar los requisitos necesarios para traducir la representación simbólica de entrada en la correcta secuencia de segmentos de voz (decidir qué decir) y generar la correspondiente señal acústica (generar voz) [Quazza 97]. GENERAR VOZ Reproducción de mensajes grabados por un locutor, almacenados digitalmente y comprimidos con alguna técnica de codificación (si hay problemas de memoria) Síntesis de voz pregrabada Concatenación de frases o palabras grabadas, técnicas de procesado de señal para concatenatión suave Síntesis concepto-voz Síntesis texto-voz sin restricciones Concatenación de sonidos sencillos, técnicas para modificar su duración y entonación (prosodia) Sonidos grabados y modificados prosódicamente antes de su concatenación Tabla 1.3. Distintos tipos de síntesis 7 DECIDIR QUE DECIR Tablas de correspondencia entre códigos de mensaje y voz grabada (ficheros de voz) Tabla de correspondencia frases >ficheros de voz, reglas de combinación de frases para generar mensajes Conversión del texto escrito en una secuencia de símbolos que representan sonidos Conversión en símbolos sonoros, elección de modelos prosódicos adecuados (entonación y ritmo) dependientes del texto

Tradicionalmente se distinguía entre síntesis de voz pregrabada y la verdadera síntesis. Más adelante se amplió la clasificación con la distinción entre concepto a voz y texto a voz sin restricciones. Pero la evolución de las aplicaciones junto a los recientes avances de la tecnología para la síntesis de voz han rellenado los vacíos existentes entre las distintas clases, por ejemplo proponiendo combinaciones de frases grabadas y elementos sintácticos, o técnicas de procesado de señal para modificar la prosodia de las palabras pregrabadas [DePijper 97], unidades acústicas contextuales con el fin de minimizar modificaciones de la señal en la síntesis por reglas [Portele 97]. 1.2.2 APLICACIONES DE LOS CONVERSORES TEXTO-VOZ Los sistemas de conversión texto-voz se están introduciendo en un amplio rango de aplicaciones. Estos aparatos no han alcanzado la madurez suficiente para sustituir a las personas, pero, probablemente, son bien recibidos por el público general si forman parte de una aplicación que ofrece un nuevo servicio, o proporciona acceso directo a la información almacenada en un ordenador, o permite acceder de forma sencilla y barata a un servicio concreto. En estos momentos es muy importante evitar aplicaciones que puedan llevar a la frustración del usuario y generar actitudes negativas hacia todos los sistemas que empleen voz sintética. Por ejemplo, la inteligibilidad al otro lado del teléfono de los actuales conversores texto-voz resultaría inadecuada para aplicaciones que empleen nombres poco comunes. La limitación actual de los sistemas que utilizan el teléfono es que los ordenadores no pueden escuchar tan bien como pueden hablar. La tecnología para el reconocimiento de voz está más retrasada que la de síntesis. La Tabla 1.4 presenta las principales aplicaciones comerciales que utilizan sistemas de conversión de texto a voz [Klatt 87]. 8

APLICACIONES COMERCIALES DE LOS CONVERSORES TEXTO-VOZ Información telefónica: resultados de deportes, meteorología, estado de las estaciones de esquí, horario de museos, Páginas Amarillas hablantes,... (información que cambia constantemente, y que está disponible en forma de texto electrónico). Acceso remoto (en carretera) a correo electrónico. Compras por catálogo, servicios bancarios por teléfono (requieren claves por teclado o reconocimiento de voz para su acceso). Peticiones de información a bases de datos, especialmente para usuarios no especializados: por ejemplo, representantes de ventas pueden determinar instantáneamente el estado de las órdenes de compra. Generación de cassettes con instrucciones para el montaje de maquinaria, circuitos telefónicos, etc. [Flanagan 72]. Acceso telefónico a expertos en reparaciones: por ejemplo, ordenadores, circuitos telefónicos. Coordinación del tráfico en ciudades, autopistas,... Información de rutas alternativas. Sistemas de advertencia y alarma de equipos. Terminales que hablan y entrenamiento de equipos. Corrección de pruebas/errores típicos difíciles de detectar visualmente. Tabla 1.4. Aplicaciones comerciales de los conversores texto-voz 1.3 PROBLEMÁTICA DE LA CONVERSIÓN TEXTO-VOZ El éxito comercial de los sistemas de conversión de texto a voz dependerá principalmente de la calidad conseguida en la voz sintética. En la actualidad esta calidad comprende tres términos: inteligibilidad, naturalidad y adaptabilidad a aplicaciones concretas. De los tres el principal problema para la síntesis artificial de voz es la 9

naturalidad, conseguir dar al mensaje textual toda la riqueza de información que introduce un lector humano. La problemática de la conversión texto a voz se puede estudiar desde dos puntos de vista: Lingüística y Acústica. Desde el punto de vista de la Lingüística tenemos el paso de código escrito a código oral. El código oral está formado por rasgos segmentales (fonemas) y rasgos suprasegmentales (relacionados con la prosodia). La información suprasegmental refleja tanto elementos lingüísticos (carácter de la frase, pausas, acentos, agrupación en elementos de significado,...), como elementos no lingüísticos (características personales del locutor, estados de ánimo,...). En cuanto al segundo código, el escrito, está compuesto por letras y signos ortográficos. Si existiera una relación biunívoca entre ambos códigos, el problema de la conversión de texto a voz consistiría en traducir cada letra por su sonido asociado, de manera que a cada signo escrito le correspondería un signo oral y viceversa. Sin embargo en la práctica no existe tal relación, sino que a un signo escrito le pueden corresponder varios orales, de forma que una letra tiene diferentes pronunciaciones dependientes de los siguientes factores: el contexto en que se encuentre, su posición en la palabra, la posición de dicha palabra dentro del grupo acentual, la función del grupo acentual dentro del grupo fónico, y así iríamos subiendo de nivel hasta llegar a la frase o incluso al párrafo. Análogamente, las pausas varían según la naturaleza de las palabras entre las que van intercaladas. Por otra parte, hay signos orales que no pueden ser representados por ninguno escrito. Se trata de signos especiales (entonación, pausas, énfasis, estados de ánimo...) que introduce una persona cuando lee un texto. Dichos signos son muy difíciles de controlar ya que dependen de factores subjetivos (estado de ánimo del lector, intención con la que se emite el mensaje, conocimiento del mundo real, etc.) relacionados con la persona que lee el texto y que, por tanto, varían de un lector a otro y de otros factores como por ejemplo, la longitud de los grupos fónicos. En definitiva, el paso de código escrito a código oral no es un proceso sencillo sino que conlleva un margen de error que todo sistema de conversión debe asumir. Más aún, para reducir dicha tasa de error sería necesario un profundo conocimiento del pensamiento humano, ya que así se lograría un mejor control de los factores subjetivos que intervienen en todo proceso de lectura. 10

En cuanto al segundo punto de vista, el de la Acústica, el problema que se nos plantea es conseguir voz sintética lo más parecida posible a la de un lector humano. Este objetivo puede dividirse en dos: - Conseguir que la voz sintética sea inteligible - Conseguir que la voz sintética sea natural La inteligibilidad hace referencia a la capacidad de la voz sintética de ser entendida, mientras que la naturalidad se refiere al grado de parecido entre la voz sintetizada y la voz humana. 1.3.1 TÉCNICAS PARA EVALUAR LOS CONVERSORES TEXTO-VOZ Hasta la fecha se han realizado pocos estudios para tratar de evaluar los sistemas de conversión texto-voz de forma cuantitativa, por lo que la evaluación ha de ser principalmente subjetiva. Para ello se han ideado varios métodos [Villacorta 99]. Uno de los procedimientos más utilizados es el MOS (Mean Opinion Score). Se presenta la voz sintética a distintos oyentes, los cuales en función de su criterio evalúan la calidad dando una puntuación entre 1 y 5. Este método permite evaluar tanto naturalidad como inteligibilidad, siendo muy utilizado para evaluar voz codificada. El método MRT (Modified Rhyme Test) trata de evaluar únicamente la inteligibilidad de la voz sintética eliminando la gran redundancia existente en los lenguajes naturales. Se presentan a los oyentes 6 construcciones del tipo consonantevocal-consonante, de las cuales deben elegir una. Este método tiene el inconveniente de que no sirve para evaluar un conversor texto-voz de forma global, ya que representa situaciones que no se corresponden con la realidad. Para resolver este problema surgió el método SUS (Semantically Unpredictable Sentences). En este caso se emplean frases completas y sintácticamente correctas pero carentes de significado. El oyente se encuentra en un entorno de utilización real de un sintetizador texto-voz y además no puede apoyarse en la redundancia del lenguaje natural para reconocer las frases. A continuación se presentan las principales técnicas utilizadas para la evaluación de los conversores texto-voz [Klatt 87]. La mayoría de los datos existentes proceden de 11

los trabajos llevados a cabo en la Universidad de Indiana por David Pisoni y sus colaboradores. INTELIGIBILIDAD: Diagnostic Rhyme Test (Fairbanks, 1958; Voiers, 1983) MRT (House y otros, 1965) 1 MRT con respuesta abierta (Pisoni y otros, 1985) MRT con ruido (Nixon y otros, 1985) Lista de palabras CNC (Lehiste y Peterson, 1959) Palabras sin significado CVC (Dubno and Levitt, 1981; Pols y Olive, 1983) Lista de palabras CID W-22 (Hirsh y otros, 1952) Goodness rating for words (Wright, Altom y Olive, 1986) Frases CID 2 (Erber, 1979) Frases Harvard 3 (Egan, 1948) Test SPIN 4 (Nakatan y Duker, 1973; Kalikan y otros, 1977) Frases anómalas Haskins 5 (Nye y Gaitenby, 1974) COMPRENSIÓN: Comprensión oral/escrita (Pisoni y Hunnicutt, 1980) Frases de verificación (Manous y otros, 1985) NATURALIDAD: Comparaciones por parejas (IEEE, 1969; Logan y Pison, 1986) Valoraciones subjetivas (Nusbaum y otros, 1984) Tabla 1.5. Técnicas para evaluar conversores texto-voz 1 CVC (consonante-vocal-consonante). 2 Oraciones sencillas, cortas y predecibles utilizadas para evaluar oídos perjudicados. 3 Lista de frases para medir la inteligibilidad de la voz con ruido. Esta lista se emplea a menudo hoy día, a pesar de su escasa variación sintáctica y del mínimo uso de palabras con más de dos sílabas, simplemente porque no se han propuesto listas mejores. SPIN (Speech In Noise) 4 Grupos de palabras sin significado, sintácticamente correctas, de la forma El (adjetivo) (sustantivo) (verbo) el (sustantivo), por ejemplo, La vieja granja costó la sangre. 12

1.3.2 INTELIGIBILIDAD La inteligibilidad puede medirse en términos de fonemas o de palabras aisladas, de palabras en el contexto de una frase o de párrafos del texto. Para el caso de palabras aisladas los sistemas actuales alcanzan un porcentaje de aciertos superior al 90%, pero por debajo del 99% conseguido con voz natural. Los resultados obtenidos para las palabras en contexto son ligeramente inferiores. En comparación con las palabras aisladas, dentro de una frase las palabras se ven afectadas por distintos fenómenos como la coarticulación, simplificaciones fonéticas, reducción de sílabas átonas y modificaciones prosódicas que, entre otras cosas, acortan las sílabas intermedias y modifican el contorno de la frecuencia fundamental. En cuanto a la comprensión global del párrafo o texto leído, los oyentes pierden información importante cuando tratan de comprender párrafos largos? Están tan preocupados por entender las palabras individuales que olvidan rápidamente el mensaje? Para intentar responder a estas preguntas Pisoni y Hunnicutt (1980) [Klatt 87] incluyeron pruebas estándar de comprensión de lectura en sus evaluaciones y comprobaron que sólo la mitad de los encuestados escuchaba al conversor texto-voz, mientras que la otra mitad leía el texto, que se les proporcionaba antes de comenzar la prueba con objeto de que al final de la misma pudieran comprobar si lo que habían entendido se correspondía con el texto original) con los ojos en lugar de escuchar al sistema. Además se dieron cuenta de que los resultados obtenidos dependían más de la capacidad de memoria de los oyentes que de la dificultad de comprender la voz sintética. El siguiente cuadro pretende ilustrar lo expuesto anteriormente mostrando los resultados obtenidos para tres sintetizadores de formantes y para voz natural. ACIERTOS ( % ) Sistema Palabras aisladas Palabras en contexto Párrafos completos MITalk-79 93 93 70 Prose-2000 94 84 65 DECtalk 97 95 - Voz natural 99 99 68 Tabla 1.6. Resultados de inteligibilidad obtenidos para distintos sintetizadores de formantes 13

Como conclusión podemos decir que la inteligibilidad no representa un problema importante para los sistemas actuales de conversión de texto a voz. Así, la voz sintética resulta un método viable para presentar información a un auditorio, si bien es cierto que la voz sintética producida por estos conversores es menos inteligible que la voz natural. 1.3.3 NATURALIDAD La naturalidad es una cualidad subjetiva y multidimensional difícil de cuantificar, por lo que su evaluación ha de ser subjetiva. Gran parte de los métodos utilizados se basan en comparaciones entre distintos conversores texto-voz. Un procedimiento estándar consiste en presentar frases sintetizadas por cada uno de los sistemas a comparar y obtener juicios de preferencia. Como la longitud de las frases comparadas es la misma y se presentan sin largas esperas entre una y otra, se consiguen resultados válidos. Es más difícil comparar sistemas escuchados en días diferentes o con distintos material sintetizado, ya que se puede añadir una cantidad imprevisible de ruido que influiría en las preferencias de los oyentes. 14

CAPÍTULO 1...1 INTRODUCCIÓN...1 1.1 SISTEMAS DE CONVERSIÓN TEXTO-VOZ...1 1.1.1 SINTETIZADORES POR FORMANTES...3 1.1.2 SINTETIZADORES POR CONCATENACIÓN...4 1.1.3 COMPARACIÓN DE LOS SISTEMAS DE SÍNTESIS MÁS UTILIZADOS..5 1.2 APLICACIONES DE LOS CONVERSORES...6 1.2.1 CLASIFICACIÓN DE LAS APLICACIONES DESDE EL PUNTO DE VISTA DE LOS MENSAJES...7 1.2.2 APLICACIONES DE LOS CONVERSORES TEXTO-VOZ...8 1.3 PROBLEMÁTICA DE LA CONVERSIÓN TEXTO-VOZ...9 1.3.1 TÉCNICAS PARA EVALUAR LOS CONVERSORES TEXTO-VOZ...11 1.3.2 INTELIGIBILIDAD...13 1.3.3 NATURALIDAD...14 15