Estado Actual y Líneas Futuras del Sistema de Conversión Texto-voz Gallego-Castellano Cotovía

Estado Actual y Líneas Futuras del Sistema de Conversión Texto-voz Gallego-Castellano Cotovía Francisco L. Campillo Díaz, Francisco J. Méndez Pazó, Eduardo Rodríguez Banga ETSI Telecomunicación Universidad de Vigo campillo@gts.tsc.uvigo.es, fmendez@gts.tsc.uvigo.es, erbanga@gts.tsc.uvigo.es Resumen En esta comunicación se realiza una revisión del estado actual y futuras líneas de trabajo contempladas en el sistema de conversión texto-voz en gallego y castellano Cotovía, desarrollado por investigadores de las universidades de Vigo y Santiago. Nos centraremos principalmente en los módulos de determinación de la información prosódica, donde utilizamos un nuevo método para la generación de contornos entonativos basado en corpus, y en el análisis morfosintáctico, en el que recientemente hemos introducido un modelo de lenguaje estadístico. 1. Introducción Cotovía es un sistema de conversión texto-voz en gallego y castellano englobado dentro de las técnicas de concatenación de unidades. Como cualquier aplicación de este estilo, Figura 1 Diagrama general de las diferentes fases de Cotovía consta de una serie de fases iniciales de procesado del texto de entrada, de las cuales se extrae la información necesaria para la estimación de la prosodia y la selección de los segmentos acústicos que se van a concatenar. De forma breve, la funcionalidad de los diferentes módulos es la siguiente: -Obtención de frase: se extraen las frases del texto de entrada, en función de los diferentes signos de puntuación o caracteres como saltos de línea. Posteriormente se separan en palabras y signos de puntuación y se hace una primera clasificación formal no definitiva de las palabras (abreviatura, cadena numérica, fecha, palabra normal, inicial, etc.), así como de las frases, basándose únicamente en los signos de puntuación: enunciativa, interrogativa, exclamativa... -Preprocesado: realiza una normalización de las frases, extendiendo números, fechas, abreviaturas, acrónimos, etc. en su equivalente en letras. -Análisis morfológico: en este módulo se procede a la asignación -etiquetado- de la categoría, género y número gramaticales correspondientes a cada palabra. Para ello, en una primera etapa, se asignan todas las posibles categorías a cada palabra, incluyendo posibles agrupaciones de palabras como son las locuciones y las perífrasis verbales, empleando para ello diferentes tablas o listas cerradas que contienen palabras "clave" del idioma, palabras con una categoría gramatical definida, como pueden ser preposiciones, adverbios, determinantes, etc., y un módulo analizador verbal, que se encarga de detectar las diferentes formas verbales conjugadas que aparecen el texto. A continuación, utilizando un conjunto de reglas empíricas y un modelo estadístico, se decide, en función del contexto, cuál es la categoría más probable entre todas las posibilidades, así como su género y número. También en este módulo se efectúa la separación en sílabas y la asignación del acento en las palabras. Además, y sólo en el caso del idioma gallego, se realiza la asignación de timbre en las vocales medias tónicas de las formas verbales. -Análisis sintáctico: agrupa las palabras en sintagmas y los sintagmas en proposiciones, utilizando signos de puntuación y palabras clave como conjunciones o locuciones conjuntivas para realizar esta división. Realiza también una asignación de pausas entre sintagmas y/o entre proposiciones así como la clasificación del tipo de tonema (inicio/fin de interrogación/exclamación, inicio/fin de enunciativa, incisos, suspensivas,...). -Transcripción fonética: transforma cada grafema o grupo de grafemas en el alófono correspondiente, utilizando para ello un conjunto de reglas específico para cada idioma (gallegocastellano). -Modelado prosódico: se realiza una estimación de la frecuencia, la duración y la energía de las unidades que se van a utilizar para la concatenación. En nuestro caso, haremos especial hincapié en la frecuencia fundamental, donde consideraremos más de un contorno entonativo para la síntesis de cada grupo entonativo, aumentando la variabilidad del habla y disminuyendo la sensación de monotonía. En cuanto a los segmentos empleados para la concatenación, en su primera versión Cotovía empleaba como unidades básicas difonemas y trifonemas, contando tan sólo con una realización de cada unidad. El habla sintética

generada tenía una muy buena inteligibilidad, pero adolecía de falta de naturalidad. Para resolver este problema, la versión actual se ha desarrollado dentro del ámbito de la síntesis basada en corpus. Los sistemas de síntesis de concatenación de unidades basados en corpus se basan en el diseño de un conjunto de frases escogidas especialmente para ser una muestra representativa del idioma en cuestión, obteniendo un número elevado de repeticiones de cada segmento acústico en diferentes contextos fonéticos y prosódicos. De esta forma, mediante una descripción adecuada de la unidad para concatenación, teniendo en cuenta factores como la duración, la evolución de la frecuencia fundamental o los fonemas circundantes, se puede encontrar el segmento con las características más próximas a lo que se desea pronunciar. Esto supone una disminución considerable de la necesidad de realizar modificaciones prosódicas finales, las cuales sólo se efectuarán cuando las diferencias se encuentren por encima de un determinado umbral, reduciendo así la distorsión inherente a este tipo de procesos. En cuanto al segmento de voz, la versión actual del conversor emplea como unidad básica para la concatenación el semifonema con contexto ([1] Mariño et al.), considerando como tal cada una de las dos mitades de un fonema y teniendo en cuenta el fonema que lo acompaña por el efecto de la coarticulación. En este artículo nos centraremos en las partes más importantes de la síntesis basada en corpus. En el apartado 2 describiremos el diseño y preparación de las bases de datos de voz de las que se extraen los segmentos acústicos para la concatenación. En la sección 3 haremos referencia al modelado de dichas unidades acústicas, es decir, aquellos factores que determinan las características de los segmentos y a partir de las cuales se efectuará la selección de la cadena óptima. A continuación, en el apartado 4 explicaremos los métodos empleados para la estimación de la prosodia, destacando en especial la selección de la curva de frecuencia fundamental. En el apartado 5 describiremos el procedimiento que estamos desarrollando actualmente para el análisis morfosintáctico del texto de entrada. Por último, terminaremos con un apartado dedicado a las conclusiones. 2. Corpus de voz pregrabada La primera versión de Cotovía trabaja con las voces de dos locutores, un hombre y una mujer. De cada uno de ellos se tienen alrededor de 1100 unidades, entre difonemas y trifonemas, extraídos de logátomos, es decir, de palabras sin significado que contienen una realización de la unidad en cuestión. La voz generada de esta forma posee una inteligibilidad muy buena, pero el hecho de tener sólo una instancia de cada unidad provoca la necesidad de realizar un excesivo procesado de señal para conseguir la prosodia deseada, introduciendo así una notable distorsión. En la versión actual, de síntesis basada en corpus, se dispone de dos locutores profesionales masculinos, uno de los cuales es el mismo que en la versión anterior. El corpus de frases consta de 1300 enunciados, de los cuales 800 fueron diseñados manualmente para reflejar aquellas estructuras prosódicas consideradas más relevantes y/o frecuentes (incluyendo frases enunciativas, interrogativas, exclamativas y suspensivas, así como diferentes distribuciones de grupos fónicos por frase y grupos acentuales por grupo fónico), y las otras 500 se extrajeron automáticamente para enriquecer la variedad de estructuras prosódicas contempladas. El corpus actual consta de unos 120.000 semifonemas, agrupados en 970 grupos en función del fonema, de si es la mitad derecha o la izquierda, y del fonema que lo acompaña por la parte considerada. El número de elementos de cada grupo varía entre las centenas, para los más probables del idioma gallego, y las decenas, para los menos comunes. Dentro de cada grupo, las unidades se ordenan de acuerdo a los siguientes criterios, semejantes a los descritos en ([2] Febrer) ([3] Campbell y Black) ([4] Hunt y Black): - Tipo de proposición a la que pertenece el alófono: enunciativa, interrogativa, exclamativa o suspensiva. - Posición dentro de la frase: inicial (antes del primer acento), final (después del último) o intermedia. - Tonicidad silábica: si el alófono pertenece a una sílaba tónica o no. En este caso se considera que todas las palabras función son átonas. El etiquetado temporal de los fonemas se realizó de forma automática por medio del uso de un reconocedor de habla, el cual iba situando los límites de las unidades de tal forma que se maximizase la probabilidad de que la cadena reconocida fuese la pronunciada por el locutor. La posterior revisión manual se simplificó notablemente mediante el desarrollo de herramientas que permitían encontrar aquellos casos en los que probablemente hubiese algún error. En cuanto a las marcas de pitch, se empleó un programa de extracción de dichas marcas, el cual, pese a tener un buen rendimiento, introducía algún fallo ocasional. Para evitar este tipo de problemas, en la grabación del corpus en el que estamos trabajando actualmente, emplearemos un laringógrafo. 3. Las unidades acústicas del corpus 3.1. Caracterización Como ya se comentó anteriormente, la elección de los factores que parametrizan las unidades acústicas es fundamental a la hora de escoger los segmentos que producirán la voz sintética. En nuestro caso, como ya mencionamos en ([4] R. Banga et al.), optamos por los siguientes: - Fonema central. - Contexto fonético que lo rodea, de dos fonemas a ambos lados. Ayuda a aumentar la inteligibilidad del habla sintética. - Frecuencia fundamental y energía en los puntos de concatenación, así como la duración del segmento. - Vector de coeficientes cepstrales. Necesario para descartar unidades que introducen discontinuidad espectral. Como línea futura nos planteamos la búsqueda del mejor instante de concatenación, lo cual solucionaría discontinuidades debidas a errores de etiquetado. - Indicadores de tipo de frase, posición y acento. - Marcas binarias de inicio y/o fin de palabra. 3.2. Selección Para escoger la secuencia de unidades acústicas óptima se recurre a un algoritmo de Viterbi, en el cual se tienen en

cuenta tanto la semejanza de cada unidad con la que se quiere pronunciar (objetivo), como la propia concatenación entre las unidades del corpus. Para ello, como ya es tradicional, se emplean dos funciones de coste, la de objetivo y la de concatenación, optando por la cadena cuyo coste total es el más bajo. Como consecuencia del elevado coste computacional de la conversión texto-voz basada en corpus (para una frase de tamaño medio el proceso de síntesis puede pasar más de la mitad del tiempo total calculando costes de objetivo y concatenación), es fundamental que dichas funciones consideren solamente aquellos factores que aporten información significativa y lo más independiente entre ellos, en la medida de lo posible, para la selección. Una vez que se ha encontrado un conjunto de factores que reúna estas características, aún queda la delicada tarea de decidir qué pesos se asignan a cada uno de ellos dentro de la función de coste, atendiendo a un compromiso entre inteligibilidad y prosodia natural. Así, por ejemplo, si se le da más importancia a la duración y a la frecuencia fundamental, se obtendrá un habla sintética con una prosodia más natural, pero probablemente menos inteligible que si se le hubiese dado más prominencia a los fonemas circundantes. La versión actual de Cotovía no tiene todavía estos pesos optimizados, pero se plantea en un futuro próximo el uso de redes neuronales para entrenarlos. 3.2.1. Función de coste de objetivo Partiendo del trabajo de otros autores (Febrer [2]), (Campbell y Black [3]), optamos por los siguientes factores: - Frecuencia fundamental al inicio y fin del semifonema. - Duración. - Fonemas que lo rodean. Inicialmente se consideraban el trifonema y la palabra completa, pero las prestaciones eran bastante inferiores. - Tipo de proposición, acento y posición en la frase. - Posición en la palabra. En posteriores versiones se considerarán otros factores como marcas de fin e inicio de sílaba, que ayudarán a modelar adecuadamente los diptongos e hiatos. 4.1. Duración La versión actual del conversor emplea diferentes modelos de duración basados en regresión lineal multivariante, de acuerdo con factores como el tipo de frase, la distribución de sílabas y acentos antes y después de la unidad, su tipo o los fonemas que lo rodean en una ventana de tamaño dos, etc.. Las pruebas subjetivas realizadas demuestran un buen rendimiento global. 4.2. Frecuencia fundamental La anterior versión del conversor, basada en concatenación de grupos acentuales, emplea un conjunto reducido de patrones de frecuencia fundamental típicos, de los cuales se escoge uno en función de factores como el tipo de frase, la posición del grupo acentual y la sílaba acentuada, pero tiene el inconveniente de generar una prosodia monótona y fácilmente predecible. En la nueva versión seguimos empleando concatenación de grupos acentuales, pero dado que hay más de una forma válida de pronunciar una misma frase, no nos limitamos a considerar un único contorno de frecuencia, sino que tenemos en cuenta diferentes candidatos y escogemos el más apropiado. 4.2.1. El grupo acentual Adoptamos el grupo acentual ([6] (Campillo Díaz, et al.), definido como una secuencia de palabras átonas que terminan en una tónica, como el grupo básico para la concatenación de los contornos que constituyen la curva de frecuencia fundamental de una frase. De esta forma, el problema de la estimación del contorno entonativo es formalmente equivalente a la selección de unidades acústicas, y se puede resolver con una búsqueda de Viterbi dentro del espacio de grupos posibles por medio de unas funciones de coste de objetivo y concatenación. De las 1300 frases del corpus se extrajeron alrededor de 6500 grupos acentuales, los cuales fueron divididos en conjuntos según las siguientes características: - Tipo de proposición: enunciativa, interrogativa, exclamativa o inacabada. - Posición de la sílaba acentuada: agudos, llanos o esdrújulos. - Posición en el grupo entonativo: inicial (si es el primero), final (si es el último) o intermedia. 3.2.2. Función de coste de concatenación En este caso se prima fuertemente la continuidad de frecuencia fundamental, de energía y espectral en el punto de unión, para evitar saltos bruscos que degradan en gran medida la calidad de la voz sintética. 4. Estimación de la prosodia Una de las partes más importantes de un conversor texto-voz es la de la estimación de la energía, la duración y el contorno de frecuencia fundamental de las unidades acústicas. La mayoría de los sistemas actuales suelen producir un habla inteligible, pero generalmente monótono y con una prosodia fácilmente predecible, que dista mucho de los objetivos de naturalidad que se plantean en un principio.

700 700 600 600 500 500 Número de grupos acentuales 400 300 Número de grupos acentuales 400 300 200 200 100 100 0 50 60 70 80 90 100 110 120 130 140 150 Frecuencia (Hz) 0 60 70 80 90 100 110 120 130 140 150 Frecuencia (Hz) Figura 2 Histograma de la frecuencia media de los grupos acentuales del primer locutor Figura 3 Histograma de la frecuencia media de los grupos acentuales del segundo locutor 4.2.2. Selección de contornos entonativos En la figura 4 aparece reflejado el esquema global del funcionamiento del conversor. Una vez realizada la búsqueda de Viterbi, no nos quedamos solamente con la secuencia de grupos que proporciona un coste prosódico mínimo, sino que aceptamos como posibles los N mejores ya que, en principio, pueden ser todos válidos, como consecuencia de las diferentes realizaciones naturales posibles de una misma frase. Para cada una de estas posibles curvas de frecuencia fundamental se efectúa la tradicional selección de unidades acústicas, y finalmente se considera como óptima la que tenga un mejor coste global, obtenido a partir de una suma ponderada de los costes parciales de ambas búsquedas, la prosódica y la acústica. Hay que destacar que la propia naturaleza del método genera una voz sintética variable y poco predecible, puesto que la misma prosodia depende de las unidades acústicas disponibles en el corpus. Dos frases diferentes con una distribución de grupos acentuales similar pueden tener curvas de frecuencia distintas si se emplea este método, mientras que una estimación basada en contornos típicos probablemente les asignaría el mismo, siendo claramente predecible y, en consecuencia, resultando monótono. Por último, el método también disminuye en gran medida la necesidad de realizar modificaciones prosódicas en la secuencia seleccionada. Al considerar diferentes contornos, la cadena de unidades acústicas de coste mínimo será probablemente más próxima al objetivo que si sólo tuviésemos uno en cuenta, minimizando de esta manera la distorsión propia de los algoritmos de modificación prosódica. 4.2.3. Función de coste de objetivo prosódico Para escoger el grupo acentual más próximo al objetivo en primer lugar se selecciona el conjunto adecuado según los factores de tipo de frase, sílaba acentuada y posición ya mencionados, y luego se tienen en cuenta las siguientes características: - Número de sílabas. - Duración. - Tipo de grupo prosódico: inciso, entre guiones, inicio de frase enunciativa - Posición del grupo prosódico dentro de la frase. - Tipo de pausa en la que termina el grupo. - Factor de caída, definido como la pendiente de la recta entre la frecuencia en el punto medio de la vocal fuerte de la sílaba acentuada y el último valor del grupo. Generación prosodia Unidades acústicas objetivo N contornos contornos entonativos entonativos Siguiente contorno entonativo NO Algorit. Algorit. Viterbi Viterbi (Unid. (Unid. Acústicas) Acústicas) Último contorno? Coste C i Cadena óptima Oi Selección Selección mejor mejor conjunto conjunto Figura 4 Selección combinada de unidades acústicas y frecuencia fundamental

4.2.4. Función de coste de concatenación prosódico De la misma forma que se hace con la función de concatenación acústica, se prima fuertemente la continuidad de frecuencia fundamental en el punto de unión entre los grupos. Además, para tener en cuenta la declinación de la frase se incluyen en el coste la evolución de la frecuencia media y la diferencia entre los valores máximos de los grupos. Frecuencia fundamental 120 110 100 90 80 70 60 50 0 0.5 1 1.5 2 2.5 3 Tiempo Figura 5 Contornos de frecuencia generados para la frase Por unha banda, non tiña outro remedio que facerlle caso 4.3. Energía Al igual que en la mayoría de los sistemas actuales, no se realiza ningún tipo de estimación de la energía de los fonemas. Sin embargo, para evitar la unión de dos unidades acústicas con energías muy diferentes, lo cual produciría un efecto similar a un desvanecimiento o un salto, se considera su continuidad en la función de coste de concatenación acústico. 5. El análisis morfosintáctico Como ya se comentó en la introducción, un correcto análisis morfológico y sintáctico es fundamental a la hora de extraer información de una frase para estimar una prosodia adecuada. Así, por ejemplo, una incorrecta división en grupos acentuales, que depende directamente de la consideración de qué palabras son tónicas y cuáles no, puede acabar provocando un énfasis excesivo en una palabra a la que no le corresponde, como una preposición o un artículo, produciendo un efecto poco natural y desagradable. La versión actual del conversor emplea un conjunto de reglas para determinar la categoría morfológica correcta en aquellos casos en los que hay más de una posibilidad. Sin embargo, pese a producir unos resultados bastante aceptables, tiene el problema de ser poco flexible y extensible a nuevas categorías. Además, los sistemas basados únicamente en reglas tienden a fallar ante la presencia de estructuras sintácticas complejas. Para paliar este problema, decidimos recurrir a modelos del lenguaje estocásticos basados en n-gramas. En lugar de utilizar secuencias de palabras, empleamos secuencias de categorías gramaticales, a las que se les incluye el género y el número donde proceda para reflejar en mayor medida las dependencias sintácticas. En total, nuestro modelo consta de 49 categorías, creadas según la función que realizan las palabras dentro de la frase. Por ejemplo, en la categoría DET_MASCULINO_SINGULAR se engloban los determinantes demostrativos, los indefinidos, los numerales, los artículos determinados y los indeterminados., con género masculino y número singular. Una vez que se ha ejecutado el algoritmo de decisión, basado en la búsqueda de la secuencia de cinco categorías más probable centrada en la palabra en cuestión, se realiza la conversión inversa, de las categorías del modelo, genéricas, a las más específicas. Así, por ejemplo, si tuviésemos una palabra de la cual se supiese a priori que podía ser un determinante o un pronombre indefinido, el modelo del lenguaje nos aclararía si es determinante o pronombre y nosotros le añadiríamos a posteriori la categoría de indefinido. Por el momento estamos trabajando con un conjunto de entrenamiento de 120000 palabras, más otras 20000 que empleamos para hacer los tests, aunque pensamos llegar hasta el millón de palabras para el entrenamiento. Los primeros resultados, preliminares, se encuentran sobre un 92% de acierto en cuanto a la categoría, y más de un 95% con respecto al género y al número. En realidad, los resultados reales son un poco más altos, debido a la consideración de categorías, como las perífrasis, que todavía no se detectan pero que sí que aparecen en el material de test. En la actualidad nos estamos planteando otras posibilidades para decidir la secuencia de categorías más probable, como puede ser el uso del algoritmo de Viterbi para encontrar la secuencia de categorías óptima para toda la frase, en lugar de restringirnos a una secuencia de categorías de tamaño cinco. 6. Conclusiones En este artículo hemos presentado el estado actual del sistema de conversión basado en corpus Cotovía. Como ya se ha comentado, para el buen funcionamiento de este tipo de aplicaciones es fundamental el diseño de un corpus de unidades con un número de ocurrencias significativo del idioma en cuestión, y con una variedad prosódica que permita un habla sintética poco monótona. Por otra parte, en la mayoría de estos sistemas se realiza una única estimación de la frecuencia fundamental. Sin embargo, en la actual versión de Cotovía se considera más de una curva de frecuencia fundamental, sacando un mayor rendimiento de las múltiples copias de cada unidad que hay en el corpus y generando una prosodia que depende a su vez de las propias unidades. La voz así producida gana en naturalidad y disminuye la distorsión típica de los algoritmos de modificación prosódica, ya que, en la mayor parte de los casos, no será necesaria. Por último, también hemos comentado el tema del análisis morfosintáctico. Mediante el uso combinado de reglas y un modelo del lenguaje basado en categorías, que nos permite escoger la secuencia de categorías más probable, la versión actual consigue alcanzar más de un 90% de acierto, muy

superior al 82% de la versión anterior basada únicamente en reglas. En la dirección http://www.gts.tsc.uvigo.es/cotovia se puede comprobar el funcionamiento del conversor. 7. Agradecimientos Este trabajo ha sido parcialmente financiado por el Ministerio de Ciencia y Tecnología con el proyecto TIC2000-1005-C03-02 y la Xunta de Galicia con el proyecto PGIDT01PXI32205PN y a través un convenio con el Centro Ramón Piñeiro para a investigación en humanidades. 8. Referencias [1] Mariño, J.; Nogueiras A.; Pachès P. & Bonafonte A., The demiphone: an efficient contextual subword unit for continuous speech recognition. Speech communication, vol. 32, nº 3, pp 187-197. October 2000. [2] Febrer, A., Síntesi de la parla per concatenació basada en la selecció. Tesi doctoral. Departament de Teoria del Senyal i Comunicacions. Universitat Politécnica de Catalunya. 2001 [3] Campbell N. & Black A.W., Prosody and the Selection of Source Units for Concatenative Synthesis chapter in Progress in Speech Synthesis. Eds J. van Santen, R Sproat, J Olive and J. Hirschberg, pp 279-282, Springer Verlag.1997 [4] Hunt A.J. & Black A. W., Unit Selection in a Concatenative Speech Synthesis using Large Speech Database, Proceedings of ICASSP96, pp. 373-376, 1996. [5] R. Banga, E.; Campillo Díaz, F.; Fernández Rei, E.; & Méndez Pazó, F., Sistema de conversión texto-voz en lengua gallega basado en la selección combinada de unidades acústicas y prosódicas, Valladolid, SEPLN 2002, Revista nº 29, pp.153-158. [6] Campillo Díaz, F. & Rodríguez Banga, E., Combined prosody and candidate unit selections for corpus-based text-to-speech systems, Proceedings of ICSLP02, pp. 141-144, 2002.