Modelos de producción de voz. Curso de doctorado 2001/2002 Inmaculada Hernáez

Modelos de producción de voz Curso de doctorado 2001/2002 Inmaculada Hernáez inma@bips.bi.ehu.es

Modelos de producción de voz Teoría de la producción del habla El sintetizador de formantes

Teoría de la producción del habla Sistema sub-glotal: pulmones, bronquios y tráquea, son la fuente de energía Tracto vocal (longitud media 17cm, sección de 0 a 20 cm: Glotis (aloja las cuerdas vocales) Faringe Cavidad bucal Tracto nasal: velo del paladar y nariz Sonidos nasales: el velo del paladar baja y el tracto vocal y nasal se acoplan acústicamente (producción de los sonidos nasales). Voz: Onda acústica radiada cuando los pulmones expulsan el aire y el flujo resultante es perturbado por alguna constricción en el tracto vocal.

Teoría de la producción del habla

Teoría de la producción del habla Sonidos sonoros: el flujo del aire procedente de los pulmones es periódicamente interrumpido por la apertura y cierre de las cuerdas vocales. Es un flujo periódico de frecuencia fundamental F0 (frecuencia de pitch). Sonidos sordos: No hay vibración de las cuerdas vocales. El flujo de aire encuentra una constricción en el tracto vocal, tomando gran velocidad y formando turbulencias. Tracto vocal y tracto nasal: Actúan de cavidades resonantes, cuyas frecuencias de resonancia se conocen como Formantes. Los valores de los formantes dependen de la forma y dimensiones del tracto vocal. Por ello, las características espectrales de la voz varían en el tiempo como varía la forma del tracto vocal.

Teoría de la producción del habla Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. Mujeres y niños: Glotis más pequeña, cuerdas vocales más cortas, voz más aguda.

Teoría de la producción del habla

Teoría de la producción del habla Excitación Cavidad Resonante Radiación labios g(t) Pulso de Rosenberg G(f)

Teoría de la producción del habla Resonancias orales:

Teoría de la producción del habla Vocales: Desde la glotis, el aire atraviesa la cavidad bucal sin obstáculos. Las vocales siempre son sonoras. Consonantes: La lengua o los labios ayudados por los dientes y por el paladar interrumpen total (oclusivas) o parcialmente (fricativas, africadas) el paso del aire.

Modelo del tubo sin pérdidas

Modelos digitales a) Modelo Tubo sin pérdidas b) Sistema discreto equivalente c) Retardos enteros

Modelos digitales Línea discontínua: terminación en cortocircuito º

Modelos digitales

Modelos digitales A V GENERADOR de PULSOS PULSO GLOTAL G(z) x EXCITACIÓN SONORA F0 TRACTO VOCAL V(z) RADIACIÓN LABIOS R(z) s(n) GENERADOR de RUIDO x A U EXCITACIÓN SORDA COEFICIENTES REFLEXIÓN GENERADOR de EXCITACIONES u(n) TRACTO VOCAL H(z) G(z) V(z) R(z)

Modelos digitales Modelo de fuente y tracto vocal: Separa totalmente características de fuente y de tracto vocal. Funciona mejor cuando los parámetros varían lentamente: sonidos más estacionarios. Filtro V(z) todo polos: solo tiene resonancias, no puede modelar los ceros de las nasales. Separa fuente ruidosa y sonora: no válido para todos los sonidos. Cambio brusco de una fuente a otra: no realista.

Modelos de producción de voz Teoría de la producción del habla El sintetizador de formantes

El sintetizador de formantes Esquema general basado en el modelo de fuente y tracto vocal. Es uno de los primeras técnicas utilzadas para síntesis de voz y conversión de texto a voz (Holmes-63, Klatt-80). El tracto vocal se implementa con tipos de configuraciones de filtros, en función del sonido de que se trate:

El sintetizador de formantes La rama paralelo está formada por resonadores de segundo orden conectados en paralelo. La propuesta de Holmes únicamente incluía esta rama (Holmes-83). Es muy flexible, pero muy difícil de ajustar.

El sintetizador de formantes La rama serie está formada por una serie de resonadores de segundo orden conectados en cascada (o serie). Tiene menos parámetros de configuración (no pueden ajustarse las amplitudes) y modela muy bien la producción de las vocales. No puede utilizarse para las sordas.

El sintetizador de formantes Circuito resonador digital de segundo orden: y( n) = a x( n) + b y( n 1) + c y( n 2) El valor de la respuesta aumenta con la frecuencia y disminuye con el ancho de banda. Esto debe considerarse cuando se combinen las respuestas de varios resonadores. a H ( z) = 1 1 b z c z a = 1 b c b = 2 g cos(2 π c = g g = e 2 2π B F s P F s ) 2 P=Frecuencia del polo (500, 1500, 2500, 3500Hz) B=Ancho de banda (50 y 100Hz para P1 y P2, y 50 para P3 y P4)

F s B s e g g a c F P g a b c b a z c z b a z H π π 2 2 2 1 ' ) cos(2 2 ' ' 1 1 ' ' ' ' ) ( = = = = + + = 2) ( ' 1) ( ' ) ( ' ) ( + + = n x c n x b n x a n y Circuito antirresonador digital de segundo orden: P=Frecuencia del cero (500, 1500, 2500, 3500Hz) B=Ancho de banda (50 Hz) El sintetizador de formantes

El sintetizador de formantes Excitación sonora: hay muchas propuestas para la configuración del pulso glotal.

El sintetizador de formantes Excitación sorda:

El sintetizador de formantes Vocales: valores de los formantes constantes. 2200Hz F2 F1 300Hz i e a o u

Bibliografía Rabiner, L.R. Schfer, R.W (1978) Digital Processing of Speech Signal. Prentice-Hall Signal Processing Sreries Alan V. Oppenheim. Series Editor. 1978.Rabiner Klatt, D., (1980) Software for a Cascade/Parallel Formant Synthesizer. Journal of the Acoustical Society of America, vol.67, pp.971-995 Holmes, J. (1983), Formant Synthesizer- Cascade or Parallel? Speech Communication, vol 2, pp.251-273 Holmes, J., Mattingly, I., Shearme, J. (1964) Speech Synthesis by Rule. Language an Speech, vol. 7, pp. 127-143