Asignación de Prosodia en Sistemas TTS Introducción a las Tecnologías del Habla 2 o cuatrimestre 2014 Agustín Gravano
Prosodia en sistemas TTS Dos tareas separadas: 1) Dado un texto, determinar una prosodia adecuada. Front end. 2) Dada una prosodia elegida para un texto, generarla de manera aceptable. Back end. Selección de unidades: elegir las unidades (ej. dífonos) de la BD que más se aproximen a la prosodia elegida. Síntesis de dífonos, articulatoria y por formantes: manipular la señal para lograr la prosodia deseada.
Prosodia en sistemas TTS Dos tareas separadas: 1) Dado un texto, determinar una prosodia adecuada. Front end. 2) Dada una prosodia elegida para un texto, generarla de manera aceptable. Back end. Selección de unidades: elegir las unidades (ej. dífonos) de la BD que más se aproximen a la prosodia elegida. Síntesis de dífonos, articulatoria y por formantes: manipular la señal para lograr la prosodia deseada.
Predicción de frases prosódicas Texto de entrada: En enero quería ir a Brasil, pero no encontré nada barato.
Predicción de frases prosódicas Candidatos a límites prosódicos: En? enero? quería? ir? a? Brasil,? pero? no? encontré? nada? barato.?
Predicción de frases prosódicas Posible asignación de límites prosódicos: En enero? quería ir a Brasil,? pero no encontré? nada barato.?
Predicción de frases prosódicas Qué atributos lingüísticos y contextuales están relacionados con la estructura prosódica? Información sintáctica Qué trozos (chunks) tienden a ir juntos? (Abney 1996) Qué trozos tienden a separarse entonacionalmente? En enero quería ir a Brasil, pero no encontré nada barato. Clase de palabras (POS tags) ir:vb? a:prep? Brasil:NP? pero:cc? no:rn
Predicción de frases prosódicas Información ortográfica : ;,. ( )?! Longitud de la oración Lleva a más o menos frases prosódicas. Esta oración es muy? pero muy larga,? lo cual nos lleva a sospechar? que debe disponerse? en unas cuantas frases prosódicas,? o acaso no les parece? Esta? no.
Predicción de frases prosódicas Contexto #1: Las palabras a cada lado del potencial límite prosódico están acentuadas? No había? nadie? en? la estación. Contexto #2: Dónde ocurrió el último límite prosódico? No había nadie en la estación pero? el tren paró igual....
Métodos de aprendizaje automático Árboles de decisión (C4.5), aprendizaje de reglas (Ripper), SVM, HMMs, redes neuronales,... Atributos: w i ; w i-1 ; POS(w i ) ; POS(w i-1 ) ; signo de puntuación entre w i-1 y w i ; w i-1,w i mismo chunk?; etc. Extraídos automáticamente. Clase: Límite prosódico entre w i-1 y w i. (0-4 según ToBI) Rotulado a mano.
Predicción de acentos tonales Texto de entrada: En enero quería ir a Brasil, pero no encontré nada barato.
Predicción de acentos tonales Palabras candidatas a ser acentuadas: En? enero? quería? ir? a? Brasil?, pero? no? encontré? nada? barato?.
Predicción de acentos tonales Posible asignación de acentos tonales: En enero quería ir a Brasil, pero no encontré nada barato.
Predicción de acentos tonales Qué atributos lingüísticos y contextuales están relacionados con los acentos tonales? Categoría de palabra: contenido vs. función a, de, y, su, mi, el, entre, por,...: en general no se acentúan. Information status: Given/new Odio a los perros, y los perros me odian a mí. Contraste No le gustan los gatos, sino los perros. Inferibles Se me descompuso el auto. El mecánico cree que se rompió el carburador.
Predicción de acentos tonales Función gramatical Tu perro se comió mi teléfono. vs. Mi teléfono tiene poca batería. Posición en la oración (surface position): Ayer Jorge faltó al curso. vs. Jorge faltó al curso ayer. Frases nominales complejas: City hall; parking lot; city hall parking lot.
Predicción de acentos tonales Asociación con el foco: John only introduced Mary to Sue. vs. John only introduced Mary to Sue. Paralelismo semántico: A Juan le gusta el vino, pero María prefiere la cerveza. Cuáles de estos fenómenos lingüísticos pueden computarse automáticamente?
Cómo podemos aproximar esta información? Atributos computados automáticamente: Ventana de POS tags alrededor de la palabra candidata a acentuar (w i ). Posición de w i en la oración, párrafo, sección. Pseudo given/new e inferibles (WordNet). Atributos de parsing sintáctico (tan complejo como se pueda ejecutar). Detección de frases nominales complejas + predicción de ubicación del acento tonal. Clase rotulada a mano: Tipo de acento tonal (, H*, L*, L+H*, etc.)
Cómo se evalúan los resultados? Cómo definir un Gold Standard? Corpus de habla natural. Muchos hablantes / mismo texto. Elecciones subjetivas de frases y acentos. No existe un mapeo simple texto prosodia. Muchas variantes son aceptables. En enero quería ir a Brasil, pero no encontré nada barato. Estudios perceptuales para evaluar la calidad subjetiva del resultado. Caros y lentos!
Presente y futuro... Predicción de la prosodia: yendo más allá de las frases y los acentos tonales. Asignación de emoción desde el texto. Personalización de TTS: modelado de estilos individuales de entonación. Comunicar rasgos de personalidad, carisma. Temas abiertos de investigación.