FonetiToBI. Una herramienta para la anotación prosódica automática de corpus

FonetiToBI Una herramienta para la anotación prosódica automática de corpus Wendy Elvira-García y Juan María Garrido Almiñana Universitat de Barcelona Málaga, 23 junio 2017

Índice Introducción Descripción de la herramienta Estructura general Entrada Segmentación prosódica Anotación tonal Salida Evaluación Corpus Procedimiento Resultados Conclusiones

Introducción

Qué es FonetiToBI Herramienta para la anotación prosódica automática de habla en el marco del Modelo Métrico Autosegmental (AM) (Pierrehumbert, 1980). Primera herramienta que permite la anotación automática completa de los enunciados en el marco de las convenciones ToBI: Tonos Break Indices Diseñada para el español y el catalán Resultado de la integración de dos herramientas existentes previamente: SegProso (Garrido, 2013): herramienta para la anotación automática de unidades entonativas EtiToBI (Elvira-García et al.,, 2016): herramienta para la anotación de eventos tonales Ambas han sido desarrolladas implementando el conocimiento fonético y lingüístico necesario en forma de reglas.

Descripción de la herramienta

Estructura general Fichero TextGrid Fichero wav Transcripción fonética Transcripción ortográfica Onda sonora Entrada Segmentación prosódica Detección de sílabas Anotación de sílabas acentuadas Detección de Sintagmas Intermedios Detección de Grupos Entonativos Anotación tonal Extracción de la curva de F0 Clasificación de eventos tonales Clasificación de acentos nucleares Clasificación de tonos de frontera Estandarización de configuraciones nucleares Fichero TextGrid Marcas de anotación prosódica Transcripción tonal fonética Transcripción tonal fonológica Salida

Entrada Dos ficheros: Fichero wav con la onda sonora Fichero TextGrid de Praat con la transcripción ortográfica y fonética (con marcas de acento y pausas) del enunciado, alineada temporalmente con la señal de habla

Entrada Onda sonora, espectrograma, curva de f 0 y anotación correspondiente al enunciado del catalán Conestoico respeto a la justicia adyacente guardó sus flechas, pronunciado por un hablante masculino.

Segmentación prosódica Genera una capa de segmentación prosódica (Break Index Tier) que contiene las siguientes marcas ToBI de límites prosódicos: Grupo clítico (0) Palabra (1) Sintagma intermedio o frase intermedia (3) Grupo o frase entonativa (4)

Segmentación prosódica Cuatro etapas: Identificación de las sílabas tónicas Identificación de los grupos entonativos Identificación de los límites de sintagma intermedio Conversión de los límites detectados a etiquetas ToBI

Segmentación prosódica Detección de las sílabas tónicas Necesaria para: El etiquetado ToBI La identificación de los límites de palabra fonológica (etiqueta ToBI 1 ) Requiere llevar a cabo previamente una agrupación de los alófonos en sílabas, necesaria también para la anotación de los tonos

Segmentación prosódica Detección de las sílabas tónicas Punto de partida: segmentación en palabras y alófonos proporcionada en el TextGrid de entrada Fases: Localización de los límites de palabras Búsqueda de los alófonos que representan núcleos silábicos Búsqueda de los límites de sílaba para cada núcleo silábico detectado Asignación de las etiquetas de sílaba tónica a las sílabas que contienen un núcleo con marca de acento

Segmentación prosódica Detección de sintagmas intermedios Objetivo: Identificar los límites de unidades entonativas no marcados con una pausa, sino únicamente con un tono de frontera Implementación: Reglas orientadas a la detección en la curva de F0 de tonos de frontera a final de palabra presencia en la curva de f 0 de determinados movimientos ascendentes indicativos de un tono de frontera intermedia; y por otro, la presencia de reajustes de f 0, indicadores del inicio de una nueva unidad entonativa

Segmentación prosódica Detección de sintagmas intermedios Onda sonora, espectrograma, curva de f 0 y anotación correspondiente al enunciado del catalán Alt, fort, i amb expressió salvatge, pronunciado por un hablante femenino. El intervalo seleccionado fue marcado como ip por las reglas de identificación de tonos de frontera.

Segmentación prosódica Detección de sintagmas intermedios Onda sonora, espectrograma, curva de f 0 y anotación correspondiente al enunciado del español con estoico respeto a la justicia adyacente guardó sus flechas, pronunciado por un hablante masculino. El intervalo seleccionado fue marcado como ip por las reglas de reajuste de f 0

Segmentación prosódica Detección de grupos entonativos Objetivo: Anotar los límites de unidades prosódicas marcadas por un tono de límite y una pausa Procedimiento: Identificación de las pausas en la capa con la transcripción fonética de entrada

Segmentación prosódica Conversión de los límites detectados a etiquetas ToBI Objetivo: Convertir la salida clásica de SegProso a un tier con formato ToBI Procedimiento: Los diferentes tiers generados por SegProso se convierten en uno solo, que contiene las etiquetas ToBI correspondientes, y Se borran los tiers innecesarios

Anotación tonal Esquema del módulo Entrada (salida de módulo anterior) la segmentación silábica; las marcas de segmentación prosódica (Break Indices); las marcas de acento léxico. Extracción de la curva de F0 Extracción en dos pasos (Hirst, 2011) Clasificación de eventos tonales

Anotación tonal Clasificación de eventos tonales: parámetros para la clasificación Umbral psicoacústico 1,5st (Pamies et al., 2002) El script comprueba los movimientos tonales que pasan el umbral y coloca un tono en consecuencia. Alineación tonal, puntos del tiempo en que se mide F0: Alineación fija De 3 a 12 valores por sílaba (para inicio, centro, final de sílaba) Dianas tonales El punto máximo o mínimo de F0 en determinada sílaba

Anotación tonal Clasificación de acentos nucleares y tonos de frontera Pretónica: Valores inicial, central y final Tónica: Valores inicial, central y final. Postónicas: 6 valores En el caso de las palabras oxitonas hay 12 valores para la tónica.

Anotación tonal Clasificación de acentos prenucleares (APN) Diferencia entre centro pretónica, centro tónica y centro postónica Diferencia entre inicio y final de tónica Diferencia pico y valle (Dorta, 2014) L*+H L+H* (L+H*)+H L*+H L+H* L*+H / L+>H*

Anotación tonal Clasificación de acentos nucleares y tonos de frontera Pretónica Tónica Postónicas <1,5St >1,5St L* H%

Anotación tonal Clasificación de acentos nucleares y tonos de frontera Pretónica Tónica Postónicas L* H L%

Salida TextGrid con: Transcripción ToBI Segmentación prosódica Figura con el resultado (opcional)

Salida Onda sonora, espectrograma, curva de f 0 y anotación generado por FonetiToBI correspondiente al enunciado del español fue inyectado en el abdomen y en una pierna, pronunciado por un hablante femenino.

Evaluación Sección 3

Corpus 586 frases (300+286) Palabras esdrújulas, llanas y agudas 8 clases de a. prenucleares 9 clases de a. nucleares 10 clases de tonos de frontera

Procedimiento Informantes: Sexo: femenino Procedencia: español Madrid y español de Cantabria Datos técnicos: Grabaciones: Marantz PDM60, SHURE SM58 Fuera de cabina Método Evaluación estadística de la coincidencia (inter-rater reliability) Kappa de Cohen

Resultados Tipo n % acuerdo kappa Cohen Evaluación APN 1660 94.94% 0.907 muy buena AN 1186 88.11% 0.831 muy buena TF 1186 81.28% 0.756 buena Coincidencia en porcentaje, valor kappa y valoración de la coincidencia entre la transcripción de FonetiToBI y la del transcriptor humano del corpus del español hablante femenino.

Resultados Tipo n % acuerdo kappa Cohen Evaluación AN 1 85,71% 0.772 buena 2 85,71% 0.770 buena 3 82,65% 0.722 buena 4 78,79% 0.657 buena TF 1 92,86% 0.884 muy buena 2 92,86% 0.885 muy buena 3 93,88% 0.900 muy buena 4 90,82% 0.851 buena Coincidencia en porcentaje, valor kappa y valoración de la coincidencia entre la transcripción de FonetiToBI y la de los transcriptores humanos del corpus del catalán

Resultados Análisis de errores H* L% H+L* L% L* H% L+H* L% L+ H* L% L* HL% L+H* L!H%L+H* LH% L* L% H* L% 52 6 4 1 1 4 H+L* L% 6 12 1 L* H% 179 4 2 L+H* L% 11 4 7 20 L+ H* L% 1 20 11 L* HL% 2 18 3 L+H* L!H% 0 3 L+H* LH% 1 3 24 L* L% 4 1 3 8

Resultados Análisis de errores L+H*L% L+ H*L% (20 casos + 20 casos) L+H* L% > H* L% H* L% H+L* L% L* H% L+H* L% L+ H* L% L* HL% L+H* L!H%L+H* LH% L* L% H* L% 52 6 4 1 1 4 H+L* L% 6 12 1 L* H% 179 4 2 L+H* L% 11 4 7 20 L+ H* L% 1 20 11 L* HL% 2 18 3 L+H* L!H% 0 3 L+H* LH% 1 3 24 L* L% 4 1 3 8

Conclusiones FonetiToBI es capaz de anotar prosódicamente enunciados simples en español y catalán con un nivel de precisión aceptable, similar al de los etiquetadores humanos Puede aplicarse con garantías al etiquetado automático de grandes corpus, y con un considerable ahorro en el tiempo de etiquetado

Conclusiones FonetiToBI ofrece dos niveles diferentes de anotación tonal: transcripción fonética estrecha, más basada en la forma acústica de la curva de f 0, con un inventario de marcas tonales más rico (es decir, más fonético); transcripción fonética ancha, con un inventario de símbolos más reducido y más cercano a las convenciones establecidas en Cat_ToBI y Sp_ToBI, que pretenden recoger solo los eventos tonales contrastivos (fonológicos)

Conclusiones Permite utilizar como entrada la salida de una segmentador fonético automático, como SPPAS (Bigi, 2012) Herramienta de libre distribución, disponible bajo licencia GNU de manera gratuita en: http://stel.ub.edu/labfon/en/praat-scripts; https://sites.google.com/site/juanmariagarrido/rese arch/resources/tools/fonetitobi

Posibles mejoras Desarrollo de una versión del programa que requiera como entrada solo un fichero.wav y su transcripción ortográfica. Integración de un segmentador automático con la versión actual de FonetiToBI

gracias por su atención

[ˈgɾaθjas L+H* po ɾ sw at en ˈθjo n] L+H* L%

Bibliografía * Bigi, B. (2012). SPPAS: a tool for the phonetic segmentations of speech, The eight international conference on Language Resources and Evaluation, Istanbul (Turkey), pp. 1748-1755. http://www.lrec-conf.org/proceedings/lrec2012/pdf/1116_paper.pdf Consultado el 24 de noviembre de 2016. * Blum-Kulka, S. (1982). Learning to Say What You Mean in a Second Language: A Study of the Speech Act Performance of Learners of Hebrew as a Second Language. Applied Linguistics, 3(1), pp. 29 59. * Boersma, P. (1993). Acurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampled sound. En IFA Proceedings 17 pp. 97 110. * Boersma, P. (2001). Praat, a system for doing phonetics by computer. Glot International, 5, pp. 341 345. http://www.fon.hum.uva.nl/paul/papers/ * /speakunspeakpraat_glot2001.pdf. Consultado el 24 de noviembre de 2016. * Borràs-Comes, J., Vanrell, M. del M., Prieto, P. (2014). The role of pitch range in establishing intonational contrasts. Journal of the International Phonetic Association, 44, 1 20. * Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37 46. * De Looze, C. (2010). Analyse et interprétation de l empan temporel des variations prosodiques en français et en anglais (tesis doctoral, Aix-en-Provence: Université Aix-en-Provence. * Elvira-García, W., Roseano, P, y Fernández, A. M. (2015). Una herramienta para la transcripción prosódica automática con etiquetas Sp_ToBI en Praat, En A. Cabedo Nebot (ed.) Perspectivas actuales en el análisis fónico del habla: tradición y avances en la fonética experimental, València, Universitat de València, 455 464. * Elvira-García, W., Roseano, P. y Fernández Planas, A. M. y Martínez Celdrán E. (2016). A tool for automatic transcription of intonation: Eti-ToBI a ToBI transcriber for Spanish and Catalan. Language Resources and Evaluation, 50(4), pp. 767 792. DOI: 10.1007/s10579-015- 9320-9 * Garrido, J. M. (2010). A tool for automatic F0 stylisation, annotation and modelling of large corpora. Speech Prosody 2010, Chicago, May 2010. Disponible en http://speechprosody2010.illinois.edu/papers/100041.pdf. Consultado el 24 de noviembre de 2016. * Garrido, J. M. (2013). SegProso: A Praat-Based tool for the Automatic Detection and Annotation of Prosodic Boundaries, Proceedings of TRASP 2013, pp. 74 77. Disponible en http://www.lpl-aix.fr/~trasp/proceedings/19864-trasp2013.pdf Consultado el 29 de noviembre de 2016 * Goldman, J.-Ph. (2011). EasyAlign: an automatic phonetic alignment tool under Praat. Proceedings of InterSpeech, September 2011, Firenze, Italy. * Hirst, D. (2011). The analysis by synthesis of speech melody: from data to models. Journal of Speech Sciences, 1(1), pp. 55 83. * Hirst, D. y Espesser, R. (1993). Automatic modelling of fundamental frequency using a quadratic spline function. Travaux de l'institut de Phonétique d'aix, 15, pp. 71 85. * International Phonetic Association (en línea). The International Phonetic Alphabet and the IPA Chart. Disponible en https://www.internationalphoneticassociation.org/ * /content/ipa-chart. Consultado el 24 de noviembre de 2016. * Martínez Celdrán, E., Fernández Planas, A.M., (2003). Taxonomía de las estructuras entonativas de las modalidades declarativa e interrogativa del español estándar peninsular estándar según

* el modelo AM en habla de laboratorio, en: Herrera, E., Martín, P. (Eds.), La Tonía: Dimensiones Fonéticas Y Fonológicas. El Colegio de México, México D.F., pp. 267 294. * Noteboom, S. (1997) The prosody of Speech: Melody and Rhytm, en Ed. J. Hardcastle y J. Laver (eds.) The Handbook of Phonetic Sciences, Oxford: Blackwell, pp. 640 673. * Pamies, A., Fernández Planas, A. M., Martínez Celdrán, E., Ortega-Escandell, A., Amorós Cespedes, M.C., (2002). Umbrales tonales en español peninsular. En: J. Díaz García (ed.). Actas Del II Congreso de Fonética Experimental, pp. 272 278. * Pierrehumbert, J. (1980). The phonology and phonetics of English intonation (tesis doctoral). Bloomington: Indiana University Linguistics Club. * Prieto, P., Cabré, T. (2013). L entonació dels dialectes catalans. Rubí: Publicacions de l Abadia de Montserrat. * Hualde, J. I., y Prieto, P. (2015). Intonational variation in Spanish: European and American varieties. En: S. Frota y P. Prieto (eds). Intonational variation in Romance. Oxford: Oxford University Press, pp. 350 391. * Hualde, J. I., y Prieto, P. (2016). Towards an International Prosodic Alphabet (IPrA). Laboratory Phonology: Journal of the Association for Laboratory Phonology, 7(1), 5. * DOI: http://doi.org/10.5334/labphon.11 * Prieto, P., Roseano, P. (Eds.), 2010. Transcription of Intonation of the Spanish Language. München: Lincom Europa. * Roseano, P., Fernández Planas, A.M. (2013). Transcripció fonètica i fonològica de l entonació: una proposta d etiquetatge automàtic. Estudios de Fonética Experimental. XXII, pp. 275 332. * Rosenberg, A. (2010). AuToBI - A tool for automatic ToBI annotation. Proceedings of Interspeech 2010, pp. 146 149. * Schiel. F. (1999). Automatic Phonetic Transcription of Non-Prompted Speech, Proceedings of the ICPhS 1999. San Francisco, August 1999, pp. 607 610. * Silva, C. y Garrido, J. M. (en prensa). Validación perceptiva de dos procedimientos de representación de la melodía aplicados al español, al portugués brasileño y al español como lengua extranjera. Onomázein, 34 (2). * Vizcaíno Ortega, F., Cabrera Abreu, M., Dorta, J., y Hernández Díaz, B. (2007). La entonación de enunciados declarativos e interrogativos absolutos de Lanzarote., in: Dorta, J. (ed.), La Prosodia en el ámbito lingüístico románico. Santa Cruz de Tenerife: La Página, pp. 347 369 * Wells, J. (1995). Computer-coding the IPA: a proposed extension of SAMPA. University College London. Disponible en http://www.phon.ucl.ac.uk/home/sampa/ * /ipasam-x.pdf. Consultado el 24 de noviemre de 2016.