6. DESCRIPCIÓN DE LA BASE DE DATOS SES

Documentos relacionados
V. ESTUDIO DE LA ENTONACIÓN.

3. ESTRUCTURA DE UN CONVERSOR TEXTO-VOZ

La percepción del acento léxico en una lengua extranjera

Conversión de texto en habla

Los rasgos prosódicos. acento, duración, entonación, pausas, tempo

Fonética y Fonología españolas

T 2. LCL 3. Resúmenes de Lengua castellana. Me lo explicas? VICENS VIVES. 1. Las propiedades de los textos (I) 2. El grupo nominal (I) La coherencia

Lengua Española I. Tema 7. Los elementos suprasegmentales: el acento y la entonación en español

La fonología es esencialmente la descripción del sistema y de los patrones de los sonidos de una lengua (Yule 1998:66).

Sistema de conversión texto-voz en lengua gallega basado en la selección combinada de unidades acústicas y prosódicas.

La descripción. Unidad 7. Jaime Arias Prieto

3. EL HABLA CON EMOCIONES

Índice general. Pág. N. 1. La Acentuación. La sílaba. Definición Clasificación Ejercicio de separación silábica Palabras de escritura dudosa Actividad

LA TRANSMISIÓN DEL SIGNO: ELEMENTOS DE LA COMUNICACIÓN Y FUNCIONES DEL LENGUAJE

LENGUA CASTELLANA Y LITERATURA 2º BACHILLERATO UNIDAD 1 LA COMUNICACIÓN. EL NIVEL FÓNICO

Por qué acentuar? Universidad Autónoma de Campeche Facultad de Ingeniería. Juan Jesús Moncada Bolón.

COMUNICACIÓN: Es el proceso mediante el cual se transmite una información (ideas, hechos, opiniones, sentimientos ). Un emisor, envía un mensaje a un

Unidad 1. La comunicación. Lola Marín IES Los Cerros (Úbeda) Curso Lengua castellana y Literatura 1º Bachillerato

Aplicaciones de la fonética

Nueva Ortografía de la Lengua Española

ORIENTACIONES PARA LAS PRUEBAS DE ACREDITACIÓN B1 y B2 DE INGLÉS y FRANCÉS

Unidad V. La acentuación

NIVEL: 6º ÁREA: LENGUA CASTELLANA Y LITERATURA 1ºTRIMESTRE CONCRECIÓN DE LOS OBJETIVOS AL CURSO

JORJWEB LTDA. División de desarrollo científico y tecnológico Sección de proyectos Nuevos

Niños Al Aire... Comunicación divertida.

Comunicación Oral y Escrita

El dictado Elaborado por Cheryl Urow y Karen Beeman, y adaptado del trabajo de Kathy Escamilla y el grupo de Literacy Squared

Clasificación de las oraciones simples. Victor Erik Schwarz

Curso Online My Oxford English

Inteligencia artificial

7 Esp. U 2. L 18 Elaborar un plan textual, organizando los elementos para producir oralmente un texto narrativo. 7 Esp. U 2. L 19

Darse cuenta de la responsabilidad al elegir cómo nos sentimos y cómo actuar. Ser conscientes de que nuestra manera de actuar influye en los demás.

1º ESO LENGUA CASTELLANA Y LITERATURA CONTENIDOS

UNIVERSIDAD DE ESPECIALIDADES ESPIRITU SANTO

OPCIÓN A. 1. Explique, según las normas de acentuación del castellano, por qué la siguiente palabra va acentuada: cántaro.

5. Conjugar tiempos verbales griegos del modo indicativo aportando su traducción correspondiente.

Ortografía moderna. N. de páginas: 320. Edición: 1. a Medida: 17.5 x Colores: 1. Material incluido

Hassam Maza Sastré Yessica Meléndez Acoltzi Rubén Alfredo Mejorada Lira

Curso Práctico de Francés para Secretariado de Dirección. Idiomas

TECNOLOGIAS DE LA VOZ

GUÍA BREVE SOBRE LENGUA CASTELLANA Y LITERATURA DE 2º DE BACHARELATO

LENGUAJE, LENGUA Y HABLA. EL SIGNO LINGÜÍSTICO.

5. Experimentos y Resultados

1. CONCEPTO DE ORACIÓN

índice Prefacio Capítulo 1: La lingüística: Ciencia cognitiva 1 PorAntxon Olarrea

Exterior del algoritmo. Entorno. Usuario. Procesador. Escribir. v1 v2 v3. Leer. <acción> {; <acción>}

3. MATERIALES Y MÉTODOS

PROGRAMA de asignaturas

Secondary Spanish Curriculum Overview - Lengua

Desarrollo Orientado a Objetos en Métrica v. 3

Gracia Pinero Pinero. Perfecto simple y perfecto compuesto en la norma culta de Las Palmas de Gran Canaria A

ANEXO III 2.º DE EDUCACIÓN SECUNDARIA

la ventana de edición y la duración aparece en la ventana. Se puede escuchar la sección marcada

Centro guna TALLER DE RELACIONES CON LOS MEDIOS Y HABLAR EN PUBLICO

TRABAJANDO CON VARIAS PISTAS DE AUDIO

PRUEBAS SOLEMNES II SEMESTRE DE 2011 APRENDIZAJES ESPERADOS Y CONTENIDOS A EVALUAR APRENDIZAJES ESPERADOS

Jornadas sobre Gnu/Linex: Uso de Software Libre en las Administraciones públicas. Sonia Pizarro Redondo

Expresamos nuestras emociones!

CONTENIDOS LENGUA 3º CURSO EDUCACIÓN PRIMARIA

LO5.2 SESIÓN 2 Análisis con la víctima y con el grupo

[LOS BENEFICIOS DE PRACTICAR LA CONCIENCIA PLENA O MINDFULNESS]

ESTANDARES DE LA EDUCACION SECUNDARIA. EspaÑol

Estructura de los mensajes de correo electrónico. Jesús Torres Cejudo

Acentuación de palabras, signos de puntuación y vicios del lenguaje

PROGRAMACIÓN Lengua Castellana 2º Curso de Primaria.

FICHA I.- COMUNICACIÓN Y LENGUAJE. Elementos (Funciones)

CEIP VISTAHERMOSA.- PROGRAMACIÓNS DIDACTICAS. Lengua Castellana

GT: Mejorar el lenguaje oral en Educación Infantil

FÍSICA Y QUÍMICA 3º ESO. OBJETIVOS, CONTENIDOS Y CRITERIOS DE EVALUACIÓN 1ª Evaluación: Unidad 1. La medida y el método científico.

CONTENIDOS DE LENGUA CASTELLANA Y LITERATURA 1º ESO (CONVOCATORIA EXTRAORDINARIA SEPTIEMBRE 2013)

PRUEBA DE ACCESO A LAS ENSEÑANZAS UNIVERSITARIAS OFICIALES DE GRADO

(Tecla Shift pequeña) ó (Tecla Shift grande) Estas teclas, también tienen la función de poner la letra en Mayúsculas.

NIVEL: 2º ÁREA: LENGUA CASTELLANA Y LITERATURA PRIMER TRIMESTRE CONCRECIÓN DE LOS OBJETIVOS AL CURSO CRITERIOS DE EVALUACIÓN

Latín. Unidad 1. La lengua latina

Primera aproximación a la descripción prosódica de la zona central de Cantabria: enunciados con estructura sujeto-verbo-objeto 1

Todos los derechos reservados. Reproducción y distribución están prohibidos. Ninguna parte de

El patito feo. Lengua castellana y literatura. Mª Josefa Rodríguez Pérez

Formación Educación Financiera

LOS SUPRASEGMENTOS. Grado de Español: Lengua y Literatura Raúl Urbina Fonturbel

1. INTRODUCCION. Logger 2

UNIVERSIDAD DE ALMERIA GUÍA DOCENTE CURSO:

COLEGIO ALEXANDER DUL

PERCEPCIÓN DEL HABLA Reconocimiento de Palabras Habladas

GUIA DE ESTUDIO CUARTO GRADO CICLO ESCOLAR SEGUNDO PERIODO

Mercancías Peligrosas

ORIENTACIONES DIDÁCTICAS

COMENTARIO DE TEXTO (LENGUA CASTELLANA Y LITERATURA) Coordinadora: Nuria Polo Cano

CLASE 3. Actividad Grabar Actividad Escribir Actividad Pintar Actividad Navegar

TALLER DE EXCEL BÁSICO

Cadena de Palabras Manual de usuario

En sentido general el ritmo está determinado por la división del tiempo o el espacio en intervalos iguales.

EL ADVERBIO. Juegas bien. (En este caso, el adverbio bien, es el núcleo de una frase adverbial que complementa al verbo al que acompaña).

DIFICULTADES COMUNES EN LA ESCRITURA

Programa de Alemán.

CAPÍTULO 10. /b/ /d/ /g/ [ ] [ ] [ ] FONÉTICA Y FONOLOGÍA ESPAÑOLAS. Ejercicios

TEMA 5: RECONOCIMIENTO DE LOCUTORES Y DE VOZ.

Estas son las 5 habilidades esenciales que podrás desarrollar en Mindfulness para el liderazgo:

UNIDAD 1 GENERALIDADES HTML



Transcripción:

6. DESCRIPCIÓN DE LA BASE DE DATOS SES Como vimos en la introducción, en este proyecto trataremos de establecer en qué condiciones el segmentador realiza mejor su función dependiendo de la parametrización concreta que se configure, de las distintas combinaciones de locuciones cortas (frases) y largas (párrafos) que se utilicen para el entrenamiento y para la evaluación, así como de las combinaciones de emociones del locutor (neutro, alegría, sorpresa, tristeza, enfado...) que se empleen para dichas etapas del proceso. Para todo ello realizaremos experimentos de evaluación con las bases de datos SES y SEV de habla expresiva en castellano, que contienen una parte segmentada manualmente. En este capítulo describiremos la primera de ellas. 6.1 La base de datos SES La base de datos SES (Spanish Emotional Speech) está formada por tres sesiones de grabación de habla con emociones interpretada por un único actor masculino. Cada sesión de grabación incluye 30 palabras (2 minutos en total), 15 frases cortas (7 minutos) y 4 párrafos (39 minutos), aunque en nuestro proyecto sólo haremos uso de las frases y 6. Descripción de la base de datos SES 145

los párrafos. Estas sesiones incluyen cuatro emociones primarias (alegría, enfado en frío, sorpresa y tristeza) y voz interpretada según el estado neutro. Una muy amplia descripción de esta base de datos se encuentra en [Montero 2003]. El propósito de la creación de la base de datos SES era poder disponer de una base de datos de voz que simulara estados emotivos, de manera que sobre ella se pudieran realizar análisis que ayudaran a producir síntesis de voz con emociones. Aunque la base de datos que se pretendía grabar era necesariamente pequeña, un requisito era que contuviera suficiente diversidad de fenómenos fonéticos y prosódicos para permitir cubrir un buen análisis y modelado del habla emotiva. Con el fin de minimizar el efecto que un posible contenido semántico emotivo pudiera tener sobre el habla, se emplearon textos preferiblemente neutros desde un punto de vista del contenido. Se agruparon estos textos en 3 categorías (frases cortas, palabras y párrafos) interrelacionadas entre ellas, si bien en nuestros experimentos, como dijimos antes, sólo emplearemos frases y párrafos. 6.1.1 Las frases cortas Como se ha dicho, se pretendía, en primer lugar, que fueran frases de carácter neutro, es decir, que no estuvieran preferentemente marcadas por ningún tipo de emotividad. Se evitaron, pues, verbos con un significado emotivo, así como las funciones conativas y la segunda persona. Mayoritariamente, las frases son en tercera persona; se incorporaron, sin embargo, algunas frases de primera persona que, sin embargo, son plenamente declarativas. De esta manera era de esperar 6. Descripción de la base de datos SES 146

que si a los significados meramente denotativos (de contenido semántico no emotivo) se les incorporaban otros valores expresivos (una voz que simula segmental y suprasegmentalmente una emoción), la identificación de la emoción transmitida habría que achacársela a los parámetros segmentales y suprasegmentales de la voz. Se confeccionaron quince frases entre las que aparecen todos los fonemas del español, así como sus alófonos más representativos. El texto completo de las mismas puede consultarse en el Anexo 3. La longitud de las quince frases cortas oscila entre las ocho y trece sílabas, con un mínimo de tres sílabas tónicas y un máximo de cuatro. Las palabras finales son, como es habitual en español, mayoritariamente paroxítonas, aunque se incluyen también dos terminaciones oxítonas. Aunque se incluyeron cinco estructuras de carácter interrogativo, la base de datos se centra en las declarativas, por lo que no se consideró incorporar el modelo entonativo de todas las posibles interrogativas del español, y se evitó, además, el uso de los pronombres interrogativos. 6.1.2 Los párrafos A la base de datos SES se decidió incorporar la lectura de párrafos cortos, ya que podía aportar alguna luz a la hora de establecer diferencias entre los distintos modelos entonativos, en especial, en las diferentes estructuras sintácticas [Montero 2003]. De ahí que se consideraron tres párrafos de entre cuatro y ocho líneas, de carácter 6. Descripción de la base de datos SES 147

neutro y donde, como en el caso de las frases cortas, se evitó el uso de verbos y estructuras de marcada emotividad. Además, se incorporó un cuarto párrafo, en el que se incluían, en el marco de una breve estructura narrativa, doce de las quince frases cortas. Esto facilitaba información en cuanto a las diferencias que podían observarse, no sólo en función de los diferentes modelos emocionales entonativos, sino comparar un mismo modelo en tres contextos diferentes. El texto completo de los párrafos también puede consultarse en el Anexo 3. 6.2 La grabación de la base de datos Como se describe en [Montero 2003] los textos que se acaban de describir fueron grabados en una sala acústicamente aislada y la frecuencia de muestreo fue de 16 Khz. Los textos fueron interpretados en 3 ocasiones cada uno (por lo que disponemos de 3 sesiones para cada voz, excepto para la neutra, de la que disponemos de 2 sesiones) por un actor profesional de 38 años, con acento castellano y con más diez años de experiencia. La múltiple grabación posibilitó, que el actor interpretase una misma frase de distintas maneras conscientes, empleando patrones entonativos y rítmicos diferentes. Todo ello fue realizado por el actor sin someterse a ningún esquema o modelo prefijado, siendo libre de decidir cómo debía simular los estados emocionales que se le encomendaron. 6. Descripción de la base de datos SES 148

6.3 Etiquetado y marcado de SES Los dos mil fonemas por emoción fueron etiquetados fonéticamente de manera completamente manual con la ayuda de la herramienta de edición de voz PCV desarrollada en el proyecto VAESS [Montero 2003]. El marcado de F0 se llevó a cabo semiautomáticamente, con el marcador de periodos de la frecuencia fundamental, empleado en síntesis por difonemas, adaptado para procesar elocuciones más largas. Los resultados obtenidos de esta manera fueron visualmente revisados usando el mismo programa. Finalmente se resintetizaron las grabaciones por medio de concatenación de difonemas, linealizando la curva de F0 en el nivel de sílaba y cuantificando las duraciones a un número entero de periodos de F0. Por ello fue necesario emplear un algoritmo de concatenación con modificaciones prosódicas menores durante la resíntesis. Esta segunda revisión por resíntesis se tradujo en nuevas correcciones, especialmente de la curva de F0. 6.4 La base de datos SES en nuestro sistema Para realizar la evaluación de nuestro sistema disponemos de las 15 frases cortas de SES, los 4 párrafos completos y además un conjunto de frases obtenidas dividiendo los 4 párrafos. Los párrafos completos están sin etiquetar, por lo que no podremos emplearlos como grupo de control de nuestros experimentos, pero sí los usaremos para entrenar los 6. Descripción de la base de datos SES 149

modelos. Por contra, las frases y los párrafos divididos sí están segmentados manualmente. Los ficheros de estos tres grupos los tenemos colocados en la carpeta parrafosdividos_completos de nuestro sistema (véase el capítulo dedicado a la estructura del segmentador), y son de dos tipos: Los archivos de audio en crudo (sin cabeceras), con extensión.pcm y las etiquetas de cada uno de esos ficheros, con extensión.lab El nombre de todos los ficheros sigue el mismo patrón, tanto para los ficheros de audio como para sus correspondientes etiquetas: Las frases: F_X_ffss.{pcm,lab}, donde - X es un carácter que indica el tipo de emoción (A=alegría, E=enfado, S=sorpresa, T=tristeza, N=voz neutra) - ff son dos dígitos que indican el número de frase, desde 01 hasta 15 - ss son dos dígitos que indican la sesión de grabación (01 y 02 son las sesiones de grabación con voz neutra; 03, 04 y 05 las tres sesiones con voz alegre; 06, 07 y 08 las sesiones con voz triste; 09, 10 y 11 las sesiones con voz enfadada; y 12, 13 y 14 las sesiones con voz sorprendida. Los párrafos completos: R_x_ppss.{pcm,lab}, donde - x es un carácter que indica el tipo de emoción (a=alegría, e=enfado, s=sorpresa, t=tristeza, n=voz neutra) - pp son dos dígitos que indican el número de párrafo, desde 01 hasta 04 6. Descripción de la base de datos SES 150

- ss son dos dígitos que indican la sesión de grabación (01 y 02 son las sesiones de grabación con voz neutra; 03, 04 y 05 las tres sesiones con voz alegre; 06, 07 y 08 las sesiones con voz triste; 09, 10 y 11 las sesiones con voz enfadada; y 12, 13 y 14 las sesiones con voz sorprendida. Los párrafos divididos: RXffppss.{pcm,lab}, donde - X es un carácter que indica el tipo de emoción (A=alegría, S=sorpresa, T=tristeza, N=voz neutra). No contamos con los párrafos con voz de enfado divididos - ff son dos dígitos que indican el número que ocupa la frase de esta división dentro del párrafo correspondiente, desde 01 hasta el número máximo de frases que tenga el párrafo - pp son dos dígitos que indican el número de párrafo, desde 01 hasta 03. No contamos con el cuarto párrafo dividido - ss son dos dígitos que indican la sesión de grabación. Sólo se dividieron los párrafos de la primera sesión con cada emoción (excepto la de enfado), con lo que estos dos dígitos serán 01 para la sesión de grabación con voz neutra; 03 para la sesión con voz alegre; 06 para la sesión con voz triste; y 12 para la sesión con voz sorprendida. 6. Descripción de la base de datos SES 151