El corpus que se desarrolló en este proyecto fue balanceado por un programa hecho en

Documentos relacionados
Capítulo 3 Desarrollo del corpus

Sintetizadores y Corpus de voz

Síntesis de voz utilizado Selección de Unidades

Capitulo 3. Protocolo y grabaciones

Bienvenido al universo de TELL ME MORE!

2. SÍNTESIS DE VOZ Y SEGMENTACIÓN AUTOMÁTICA DE UNIDADES

3. ESTRUCTURA DE UN CONVERSOR TEXTO-VOZ

training. Competencia Certificada Herramientas básicas

IES Abyla. Departamento de Informática. Sonido digital

INTERNET. "Se trata de una red de cómputo a nivel mundial que agrupa a distintos tipos de redes usando un mismo protocolo de comunicación.

EXAMEN INSTITUCIONAL DE INGLÉS UADY-UNIVERSIDAD DE MICHIGAN MANUAL

Inteligencia artificial

Currículum Vítae. Mario Antonio Regín Gutiérrez 1 de 7

REGISTRO DE INDICADORES DE RIESGO EN LA DETECCIÓN DE LA DISLEXIA

Introducción a los fundamentos tecnológicos de la producción digital II

Diseño e Implementación de un Sistema de Síntesis de Voz

Plataforma online Programa Inglés para el Turismo. Guía Técnica de uso

CICLO ESCOLAR EDUCACIÓN ARTÍSTICA (ARTES VISUALES Y MÚSICA)

UNIVERSIDAD AUTONOMA DE NAYARIT AREA DE CIENCIAS BIOLÓGICO AGROPECUARIAS Y PESQUERAS ESCUELA NACIONAL DE INGENIERIA PESQUERA

PRUEBAS PARA EVALUAR LA COMPETENCIA LINGÜÍSTICA PRIMER CICLO

CONTENIDOS MINIMOS MUSICA

Ubicació n Curricular del Próyectó de Aprendizaje

COLEGIO ALEXANDER DUL

Aprender el alfabeto coreano 한글 : Guía para estudiar hangul de forma fácil (Spanish Edition)

6. DESCRIPCIÓN DE LA BASE DE DATOS SES

INDICADORES DE LOGRO PARA LA ASIGNATURA DE ESPAÑOL PRIMER GRADO Escala de valoración

Sherman ISD Rubrica del Reporte de Calificaciones de Artes de Lenguaje en Español de Pre-Kínder de 4 Años Cuarto Periodo de Nueve Semanas

Funcionamiento del reproductor de MP3

I. LA SÍNTESIS DE VOZ

SPANSKA Plan de estudios para la enseñanza de sueco para inmigrantes

Capítulo I: Introducción

ÁREA: LENGUA EXTRANJERA. ETAPA: PRIMARIA. CICLO: 1º

PRUEBAS PARA EVALUAR LA COMPETENCIA LINGÜÍSTICA SEGUNDO CICLO

SONIDO - ANEXOS ANEXO 1:

MANUAL DE INSTRUCCIONES

guía para LOS PADRES A SU HIJO EN QUINTO GRADO ARTES DEL LENGUAJE EN INGLÉS

MÚSICA 2 ESO. El sonido. Cualidades del sonido

COLEGIO DECROLY AMERICANO Middle School IDIOMA ESPAÑOL. Destreza / Contenido 1. Comprender la comunicación en discursos y en textos.

CONTENIDOS CRITERIOS DE EVALUACIÓN ESTÁNDARES DE APRENDIZAJE EVALUABLES

Licenciatura en ARTES VISUALES Y GESTIÓN CULTURAL

INSTITUTO SUPERIOR TECNOLÓGICO DE CINE Y ACTUACIÓN Carrera: Realización y Actuación de Cine y Fotografía y Sonido de Cine

Guía para el desarrollo de las actividades de TELL ME MORE

- LABTRA - Laboratorio de interpretación

Lenguaje icónico iconolingüística lenguaje de la imagen

Rúbrica del reporte de kínder de lectura y lenguaje - Segundas 9 semanas

guía para LOS PADRES A SU HIJO EN PRIMER GRADO ARTES DEL LENGUAJE EN INGLÉS

5. Experimentos y Resultados

GRABADOR DIGITAL WI-FI RONI

Reconocimiento Automático de Voz

Existen diferentes recursos interactivos que han sido utilizados para la enseñanza

Plan de Estudios de Enseñanza Primaria Diseño Curricular de Lengua Materna. Calificaciones para el curso 6

LENGUA. 1. Identifica y utiliza palabras sinónimas, antónimas, palabras polisémicas, frases hechas y refranes.

Origen de la Comunicación

ACCESIBILIDAD EN LA COMUNICACIÓN. LECTURA FÁCIL

TELL ME MORE Funcionamiento del reconocimiento de voz

COLEGIO ALEXANDER DUL

CONCLUSIONES Y RECOMENDACIONES

Evolución del software y su situación actual

guía para LOS PADRES A SU HIJO EN CUARTO GRADO ARTES DEL LENGUAJE EN INGLÉS

Capítulo 4. SAPI. 4.1 Qué es Microsoft Speech Application Program Interface (SAPI)?

Reconocedor Fonético de Dígitos para el Español de México usando el CSLU Toolkit

Procesamiento del Audio. Eduardo Morales Vargas

Rubrica del Reporte de Calificaciones de ELAR de Pre-Kínder de 4 Años Primer Periodo de Nueve Semanas

18 / 19 enero Comprensión lectora y oral. 20 / 21 enero Expresión escrita + expresión oral. 11 / 12 abril Comprensión lectora y oral

Definición de un procedimiento de pruebas para definir la capacidad, disponibilidad y QoS de un servidor Asterisk

Fundamentos PHP. El término puntuación nos referimos a la sintaxis usada en PHP para la terminación de una línea de código (;)

LA NECESIDAD DE CREAR Y ETIQUETAR CORPUS ORALES

LICENCIATURA EN CIENCIAS DE LA COMPUTACIÓN

ANÁLISIS Y DISEÑO ORIENTADO A OBJETOS

CHINO OFICINA DE REPRESENTACIÓN EN ESPAÑA OFICINA DE REPRESENTACIÓN EN ESPAÑA ( )

Cómo sabe el cerebro si alguien está siendo irónico o habla en serio?

Fonética y Fonología españolas

Ingeniería en Software y Redes

ECTS: 112,5 horas de trabajo del alumno (año = cuatrimestre) HORAS NO PRESENCIALES /AÑO 81. Estudio Teoría /año 21

Capítulo 5. Presentación de los resultados

Guías para escuchar y entender una obra musical. Aprender a elaborar una guía de audición

Unidad 0. Recuerdo que

Guía de apoyo para los talleres de Radio de la Carrera de Comunicación Social de la Universidad Nacional de Buenos Aires. Producido por el CEPIA

Aprendemos a programar con Scratch y nos comunicamos a través de la Red Social Edmodo. *Carmen Rosa Berdugo de Vargas i

Visión global del año

CHINO OFICINA DE REPRESENTACIÓN EN ESPAÑA OFICINA DE REPRESENTACIÓN EN ESPAÑA ( )

Alemán Nivel B1 Curso III Versión Online

8/13/16. Plan para hoy. Actividad de calentamiento. La idea principal:

Plan de curso Sílabo-

Sherman ISD Rubrica del Reporte de Calificaciones de Artes de Lenguaje en Español de Pre-Kínder de 4 Años Tercer Periodo de Nueve Semanas

Rubrica del Reporte de Calificaciones de ELAR de Preescolar Cuarto Periodo de Nueve Semanas

Capitulo I. Introducción

Aprendizaje de Idiomas con Rosetta Stone

OBJETIVOS DEL TERCER BIMESTRE CUARTO DE PRIMARIA ENERO-FEBRERO CICLO ESCOLAR AREA: ESPAÑOL

LEER MAS. Lectura en Español y Estrategias con Recursos, Materiales, Apoyo y Sugerencias

Grados Equipo de enseñaza y aprendizaje Estándares de la lengua inglesa adaptados para los estudiantes. Departamento de Educación de Nebraska

Apreciación Expresión Contextualización

E-LEARNING DE TRONWELL

III Congreso de Tecnoloxías de Atención á Diversidade na Educación Galega 2013

Revisamos y publicamos nuestros acuerdos o normas de convivencia

COMERCIO ELECTRONICO. Sesión 7:Beneficios de la mercadotecnia en línea

Anexo 8.3. Programa Condensado

Anexo 8.3. Programa Condensado

Actividad Final RETOS Y DEMANDAS EDUCATIVAS DEL SIGLO XXI

Transcripción:

Conclusión El corpus que se desarrolló en este proyecto fue balanceado por un programa hecho en java, el cual compara una lista de sílabas (ver Apéndice B) con el protocolo de grabación, éste consta de frases y palabras obtenidas por medio de libros de la SEP, chistes, refranes, revistas, pensamientos, cuentos, diccionarios y páginas de internet (ver Apéndices C y D). Generando la cantidad de mil cuatrocientas oraciones efectivas para contener toda la conjugación de los sonidos. Se grabó en siete sesiones para poder tener una mejor calidad de voz, debido a que el protocolo de grabación es demasiado amplio. Se etiquetó el corpus a nivel texto, palabras y fonemas de forma manual, para tener un mejor trabajo con el sistema de selección de unidades (véase capítulo 5). Este sistema fue desarrollado por Leonardo Flores en su tesis de licenciatura de la UDLA [Flores, 2001] el cual trabaja con el corpus Fraga, y fue elaborado con documentos como, revistas, periódicos y artículos políticos. Para este trabajo se utilizó dicho sistema con el fin de reproducir el corpus Gama que se generó con palabras que no reproduce el corpus de Fraga, con el fin de mejorar la voz artificial. Para la realización de este proyecto se comenzó con la búsqueda de información sobre la comunicación, que es la base del lenguaje, de tal manera se va tomando parte del conocimiento requerido para empaparse sobre este tema. También fue necesario saber sobre los sintetizadores existentes y algunos trabajos de investigación. El protocolo de grabación se fue generando poco a poco, con el fin de abarcar todos los posibles sonidos del lenguaje español mexicano. Se buscó lograr un equilibrio 61

fonético y silábico con los documentos que integran el mismo. Véase los apéndices C y D que contienen todo el protocolo que fue grabado. La grabación fué la segunda parte y la más importante del proyecto, ya que es la materia prima de la reproducción del sonido, es necesario una voz clara del locutor y paciencia para leer los documentos, así como también equilibrar el estado de ánimo del mismo para lograr la calidad necesaria y que no exista demasiada variación en la calidad de las grabaciones. Debido a que el protocolo es demasiado largo se realizaron pruebas y se llegó a la conclusión que una persona, que no es un locutor profesional, no varía su tono de voz al leer aproximadamente doscientas cincuenta frases o grabaciones por lo que el total de grabaciones para este proyecto fueron siete, y una para los errores de pronunciación o distracción. El etiquetado fue la tercera parte más importante del proyecto debido a que se tiene que hacer minuciosamente para poder alinear los archivos de sonido (.wav) con los archivos de texto (.txt), palabra (.wrd) y fonema (.phn). De esta manera, el sintetizador por concatenación ejecuta la voz clara y uniforme por medio del método de Unit Selection. El sistema de unit selection realizado en el año 2001 se utilizó con el fin de poder comparar el corpus Fraga, con el corpus Gama realizado en éste trabajo, logrando mejoras que se mencionan a continuación: Las pruebas del sintetizador demuestran mejoras en la voz, como la claridad del timbre y mayor volumen en comparación con el corpus Fraga. Esto es debido a 62

que este corpus esta diseñado para cualquiera de los contextos fonéticos del español. Fue creado grabando documentos de revistas y periódicos sobre finanzas y política, por lo que no concatena lo que un niño puede entender. El corpus Gama permite reproducir palabras que el corpus Fraga no puede, por ejemplo palabras en diminutivo o algunas pronunciaciones que solo se utilizan en el lenguaje español hablado en México. Otra de las mejoras y la más importante de todas, que ahora se cuenta con dos corpus, uno con voz de hombre y otro con voz de mujer, ambos grabados con el mismo protocolo que contiene una amplia gama de palabras y sonidos los cuales se pueden utilizar con fines generales para el uso de cualquier proyecto que se deseé con una voz artificial. 63

Alguna de las diferencias significativas entre el corpus Gama y el corpus Fraga son: Gama Dos voces, femenino y Fraga Una voz masculina masculino. Tonalidad alta en la reproducción de voz. 1400 grabaciones en archivos.wav, con las caracteristicas de 256 kbps y 16 khz Amplia gama de grabaciones con sonidos utilizados en México con palabras como Tzintzuntzan, xocohiztli, etc Tonalidad media en la reproducción de voz. 800 grabaciones en archivos.wav, con las caracteristicas de 128 kbps y 8 khz Grabaciones de sonidos para adultos omitiendo sonidos para niños y mexicanismos como Agravios, Progresistas, Corpus con fines generales Corpus con fines específicos etc. Para este trabajo se tuvieron las siguientes limitantes:. 1. Costos altos para contratar un locutor profesional y una cabina de grabación. 2. Falta de disponibilidad de tiempo de los locutores para hacer las grabaciones. 64

3. Falta de tiempo para lograr la etiquetación completa de los dos locutores. Con este trabajo se logra un avance más para el estudio de la voz artificial en el área del lenguaje español hablado en México. Gracias a esta investigación se pueden realizar otros trabajos a futuro para mejorar la voz: Realizar la etiquetación del corpus Gama con un grupo de trabajo, para lograr una mejor calidad en su alineación de las fronteras y así tener el corpus en su totalidad. La búsqueda de otro algoritmo de concatenación de unidades para lograr una mejor y clara pronunciación del locutor y quitarle la robotización a la voz que pueda generar. Mejorar el tiempo de respuesta del sintetizador a lo que el usuario desea reproducir en texto a voz. Generar interfases para trabajar con la lectura de mail. Conmutadores y páginas electrónicas en servicio telefónico como cine, teatro, eventos artísticos y deportivos, etc. En el área académica, involucrar a personas en temas interesantes y culturales por medio del habla. La lectura y escritura en zonas rurales como apoyo a los profesores para comenzar con una cultura tecnológica, ya que en la actualidad todos tenemos derecho a conocerla. Sistemas para personas invidentes que les permitan interactuar mediante la tecnología utilizando el lenguaje braile. Lo más importante es que una persona con una discapacidad podrá hacer uso de las tecnologías 65

computacionales en cualquier lugar usando una computadora común y corriente. En la actualidad ya existen programas para personas invidentes pero tienen un costo alto y no todas las personas con esta discapacidad son capaces de tener el conocimiento, ni la facilidad para poder adquirir un sistema de esta índole, por lo cual, es necesario trabajar un poco para la sociedad y no quitarle a las personas de bajos recursos la facilidad de poder crecer con todo el conocimiento y la tecnología que día con día avanza. El presente trabajo logra grandes avances en el campo tecnológico de la voz artificial. Esto desboca una explosión de problemas los cuales pueden ser de utilidad para la sociedad ya que se considera su fin el desarrollo de tecnologías. 66