1. INTRODUCCIÓN 1.1 LAS TECNOLOGÍAS DEL HABLA EN LAS APLICACIONES TELEFÓNICAS

Documentos relacionados
3. ESTRUCTURA DE UN CONVERSOR TEXTO-VOZ

CAPÍTULO 2. RECONOCIMIENTO DE VOZ y VXML. Como lo menciona H. Meza (1999) en su tesis: El habla constituye un canal de

Reconocimiento y Síntesis de voz. Escrito por Cristina Villoria Martes, 31 de Marzo de :11

5. FUNCIONALIDAD DE VOZ: REPRODUCCIÓN, GRABACIÓN, SÍNTESIS Y RECONOCIMIENTO

Procesamiento del Audio. Eduardo Morales Vargas

2. SÍNTESIS DE VOZ Y SEGMENTACIÓN AUTOMÁTICA DE UNIDADES

ÍNDICE GENERAL. INFORMACIÓN DEL PROYECTO Sobre el Proyecto Sobre el Tribunal Resumen...2 AGRADECIMIENTOS...3 ÍNDICE...

TEMA 4: CODIFICACIÓN DE LA VOZ.

Configuraciones de PBX analógicas y digitales

CEDEHP Profesor: Agustín Solís M. Instalación, Operación y programación de equipos y sistemas telefónicos

4. FILOSOFÍA Y HERRAMIENTAS DE TRABAJO

TEMA 2: MOCULACION PCM. Dado un sistema PCM de 24 canales vocales telefónicos, como el indicado en la figura 6.1, se pide:

Guía para el desarrollo de las actividades de TELL ME MORE

ANEXO B PUNTOS TAREA

Capítulo 4. SAPI. 4.1 Qué es Microsoft Speech Application Program Interface (SAPI)?

PCM MODULACION ANALOGA CON PORTADORA DIGITAL

Capítulo 2: Sistemas de síntesis de voz.

Reconocimiento Automático de Voz

Orientación al usuario: Usabilidad de servicios

PROCESAMIENTO DISTRIBUIDO

Movilidad con CORTANA. Solicitud de información, Asistente personal 24x7, Introducción de información

T E S I S UNIVERSIDAD NACIONAL AUTÓNOMA DE MEXICO FACULTAD DE INGENIERIA

CRITERIOS DE CALIFICACIÓN DE PRIMER CURSO DE NIVEL AVANZADO

Codificación de audio MPEG. Álvaro Pardo

Tema 1: Introducción a los Sistemas Operativos

CONTROLADOR MIDI PARA GUITARRA ELECTRICA

Técnicas de Programación

3 SISTEMAS DE PROCESAMIENTO DIGITAL DE SEÑALES. ha desarrollado durante los últimos 30 años gracias a los avances tecnológicos de

Capítulo III. Corpus de voz. 3.1 Corpus de dígitos

Podemos distinguir dos técnicas fundamentales. Ambas se utilizan en estándar MPEG-2.

Guía de estudio para informática

Interfaces conversacionales

UIT-T Q.24 SECTOR DE NORMALIZACIÓN DE LAS TELECOMUNICACIONES DE LA UIT

CRITERIOS DE EVALUACIÓN. Se considerará que un alumno ha adquirido las competencias propias de este nivel cuando sea capaz de:

UIT-T V.19 SECTOR DE NORMALIZACIÓN DE LAS TELECOMUNICACIONES DE LA UIT

P1 y P2 Modulador Bloque con modulacion ASK/FSK

Introducción a los fundamentos tecnológicos de la producción digital II

Materiales en la web http//liceu.uab.es/ ~joaquim/teaching/ Phonetics/Oviedo_03/ Oviedo_03.html

de un disco duro. 3/4 Contenido de un CD ROM.

Cómo sabe el cerebro si alguien está siendo irónico o habla en serio?

Es un conjunto de palabras y símbolos que permiten al usuario generar comandos e instrucciones para que la computadora los ejecute.

4.- CARACTERÍSTICAS Y FUNCIONAMIENTO DE JIMI

8. ANÁLISIS Y SÍNTESIS DE SONIDOS DE PIANO

TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS

REQUISITOS PARA CENTROS DE EXAMEN

TEMA V SISTEMAS DE NUMERACIÓN

GRABADOR DIGITAL WI-FI RONI

Saber hablar. Instituto Cervantes AGUI LAR

VoiXtreme by LogiMob Servicios Profesionales Logísticos

Curso Práctico de Francés para Recepcionistas de Hotel

Velocidades Típicas de transferencia en Dispositivos I/O

Ingeniería de Software II

INGENIERIA DE SOFTWARE

REPÚBLICA BOLIVARIANA DE VENEZUELA MINISTERIO DEL PODER POPULAR PARA LA DEFENSA UNIVERSIDAD NACIONAL EXPERIMENTAL

Aprendizajes para la programación y evaluación de competencias básicas. 2. Tablas de los aprendizajes de Primaria

COM - Computadores

COMIDA RÁPIDA SIWPAS. Sistema de Información vía Web para la Promoción y Administración de Servicios Visión. Versión 1.0

Introducción a la Computación. Capítulo 7 Entrada/Salida

Capitulo IV Diseño del Sistema. 4.1 Creación del sistema Método Utilizado. 4.2 Instalación de Java 2.

Análisis de Rasgos Prosódicos en el Español Rioplatense y su Aplicación en el Reconocimiento del Habla

Ejercicio 1: Windows En este primer ejercicio primero vamos a ver que es el Sistema Operativo Windows, qué es un Sistema Operativo y para que sirve.

Tipo Optativa Impartición Cuatrimestral Créditos ETCS 3,75 Curso 5.º Código 42604

Dispositivos VoIP. Telefonía

CRITERIOS DE EVALUACION en EDUCACION PRIMARIA TABLA COMPARATIVA por CICLOS (RD 1513/2006)

DESCRIPCIÓN DE LAS PRUEBAS DELE A2 Y CCSE. ADMINISTRACIÓN DE LAS PRUEBAS EN CONDICIONES ESPECIALES

Interfaz interfaz textual gráficos

TALLER DE ENTONACIÓN EMMA RODERO EN LA ENTONACIÓN ESTÁ TU ALMA DE LOCUTOR

Proyecto IntegraTV for all Televisión interactiva para todos. Luigi Ceccaroni, Xavier Verdaguer 8 de junio de 2005

Desde los programas más simples escritos en un lenguaje de programación suelen realizar tres tareas en forma secuencial.

MULTIPLEX TELEFÓNICO CON SISTEMA PCM

UIT-T I.230 SECTOR DE NORMALIZACIÓN DE LAS TELECOMUNICACIONES DE LA UIT

CLASIFICACIÓN DE LAS COMPUTADORAS ACTUALES

I.E.S. ESCORIAL. PROGRAMACIÓN GENERAL DEL AULA DE AUDICIÓN Y LENGUAJE. CURSO

Fonética y Fonología españolas

Ing. Elizabeth Guerrero V.

LENGUA. MATEMÁTICAS OBJETIVOS 1º DE PRIMARIA. OBJETIVOS Y CRITERIOS DE EVALUACIÓN CEIP SAN LUCAS 1

Rango dinámico - En el mundo digital

Proyecto de IS3. Tercera iteración. Documento de modelo funcional

Criterio A: Comprensión de textos orales y visuales

Arquitectura de Computadoras 2011

REQUISITOS PARA CENTROS DE EXAMEN

Guía del usuario del teléfono IP Audio Conference BCM Business Communications Manager

En capítulos anteriores se ha descrito el procedimiento llevado acabo para el

Modularización. Bibliografía

Tipos de Modulación. PCM Convencional

Aplicaciones del Tratamiento de Señales. Parte 1: Grabación y Reproducción de Señales de Voz

QUE ES LA TARJETA DE SONIDO?

Sistemas Informáticos Industriales

Fundamentos de producción y tratamiento de audio mediante com

Capítulo 1: Conceptos básicos de informática

Arquitectura de Redes, Sistemas y Servicio (04/05) Ingeniería Técnica de Telecomunicación Telemática. ETSIT Telecomunicación Universidad de Valladolid

PROGRAMA DE ESTIMULACIÓN LINGÜÍSTICA EDUCACIÓN INFANTIL

Vídeo Digital Examen de Junio de 2003

CURSO SCI CHINO HSK 2.1

LENGUA, LENGUAJE HABLA, NORMA Y VARIEDADES LÉXICAS

Computación Avanzada. Ing. Daniel Capriles M.

Participación en programas nacionales y europeos enfocados a empresas del área de las Tecnologías Lingüísticas. Programas nacionales

La Modulación. Ing. Carlos Eduardo Molina C.

ASÍ FUNCIONA LA CONVERSIÓN ANALÓGICO- DIGITAL DIGITALIZACIÓN DE LA SEÑAL ANALÓGICA

Sintetizadores y Corpus de voz

Transcripción:

1. INTRODUCCIÓN 1.1 LAS TECNOLOGÍAS DEL HABLA EN LAS APLICACIONES TELEFÓNICAS Durante los últimos años, las tecnologías del habla han experimentado un gran desarrollo. Los sistemas basados en ellas se comunican con el usuario a través de mensajes orales. Respecto a la forma tradicional (vía monitor y teclado) presentan las siguientes ventajas e inconvenientes: Ventajas : Se utilizan nuevas formas de obtención de información y de interacción con las máquinas, a través del micrófono o del teléfono, creando servicios de gran valor añadido. Proporcionan una forma sencilla y natural de operar con estos sistemas. Son muy útiles a personas con algún tipo de discapacidad física, proporcionando una forma sencilla de operar con los equipos de telecomunicaciones. Inconvenientes : La información se proporciona secuencialmente y en un orden preestablecido, resultando poco flexible. La información se presenta durante un tiempo limitado al usuario, mientras se emite el mensaje solicitándole una respuesta. Los silencios serán muy importantes para establecer los turnos de comunicación, y se debe proporcionar el tiempo necesario al usuario para que este pueda reaccionar. Si el sistema dispone de cancelación de eco, el diálogo resultará más ágil, pues el usuario puede responder antes de que finalicen los mensajes que el sistema le envía. El usuario sólo suele poder responder utilizando un conjunto limitado de palabras, puesto que los sistemas más comunes sólo son capaces de reconocer un conjunto reducido de palabras aisladas, aunque es de esperar que, dado el gran desarrollo, interés y aceptación que están teniendo estos sistemas, los inconvenientes actuales puedan ser superados en un corto plazo de tiempo. De hecho, algunos sistemas ya son capaces de reconocer habla continua. Pág. 1-1

Aunque existen muchos campos potenciales de aplicación de estas tecnologías, uno de los más interesantes es el de las aplicaciones telefónicas en entornos públicos. Ejemplos pueden ser las de tipo audiotex, reencaminamiento de llamadas telefónicas, acceso a bases de datos remotas, buzones de mensajes vocales, etc. Las tecnologías del habla aplicadas en estos sistemas pueden agruparse funcionalmente en tres grandes grupos: reproducción/grabación de voz, conversión texto-habla y reconocimiento de habla. Aunque todas comparten una serie de principios comunes, cada una de ellas representa un aspecto diferente de la aplicación que las utilice, y su implementación ofrece varias alternativas de diseño. 1.1.1 Reproducción/grabación de voz Respecto a la reproducción, el objetivo es que el sistema genere mensajes orales a partir de señales de voz digitalizadas a través de un proceso de codificación que permite almacenarlas, con o sin compresión. Estos mensajes pueden ser procesados posteriormente, para finalmente ser reproducidos completa o parcialmente al usuario. La grabación es el proceso complementario a la reproducción. Consiste en almacenar en formato digital el mensaje que el usuario proporciona durante un determinado tiempo. A través de este método, el usuario puede mandar información al sistema para que éste la almacene sin procesarla. Es un método adecuado cuando el destinatario final del mensaje es otro usuario del sistema, como en el caso de un sistema de mensajería telefónica. En ambos casos, los métodos de codificación más habituales son: PCM, VOCODER (método paramétrico) o los sistemas adaptativos (ADPCM, CELP, MLPE, etc.) que utilizan distintos tipos de codificadores fijos según la amplitud de la señal de voz de entrada, dependiendo de la calidad que se quiera obtener, la capacidad de almacenamiento disponible, etc. El sistema que proporciona mayor calidad con una complejidad mínima es el PCM, que consiste en muestrear la señal de voz a la frecuencia de Nyquist (para señal telefónica, 8 Khz) y cuantificar las muestras a 11 bits/muestra (cuantificación uniforme) o 8 bits/muestra (cuantificación logarítmica). Como desventaja, es el que más capacidad de almacenamiento demanda. El sistema aquí descrito utiliza para el manejo de mensajes pregrabados un sistema de codificación PCM lineal de 16 bits/muestra, aunque los 4 bits menos significativos son ignorados por el cuantificador para reducir el ruido de fondo durante los silencios, quedándose realmente con 12 bits/muestra. Pág. 1-2

1.1.2 Conversión texto-habla Su objetivo es sintetizar voz a partir de un texto. Resulta imprescindible en aplicaciones en las que no se puede determinar a priori la información que deberá ser reproducida, como es el caso del acceso a bases de datos, pues no compensa preparar todos los ficheros pregrabados que se necesitarían. El habla generada debe ser muy inteligible y tener una entonación natural. Las etapas que se siguen para realizar la conversión texto-habla son las siguientes: Procesado lingüístico: realiza un preprocesado del texto de entrada y una categorización gramatical para establecer las pausas y tratar las abreviaturas, siglas, fechas, etc. También obtiene el conjunto de sonidos que se debe generar. Procesado prosódico: obtiene las variaciones que hay que realizar en la prosodia: duración, energía y frecuencia fundamental de cada fonema. Síntesis de sonidos: se genera la señal de voz a partir de los sonidos que el procesado prosódico indica. Ambos procesados son fundamentales para lograr una conversión de calidad. Si el procesado lingüístico no es el adecuado, no será capaz de interpretar abreviaturas, fechas, números romanos y cantidades numéricas. Por su parte, el procesado prosódico debe ser capaz de controlar la acentuación y descomposición silábica de las palabras debido a que en la lengua castellana estos dos aspectos son muy importantes, pues una misma palabra puede tener distintos significados dependiendo del acento o énfasis, teniendo en cuenta que hay muchas sílabas sin acento ortográfico pero con acento prosódico. Respecto a los sintetizadores, hay dos grupos dependiendo de cómo se realice la síntesis de los sonidos: Sintetizadores paramétricos: cada sonido se caracteriza por una serie de parámetros, entre los que se incluyen los relativos a la prosodia. Sintetizadores no paramétricos: el mensaje se genera concatenando unidades pregrabadas que serán posteriormente modificadas para incluir la información prosódica. El que utiliza nuestro sistema pertenece a este grupo. Con ellos se obtiene una buena calidad, aunque nunca comparable a la que se obtiene a partir de mensajes pregrabados. Pág. 1-3

1.1.3 Reconocimiento del habla Se pueden distinguir dos casos: Reconocimiento del habla: se trata de averiguar lo que se dice. Reconocimiento del locutor: en este caso se trata de averiguar quién es el que habla. En un sistema para el desarrollo de aplicaciones telefónicas, lo que generalmente se pretende es que el usuario pueda tanto proporcionar como obtener cierta información, por lo que se tendrá que realizar un reconocimiento del habla. Los sistemas de reconocimiento del habla admiten varios criterios de clasificación: según el tamaño del vocabulario que manejen, la dependencia del sistema respecto del locutor, o la velocidad con la que se permite al locutor introducir datos en el sistema. Según el tamaño del vocabulario manejado, podemos distinguir: Reconocedores de pequeño vocabulario: aquellos capaces de reconocer hasta 100 palabras. Reconocedores de gran vocabulario: aquellos con un vocabulario superior a 5000 palabras. Según la dependencia del sistema respecto del locutor: Reconocedores independientes del locutor: son capaces de reconocer lo que dice cualquier persona que hable cierto idioma. No necesitan reentrenamiento. Reconocedores dependientes del locutor: son sistemas entrenados para reconocer el habla de una única persona. Consiguen tasas de error inferiores a los anteriores. Por último, se distinguen varios tipos de reconocimiento, según la velocidad con la que se permite al locutor hablar al sistema: Reconocedores de palabras aisladas: sólo reconocen pequeños conjuntos de palabras, que deben estar suficientemente separadas entre ellas por pausas (de 200 milisegundos, aproximadamente). Reconocedores de palabras conectadas: reconocen un conjunto de palabras que puede pronunciarse de forma continua. Se suelen usar para reconocer cadenas de dígitos. Presentan muchas restricciones. Reconocedores de habla continua: son sistemas con un vocabulario mucho mayor que en los casos anteriores. Suelen permitir velocidades en torno a las 150 palabras, aunque tienen mayores tasas de error. Nuestro sistema utiliza un reconocedor de palabras aisladas independientes del locutor cuyo vocabulario consiste en los dígitos (del 0 al 9) y las palabras si, no, ayuda y cancelar y se basa en los modelos ocultos de Markov. Pág. 1-4

1.2 LAS APLICACIONES TELEFÓNICAS Constituyen un importante campo de aplicación de las tecnologías del habla. Estas aplicaciones aprovechan todas sus posibilidades para ofrecer nuevas formas de obtención de la información y de interacción con el usuario a través del teléfono. Debido a las limitaciones comentadas en el apartado anterior, las aplicaciones telefónicas han de desarrollarse teniendo en cuenta ciertos aspectos ergonómicos, entre los que destacan: El sistema debe resultar agradable. Se tendrá especial cuidado en el tono y contenido de los mensajes, en minimizar las esperas y en evitar decirle que ha cometido un error. Si un mensaje ha de aparecer varias veces a lo largo de una aplicación puede resultar repetitivo, por lo que sería conveniente que un mismo mensaje pudiera decirse de varias formas. La aplicación ha de diseñarse de forma que proporcione toda la información necesaria a un usuario inexperto, pero permitiendo a la vez que usuarios avanzados puedan interrumpir los mensajes respondiendo anticipadamente al sistema. También puede ser útil la existencia de atajos, bien para dar más agilidad a la aplicación, o para acceder a ciertas posibilidades que sólo conocen algunos usuarios privilegiados del sistema. Es conveniente repetir un mensaje cuando el usuario no responde al mismo después de cierto tiempo. Para evitar confundir al usuario suele ser útil crear respuestas estándar durante toda la aplicación, como puede ser la petición de ayuda, ir al menú principal, etc. Si se utilizan menús, éstos deben tener pocas opciones, a fin de que el usuario sea capaz de recordar las opciones de que dispone. Es recomendable que en estos mensajes se mencione primero la función que realiza cada opción antes que la respuesta asociada. Respecto a la entrada de datos, debe indicarse claramente al usuario cuándo debe responder al sistema, bien con mensajes significativos o mediante tonos suaves. Además, se debe pedir confirmación al usuario sobre datos que haya introducido y que sean importantes. Cuando el usuario introduce una cadena de dígitos, es conveniente que ésta pueda ser verificada y corregida. Pág. 1-5

1.3 JUSTIFICACIÓN DEL PROYECTO Como resultado de varios proyectos fin de carrera, el Grupo de Tecnologías del Habla (GTH), perteneciente al Departamento de Ingeniería Electrónica (IEL) de la Escuela Técnica Superior de Ingenieros de Telecomunicación (ETSIT), disponía de un generador de aplicaciones telefónicas que, mediante un lenguaje de programación de alto nivel, permitía la creación de este tipo de aplicaciones. Dado que este generador era monolínea, el objetivo de lograr un sistema multilínea era un paso natural, y es el objetivo de este proyecto, lo cual supone cierta ruptura con el sistema anterior, pues ha obligado a rediseñar el lenguaje y la arquitectura del sistema. En efecto, el objetivo principal de este proyecto es realizar las modificaciones necesarias para convertir un sistema telefónico monolínea en un sistema capaz de atender simultáneamente varias líneas telefónicas (multilínea). El sistema consta de un módulo compilador de aplicaciones y su correspondiente intérprete. Dichas modificaciones incluyen: La adaptación de las funciones necesarias, entre las que se incluyen las de reproducción, grabación, síntesis, reconocimiento, así como las referentes al manejo de la interfaz telefónica. El acceso a bases de datos locales (vía IDAPI y ODBC). El acceso a una base de datos remota (Host IBM). Envío y recepción de correo electrónico. Desarrollo de un nuevo entorno de desarrollo. Todo lo anterior se desarrollará para entorno Windows. Pág. 1-6

1. INTRODUCCIÓN 1-1 1.1 LAS TECNOLOGíAS DEL HABLA en las aplicaciones telefónicas 1-1 1.1.1 Reproducción/grabación de voz 1-2 1.1.2 Conversión texto-habla 1-3 1.1.3 Reconocimiento del habla 1-4 1.2 LAS APLICACIONES TELEFóNICAS 1-5 1.3 JUSTIFICACIóN DEL PROYECTO 1-6 Pág. 1-7