1. INTRODUCCIÓN 1.1 LAS TECNOLOGÍAS DEL HABLA EN LAS APLICACIONES TELEFÓNICAS

1. INTRODUCCIÓN 1.1 LAS TECNOLOGÍAS DEL HABLA EN LAS APLICACIONES TELEFÓNICAS Durante los últimos años, las tecnologías del habla han experimentado un gran desarrollo. Los sistemas basados en ellas se comunican con el usuario a través de mensajes orales. Respecto a la forma tradicional (vía monitor y teclado) presentan las siguientes ventajas e inconvenientes: Ventajas : Se utilizan nuevas formas de obtención de información y de interacción con las máquinas, a través del micrófono o del teléfono, creando servicios de gran valor añadido. Proporcionan una forma sencilla y natural de operar con estos sistemas. Son muy útiles a personas con algún tipo de discapacidad física, proporcionando una forma sencilla de operar con los equipos de telecomunicaciones. Inconvenientes : La información se proporciona secuencialmente y en un orden preestablecido, resultando poco flexible. La información se presenta durante un tiempo limitado al usuario, mientras se emite el mensaje solicitándole una respuesta. Los silencios serán muy importantes para establecer los turnos de comunicación, y se debe proporcionar el tiempo necesario al usuario para que este pueda reaccionar. Si el sistema dispone de cancelación de eco, el diálogo resultará más ágil, pues el usuario puede responder antes de que finalicen los mensajes que el sistema le envía. El usuario sólo suele poder responder utilizando un conjunto limitado de palabras, puesto que los sistemas más comunes sólo son capaces de reconocer un conjunto reducido de palabras aisladas, aunque es de esperar que, dado el gran desarrollo, interés y aceptación que están teniendo estos sistemas, los inconvenientes actuales puedan ser superados en un corto plazo de tiempo. De hecho, algunos sistemas ya son capaces de reconocer habla continua. Pág. 1-1

Aunque existen muchos campos potenciales de aplicación de estas tecnologías, uno de los más interesantes es el de las aplicaciones telefónicas en entornos públicos. Ejemplos pueden ser las de tipo audiotex, reencaminamiento de llamadas telefónicas, acceso a bases de datos remotas, buzones de mensajes vocales, etc. Las tecnologías del habla aplicadas en estos sistemas pueden agruparse funcionalmente en tres grandes grupos: reproducción/grabación de voz, conversión texto-habla y reconocimiento de habla. Aunque todas comparten una serie de principios comunes, cada una de ellas representa un aspecto diferente de la aplicación que las utilice, y su implementación ofrece varias alternativas de diseño. 1.1.1 Reproducción/grabación de voz Respecto a la reproducción, el objetivo es que el sistema genere mensajes orales a partir de señales de voz digitalizadas a través de un proceso de codificación que permite almacenarlas, con o sin compresión. Estos mensajes pueden ser procesados posteriormente, para finalmente ser reproducidos completa o parcialmente al usuario. La grabación es el proceso complementario a la reproducción. Consiste en almacenar en formato digital el mensaje que el usuario proporciona durante un determinado tiempo. A través de este método, el usuario puede mandar información al sistema para que éste la almacene sin procesarla. Es un método adecuado cuando el destinatario final del mensaje es otro usuario del sistema, como en el caso de un sistema de mensajería telefónica. En ambos casos, los métodos de codificación más habituales son: PCM, VOCODER (método paramétrico) o los sistemas adaptativos (ADPCM, CELP, MLPE, etc.) que utilizan distintos tipos de codificadores fijos según la amplitud de la señal de voz de entrada, dependiendo de la calidad que se quiera obtener, la capacidad de almacenamiento disponible, etc. El sistema que proporciona mayor calidad con una complejidad mínima es el PCM, que consiste en muestrear la señal de voz a la frecuencia de Nyquist (para señal telefónica, 8 Khz) y cuantificar las muestras a 11 bits/muestra (cuantificación uniforme) o 8 bits/muestra (cuantificación logarítmica). Como desventaja, es el que más capacidad de almacenamiento demanda. El sistema aquí descrito utiliza para el manejo de mensajes pregrabados un sistema de codificación PCM lineal de 16 bits/muestra, aunque los 4 bits menos significativos son ignorados por el cuantificador para reducir el ruido de fondo durante los silencios, quedándose realmente con 12 bits/muestra. Pág. 1-2

1.1.2 Conversión texto-habla Su objetivo es sintetizar voz a partir de un texto. Resulta imprescindible en aplicaciones en las que no se puede determinar a priori la información que deberá ser reproducida, como es el caso del acceso a bases de datos, pues no compensa preparar todos los ficheros pregrabados que se necesitarían. El habla generada debe ser muy inteligible y tener una entonación natural. Las etapas que se siguen para realizar la conversión texto-habla son las siguientes: Procesado lingüístico: realiza un preprocesado del texto de entrada y una categorización gramatical para establecer las pausas y tratar las abreviaturas, siglas, fechas, etc. También obtiene el conjunto de sonidos que se debe generar. Procesado prosódico: obtiene las variaciones que hay que realizar en la prosodia: duración, energía y frecuencia fundamental de cada fonema. Síntesis de sonidos: se genera la señal de voz a partir de los sonidos que el procesado prosódico indica. Ambos procesados son fundamentales para lograr una conversión de calidad. Si el procesado lingüístico no es el adecuado, no será capaz de interpretar abreviaturas, fechas, números romanos y cantidades numéricas. Por su parte, el procesado prosódico debe ser capaz de controlar la acentuación y descomposición silábica de las palabras debido a que en la lengua castellana estos dos aspectos son muy importantes, pues una misma palabra puede tener distintos significados dependiendo del acento o énfasis, teniendo en cuenta que hay muchas sílabas sin acento ortográfico pero con acento prosódico. Respecto a los sintetizadores, hay dos grupos dependiendo de cómo se realice la síntesis de los sonidos: Sintetizadores paramétricos: cada sonido se caracteriza por una serie de parámetros, entre los que se incluyen los relativos a la prosodia. Sintetizadores no paramétricos: el mensaje se genera concatenando unidades pregrabadas que serán posteriormente modificadas para incluir la información prosódica. El que utiliza nuestro sistema pertenece a este grupo. Con ellos se obtiene una buena calidad, aunque nunca comparable a la que se obtiene a partir de mensajes pregrabados. Pág. 1-3

1.1.3 Reconocimiento del habla Se pueden distinguir dos casos: Reconocimiento del habla: se trata de averiguar lo que se dice. Reconocimiento del locutor: en este caso se trata de averiguar quién es el que habla. En un sistema para el desarrollo de aplicaciones telefónicas, lo que generalmente se pretende es que el usuario pueda tanto proporcionar como obtener cierta información, por lo que se tendrá que realizar un reconocimiento del habla. Los sistemas de reconocimiento del habla admiten varios criterios de clasificación: según el tamaño del vocabulario que manejen, la dependencia del sistema respecto del locutor, o la velocidad con la que se permite al locutor introducir datos en el sistema. Según el tamaño del vocabulario manejado, podemos distinguir: Reconocedores de pequeño vocabulario: aquellos capaces de reconocer hasta 100 palabras. Reconocedores de gran vocabulario: aquellos con un vocabulario superior a 5000 palabras. Según la dependencia del sistema respecto del locutor: Reconocedores independientes del locutor: son capaces de reconocer lo que dice cualquier persona que hable cierto idioma. No necesitan reentrenamiento. Reconocedores dependientes del locutor: son sistemas entrenados para reconocer el habla de una única persona. Consiguen tasas de error inferiores a los anteriores. Por último, se distinguen varios tipos de reconocimiento, según la velocidad con la que se permite al locutor hablar al sistema: Reconocedores de palabras aisladas: sólo reconocen pequeños conjuntos de palabras, que deben estar suficientemente separadas entre ellas por pausas (de 200 milisegundos, aproximadamente). Reconocedores de palabras conectadas: reconocen un conjunto de palabras que puede pronunciarse de forma continua. Se suelen usar para reconocer cadenas de dígitos. Presentan muchas restricciones. Reconocedores de habla continua: son sistemas con un vocabulario mucho mayor que en los casos anteriores. Suelen permitir velocidades en torno a las 150 palabras, aunque tienen mayores tasas de error. Nuestro sistema utiliza un reconocedor de palabras aisladas independientes del locutor cuyo vocabulario consiste en los dígitos (del 0 al 9) y las palabras si, no, ayuda y cancelar y se basa en los modelos ocultos de Markov. Pág. 1-4

1.2 LAS APLICACIONES TELEFÓNICAS Constituyen un importante campo de aplicación de las tecnologías del habla. Estas aplicaciones aprovechan todas sus posibilidades para ofrecer nuevas formas de obtención de la información y de interacción con el usuario a través del teléfono. Debido a las limitaciones comentadas en el apartado anterior, las aplicaciones telefónicas han de desarrollarse teniendo en cuenta ciertos aspectos ergonómicos, entre los que destacan: El sistema debe resultar agradable. Se tendrá especial cuidado en el tono y contenido de los mensajes, en minimizar las esperas y en evitar decirle que ha cometido un error. Si un mensaje ha de aparecer varias veces a lo largo de una aplicación puede resultar repetitivo, por lo que sería conveniente que un mismo mensaje pudiera decirse de varias formas. La aplicación ha de diseñarse de forma que proporcione toda la información necesaria a un usuario inexperto, pero permitiendo a la vez que usuarios avanzados puedan interrumpir los mensajes respondiendo anticipadamente al sistema. También puede ser útil la existencia de atajos, bien para dar más agilidad a la aplicación, o para acceder a ciertas posibilidades que sólo conocen algunos usuarios privilegiados del sistema. Es conveniente repetir un mensaje cuando el usuario no responde al mismo después de cierto tiempo. Para evitar confundir al usuario suele ser útil crear respuestas estándar durante toda la aplicación, como puede ser la petición de ayuda, ir al menú principal, etc. Si se utilizan menús, éstos deben tener pocas opciones, a fin de que el usuario sea capaz de recordar las opciones de que dispone. Es recomendable que en estos mensajes se mencione primero la función que realiza cada opción antes que la respuesta asociada. Respecto a la entrada de datos, debe indicarse claramente al usuario cuándo debe responder al sistema, bien con mensajes significativos o mediante tonos suaves. Además, se debe pedir confirmación al usuario sobre datos que haya introducido y que sean importantes. Cuando el usuario introduce una cadena de dígitos, es conveniente que ésta pueda ser verificada y corregida. Pág. 1-5

1.3 JUSTIFICACIÓN DEL PROYECTO Como resultado de varios proyectos fin de carrera, el Grupo de Tecnologías del Habla (GTH), perteneciente al Departamento de Ingeniería Electrónica (IEL) de la Escuela Técnica Superior de Ingenieros de Telecomunicación (ETSIT), disponía de un generador de aplicaciones telefónicas que, mediante un lenguaje de programación de alto nivel, permitía la creación de este tipo de aplicaciones. Dado que este generador era monolínea, el objetivo de lograr un sistema multilínea era un paso natural, y es el objetivo de este proyecto, lo cual supone cierta ruptura con el sistema anterior, pues ha obligado a rediseñar el lenguaje y la arquitectura del sistema. En efecto, el objetivo principal de este proyecto es realizar las modificaciones necesarias para convertir un sistema telefónico monolínea en un sistema capaz de atender simultáneamente varias líneas telefónicas (multilínea). El sistema consta de un módulo compilador de aplicaciones y su correspondiente intérprete. Dichas modificaciones incluyen: La adaptación de las funciones necesarias, entre las que se incluyen las de reproducción, grabación, síntesis, reconocimiento, así como las referentes al manejo de la interfaz telefónica. El acceso a bases de datos locales (vía IDAPI y ODBC). El acceso a una base de datos remota (Host IBM). Envío y recepción de correo electrónico. Desarrollo de un nuevo entorno de desarrollo. Todo lo anterior se desarrollará para entorno Windows. Pág. 1-6

1. INTRODUCCIÓN 1-1 1.1 LAS TECNOLOGíAS DEL HABLA en las aplicaciones telefónicas 1-1 1.1.1 Reproducción/grabación de voz 1-2 1.1.2 Conversión texto-habla 1-3 1.1.3 Reconocimiento del habla 1-4 1.2 LAS APLICACIONES TELEFóNICAS 1-5 1.3 JUSTIFICACIóN DEL PROYECTO 1-6 Pág. 1-7