Estudio de la transmisión de emociones mediante voz sintética por vía telefónica

Estudio de la transmisión de emociones mediante voz sintética por vía telefónica Nestor Garay, Inmaculada Fajardo, Juan Miguel López, Idoia Cearreta Laboratorio de Interacción Persona-Computador para Necesidades Especiales Facultad de Informática. Universidad del País Vasco Manuel Lardizabal 1; E-0018 Donostia E-mail: [nestor, acbfabri, acblogij]@si.ehu.es, icearreta001@ikasle.ehu.es Teléfono: +34 943018000; Fax: +34 943015590 Resumen Los dispositivos de comunicación alternativa son muy útiles para personas carentes de la capacidad del habla, debido a diversas discapacidades motoras y/o orales, pero, a menudo, resultan ser lentos y carentes de expresión emocional. A pesar de los avances en aspectos tales como la velocidad de comunicación (e.g. mediante la anticipación de palabras), el problema de la falta de expresión emocional de estos dispositivos no está hoy en día tan bien analizado. La aparición de la computación emocional abre una puerta a la inclusión de información de contexto para reflejar emociones, estados de ánimo y actitudes en las ayudas a la comunicación. Una de las áreas de comunicación potencialmente más problemática es el uso de voz sintética emocional a través del teléfono. En este documento presentamos los resultados de un experimento en el que verificamos empíricamente que la expresión de voz sintética emocional a través de la línea telefónica no deviene en una pérdida significativa de la percepción de las emociones que se pretenden transmitir. Palabras clave: Computación emocional, Dispositivos de interacción, Interacción para personas con necesidades especiales, Interacción persona-ordenador-persona. 1. Introducción Se ha apreciado que las personas con severas discapacidades motoras y del habla (esto incluye a usuarios afectados por un variado espectro de discapacidades, con diferentes orígenes y niveles de afectación: parálisis cerebral, apraxia, esclerosis múltiple y esclerosis lateral amiotrófica, afasia, etc. [1]) necesitan recurrir a sistemas de Comunicación Aumentativa y Alternativa para hacerse entender por los demás. La comunicación alternativa requiere a menudo dispositivos externos al usuario, en cuyo caso se habla de comunicación asistida. Con este fin, y desde hace tiempo, se vienen utilizando diversos tipos de dispositivos de ayuda a la comunicación, tales como los tableros silábicos. Sin embargo, la difusión de los ordenadores personales ha hecho posible el diseño de ayudas informatizadas a la comunicación, a menudo llamadas comunicadores, que toman un papel de intermediario activo que puede dinamizar enormemente la comunicación. Estos dispositivos de comunicación no son más que ordenadores portátiles dotados de una interfaz especial. Por ejemplo, una de las aplicaciones desarrolladas en el Laboratorio Interacción Persona-Computador para Necesidades Especiales (LIPCNE) ha sido GESTELE, que consiste en una ayuda para posibilitar conversaciones telefónicas a personas carentes del habla [9, 10]. El uso de dispositivos como intermediarios en la conversación presenta varios problemas. Uno de los más graves consiste en que el comunicador transmite mensajes en un estilo neutro, carentes

del contexto que usualmente acompaña a la comunicación oral y que da importante información acerca de la emoción y, en general, de la situación personal del hablante [4, 8]. Por lo tanto, el usuario de sistemas de comunicación asistida frecuentemente se ve en dificultades para expresar los matices que son usuales en la conversación humana [8]. En este sentido, diversos autores han contrastado que la interacción humana incluye información emocional de los interlocutores, transmitida de manera explícita a través del lenguaje y de manera implícita a través de la comunicación no verbal [15]. Se han realizado muchos esfuerzos en mejorar la comunicación explícita, como técnicas de predicción en texto y adaptación de velocidad de comunicación en sistemas de comunicación aumentativa y alternativa [8, 11]. Sin embargo, la mejora de la comunicación implícita ha recibido tradicionalmente menos atención. La información no verbal o implícita, que frecuentemente se transmite mediante gestos corporales, actitudes, modulaciones de la voz, expresiones faciales, etc., es de gran importancia en la comunicación humana, ya que tiene un gran efecto sobre la disposición comunicativa de los interlocutores y sobre la inteligibilidad del discurso [7]. Sin embargo, y de acuerdo con Picard [, 3], estas características que se asocian a las relaciones interpersonales también aparecen en la comunicación con los ordenadores. Por esta razón, el principal objetivo de la computación emocional es captar y procesar la información emocional con el fin de mejorar la comunicación entre la persona y el ordenador. Dicha información también podrá servir para mejorar la comunicación entre varias personas haciendo uso de tecnología informática. Pese a hacerse evidente que la carencia de transmisión emocional mediante sistemas informáticos afecta inicialmente a personas con discapacidad que hacen uso de dichos sistemas para comunicarse con el resto de la población, esa misma carencia afecta a toda la población ante la misma situación. Por ejemplo, piénsese en la comunicación vía correo electrónico, chat o SMS, en la actualidad notablemente extendidos entre la población: al principio no se sabía el estado anímico del remitente y una de las primeras salidas que se dio a este problema y que está muy extendida hoy en día es el uso de emoticones o pequeños iconos expresando esos estados. En el presente artículo se presentan los resultados de un estudio empírico sobre la transmisión de voz sintética por medio de la línea telefónica. Se analiza si el uso del medio telefónico interfiere en el reconocimiento de emociones en voz sintética.. Computación emocional La computación emocional o afectiva es el área que trabaja en la detección y respuesta a las emociones del usuario. Un importante campo dentro de este área es la mediación emocional, que utiliza tecnología basada en computadores para habilitar la comunicación de dos o más personas reflejando sus estados emocionales [9, ]. La mediación emocional tiene aplicación directa dentro de la Comunicación Aumentativa y Alternativa. Por ejemplo, GESTELE incorpora en su interfaz diversos elementos que posibilitarían la mediación emocional a través de emoticones y voz sintética transmitida por línea telefónica. Sin embargo, la usabilidad de estos elementos de mediación emocional necesita ser contrastada empíricamente. La hipótesis básica de la computación emocional es que si se tienen en cuenta las características emocionales del usuario se puede mejorar notablemente la comunicación. Pero, cómo puede reconocer el ordenador los estados emocionales del usuario? Para ello, se utiliza la fuente de conocimientos sobre comunicación emocional humana proveniente de campos como la psicología experimental y trata de que los sistemas informáticos usen las mismas claves que usa el ser humano para expresar emociones (voz, gestos faciales, gestos corporales, etc.). Lang [16] propone que existen tres sistemas que estarían implicados en la expresión de las emociones y que podrían servir como indicadores de detectar la emoción del usuario: 1. Información Verbal. Conducta 3. Respuestas psicofisiológicas Por tanto, para que un sistema informático registre y reconozca las emociones del usuario será necesario determinar qué emociones básicas se van medir y cuáles son sus correlatos subjetivoverbales, conductuales y psicofisiológicos. Con este fin, es necesario operacionalizar dichos

correlatos. Por ejemplo, respecto a los correlatos conductales, se suele hacer un análisis de gestos, tanto faciales como corporales, así como algunos parámetros de la voz. En cuanto a los correlatos psicofisiológicos, se podrían usar parámetros como el pulso, la conductancia de la piel, etc. Un ejemplo de los subjetivo-verbales sería la semántica de las locuciones. A menudo, esas detecciones requieren métodos invasivos en los casos en los que hay que aplicar sensores o vestir al usuario de trajes especiales. Sin embargo, la miniaturización de los circuitos permitirá que se reduzca el tamaño de los sensores y puedan integrarse en complementos de vestir, como propone Picard [3]. Prosiguiendo con esta línea de trabajo, se espera que la información que mande el computador a la persona será mejor entendida y aceptada si cuenta con un contexto de información emocional similar a la que hay durante la interacción entre personas. Por tanto, es interesante que el computador no sólo reconozca las emociones del interlocutor sino que también pueda mandar su propia información emocional, por ejemplo, modulando la voz sintética o siendo representado por una serie de caracteres o avatares. Ello permitirá no solo la transmisión de información textual o explícita, sino también la transmisión implícita de su emoción asociada. En el siguiente apartado, se realiza un somero repaso sobre los diferentes aspectos considerados en estudios relativos a la transmisión de voz sintética emocional. 3. Aspectos considerados en estudios sobre síntesis de voz emocional En el transcurso de la investigación sobre emociones, se han propuesto una serie de diferentes taxonomías referentes a emociones en el habla, en las que se contemplan desde dos hasta veinte emociones básicas []. Por ejemplo, según Plutchnik [5] existen ocho emociones básicas: miedo, sorpresa, tristeza, disgusto, ira, esperanza, alegría y aceptación. Otros autores, como Lee [17], restringen las emociones a un total de seis: enfado, alegría, tristeza, disgusto, miedo y sorpresa. En cambio, en otros estudios sobre síntesis de voz emocional, como los de Alm [3], se restringe el número de emociones básicas estudiadas a cuatro. En el caso de [5, 6], estas cuatro emociones son: neutral, alegría, tristeza y enfado. Un aspecto a tener en cuenta asociado a la síntesis de voz emocional es el hecho de que las variaciones culturales y lingüísticas pueden modificar los parámetros de la voz necesarios para poder realizar una síntesis correcta. Este aspecto ha sido analizado de manera precisa en estudios como [, 4, 7], en los que se ha demostrado que existe poca diferencia en la detección de emociones entre sujetos provenientes de diferentes entornos lingüísticos y culturales, además de constatar que el índice de acierto en los usuarios está lejos de ser perfecto. En cuanto a idiomas de ámbito estatal se refiere, se han hecho diferentes estudios como los de [1, 18] para el castellano, [13] para el catalán y [1] para el euskera. Otro aspecto a considerar sobre las características de la síntesis de voz emocional consiste en los diferentes parámetros específicos a analizar [7], que pueden variar según los diferentes estudios (e.g. en cuanto a la frecuencia se pueden considerar características tan variadas como la frecuencia fundamental, los formantes [F1, F1, F3], contorno de la frecuencia, etc.) Por otra parte, también hemos de tener en cuenta el auge de los sintetizadores que realizan síntesis de manera concatenada [19], ya que mediante su uso parece ser que se mejora la calidad de la voz sintetizada obtenida. 4. Estudio empírico: análisis de voz emocional directa y por vía telefónica 4.1. Objetivos del estudio El objetivo principal de este experimento es conocer si la distorsión causada por la línea telefónica (truncando las altas frecuencias) tiene algún efecto sobre el reconocimiento de las emociones expresadas vía voz sintética. La validación de este tipo de medio de transmisión sería muy útil para el desarrollo de sistemas que sean utilizados dentro de la mediación emocional (similares a GESTELE). Dicha distorsión introducida por el uso del teléfono, tanto en la voz natural como en la sintetizada, probablemente afecta a parámetros paralingüísticos tales como el tono. Por esta razón, no se puede garantizar que la comprensión de los

parámetros expresivos vía telefónica sea similar a oír directamente la misma voz sintética. La idea de partida es ampliar los estudios realizados por Pierre-Yves [4] con voces sintéticas, comparándolas con las que se consiguen cuando se oyen con una calidad menor por vía telefónica. En este estudio preliminar se han tenido en cuenta cuatro emociones: neutral, alegría, tristeza y enfado. 4.. Método Participantes Los participantes fueron veinticinco voluntarios entre los estudiantes y profesores de la Facultad de Informática de la Universidad del País Vasco, diecisiete varones (con una media de edad de 33,47 años) y ocho mujeres (con una media de edad de 39,37 años). Su idioma materno era el castellano. Material y Estímulos Siguiendo la metodología propuesta por [1, 19, 0, 4], en el caso concreto de este estudio, para reflejar emociones a través del sintetizador de voz, se seleccionaron tres parámetros (tono, volumen y velocidad). Asimismo, las emociones contempladas son las que figuran en [6, 9]: neutral, alegría, tristeza y enfado. Se usaron frases escritas en un idioma distinto del materno, en este caso el inglés, y con frases semánticamente significativas (lo que [1] denomina textos específicos). Ya que sólo nos interesan los parámetros paralingüísticos de la voz, se pensó que el uso de un idioma extranjero permitiría controlar mejor el efecto de la semántica de la frase sobre el reconocimiento de la emoción. Aún así, se evaluó el nivel de inglés de los participantes siguiendo la clasificación de la Universidad de Cambridge. La distribución de los participantes por niveles fue la siguiente: Elemental (1% de la muestra), Intermedio (56% de la muestra), nivel First (4%), nivel Advanced (4%) y nivel Proficiency (4%). Este dato se utilizó como variable covariada en los análisis estadísticos posteriores. Para mejorar más aún el control del peso semántico de las frases, se usaron cuatro tipos de frases, dotadas de semántica neutral, alegría, tristeza y enfado que se combinaron con cada tipo de voz (ver Tabla 1). Intención Alegría Neutral Enfado Tristeza Frase I enjoy cooking in the kitchen. Wait a moment, I am writing. Your mother is worse than mine is! I feel very tired and exhausted. Tabla 1. Frases usadas. Por último, los rangos de los parámetros (frecuencia, velocidad e intensidad) para cada estado emocional son amplios y las variaciones en los valores seleccionados o las combinaciones de valores pueden afectar la eficiencia en el reconocimiento de dicho estado emocional. Por tanto, se seleccionaron 3 combinaciones de valores de cada parámetro por emoción (ver Tablas y 3). Los rangos y unidades de los parámetros que se muestran en las Tablas y 3 son los siguientes [6]: Volumen: los valores posibles van de 0 a 100, siendo 100 el valor por defecto. La escala es en porcentajes; por ejemplo un valor de 50 indica que se escucha al 50% del volumen. Velocidad: los valores posibles van de -10 a +10, siendo 0 el valor por defecto. El valor más bajo, -10, expresa que se habla a un tercio de la velocidad por defecto, mientras que el valor de +10 implica que la velocidad es tres veces la de por defecto. Tono: los valores posibles van de -10 a +10, siendo 0 el valor por defecto. El valor 10 expresa que se habla a tres cuartos del tono por defecto, mientras que el valor de +10 implica que el tono es cuatro tercios el valor por defecto. En la Tabla se indican los valores genéricos y en la Tabla 3, las combinaciones concretas usadas en el experimento. Volumen Velocidad Tono Rango 0/100-10/+10-10/+10 Por defecto DV=100 DR = 0 DP = 0 Máximo 100% DR*3 DP*4/3 Mínimo 0 DR/3 DP*3/4 Incremento 1% Velocidad + 10 3 Tono+ Tabla. Escala Linear Logarítmica 4 Logarítmica Características de la voz sintética

Emocio nes Neutral Alegría Tristeza Enfado Tabla 3. Volumen Veloci dad Tono Combi nación 80 0 0 N1 85 0 0 N 90 0 0 N3 100 3 8 H1 80 1 10 H 90 9 H3 60-4 -8 S1 45 - -10 S 55-3 -9 S3 100 3 A1 100 3 7 A 100 5 A3 Valores por parámetros de la voz y emoción seleccionados para el estudio. En total se usaron 48 frases distintas como resultado de multiplicar 4 (emociones) x 4 (tipos de contenido semántico) x 3 (combinaciones de valores de parámetros). Aparatos Se hizo uso de un motor Microsoft SDK 5.1 TTS para sintetizar la voz de forma mono-oral PCM. Las frases fueron pronunciadas de dos formas: 1) La calidad de la voz directa fue haciendo uso de 050 Hz con 16 bits, y ) la calidad telefónica fue simulada por medio de 8000 Hz con 8 bits. Se diseñó una aplicación para automatizar la presentación aleatoria de estímulos y la recogida de las respuestas de los participantes. Procedimiento A cada persona se le solicitó que escuchase por medio de auriculares dos bloques de cuarenta y ocho frases cada uno y que escogiese el estado emocional que reflejaba cada una de ellas. Un bloque de las frases fue pronunciado directamente con el sintetizador y el otro, con calidad telefónica. La mitad de los voluntarios empezó el experimento con la voz directa y la otra mitad, en orden inverso. El orden de la presentación fue asignado de manera aleatoria a cada participante. De la misma manera, para evitar cualquier dependencia, el orden de presentación de cada estado emocional fue distribuido de manera aleatoria dentro de cada bloque de frases. Los participantes escuchaban dos veces cada frase con una pequeña pausa de dos segundos entre ambas. Tras la segunda presentación, los participantes debían seleccionar la emoción que pensaban que expresaba la voz sintética (neutral, alegría, tristeza y enfado), en un formulario que se mostraba en la pantalla. Se repetía este procedimiento con cada frase hasta completar el bloque. Para asegurar la comprensión del procedimiento por parte de los sujetos experimentales, realizaron un bloque de entrenamiento previo a la tarea experimental. Diseño Se adoptó un diseño multifactorial intrasujeto. Las variables independientes fueron el tipo de voz (directa o por vía telefónica), el estado emocional (neutral, alegría, tristeza y enfado) y una combinación de valores de parámetros para cada estado emocional (1, y 3). La variable dependiente fue la tasa de aciertos (medida en %) entre la respuesta de los participantes y la emoción programada por la voz sintética. A esta variable le denominamos aciertos. 4.3. Resultados El nivel de significatividad de los contrastes estadísticos realizados fue establecido en el 0,05. Con los datos obtenidos se hizo un estudio ANCOVA multifactorial. Así, las variables independientes intrasujeto fueron el Tipo de Voz (Directa o Telefónica), la Emoción (Neutral, Alegría, Tristeza y Enfado) y la Combinación de los Parámetros de la Voz (1,, 3) (ver Tablas y 3). El conocimiento del inglés fue introducido como una variable covariada. El porcentaje de aciertos fue la variable dependiente. El efecto principal del Tipo de Voz no resultó significativa y por ello se aceptó la hipótesis nula. Esto es, no hay diferencias en la percepción directa de la voz y la realizada por vía telefónica. Además, se obtuvo un efecto significativo de la variable Tipo de Emoción F (3, 7) = 18.5, Mse = 0.14. La Tristeza obtuvo en promedio una tasa de aciertos de M= 0.80; el Enfado, M = 0.70; el Neutral, M=0.66; y la Alegría, M = 0.66; como puede verse en la Figura 1, la emoción Neutral y Alegría son más difíciles de detectar que la Tristeza y el Enfado: F (1, 4) = 416.34, Mse = 0.1. De la misma manera, la Tristeza es significativamente más fácil de detectar que el

Enfado: F (1, 4) = 5.74; Mse = 0.13. De modo similar, el efecto de interacción de segundo orden entre la Emoción y los Valores de los Parámetros de la Voz fue significativo: F (6, 144) = 6.6, Mse = 0.05. Para clarificar la causa de las interacciones, el análisis de los efectos simples revela que la voz sintética expresa mejor la emoción Neutral con la combinación N que con N1 y N3: F (1, 4) = 13.8, Mse = 0.04. La Alegría se expresa mejor con H3 que con H1 o H: F (1, 4) = 11.34, Mse = 0.06. La Tristeza se percibe mejor con la combinación S1 que con S o S3: F (1, 4) = 10.4, Mse = 0.04. En el caso del Enfado, las tres combinaciones de parámetros fueron igualmente eficientes y no se observaron diferencias significativas entre ellas. Porcentaje de Aciertos 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0, Combinat 1 Neutral 3 Combinat 1 Alegría 3 Combinat 1 Tristeza 3 Combinat 1 Enfado 3 Voz Directa Voz Telefónica Figura 1. Interacción entre el tipo de emoción (neutral, alegría, tristeza y enfado), el tipo de voz (directa o por vía telefónica) y el tipo de combinación de parámetros (1, y 3). 4.4. Discusión Los resultados empíricos demuestran que las claves emocionales transmitidas por medio del teléfono no son más difíciles de interpretar que las escuchadas directamente. Es decir, la interferencia producida por el uso del teléfono no produce diferencias significativas en la eficiencia de la percepción por parte del oyente. Por tanto, podemos concluir que la percepción de las pistas emocionales asociadas a la voz sintética es tan eficiente cuando se escucha a través del teléfono como cuando se escucha directamente. Además, este estudio replica parcialmente los resultados conseguidos por Pierre-Yves [4], mostrando que la manipulación de parámetros tales como el volumen, la velocidad y el tono de la voz sintética posibilita expresar emociones. No obstante, también se observa que hay emociones difíciles de reproducir o reconocer, principalmente las emociones alegría y neutral, mientras que la tristeza y enfado se perciben con una mayor eficiencia. Estos datos serían coherentes con los provenientes de los estudios realizados sobre percepción de emociones a partir de voz humana. De acuerdo a Johnstone [14], parece ser que las diferentes emociones son expresadas y percibidas más o menos fácilmente en la voz humana. Como en el experimento aquí presentado, el enfado sería una de las emociones mejor expresadas vocalmente por los seres humanos. Los citados autores sugieren que está asimetría en la efectividad de la expresión vocal de las emociones vendría explicada por aspectos evolutivos. Las emociones de miedo y enfado para expresar peligro tienen que ser comunicadas a largas distancias con el fin de que sean captadas por los demás miembros del grupo o el enemigo. En este caso, la voz sería el medio más efectivo. Otras emociones como el asco, deben ser comunicadas a distancias cortas por lo que los sistemas visuales serían más efectivos. Por otro lado, se hace necesario extender el estudio para ser llevado a cabo con hablantes ingleses nativos. Para controlar el posible efecto extraño del idioma se introdujo la variable nivel de inglés de los participantes como variable covariada pero dado que sólo el 8% de los participantes tuvo un nivel alto de conocimiento de inglés, no podemos descartar que la comprensión del mensaje de las frases haya podido afectar a la comprensión de la emoción de las frases en nuestro experimento. Asimismo, se están realizando estos experimentos con sintetizadores para el euskera y el castellano y usuarios nativos de dichos idiomas y se confía mostrar los resultados relevantes en futuras comunicaciones. 5. Conclusiones Como se ha visto, aplicar técnicas emocionales en sistemas de Comunicación Aumentativa y Alternativa para mejorar la rehabilitación, integración y comunicación de personas con discapacidad es un campo prometedor. En

particular, el trabajo presentado en este artículo se está empleando en contrastar la validez de algunos sistemas de mediación emocional desarrollados (GESTELE), con el fin de mejorar las capacidades de expresividad de los usuarios y la capacidad de interpretar los mensajes en desarrollos posteriores. La pregunta principal del estudio realizado ha sido si la distorsión introducida por la transmisión de voz sintética por vía telefónica provoca alguna degradación en la transmisión de información afectiva. Se ha podido apreciar empíricamente que no ha sido así. Los sintetizadores de voz están pasando de producir texto únicamente inteligible a añadirle connotaciones prosódicas relativas a las emociones. De acuerdo a los datos preliminares a este estudio, esta aproximación es válida con algunas emociones tales como el enfado o la tristeza, tanto por vía telefónica como directamente. Asimismo, las mejoras que se logren en la calidad de los sistemas sintetizadores de voz conseguirán que la voz obtenida resulte más natural en los desarrollos que se vayan haciendo. Futuros estudios contemplarán nuevas emociones o clasificaciones emocionales, tanto para hablantes como oyentes, sean nativos o no. En cualquier caso, se prevé que habrá que tener en cuenta las características propias del entorno cultural de las personas. Referencias [1] AAC. Alternative and Augmentative Communication, 1989. 5 (1). [] Abelin, A., Allwood, J., 000. Cross-linguistic interpretation of emotional prosody. Proceedings of the ISCA Workshop on Speech and Emotion. [3] Alm N., Arnott J. L., Newell A. F., 199. Prediction and Conversational Momentum in an Augmentative Communication System. Communications of the ACM, 35 (5), 46-57. [4] Alm N., Ellis K., 1999. Computer-assisted swearing. Communicating Together. 16 (), 4-7. [5] Bulut M, Narayanan S. S, Syrdal A. K., 00. Expressive speech synthesis using a concatenative synthesizer. ICSLP- 00, 165-168. [6] Busso C., Deng Z., Yildirim S., Bulut M., Lee C. M., Kazemzadeh A., Lee S. Neumann U., Narayanan S., 004. Analysis of emotion recognition using facial expressions, speech and multimodal information. ICMI Proceedings of the 6th international conference on Multimodal interfaces. [7] Cowie R., Douglas-Cowie E., Tsapatsoulis N., Votsis G., Kollias S., Fellenz W., Taylor J. G., 001. Emotion Recognition in Human-Computer Interaction. IEEE Signal Processing Magazine, Vol 18(1), 3-80. [8] Garay N., 001. Sistemas de Predicción Lingüística. Aplicación a Idiomas con Alto y Bajo Grado de Flexión, en el Ámbito de la Comunicación Aumentativa y Alternativa. Servicio Editorial de la Universidad del País Vasco, Leioa (Spain). ISBN: 84-8373-355-. [9] Garay N., Abascal J., Gardeazabal L., 00. Mediación emocional en sistemas de Comunicación Aumentativa y Alternativa. Revista Iberoamericana de Inteligencia Artificial. 16, 65-70. [10] Garay-Vitoria N., Abascal J. G., Urigoitia- Bengoa S., 1995. Application of the Human Conversation Modelling in a Telephonic Aid. Proceedings of the 15th International Symposium on Human Factors in Telecommunications (HFT '95), Melbourne (Australia), 131-138. [11] Gardeazabal L., 000. Aplicaciones de la Tecnología de Computadores a la Mejora de la Velocidad de Comunicación en Sistemas de Comunicación Aumentativa y Alternativa. Servicio Editorial de la Universidad del País Vasco, Leioa (Spain). ISBN: 84-8373-301-3. [1] Iriondo I., Guaus R., Rodríguez A., Lázaro P., Montoya N., Blanco J. Mª, Bernadas D., Oliver J. M., Tena D., Longhi L., 000. Validation of an Acoustical Modelling of Emotional Expression in Spanish Using Speech Synthesis Techniques. Proceedings

of the ISCA Workshop on Speech and Emotion. http://www.qub.ac.uk/en/isca/index. htm [13] Iriondo I., Alías F., Melenchón J., Llorca M. A., 004. Modeling and synthesizing emotional speech for Catalan Text- To-Speech synthesis. Tutorial and research workshop on affective dialogue systems, ADS 004, Kloster Irsee, Germany. LNAI/LNCS 3068, 197-08. [14] Johnstone, T., Scherer, K. R., 000. Vocal Communication of Emotion. In M. Lewis & J. Haviland (Eds.). Handbook of Emotion, Second Edition, 0-35. [15] Knapp M. L., 1980. Essentials of nonverbal communication. Holt, Rinehart & Winston. [16] Lang P.J., 1984. Cognition in emotion: Concept and action. In Emotions, cognition and behavior., C. Izard, J. Kagan, and R. Zajonc (eds). New York, NY. Cambridge University Press. [17] Lee C. M., Yildirim S., Bulut M., Kazemzadeh A., Busso C., Deng Z., Lee S., Narayanan S., 004. Emotion Recognition based on Phoneme Classes. Proceedings of 8th International Conference on Spoken Language Processing (ICSLP), Jeju Island, Korea, 889-89. [18] Montero, J.M., Arriola, G.J., Colas, J., Enriquez, E., and Pardo, J.M., 1999. Analysis and Modeling of Emotional Speech in Spanish, Proc. of ICPhS, vol., San Francisco, USA, 957-960. [19] Murray R., 000. Emotion in concatenated speech. Proceedings of the IEE Seminar State of the Art in Speech Synthesis. London. 7/1-7/6. [0] Murray R., Arnott J. L., Rohwer E. A., 1996. Emotional stress in synthetic speech: Progress and future directions. Speech Communication 0 (1-), 85-91. [1] Navas E. Hernáez I., Castelruiz A., Luengo I., 004. Obtaining and evaluating an emotional database for prosody modelling in standard Basque. LNAI/LNCS 306. 393-400.. Springer-Verlag, Berlin [] Picard R. W., 1997. Affective Computing. MIT Press. [3] Picard R. W., 1998. Towards Agents that Recognize Emotion. Acts Proceedings IMAGINA (Monaco), 153-165. [4] Pierre-Yves O., 003. The production and recognition of emotions in speech: features and algorithms. Int. J. Human-Computer Studies 59, 157-183. [5] Plutchnik R., 1980 Emotion: A psychoevolutionary synthesis. New York: Harper and Row. [6] SAPI 5.0 TTS XML Grammar format http://www.researchlab.com/help/dictation005/xmlsapi. htm [7] Tickle, A., 000. English and Japanese speaker s emotion vocalizations and recognition: a comparison highlighting vowel quality. ISCA Workshop on Speech and Emotion, Belfast. [8] Van Santen, J., Black, L., Cohen, G., Kain, A., Klabbers, E., Mishra, T., de Villiers, J., Niu, X., 003. Applications of computer generated expressive speech for communication disorders. In EUROSPEECH-003, 1657-1660.