CAPÍTULO 2. RECONOCIMIENTO DE VOZ y VXML. Como lo menciona H. Meza (1999) en su tesis: El habla constituye un canal de

Documentos relacionados
CAPITULO I. Todas las especificaciones mencionadas están relacionadas directamente con el desarrollo Web.

Capítulo 4. SAPI. 4.1 Qué es Microsoft Speech Application Program Interface (SAPI)?

La Internet Vocal: Aplicación de

Configuraciones de PBX analógicas y digitales

CEDEHP Profesor: Agustín Solís M. Instalación, Operación y programación de equipos y sistemas telefónicos

Jorge De Nova Segundo

Experiencias prácticas en la creación de corpus orales para uso en tecnologías del habla. Por: Carlos Daniel Hernández Mena

Capítulo III. Corpus de voz. 3.1 Corpus de dígitos

Reconocimiento y Síntesis de voz. Escrito por Cristina Villoria Martes, 31 de Marzo de :11

Propuesta para la realización de proyecto de formación elearning Cursos de inglés Toda la formación que quieras a tu alcance

Reconocimiento Automático de Voz

CAPÍTULO 1 INTRODUCCIÓN. No es novedad que el desarrollo de las aplicaciones Web vaya evolucionando en el

Las áreas de investigación sobre el Tratamiento de imágenes digitales se centran en la

TELL ME MORE Funcionamiento del reconocimiento de voz

Modulo 12. Tu computadora y la radioafición.

Lenguaje Marcado. Introducción

GRADO EN INGENIERÍA DE TECNOLOGÍAS DE TELECOMUNICACIÓN Primer curso Segundo curso Tercer curso Cuarto curso 1-C 2-C 1-C 2-C 1-C 2-C 1-C 2-C

Elementos para el funcionamiento del Reconocimiento de Voz.

Capítulo 4. 4 Niveles de Confianza. 4.1 Introducción

Punto 1 Introducción al servicio. Juan Luis Cano

En el presente capítulo, se tratará lo referente a los circuitos necesarios para la

DEX Todo un Mundo Nuevo de Sonido Inalámbrico

Sistemas Telefónicos. Profesor : Víctor Cárdenas Schweiger

Nacho Mansanet

Principios de diseño de Interfaces

Comprensión Auditiva C2

Sistema de Gestión de Procesos

INTERACTIVIDAD DE LA TDA EN VENEZUELA

Objetos de aprendizaje: Computadora

Guía de estudio para informática

Objetivo: Contenido

Un. I. Introducción a la programación de sistemas

FUNDAMENTOS BÁSICOS DE TECNOLOGÍAS WEB. Presenta: J. Raymundo Ceja Vázquez

NÚMERO DE HORAS: 160H PROGRAMACIÓN WEB EN EL ENTORNO CLIENTE OBJETIVO

Glosario de algunos elementos del Hardware

GUÍA PARA EL CANDIDATO A LOS EXÁMENES DELF y DALF

Partes internas del CPU.

CONVERSORES (ADC Y DAC) MICROPROCESADORES II

Un servicio web es una pieza de software que utiliza un conjunto de protocolos y estándares que sirven para intercambiar datos entre aplicaciones.

Capítulo 1. Sistemas de reconocimiento y síntesis de voz

Tutorial Software Dragon NaturallySpeaking Para Estudiantes en Situación de Discapacidad que requieran controlar el computador mediante la voz

L A B O R A T O R I O COMPUTACIÓN

Web 2.0 P of o. J os o é To T m o á m s Ca C de d na n s

Capítulo I. Reconocimiento de voz. 1.1 Antecedentes

16/03/2012. Tema 7- Internet

Estándar VoiceXML. Víctor Álvarez García

Introduccion a Word. 120 minutos. Tecnología e informática

Partes Internas y Externas de la Computadora

RADIOCOMUNICACIÓN ACT117

EL HARDWARE INTERNO Y EXTERNO DE LA COMPUTADORA

Universidad Carlos III I.T. Informática de Gestión. Proyecto Fin de Carrera

Página Web Biblioteca

Aprendizajes para la programación y evaluación de competencias básicas. 2. Tablas de los aprendizajes de Primaria

Puede consultar el Glosario para conocer el significado de cualquier palabra de las transcripciones de los videos.

La informática es la ciencia que estudia el procesamiento de la información (texto, imagen, sonido...) mediante máquinas. A estas máquinas se les

SR810/SR1610: 8-16 Líneas de Grabación de Voz Independiente

UNIVERSIDAD NACIONAL HERMILIO VALDIZAN DIRECCION DE EDUCACION A DISTANCIA Y VIRTUAL CENTRO DE ESTUDIOS INFORMATICOS HUANUCO PERU

Certificaciones ADOBE CS5 y CS6

En esta unidad veremos los diferentes dispositivos que tenemos disponibles para introducir audio, imágenes y vídeo en nuestro ordenador.

En la radio existen cuatro tipos de lenguajes:

2. Ud. está con un amigo y deciden quedarse en casa viendo tele, definan que canal quieren ver, qué programa y por qué.

CONCLUSIONES Y RECOMENDACIONES

MS_10554 Developing Rich Internet Applications Using Microsoft Silverlight 4

Qué es el laboratorio de idiomas SmartClass+? Por qué usar un laboratorio de idiomas SmartClass+?

Introducción a la Computación. Herramientas Informáticas. Omar Ernesto Cabrera Rosero Universidad de Nariño

CURSO. HTML 5 y CSS: El lenguaje con que se construye la web. Duración: 50 horas 5 semanas / Modalidad: Virtual

Unidad I Introducción a la programación de Sistemas. M.C. Juan Carlos Olivares Rojas

INGLÉS PROFESIONAL PARA SERVICIOS DE RESTAURACIÓN

HARDWARE DE UN COMPUTADOR (PARTE 01)

guía para LOS PADRES APOYANDO A SU HIJO EN KINDERGARTEN ARTES DEL LENGUAJE EN INGLÉS

Accesibilidad en la Web

E.A.E , , , , y

Proyecto IntegraTV for all Televisión interactiva para todos. Luigi Ceccaroni, Xavier Verdaguer 8 de junio de 2005

Laboratorios de Idiomas

Objetivos. Adultos: Elementary. Los alumnos aprenderán a: Captar el contenido esencial de comunicaciones verbales básicas.

1 Introducción. 2 Que es una Red de Ordenadores

Requerimientos de Software

Criterio A: Comprensión de textos orales y visuales

guía para LOS PADRES APOYANDO A SU HIJO EN KINDERGARTEN ARTES DEL LENGUAJE EN INGLÉS

Reconocimiento Automatizado de Voz

CRITERIOS DE EVALUACIÓN ESTÁNDARES DE APRENDIZAJE

MÓDULO FORMATIVO UNIDAD DE COMPETENCIA ASOCIADA

Reconocimiento visual de ademanes usando MS Kinect - Introducción. Dr. Héctor Avilés Escuela de Invierno de Robótica 2015

PRUEBAS DE ACREDITACION FRANCÉS NIVEL B1

ARQUITECTURA DE VON NEUMANN Y HARVARD

Alemán Nivel B2 Curso III Versión Online

TekSpeech Pro SOLUCIONES DE VOZ MULTIMODALES: SIMPLE...INTELIGENTE...FLEXIBLE...ALTO RENDIMIENTO

ACTIVIDADES DE EXPRESIÓN Y COMPRENSIÓN ORAL

MOMENTO I. BLOQUE 1. Opera las funciones básicas del sistema operativo y garantiza la seguridad de la información

Práctico 3 Procesador de Textos Año TRABAJO PRACTICO Nº 3 - Procesador de Textos

1. ESCUCHAR, HABLAR Y CONVERSAR:

Tema I. La computación en el profesional de la Ingeniería

PRUEBAS DE ACREDITACIÓN ALEMÁN NIVEL B1

Esp. Alexis Olvany Torres ch. Datos de salida. Datos de salida. Datos de salida

Inglés General. Guía del Alumno. 1. Los niveles 2. La estructura del curso de Inglés General 3. Herramientas y recursos 4. El tutor 5.

Auricular (cantidad) 1. Cantidad de líneas telefónicas 1 Capacidad para múltiples auriculares

1. ENGLISH FOR S

Página 1 de 12 CONCEPTOS INFORMÁTICOS BÁSICOS

Transcripción:

16 CAPÍTULO 2. RECONOCIMIENTO DE VOZ y VXML 2.1 Reconocimiento de voz Como lo menciona H. Meza (1999) en su tesis: El habla constituye un canal de comunicación entre los humanos, físicamente se forma de la presión del aire emitida por el sistema articulatorio, para su estudio es necesario transformar la voz en una señal eléctrica mediante un micrófono y someterla posteriormente a diferentes procesos digitales. Un reconocedor de voz es una herramienta capaz de traducir una señal de voz a texto. Un sistema basado en voz generalmente busca entender el lenguaje verbal con el objetivo de poder recibir tareas y datos del usuario que habla, es decir, es el establecimiento de una interfaz Hombre-Máquina más natural mediante la voz humana. En la actualidad se han desarrollado algunos sistemas que pueden llegar a reconocer vocabularios limitados en voz de ciertas personas, sin embargo es muy complejo que un sistema pueda contener una gran variedad de formas de pronunciación, acentos y combinaciones de peticiones. Las áreas de aplicación de los sistemas de reconocimiento son diversas: discapacitados, servicios de información automática, sistemas de seguridad y la interacción con computadoras, entre otras, son algunas de estas áreas.

17 2.2 Arquitectura de un sistema de Reconocimiento de Voz. Como ya se había mencionado antes los reconocedores de voz traducen una señal de voz a texto, este proceso se divide en tres áreas: Preprocesamiento: Convertir una entrada de voz o señal análoga a una señal digital que pueda ser procesada por el reconocedor de voz. Reconocimiento: Traducir la señal a texto, es decir, es la identificación del habla. Comunicación: Trasmitir la señal reconocida a una aplicación. Figura 2.1 Componentes de aplicación de voz [Kirschning, 2006] El funcionamiento de un reconocedor de voz se realiza de la siguiente forma: 1.- Capturar la señal de voz y convertirla en una señal digital. 2.- Sacar de la señal digitalizada una serie de características esenciales. 3.- Usando la serie de características y el clasificador, se saca a continuación una serie de probabilidades.

18 4.- Se realiza una búsqueda mediante las probabilidades y una estructura con las posibles pronunciaciones se muestra el resultado del reconocimiento de la señal de voz entrante. 2.3 Elementos para el Funcionamiento del Reconocedor de Voz. Un reconocedor es relativamente sencillo si sólo tiene que reconocer palabras aisladas, sin embargo es más complejo si debe reconocer las palabras de una frase, pero introduciendo un pausa entre cada palabra, el sistema más complicado es aquel que debe de funcionar reconociendo habla continua o forma natural del habla. [Poza, 1991] Para que cualquier tipo de reconocedor pueda funcionar necesita de los siguientes elementos básicos: Vocabulario: Es el número de palabras diferentes que debe de reconocer el sistema. Mientras más grande el número de palabras diferentes mas difícil es el reconocedor, debido a que, con mayor probabilidad puede que aparezcan palabras parecidas entre sí. Gramática: Es el conjunto de reglas que limita el número de combinaciones permitidas de las palabras del vocabulario. Una gramática ayuda a mejorar la tasa de reconocimiento a través de la eliminación de ambigüedades, además, de aumentar la rapidez y precisión del proceso de reconocimiento al limitar el número de palabras en una determinada fase del reconocimiento, es decir, el diseño adecuado de las reglas y la interfaz optimizan el reconocimiento. Ejemplo si una aplicación debe de reconocer un número de teléfono, la gramática de este dice que el vocabulario son los números del 1 al 10, y debe de

19 reconocer un conjunto de 7 dígitos, de manera que si el sistema reconoce mas o menos, quiere decir que existe algún error. [Poza, 1991] Idioma: Indica a el reconocedor bajo que idioma se va a estar trabajando, es necesario, ya que, en cada idioma cambia la forma de pronunciación y significado de las palabras, y por lo tanto, influye en la construcción de la gramática y vocabulario del reconocedor. Gramática Vocabulario Entrada de Audio Reconocedor de voz Texto Reconocido Idioma(s) Figura 2.2 Diagrama General del Reconocedor de voz 2.4 Dificultades Los sistemas de reconocimiento de voz nos brindan muchas ventajas, como la introducción de datos a una base de datos o bien a un procesador de texto de forma rápida y como consecuencia de esto, se evita el uso de dispositivos de entrada como el ratón y el teclado.

20 Sin embargo existen muchas dificultades en el proceso de reconocimiento de voz una de estas dificultades es el ruido que se capta junto con la señal de voz debido a que fuentes externas como: televisiones, radio, pláticas de otra gente y otros ruidos ajenos a la señal de voz; se encuentran cerca del micrófono encargado de trasmitir la señal de voz al reconocedor. Otra de las dificultades es el sonido del habla emitido por cada usuario, es decir, cada persona tiene distintas formas de hablar, de hacer sonar los distintos acentos, de velocidad del habla, de respiración y de dicción, además, de la gran variedad dialéctica de hablar el idioma. 2.5 Aplicaciones Los sistemas de reconocimiento de voz tienen como objetivo principal implementar interfaces dirigidas a las necesidades de los usuarios a través de su voz. Algunas de las aplicaciones de estos reconocedores son las basadas en el teléfono, de dictado automático y control de robots por mencionar algunas. Una de las aplicaciones de estos reconocedores más usadas y de más éxito es el teléfono, debido a su bajo costo, fácil implementación y disponibilidad. Algunas de aplicaciones que utilizan este tipo de reconocedores por teléfono son: Asistencia Servicios Financieros Llamadas por cobrar. Información. Un ejemplo de este tipo de aplicación se encuentra en la Universidad de las Américas Puebla, con un sistema de conmutador automático (CONMAT), sistema que

21 tiene la capacidad de dirigirte hacia cualquier departamento dentro de la Universidad que el usuario necesite. 2.6 Voice Extensible Markup Language (VXML). VXML es un lenguaje de marcado basado en XML para crear aplicaciones distribuidas que permite emplear síntesis de voz, audio digitalizado, reconocimiento del habla, marcación de teclado, registro de entradas telefónicas, combinación de conversaciones y entradas DTMF (Dual Tone Multi-Frecuency). El principal objetivo de VXML es ofrecer ventajas del desarrollo basado en Web y aplicaciones de voz interactivas. [VXML, 2004]. VoiceXML proporciona un entorno abierto con una descripción de diálogos y formato de gramáticas estándar, que se encarga de convertir el habla en texto con la ayuda de las gramática de reconocimiento del habla (SGRS). [VXML, 2004]. Mientras que HTML es utilizado para la creación de interfaces graficas para que el usuario pueda ingresar y recibir información, VXML genera interfaces orales, es decir, a diferencia de HTML el usuario no ve la información la escucha, esta entrada de audio está controlada por un reconocedor de voz integrado con el navegador de VXML, es por eso que el usuario no necesita mas que un teléfono para poder acceder a este tipo de aplicaciones. VoiceXML necesita de un navegador al igual que HTML para poder reconocer y procesar las etiquetas del lenguaje, a través de un intérprete. Algunas aplicaciones en las que se puede utilizar VXML son: sistemas de información, comercio electrónico y servicios telefónicos. Es por esto que las aplicaciones construidas con VoiceXML en combinación con otras tecnologías para Internet están teniendo un gran crecimiento en Internet. [VXML, 2004].