BASE DE DA D T A O T S S S E S G E M

Transcripción

1 REPÚBLICA BOLIVARIANA DE VENEZUELA UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA ANTONIO JOSÉ DE SUCRE VICERRECTORADO BARQUISIMETO DEPARTAMENTO DE INGENIERÍA ELECTRÓNICA BASE DE DATOS SEGMENTADA EN ESPAÑOL VENEZOLANO PARA LA VERIFICACIÓN DEL LOCUTOR DEPENDIENTE DEL TEXTO AUTOR: Br. JiaLiang Feng TUTOR: Ing. Raúl Abreu Diciembre, 2009

2 REPÚBLICA BOLIVARIANA DE VENEZUELA UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA ANTONIO JOSÉ DE SUCRE VICE-RECTORADO BARQUISIMETO DEPARTAMENTO DE INGENIERÍA ELECTRÓNICA SECCIÓN COMUNICACIONES BASE DE DATOS SEGMENTADA EN ESPAÑOL VENEZOLANO PARA LA VERIFICACIÓN DEL LOCUTOR DEPENDIENTE DEL TEXTO AUTOR: Br. JiaLiang Feng Exp.: TUTOR: Ing. Raúl Abreu Trabajo Especial presentado ante el Departamento de Ingeniería Electrónica de la Universidad Nacional Experimental Politécnica Antonio José de Sucre Vicerrectorado Barquisimeto como requisito parcial para optar al Título de Ingeniero Electrónico Diciembre, 2009

3 UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA ANTONIO JOSÉ DE SUCRE VICERRECTORADO BARQUISIMETO DEPARTAMENTO DE INGENIERÍA ELECTRÓNICA BASE DE DATOS SEGMENTADA EN ESPAÑOL VENEZOLANO PARA LA VERIFICACIÓN DEL LOCUTOR DEPENDIENTE DEL TEXTO AUTOR: Br. JiaLiang Feng TUTOR: Ing. Raúl Abreu RESUMEN Un sistema de verificador de locutor determina la identidad de una persona mediante análisis de las muestras de voz. Para el funcionamiento de estos sistemas es necesaria una base de datos para el entrenamiento del verificar el cual influye directamente el desempeño del sistema. El presente trabajo de investigación tiene como objetivo principal de construir una base de datos segmentada en español venezolano para la verificación del locutor dependiente del texto con el uso de los modelos ocultos de Markov (HMM). Debe señalarse que las muestras de voz de la base de datos fueron recolectadas en la población barquisimetana, específicamente por los miembros de la comunidad Unexpista y los alumnos del colegio Ilustre Americano. La data completa es segmentada manual y automáticamente. Cabe destacar que en la segmentación manual se construyen los modelos fonéticos referenciales que posteriormente se inicializan y se entrenan para ser utilizados en la segmentación automática con la ayuda de la herramienta de software Sistema de Reconocimiento (RES). Finalmente se comprueba el desempeño de la base de datos segmentada mediante un verificador de locutor utilizando los indicadores de exactitud FRR (Tasa de Falsa Aceptación) y FAR (Tasa de Falso Rechazo) para trazar la curva ROC (Característica de Operación del Receptor) y como resultado se obtiene una tasa de 98.64% de usuarios genuinos aceptados contra 1.36% de impostores rechazados. Palabras clave: verificador de locutor, voz, locutor, base de datos segmentada, segmentación, HMM, FAR, FRR, ROC.

4 ÌNDICE GENERAL Contenido Pág. ÍNDICE DE FIGURAS... vi ÍNDICE DE TABLAS... viii INTRODUCCIÓN... 1 CAPÍTULO I... 3 PLANTEAMIENTO DEL PROBLEMA... 3 Descripción del Problema... 3 Objetivos... 5 Justificación... 6 Alcances... 7 CAPÍTULO II... 9 MARCO TEÓRICO... 9 Antecedentes... 9 Bases Teóricas CAPÍTULO III MARCO METODOLÓGICO Tipo de Investigación Identificación de las Variables Población Muestra Técnicas e Instrumentos de Recolección de la Información Técnicas de Procesamiento y Análisis de la Información... 78

5 Descripción del Procedimiento Recursos Plan de Trabajo CAPÍTULO IV RESULTADOS Y ANÁLISIS DE LOS RESULTADOS CAPÍTULO V CONCLUSIONES Y RECOMENDACIONES Conclusiones Recomendaciones REFERENCIAS BIBLIGRÁFICAS

6 vi ÍNDICE DE FIGURAS Error! Marcador no definido. Contenido Pág. Figura N 1. Curva de falsa aceptación y falso rechazo, EER y TEER Figura N 2 Diagrama del Procesamiento de la Señal de la voz Figura N 3 Señal de la voz Figura N 4 Muestreo de una señal Figura N 5 Cuantificación de una señal Figura N 6 Codificación de una señal Figura N 7 Efecto del Filtrado de Preénfasis de un fonema sordo Figura N 8 Segmentación de una señal de voz en tramas Figura N 9 Ventana de Hamming Figura N 10 Procedimiento para el cálculo de MFCC Figura N 11 Ejemplo de una secuencia de estado Figura N 12 Modelo de generación de Markov Figura N 13 Representación grafica de un modelo oculto de Markov Figura N 14 Parámetros observables Figura N 15 Secuencia de observación Figura N 16 Representación gráfica del algoritmo de Viterbi Figura N 17. Relación entre α t-1 y α t ; β t-1 y β t en el algoritmo de adelanto-atraso Figura N 18. Ilustra las operaciones necesarias para el cálculo de γ t (i,j) Figura N 19. Aplicación de HMMs a un sistema de verificación de locutor Figura N 20. Forma de onda de la frase uno Figura N 21. Contenido de cero-h0001.phn Figura N 22. Contenido de uno_1.sgm Figura N 23. Configuración inicial de Cool Edit Pro para las grabaciones Figura N 24. Árbol Organizacional de la carpeta Genuino Figura N 25. Árbol Organizacional de la carpeta BDS... 94

7 vii Figura N 26. Modelado de la formación de las palabras usando HHM Figura N 27. Gráficos de los modelos ocultos de Markov Figura N 28. Pasos para la creación del modelo fonético de lenguaje usando modelos ocultos de Markov Figura N 29. Segmentación manual de la frase veinte Figura N 30. Pasos para la segmentación automática Figura N 31. Pasos para la inicialización del modelo para la segmentación automática Figura N 32. Prueba.lst de la frase veinte Figura N 33. Configuración de res.ini Figura N 34. Asignación numérica de los fonemas Figura N 35. Configuración de inicialización de la frase veinte Figura N 36. Curvas de la FAR y FRR Figura N 37. Curva ROC del verificador de locutor

8 viii ÍNDICE DE TABLAS Contenido Pág. Tabla N 1. Cronograma de elaboración de las fases de la investigación Tabla N 2. Cronograma de las sesiones de grabaciones realizadas en el colegio Ilustre Americano Tabla N 3. Cronograma de las sesiones de grabaciones realizadas en la UNEXPO Tabla N 4. Frases para las sesiones de grabaciones Tabla N 5. Listas de frases para las sesiones de grabaciones Tabla N 6. Listas de frases segmentadas fonéticamente Tabla N 7. Contenido de veinte.tra Tabla Nº 10. Comparación de los resultados Tabla Nº 8. Resultados de cpp1.exe Tabla Nº 9. Valores de la curva ROC

9 1 INTRODUCCIÓN En la actualidad, la sociedad demuestra un anhelo insaciable por la seguridad en diferentes aspectos, es por esto que existen diversos sistemas capaces de cubrir esta necesidad. En este sentido se mencionan los sistemas biométricos empleados en la verificación de personas basados en rasgos biométricos como lo son la voz, las huellas dactilares, el rostro, entre otras. En especial se quiere hacer mención a los sistemas basado en reconocimientos de identidad a través de la voz dependiente de textos, comúnmente llamados sistema verificador de locutor. Los sistemas verificadores de locutor dependientes de texto, determinan si una persona es quien dice ser, a través del análisis de la voz. Estos sistemas comprende dos fases específicas: el entrenamiento y la verificación. En el entrenamiento el usuario registra su voz en el sistema con el fin de construir un modelo fonético dependiente de dicho locutor, seguidamente se verifica al locutor en donde éste se presenta ante el sistema pronunciando la palabra con la que se creó el modelo fonético y se confronta con la pronunciación, si esta comparación es exitosa, sobrepasando el umbral de decisión entonces se acepta al locutor, en caso contrario se rechaza, entendiendo que es un impostor. Sin embargo, estos sistemas automáticos pueden presentar fallas y convertirse en blancos vulnerables ante los ataques de suplantación de la identidad de las personas. Dentro de este de orden de ideas, se plantea entonces la problemática de un reconocimiento automático que presenta errores en la exactitud, y evidentemente esto acarrea riesgos que pueden terminar en severas consecuencias con un alto costo para las personas y para las organizaciones que le confían sus recursos sensibles a estos sistemas automáticos de reconocimiento. Desde la perspectiva más general, aquí se propone la construcción de una base de datos segmentada que permite el entrenamiento del verificador, pues se ha verificado en

10 2 trabajos anteriores que este elemento influye directamente en los sistemas automáticos de reconocimiento. Finalmente es preciso describir la estructura del presente material bibliográfico. Debe señalarse que en el Capítulo I se aborda el problema, haciendo una descripción detallada del contexto, explicando los objetivos específicos, alcances y la justificación de la investigación. Seguidamente en el Capítulo II se presenta una revisión bibliográfica donde se estudian las teorías y conceptos que soportan los resultados prácticos así como también los trabajos previos realizados sobre el tema; el Capítulo III explica la metodología seguida para la obtención de los resultados; en el Capítulo IV se revisan y analizan los resultados conseguidos y finalmente se presentan la conclusiones y recomendaciones.

11 3 CAPÍTULO I PLANTEAMIENTO DEL PROBLEMA Descripción del Problema En los últimos años, el desarrollo en el uso de la biometría ha revolucionado enormemente a los sistemas de verificación de identidad. Esto es debido a que tradicionalmente se han utilizado contraseñas o claves personales en los sistemas de verificación. Este método es muy vulnerable a los ataques fraudulentos ya que se pueden obtener fácilmente las contraseñas a través de los métodos de suplantación de identidad, y una vez que éstas son conocidas, permite el acceso libre a los sistemas. Esta falla de seguridad se puede evitar con el uso de las características biométricas tales como huellas, voz, iris entre otras, que son únicas en cada persona y son difíciles de imitar. Una de las características utilizada para la verificación de la identidad es la voz (la más utilizada es la huella dactilar), la cual está relacionada directamente con el habla, y es del origen tanto fisiológico como conductual. Existen sistemas de reconocimiento de voz y de reconocimiento del locutor, el primero es capaz de interpretar lo que se está hablando y es independiente del locutor, mientras el segundo identifica dentro de una base de datos al locutor y verifica si es quién dice ser, por lo tanto se utilizan los sistemas de reconocimientos del locutor para la verificación de identidad.

12 4 Los sistemas de verificación del locutor pueden ser independientes del texto o dependientes del texto. En los sistemas independientes del texto, la locución utilizada para la verificación y el entrenamiento es diferente, por lo tanto el sistema identifica al locutor mediante sus rasgos biométricos, en cambio en los dependientes del texto, se usa una misma locución tanto para el entrenamiento como para la verificación, donde ésta sirve como la contraseña para el acceso al sistema y el verificador debe ser entrenado de nuevo cada vez que desea cambiarla. Como se ha dicho anteriormente, la verificación del locutor se realiza en dos fases, la primera es el entrenamiento del verificador, donde se generan los modelos de referencia mediante distintas grabaciones hechas por los usuarios del sistema. Para el modelado de la voz se utilizan los modelos ocultos de Markov (HMM). La fase de verificación consiste en el cálculo de puntuaciones al comparar las características de la voz extraídas mediante una frase corta pronunciada por el locutor con el modelo generado en la fase del entrenamiento; si la puntuación supera el umbral establecido en el sistema se permitirá el acceso al usuario, de lo contrario será rechazado. El mayor problema de los sistemas de verificación del locutor es que necesitan una base de datos segmentada para el entrenamiento de los modelos que, posteriormente sirve para la verificación de los usuarios, y esta base de datos también influye directamente en el desempeño del verificador. La concatenación de un determinado fragmento de voz humana puede ser separada en fronteras temporales entre sonidos correspondientes a unidades de cierto tipo, a este proceso de separación se conoce como la segmentación de voz. La separación temporal de las unidades fonéticas son necesarias para el entrenamiento de los HMM. Para obtener una base de datos segmentada es necesario pasar primero por la adquisición de voz que consiste en capturar mediante una grabación con el uso de un micrófono que convierta la voz en una señal analógica, el ancho de banda de ésta es limitada a la

13 5 frecuencia de Nyquist aplicando un filtro antialiasing, luego viene la extracción de los parámetros característicos a través de los procesos de análisis de señal; sin embargo, la voz se caracteriza por los rasgos del habla, los cuales son fonéticamente distintos en cada lengua. En diversas lenguas la aspiración es relevante para distinguir pares mínimos pero un fonema del español puede pronunciarse más o menos aspirado según el contexto y la variante lingüística del hablante, pero en general, para un fonema del español no está especificado el grado de aspiración. En cambio, en lenguas como el chino mandarín o el coreano un fonema tiene predefinido el rasgo de aspiración. A lo largo del tiempo se han hecho bases de datos para distintas aplicaciones y lenguas, tales como YOHO que se utiliza para la verificación del locutor en inglés, SpeechDat que viene en diferentes lenguas usada para el reconocimiento de voz, TIMIT que es para el reconocimiento del locutor en inglés americano de diferentes dialectos, entre otras. Sin embargo, no existe una base de datos segmentada para la verificación del locutor en español venezolano. En atención a la problemática expuesta, en esta investigación se propone la construcción de una base de datos segmentada para la verificación del locutor dependiente del texto, utilizando los HMM para la segmentación automática de la voz por medio de un programa computacional. Objetivos Objetivo General Construir una base de datos segmentada en español venezolano para la verificación del locutor dependiente del texto.

14 6 Objetivos Específicos Seleccionar el formato de los archivos para la grabación y el almacenamiento. Diseñar una estrategia para las sesiones de grabaciones. Construir los modelos de referencia mediante HMM con segmentación manual de la voz. Realizar la segmentación automática mediante el uso de HMM y de un programa computacional. Comprobar el funcionamiento de la base de datos segmentada por medio de un verificador del locutor. Justificación La gran mayoría de los sistemas de seguridad existentes en el mercado son del uso de claves secretas o de un Número de Identidad Personal (PIN) para su acceso, este método es antiguo e inseguro bien sea porque el portador puede olvidarla o por su facilidad de suplantación y robo de identidad. La alternativa de un sistema de seguridad de verificación usando autentificación biométrica (voz en este caso) aumenta significativamente la confiabilidad de los sistemas ya que estos rasgos son difíciles de imitar y siempre se llevan consigo a cualquier lugar. Los sistemas de seguridad biométrica de autentificación por voz, verifican la identidad de un locutor por medio de una frase pronunciada, en este caso el sistema conoce a priori la frase pronunciada ya que es dependiente del texto. Sin embargo, los fonemas contenidos en la voz son diferentes en cada lengua, y además por ser un sistema dependiente del texto, el locutor tendrá dificultad de reconocer las frases o de pronunciarlo correctamente en el caso de que no conozca la lengua utilizada en el sistema. Por ello, en los últimos años varios grupos de investigación se han dedicado en

15 7 crear bases de datos en distintas lenguas para el reconocimiento y la verificación de voz. Además, una base de datos segmentada amplia que contenga una cantidad de pronunciaciones lo suficientemente grande, permite el entrenamiento de los modelos fonéticos, la cual es una fase esencial en el proceso de verificación del locutor y también sirve para mejorar significativamente el desempeño del verificador. Sin embargo, a lo largo del tiempo no se ha creado una base de datos segmentada para la verificación del locutor específicamente en lengua venezolana. Por lo tanto, la creación esta base de datos justifica el interés de esta investigación, además esta base de datos permite estudiar los procesos de captura, procesamiento y reconocimiento de las señales de voz y también servirá para futuras investigaciones en la creación de una nueva base de datos en otras lenguas o aplicaciones. Alcances La base de datos segmentada presenta las siguientes limitantes y alcances: Este proyecto será desarrollado en la Universidad Nacional Experimental Politécnica Antonio José de Sucre. El tiempo estimado para ejecutar todas las etapas del proyecto fue de tres meses (Abril Junio del 2010). La base de datos segmentada está limitado en las mismas condiciones en que se grabe la señal de voz del locutor, debido a que existen factores que influyen durante el desarrollo de este procedimiento como: cambios en la voz del locutor en el transcurso del tiempo, condición de salud y estado de ánimo del locutor, ruido acústico, rapidez al pronunciar la palabra, variaciones del ambiente de grabación.

16 8 El desempeño de la base de datos está limitado dependiendo de la cantidad de muestras de voz recolectadas tanto de los usuarios autorizados como de los impostores. La base de datos a diseñar permite el entrenamiento de un verificador de locutor dependiente de texto hablado en español venezolano. En el proceso de creación de la base de datos participará la comunidad Unexpista y los alumnos del colegio Ilustre Americano. El resultado de esta base de datos será mostrado en tablas estadísticas con la ayuda de un verificador de locutor.

17 9 CAPÍTULO II MARCO TEÓRICO Antecedentes Las bases de datos con fines para el reconocimiento y verificación del locutor han sido de interés en numerosas investigaciones a lo largo del tiempo. Sin embargo, este es un campo muy extenso ya que se necesita una base de datos específica por cada lengua o aplicación distinta, por lo tanto no se ha tenido la oportunidad de investigar sobre una base de datos en español venezolano para la verificación del locutor. Entre las investigaciones realizadas se encuentra la publicación de González y García (2001), Diseño de un base de datos tipo SpeechDat para el idioma gallego, aquí se describe el diseño de una base de datos SpeechDat, reflejando los problemas que hay en la adaptación para la lengua gallega y las novedades incluidas. Los puntos que se abordaron en el tema fueron: el diseño de la base de datos teniendo en cuenta los requisitos genéticos en cada idioma, especialmente en el idioma gallego; la metodología utilizada en la adquisición de las grabaciones vía telefónica y la etiquetación de los materiales orales obtenidos. Concluyó que es necesario obtener una base de datos fonéticamente compensada para que el entrenamiento del reconocedor tenga una presencia suficiente y equilibrada. Hubo aumento y adaptación en elementos de la base de datos en función de las características propias del gallego, y la adaptabilidad de ésta a todo tipo de teleservicios automáticos.

18 10 Este documento sirve de referencia al presente trabajo por el parecido que existe entre el español gallego y el español venezolano, será tomado en cuenta en el proceso de la etiquetación de voz y también parte del diseño de la base de datos. D Haro (2002) publicó su trabajo titulado Desarrollo de un segmentador automático de voz mediante modelos ocultos de Markov, donde presenta un breve estudio del estado del arte en el desarrollo de segmentadores automáticos y la utilidad de los mismos. Luego se describe el modelo de Markov empleado, su número de estados y transiciones, la base de datos utilizada, los vectores de características, el software usado, así como las estrategias de entrenamiento y reconocimiento. Luego se presentan los diversos experimentos realizados y los resultados alentadores obtenidos (un 79,81% de las marcas en la banda de error menor a 20 ms). Este trabajo demostró que el método de segmentación automático es una utilidad importante ya que ahorra mucho tiempo con respecto a la segmentación manual con un margen de error bastante aceptable, el cual es uno de los objetivos tratados en la presente investigación. El trabajo realizado por Hernández (2004), Sistema para reconocimiento de hablantes dependiente e independiente del texto, donde utilizó los modelos de Mezcla Gaussiana y Redes Neuronales para diseñar un sistema para reconocimiento de hablantes dependiente e independiente del texto. Los datos de entrada del sistema están constituidos por una base de datos formada por la caracterización de las señales de voz por medio de los coeficientes Cepstral de Predicción Lineal, esta base de datos se llevó a cabo en el entrenamiento y la adaptación de los métodos en el sistema. Los resultados obtenidos con la implementación de este sistema fueron aceptables, con un 99% en el reconocimiento dependiente del texto y un 84% con independencia del texto.

19 11 En el proceso de la construcción de base de datos se realizó con la pronunciación de 10 palabras diferentes, con repeticiones de 50 veces hecha por dos hombres y dos mujeres. La diferencia de esta base de datos con la de presente investigación es que ésta es una base de datos mucha más amplia se necesita muestras de voz de una población mayor, y también se puede destacar que es para una aplicación diferente con métodos distintos. Sin embargo, las técnicas empleadas sirven de referencia para las grabaciones y el procesamiento de las señales. Finalmente el estudio realizado por Abreu, (2008), Sistema biométrico multimodal autónomo para aplicaciones de seguridad, desarrolló e implantó un sistema biométrico multimodal para la verificación automática de la identidad del locutor. Las características biométricas utilizadas fueron la voz y las huellas dactilares, y cuyo objetivo principal fue mejorar la exactitud del verificador. Utilizó un DSP de la familia Texas Instruments en el diseño del sistema de verificación con la finalidad de que éste pudo funcionar con total autonomía, sin la necesidad del uso de una computadora. Con los resultados se logró una mayor exactitud en el sistema con la implementación de dos clasificadores y finalmente dejó como recomendaciones el uso de una cantidad mayor de clasificadores y la implementación de los modelos ocultos de Markov más complejos para mejorar el desempeño del sistema. Durante el desarrollo se creó una base de datos de 600 muestras en dos sesiones de 300 muestras por sesión obtenido por pronunciaciones de 30 locutores. Esta base de datos sirve de guía a la presente investigación ya que las grabaciones fueron recolectadas por los alumnos de la UNEXPO, quienes hablan la misma lengua de interés en este trabajo, con la diferencia de que fue con una población más pequeña.

20 12 Bases Teóricas En este capítulo se dedicará a la explicación de conceptos y teorías con el propósito de dar una mejor comprensión al presente trabajo de investigación. Base de Datos Segmentada Para una mejor comprensión sobre la base de datos segmentada es conveniente definir este concepto por separado, en el orden de esta idea, a continuación se dedicará a explicar las teorías sobre base de datos y segmentación. Base de Datos El término de bases de datos fue escuchado por primera vez en 1963, en un simposio celebrado en California, USA. Una base de datos se puede definir como un conjunto de información relacionada que se encuentra agrupada ó estructurada. Para Becchetti y Prina, (2004) una base de datos del habla es una colección del habla grabado accesible en un computador y apoyado con anotaciones y transcripciones necesarias. Por otra parte, según Becerra y Villar, (sf) una base de datos para un sistema de verificación del locutor está compuesto por modelos hechos por frases pronunciados por los usuarios del sistema los cuales representan las características del habla de cada uno de ellos. Tipos de Bases de Datos Según Becchetti y Prina, (2004) actualmente existe 3 categorías de bases de datos del habla: Analítica-Diagnóstica: Es usada para mejorar nuestro conocimiento de la lingüística básica y elementos fonéticos del habla.

21 13 Genética: Incluye vocabularios no especificados que son adecuados para muchas aplicaciones. Específica: Colecciona lenguas cuyas características están relacionadas con el objetivo de la aplicación, como un sistema de solicitudes de información. Además las bases de datos pueden ser caracterizadas por el número y las características de los locutores (Becchetti y Prina, 2004). Según el número de locutores: Bases de datos con pocos locutores: Contiene grabaciones hechas por uno o dos locutores. El contenido incluye principalmente a frases coleccionadas para obtener una gran variedad de sonidos fonéticos. Las pronunciaciones son producidas por locutores expertos, con el objetivo de obtener una mejor velocidad constante, tono y calidad de pronunciación. Bases de datos con menos de 50 locutores: Varía en el contenido lingüístico (lecturas de frases aisladas o generación de un discurso entero) y en la calidad de las grabaciones (laboratorio o ambiental). Estas bases de datos tienen un gran número de grabaciones para obtener una estimación exacta de los parámetros del modelo. Bases de datos con más de 50 locutores: Están dedicadas para el desarrollo de reconocimiento automático independiente del locutor. En este caso, requiere de una gran variedad en estilos del habla y en calidad de la grabación, resultado de una distribución adecuada de locutores por edad y sexo. La selección y el número de locutores dependen en gran medida del objetivo de la aplicación. La selección aleatoria de locutores puede producir una pobre representación en algunas categorías y en algunos casos, completamente ausentes. Por esta razón, una muestra uniforme de todas las categorías en la población de interés garantiza una cobertura correcta de todas las variaciones posibles.

22 14 Por características de locutores: No todas las características de los locutores pueden mantenerse completamente bajo control. Aquellos factores que influyen en el habla que no depende a priori de las características de los locutores, por ejemplo, un resfriado puede cambiar temporalmente la patología del sistema de fonación debido a las alteraciones en las condiciones físicas, factores de estrés y otros estados emocionales que tienen una corta duración y no se pueden predecir con facilidad. Sin embargo, se puede someter a control estricto a factores como la distribución geográfica, sexo, calidad de voz, el nivel cultural, peso y altura, actitudes de beber y fumar y patología permanente de los aparatos fonológicos, (Becchetti y Prina, 2004): La calidad de voz: Puede estar relacionada con la edad de los locutores. Es fácil de reconocer la voz entre un niño, un adulto o una persona con edad avanzada. Las características de la señal relacionadas a la edad de los locutores no son claras y el efecto de la edad en el rendimiento de los sistemas automáticos de reconocimiento del hablante no ha sido evaluado. Sin embargo, en la construcción de una base de datos es preferible dividir los locutores en diferentes grupos según la edad. Por ejemplo, una distinción debe establecerse entre locutores menores de 20 años, adultos entre 20 y 60 años y personas mayores de 60. Si es necesario, los locutores con menores de 20 años pueden agruparse en 3 subgrupos: niños, adolescentes y jóvenes. Los vocabularios y sintaxis: No sólo son influidos por los niveles sociales y culturales sino también por la edad de los locutores. Es muy bien conocido que en el uso de lenguaje común, generaciones diferentes en muchos idiomas usan modismos distintos, palabras y dialectos que se enriquecen continuamente. Estas expresiones son asimiladas más fácilmente por los jóvenes que por los mayores. Estas diferencias no son fácilmente discernibles, por lo tanto cualquier clasificación es arbitraria.

23 15 El peso y la altura: Se ha demostrado que puede ser detectado el peso y la altura aproximado con escuchar sus voces. Por lo tanto es recomendable contar con una muestra suficientemente amplia que incluya locutores de diferentes pesos y alturas. Actitudes de beber y fumar: El abuso de alcohol y tabaquismo produce un envejecimiento en las cuerdas vocales, produciendo un timbre vocal más roncos. Por lo tanto, el uso de estas sustancias puede producir cierta confusión en la lengua, pero en este caso es más correcto considerar esto como un aspecto patológico. La geografía y lo socio-lingüístico: Estas son las fuentes más relevantes de variabilidad entre locutores, en consecuencia este aspecto es muy importante para la adquisición de información de acuerdo con su nivel cultural, social y origen geográfico. La dificultad de clasificar diferentes acentos y dialectos aumenta si el locutor vive por períodos cortos en lugares distintos. Para (Pedroza, 2007), la creación de una base de datos para un sistema de verificación del locutor automático, tiene como objetivo principal contar con muestras representativas de voz de cada una de las personas que participarán en el sistema, sea como usuarios válidos tanto como usuarios no válidos. En este último caso, las muestras de voz proporcionadas por los participantes permitirán formar, aunque no totalmente, el modelo de los usuarios no válidos, conocido comúnmente como complemento. Consideraciones y Aspectos Específicos para la Creación de una Base de Datos Además, se puede identificar dos puntos principales a considerar para la conformación de una base de datos de voz, (Pedroza, 2007):

24 16 Representatividad: Debe considerar algunos aspectos de la variabilidad de la voz en las escalas de tiempo y amplitud, así como el contenido de fonemas y sílabas de las frases pronunciadas para que de esta manera el contenido de información de los registros sea representativo. Universalidad: La conformación de conjuntos complementos a un usuario es únicamente respecto al conjunto total o universo de usuarios, es decir, no incluye de forma real a todos los usuarios no válidos. La conformación de complementos para cada usuario será universal en la medida en la que se incluya a potenciales usuarios no válidos del sistema. Algunos de los aspectos específicos que pueden ser considerados para la conformación de una base de datos se enlistan a continuación, (Pedroza. 2007): Sesiones de grabado: Se considera la posibilidad de realizar grabaciones de voz personalizada en diferentes sesiones con algunos días de separación con la finalidad de tomar en cuenta la variabilidad de voz en días distintos. Velocidad de lectura: Consiste en el grabado de voz a la velocidad usual del hablante y también a mayor y menor velocidad de la usual. La variabilidad de la voz en la escala temporal, es una de las dificultades que se presenta en el reconocimiento de fonemas y palabras. Considerar este aspecto en el grabado de los registros, a pesar de ser un tanto subjetivo, amplía la utilidad de los mismos y su representatividad. Frases de prueba: Pueden ser frases particulares por cada hablante o frases iguales que pronuncian todos los usuarios, con el objetivo de contar con datos de prueba para verificar el comportamiento del sistema ante el intruso. Estas frases también permiten el uso de los registros de voz en sistemas que son dependientes e independientes del texto pronunciado. Niveles de ruido: Por lo general, el ruido distorsiona la señal de voz durante su procesamiento el cual no es conveniente para el proceso de verificación, por lo tanto se necesita un ambiente controlado libre de ruidos durante la grabación.

25 17 Sin embargo, si el lugar donde será implementado el sistema de verificación existe influencia de sonidos externos, entonces es necesario tomar en consideración sobre los niveles de ruidos en los registros de voz. Edades y sexo de los hablantes: Se sabe que el intervalo de frecuencias audibles que conforman una señal de voz, está determinada en parte, por el sexo del hablante, por lo que es de importancia adquirir registros de ambos sexos a fin de considerar la variabilidad genérica de la voz. No existe entonces restricción para la participación de hombres y mujeres a menos que el sistema, por la naturaleza de su uso, lo requiera. Por otro lado se sabe que la voz es sensible a la edad en un mismo hablante y que la mayor variabilidad de ésta sucede en la adolescencia, por ello debe identificarse y considerarse de forma adecuada la población que estará involucrada en el sistema de reconocimiento, para garantizar la estabilidad temporal en el desempeño del mismo. Número de hablantes: Se considera que cada hablante genera un registro de voz. El número de hablantes determinará directamente la información almacenada. En teoría, dada la hipótesis de unicidad de la voz, el incrementar el número de registros no incrementa la complejidad de la operación de un sistema de reconocimiento. En realidad el número de registros es un factor importante para conformar un sistema confiable, ya que incrementa la probabilidad de encontrar correlación entre los registros de voz. Sistema de grabado: Es posible considerar la influencia del sistema de grabado en los datos obtenidos, para ello pueden utilizarse micrófonos de diferente calidad para realizar grabaciones simultáneas o en sesiones diferidas. Este aspecto agrega un factor que permite adecuar los registros de voz a diferentes sistemas de grabado. También permite analizar la influencia de estos medios en los sistemas de reconocimiento. Espontaneidad en la voz: Este aspecto considera diferencias en la pronunciación entre voz por lectura de texto y por pronunciación espontánea. Si se considera que los sistemas de reconocimiento pueden operar solicitando la

26 18 pronunciación de un texto leído o la repetición de una frase asignada, deben considerarse ambos tipos de grabación. Variación del canal: Es posible variar la distancia entre el micrófono y el hablante a fin de considerar la influencia de variaciones en el canal de transmisión, lo cual puede representar una condición real de operación del sistema de reconocimiento. Distribución de fonemas y sílabas: Una muestra de voz es representativa en la medida en la que incluye los fonemas y sílabas del idioma en la que se obtiene. Las frases pronunciadas deben tener una distribución de fonemas y sílabas que corresponde con la distribución usual del idioma. Aplicaciones de Base de Datos Por otro lado, se puede destacar los campos de aplicaciones donde se requieren el uso de bases de datos (D Haro, 2002): Síntesis de voz: Por lo general se usa dos técnicas complementarias en los sistemas de conversión texto a voz, los cuales son: el modelado acústico fonético y el modelado prosódico. La primera busca que las características acústicas de los sonidos sintetizados puedan ser identificados con la secuencia de fonemas deseados. En la segunda, se procura que dichos fonemas se sinteticen de forma que la amplitud, duración y frecuencia fundamental reproduzcan las variaciones que se producen en la voz natural. Ambos procedimientos requieren bases de datos segmentadas y etiquetadas. Los sintetizadores convencionales se basan en la concatenación de unidades, para ello requieren seleccionar las unidades que mejor representen una determinada realización sonora; entre más exacta la segmentación mejor es la selección. Por el otro lado, para realizar modificaciones prosódicas automáticas es preciso utilizar modelos entrenados con una gran cantidad de información proveniente de las bases de datos segmentadas y etiquetadas.

27 19 Reconocimiento de voz: Las técnicas que predomina en este campo son de reconocimiento estadístico de patrones. El uso de la segmentación en los sistemas de reconocimiento garantiza un entrenamiento más preciso y consistente, por lo tanto se pueden plantear estos sistemas basados en palabras, fonemas, trifonemas u otros, se requiere tener segmentación y etiquetado en diferentes niveles lo que obligaría a realizar diferentes trabajos según el caso. Identificación y verificación del locutor: Si bien este campo requiere muchos datos, y no necesariamente estos segmentados, puede resultar interesante la información de la segmentación y el etiquetado, para basar la identificación del locutor en ciertas clases de fonemas, o bien para tratar de forma diferenciada las distintas clases de fonemas. Se debe destacar que la base de datos que se creará en el presente trabajo tiene como finalidad la verificación del locutor. Formatos de Archivos En una base de datos existen diferentes archivos por cada una de las frases utilizadas, los cuales poseen un formato distinto según las funciones que cumple dentro de la base de datos, y dependiendo de la aplicación que se tiene y de las herramientas usadas para su desarrollo, los formatos varían. Dentro de esta orden de ideas, se pueden mencionar algunos de ellos: TIMIT TIMIT ha sido diseñado para proporcionar tanto para el discurso acústico y de aspectos fonéticos, está bien adaptado para el entrenamiento y evaluación del desempeño de los reconocedores fonéticos independiente de locutor. Esta base de

28 20 datos es apropiada para probar reconocedores de palabras ya que el lenguaje utilizado es muy simple. Toda frase de la base de datos está descrita por: Un archivo.txt contiene la transcripción ortográfica de la frase. Un archivo.wav de las muestras de la forma de onda. Un archivo.phn que contiene la correspondencia entre los etiquetados y las muestras. Un archivo.wrd que contiene la correspondencia entre las palabras y las muestras. ATIS Esta base de datos contiene grabaciones de habla natural en un sistema de peticiones de viajes aéreos. Las expresiones en la base de datos tienen muchas de las características de habla espontáneo. Las grabaciones han sido hechas en un ambiente de oficina. Cada una de las frases está asociada por un conjunto de archivos con extensiones distintas:.cat: categoría de la frase..nli: texto de frase con puntos; éste contiene lo que los sujetos tienen que decir, eliminando los posibles errores de pronunciación..ptx: texto en forma de pregunta..snr: transcripción de la frase..sql: contiene informaciones adicionales de la frase.

29 21.sro: incluye una descripción detallada de los grandes eventos acústicos incluyendo posibles repeticiones o palabras truncadas, expresiones no pertinentes o ruidos producidos accidentalmente..lsn: transcripciones de léxico derivada de.sro..log: escenario de la sesión..wav: forma de onda de la frase..win: referencias de la interpretación. YOHO La base de datos YOHO contiene un corpus de voz de alta calidad de gran escala para ayudar a la investigación de autenticación de locutor dependiente de texto, así como también es utilizada en tecnología de acceso de seguridad. La base de datos fue adquirida en un entorno de oficina, en condiciones muy controladas y bajo ruido. Se utilizó un auricular telefónico de alta calidad para capturar la voz. Está compuesta por 138 locutores, de los cuales 106 son hombres y 32 mujeres. El idioma de la base de datos es inglés americano, siendo la mayoría de locutores de la zona de Nueva York. Sin embargo, también se incluyen algunos locutores no nativos. La base de datos se compone de datos de entrenamiento y de verificación. El entrenamiento se divide a su vez en 4 sesiones de 24 frases cada una. Los datos de verificación se adquirieron en 10 sesiones espaciadas una media de 3 días entre ellas y con 4 frases por sesión. En un escenario dependiente de texto, las frases son conocidas por el sistema, es decir, al usuario se le pide que las diga.. La sintaxis utilizada en la base de datos es únicamente secuencias de tres pares de dígitos, a modo de contraseña. Un ejemplo de frase podría ser: twenty-six, eighty-one, fifty-seven.

30 22 Esta base de datos es distribuido en el Consorcio de Data Lingüístico en formato CD-ROM, que contiene archivos para entrenamiento y verificación de formato.wav y un archivo SPEAKER.doc que contiene la identificación por sexo y lugar de origen de los locutores y están enumerados. Segmentación La segmentación de la voz consiste en dividir una emisión en diferentes trozos de acuerdo con algún criterio. (Milone y Merelo, 2002). Cada segmento presenta dos límites o marcadores que miden el tiempo, a partir del inicio de la emisión, en que se encuentran el principio y el final del segmento en cuestión. Una emisión puede tener muchos segmentos y así la ubicación correcta de todos sus límites puede ser un problema complejo. Más aún si se consideran todas las variaciones asociadas con los distintos lenguajes, como generalmente ocurre en los problemas relacionados con el habla. Por otra parte, se puede definir la segmentación de voz como el problema de determinar con la mayor precisión posible las fronteras temporales entre sonidos correspondientes a unidades de cierto tipo y que forman por concatenación un determinado fragmento de voz humana. Para ello se tomarán como datos de partida dicho fragmento de voz, y a veces, otras informaciones. (D Haro, 2002). Técnicas de Segmentación Existe diversas técnicas para la segmentación de voz, entre las cuales se puede mencionar (Milone y Merelo, 2002): Segmentación manual: Consiste en la que generalmente un experto lingüista genera la segmentación con base en espectrogramas, curvas de energía, entonación y otros estudios utilizados para el análisis de la voz. Esta técnica

31 23 posee la ventaja de que la experiencia del lingüista asegura un muy buen resultado en la segmentación. Sin embargo los costos en tiempo y recursos que lleva este proceso manual son altísimos, lo que lo hace sólo aplicable a estudios muy especializados. Segmentación automática: Consiste en generar un conjunto de segmentos que delimiten todas las unidades fonológicas a partir de emisiones y de la transcripción fonética correspondiente. Existen dos modelos para la segmentación automática, el más empleado es el análisis estocástico el cual tiene distintas técnicas que se basan en la teoría de la decisión de Bayes, la teoría de la información, las técnicas de comparación de patrones utilizando programación dinámica y modelos ocultos de Markov. El otro modelo son los no-estocásticos que se representan con Redes Neuronales, actualmente se han conseguido resultados comparables a los obtenidos con los HMM. Tipos de Segmentación Cabe destacar que, es común que se segmente la voz para separarla en fonemas pero también suele ser de interés la segmentación según sílabas o unidades de nivel superior, como la palabra. Segmentación en Palabras Existe una dificultad muy elevada en la separación de palabras en voz continua debido, entre otras cosas, a los efectos de coarticulación. En palabras conectadas, el problema es algo más abordable debido precisamente, a que se eliminan en lo posible dichos efectos. Técnicas de programación dinámica, conocidas como DTW (Dynamic Time Warping o Alineamiento Temporal Dinámico), se han aplicado en principio al reconocimiento de palabras aisladas, pero después han sido ampliadas para palabras conectadas. Por ejemplo, el algoritmo conocido como Level-Building utiliza patrones de cada una de las

32 24 palabras a reconocer para detectar las posibles palabras de una secuencia mediante la búsqueda del mejor alineamiento posible entre dichos patrones y la frase a reconocer. Dicho alineamiento implica de hecho la segmentación en palabras. También se han diseñado algoritmos para la segmentación de la voz continua en sílabas, aunque estos mismos sistemas se pueden usar, y se han usado, en sistemas de palabras aisladas y conectadas. Algunos de ellos se basan en la función sonoridad (energía perceptualmente ponderada, filtrada con filtro pasa-bajo para eliminar los efectos del período fundamental) para buscar valles profundos correspondientes a la separación entre sílabas. Para eliminar errores producidos por sonidos fricativos y oclusivos, se exige a cada segmento una duración mínima. Igualmente se introducen restricciones en la duración de los valles. Segmentación en Fonemas Esta es una de las tareas más difíciles que se plantean en un sistema de reconocimiento automático de voz continua, razón por la que tiende a obviarse, al menos en su forma explícita, en los actuales sistemas. No obstante, se han propuesto una multitud de procedimientos para ello. En ocasiones, la tarea de segmentación fonemática va asociada al etiquetado de los diversos segmentos. No hay tampoco acuerdo en el orden en que deben realizarse estas dos operaciones, aunque parece que lo más eficiente es realizar en primer lugar la segmentación. En ocasiones se utilizan técnicas muy próximas a las de los sistemas expertos, realizando una primera clasificación y delimitación de los fonemas en unas pocas categorías, pasando en etapas sucesivas a refinar la segmentación a la vez que el etiquetado. La segmentación fonemática implica por lo general la extracción de parámetros complejos e incluso la utilización de parámetros dinámicos extraídos de la señal sonora.

33 25 Cuando se dispone de un modelo para cada una de las unidades a segmentar (fonemas en este caso), como ocurre en los sistemas actuales de reconocimiento de voz continua, hay otra posibilidad importante para realizar la segmentación automática, aunque los resultados dependen extraordinariamente de la calidad de los modelos. Es decir, dependen de lo bien que dichos modelos representen toda las posibles realizaciones de un determinado fonema. Se trata del algoritmo de decodificación de Viterbi, utilizado para calcular el mejor alineamiento posible entre una frase a reconocer y todas las posibles frases admitidas por el sistema de reconocimiento. Dicho alineamiento es, de hecho, una segmentación en las unidades consideradas para el reconocimiento. Aún sin disponer de modelos de las distintas unidades en las que segmentar una señal sonora, si se dispone de una base de datos en la que aparezcan suficientes ejemplares de cada una de las unidades, junto con la descripción fonemática de cada frase, es posible utilizar conceptos de la Teoría de la Información para establecer una segmentación de dicha base de datos. En estos casos se busca la segmentación que mejor coherencia proporciona, o lo que es equivalente, la que menor entropía genera en el conjunto de datos. Cabe destacar que en el presente trabajo se enfoca principalmente en la segmentación manual y automática en fonemas. Etiquetado Cabe destacar que otro de los procesos importantes en la construcción de una base de datos es el etiquetado donde éste suele ser fácilmente confundido literalmente con la segmentación, (D Haro, 2002). El etiquetado es el proceso de determinar la secuencia de etiquetas de las unidades de cierto tipo a las que corresponden los sonidos que forman, por concatenación, un determinado fragmento de la voz humana. (D Haro, 2002).

34 26 Problemas de la Segmentación y Etiquetado En la práctica existe problemas en los procesos de la segmentación y etiquetado de la base de datos (Bechetti y Prina, 2004), entre ellos son: El mapeo de los eventos acústicos continuos dentro de la representación lingüística discreta es complejo, no lineal e irreversible. El establecimiento de los límites entre fonemas es en parte arbitraria y los procedimientos estándares deben ser definidos. Los fonemas depende en el lenguaje; el mismo símbolo ortográfico puede tener diferentes significados fonéticos en lenguas distintas, y también puede tener ligeras diferencias en realizaciones acústicas. Reglas no explícitas o estándares para segmentación y etiquetado. Los procedimientos son usualmente determinados por la experiencia de operador, y las convenciones de transcripción son determinados con diferentes grupos de trabajos. Por lo tanto, con diferentes operadores puede producir resultados contrastes. Igualmente si las reglas de anotaciones son previamente definidas, es difícil para que la misma persona sigua siempre esas reglas. Escucharlas partes de locución con un software de segmentación, no ayuda mucho en el procedimiento, ya que los fonemas aislados son percibidos distintamente en cada contexto. Esencialmente existe tres problemas en el etiquetado manual, (Becchetti y Prina, 2004): Es extremadamente costoso en tiempo. Carece de procedimientos estándares para anotaciones multilenguas. El procedimiento es propenso a errores humanos que son generados casualmente.

35 27 Por otra parte, en los procedimientos de la segmentación automática se requieren de una gran cantidad de datos que deben ser anotados. Los errores producidos son sistemáticos, y en consecuencia son más fáciles de identificar y eliminar. Al contrario, el nivel de exactitud de la transcripción no es comparable con lo obtenido con una segmentación manual, así que esto en muchas veces es necesario realizar el control humano para validar los resultados. Sistema de Verificación del Locutor El área de reconocimiento automático de locutor comenzó a destacarse en 1970 por Doddington (Doddington, 1970), y ésta consiste en reconocer a una persona sin la supervisión humana a través de su sonido vocal. Los sistemas de reconocimiento automático de locutor se pueden clasificar en tres tipos, (Esteve, 2007): Identificación de locutores Verificación de locutores Seguimiento y agrupamiento de locutores En la identificación de locutor el sistema compara la voz del locutor con la base de datos almacenada en la memoria, en la que busca entre todos los usuarios registrados, para determinar la identidad del locutor. Por el contrario, la tarea de los sistemas de verificación de locutor es determinar si el locutor es o no, quién dice ser. Por último, el seguimiento y agrupamiento consiste en etiquetar qué locutor está hablando en un segmento de voz y cuándo se producen cambios de locutores. Por otra parte, cada uno de estos sistemas de reconocimiento poseen características y aplicaciones diferentes, por ejemplo, en la identificación de locutores se puede utilizar

36 28 para restringir el acceso a información a personas no autorizadas. Por otro lado, el seguimiento y agrupamiento de locutores tiene su utilidad en la trascripción de noticias o reuniones, con el fin de aislar la voz de cada uno de los locutores en una grabación. La verificación de locutores tiene también numerosas aplicaciones comerciales importantes, por ejemplo las transacciones bancarias a través del teléfono. Además de ésta, existen muchas otras aplicaciones comerciales, todas destinadas a aumentar la seguridad en la verificación de la identidad como podría ser la gestión de identidad en centrales de atención al cliente, haciendo posible confirmar la identidad del usuario que llama y certificar las operaciones que realice como la contratación o baja de nuevos servicios. Otra aplicación podría ser el restringir el acceso a personas no autorizados a bases de datos con información confidencial de clientes. Muy importante también son las aplicaciones en el ámbito forense, puesto que se puede emplear en juicios para comprobar si la voz empleada como prueba coincide con la del acusado. Ahora, según el criterio de la dependencia o no de texto (Dessimoz, 2006), se puede dividir los sistemas de verificación del locutor dos grupos: Sistemas dependientes de texto Sistemas independientes de texto En los primeros, la locución de entrenamiento y la de verificación suelen ser el mismo texto. Fundamentalmente consiste en una palabra o frase clave (contraseña) que le permite el acceso al sistema al usuario. En estos sistemas, la contraseña es conocida por el sistema y suele ser fija, requiriendo un nuevo entrenamiento cada vez que se desea cambiar de contraseña. Un problema de estos sistemas es que son relativamente fáciles de atacar en caso de que el impostor grabe la palabra clave pronunciada por el usuario. Para evitar este tipo de ataques se introducen los sistemas text-prompted o de texto solicitado, en los que el sistema además de solicitar la contraseña al usuario solicita repetir un código o frase elegido aleatoriamente, y que por tanto evita la posibilidad de utilizar grabaciones.

37 29 Por el contrario, en los sistemas independientes de texto la locución de entrenamiento y la de test no coinciden, siendo la locución de test desconocida por el sistema. En este caso, el sistema no utiliza ningún tipo de contraseña, sino únicamente el rasgo biométrico de la voz. Ambas tareas son distintas y emplean por ello diferentes técnicas. En sistemas independientes de texto se utilizan tradicionalmente técnicas basadas en GMMs (Gaussian Mixture Models o Modelos de Mezcla Gaussiana), mientras que en sistemas dependientes de texto se suelen utilizar técnicas de DTW o HMM. En general los sistemas de verificación actuales pueden describirse mediante cuatro módulos (Pedroza, 2007): adquisición, procesamiento, verificación y decisión. Adquisición: En esta fase se consideran aspectos sobre el grabado de la voz. Actualmente se utilizan convertidores analógicos digitales que muestrean la voz en un intervalo de 8000 Hz a 20,000 Hz y con una resolución de 12 a 32 bits. La frecuencia de muestreo es asignada de acuerdo a la calidad de voz a manejar. Para calidad telefónica se emplean 8000 Hz. En la conformación de las bases de registros se consideran aspectos, principalmente, sobre la variabilidad de la voz y sobre otros, específicos del sistema de verificación. Procesamiento: En esta fase se considera la extracción de características de las tramas de voz de los usuarios, que permitirán la operación del sistema de verificación. La extracción de vectores de características es realizada por medio del denominado análisis Cepstral. Una fase previa a dicho análisis puede consistir en la obtención de los coeficientes de predicción lineal (LPC, por sus siglas en inglés), o bien la aplicación de un banco de filtros cubriendo el espectro en frecuencias de la señal. Este análisis es también conocido como Mel-Warped Cepstrum, pues el banco de filtros es aplicado en una escala de frecuencias denominada Mel, la cual intenta emular el comportamiento fisiológico del oído humano.

38 30 Verificación: En esta fase se considera el proceso de generación del modelo correspondiente a cada hablante y la metodología para realizar la evaluación de los datos característicos a fin de determinar la mejor correspondencia con los modelos. Con este fin son empleados distintos procedimientos matemáticos como los GMMs y HMM. Decisión: En esta fase se considera la aplicación de un modelo matemático que, con base en los resultados obtenidos, minimice la posibilidad de que suceda alguno de los dos errores conocidos: la aceptación de un solicitante inválido y el rechazo de un solicitante válido. Medidas del Desempeño de un Verificador de Locutor En un sistema de verificación de locutor sólo puede dar dos respuestas posibles, aceptar o rechazar a un locutor, las cuales llevan a 4 posibles respuestas, dos verdaderas y dos falsas: Aceptar al locutor. Rechazar a un impostor. Aceptar a un impostor. Rechazar al locutor. Las dos primeras respuestas son las correctas y las restantes son las falsas. Entonces se puede decir que los errores del sistema verificador de locutor se producen al aceptar a un impostor o al rechazar al locutor. Ahora bien, para medir el desempeño del sistema se define un umbral de decisión, el cual no puede ser demasiado estricto, ya que podría tender a rechazar a verdaderos locutores, y si es demasiado permisible tenderá a aceptar impostores, por lo que para

39 31 aumentar el desempeño del sistema se deben minimizar conjuntamente ambos tipos de errores. Para encontrar el umbral de decisión óptimo se definen dos curvas: la curva de Falsa Aceptación y la curva de Falso Rechazo. Estas curvas se muestran en la Figura N 1, la curva en rojo es la curva de falsos rechazos y la azul la curva de falsa aceptación, EER (Tasa de igual error) es el punto en donde se igualan los dos errores, TEER es el umbral óptimo. Figura N 1. Curva de falsa aceptación y falso rechazo, EER y TEER. La curva de falso rechazo se construye, moviendo el umbral de decisión en un amplio rango e identificando para cada uno de estos puntos, qué porcentaje de las ocasiones en las cuales el locutor trató de verificarse y fue rechazado, esto se expresa mediante la siguiente ecuación (Alegre F.,(2007)).:

40 32 = h La curva de falsa aceptación se obtiene desplazando el umbral de decisión e identificando para cada punto qué porcentaje de los impostores fue aceptado. Su expresión matemática se muestra a continuación (Alegre F., (2007)).: = La intersección de estas curvas indica el umbral óptimo para el cual se minimiza el error del sistema. Este umbral óptimo se denomina TEER por su abreviatura en inglés de thershold of equal error rate y es definido luego de una serie de intentos de verificación tanto por el locutor como por impostores. A partir del EER se puede encontrar el porcentaje de error del sistema verificador de locutor, al evaluar este valor en algunas de las curvas definidas anteriormente. Producción de las Señales de Voz Se puede resumir en 4 pasos la forma cómo el aparato articulatorio crea las señales de voz (Hernández, 2004): El diafragma empuja los pulmones, haciendo que expulsen el aire. El aire circula por la tráquea y laringe, pasando por las cuerdas vocales y haciendo que vibre con un tono fundamental. El tono fundamental producido por las cuerdas vocales pasa a través de la laringe, a la caja de resonancia que forman las cavidades nasal y oral. Algunas frecuencias entran en resonancia en las cavidades nasal y oral, saliendo hacia el exterior como la información más importante del habla.

41 33 El aspecto más importante que se produce en las señales de voz es el análisis de la lengua, el cual se realiza en 3 niveles: Nivel fonológico: Se estudia los fonemas que son las unidades lingüísticas mínimas, donde estos se establecen por posición, y el significado de la palabra cambia a medida de que el sonido de ésta varía. Nivel morfosintáctico: Se estudian las palabras estableciendo su género, número y tiempo. Nivel semántico: Se estudia el significado de las frases y su coherencia. Tomando en cuenta el estudia del nivel fonológico, se puede dividir en 2 variantes para su análisis respectivo: Fonética articulatoria: Estudia el movimiento de los órganos fonadores para la formación y emisión del sonido. Fonética acústica: Estudia las características de la onda sonora y su percepción. A pesar de que formalmente el lenguaje no es una característica intrínseca del ser humano, pues es adquirido de manera empírica a través del tiempo y con la adecuada socialización, sí puede considerarse como una característica distintiva de la especie. Como fue mencionada anteriormente, la voz es una sucesión lógica de sonidos básicos o fundamentales llamados fonemas. Físicamente, dichos fonemas son ondas mecánicas esféricas con una representación matemática particular, la cual puede ser periódica. Cada lenguaje, entendido éste como un conjunto de símbolos que permiten la comunicación verbal (por ejemplo, español, inglés, francés), posee un conjunto finito de fonemas y ciertas reglas de ordenamiento que determinan la lógica y semántica en las secuencias o sucesiones pronunciadas, las cuales pueden incluir intervalos de silencio.

42 34 Características Físicas de la Señal del Habla El ancho de banda de frecuencia de la señal del habla esta cerca de 16 khz. Sin embargo casi toda la energía del habla está por debajo de 7 khz. Para comunicaciones telefónicas el ancho de banda se reduce entre Hz. Por consiguiente, la digitalización del habla usualmente se realiza con una frecuencia de muestreo entre 8000 muestras/segundo y muestras/segundo. Estos valores corresponden a un ancho de banda de 4 khz y 16 khz respectivamente. La voz es producida por mecanismos articulatorios fonéticos. Estos permanecen en una posición estable por muy corto tiempo durante la producción de un fonema y luego se mueven a otra posición estable diferente por medio de un movimiento articulatorio de transición. Esta es la razón por la cual la señal del habla tiene una pertinente variación cada ms. Un simple pero efectivo modelo matemático del proceso fisiológico de producción de la voz es el modelo de la excitación y el tracto vocal. La excitación está representada por los sonidos por la parte del sistema físico fonético, incluyendo pulmones y cuerdas vocales, mientras que el tracto vocal es el conducto por donde pasa el aire hasta la boca. La excitación requiere una descripción matemática diferente para los sonidos sonoros (voiced en inglés) y los sonidos sordos (unvoiced). La señal de excitación está sujeta a modificaciones espectrales mientras ésta atraviesa el tracto vocal, el cual tiene un efecto acústico equivalente a un filtrado lineal invariante en el tiempo. Esas modificaciones son las que dan, al sonido final, los rasgos característicos de los diferentes fonemas del lenguaje hablado. El modelo anteriormente descrito es muy pertinente debido a que, para cada tipo de excitación, un fonema es identificado básicamente considerando la forma del tracto vocal. Por lo tanto, la configuración del tracto vocal puede ser estimada identificando el filtrado que éste efectúa sobre la

43 35 excitación. Si llamamos Px(ω) al espectro de potencia de la señal del habla, Pv(ω) al espectro de potencia de la excitación y Ph(ω) al espectro de potencia del tracto vocal, se tiene (Becchetti y Prina, 2004): = ( ) Donde, ω es la frecuencia de la señal en tiempo discreto. El espectro del filtro Ph(ω) puede ser obtenido desde Px(ω) y Pv(ω). El Español Venezolano Las lenguas de Venezuela son conocidas como el español venezolano. El idioma español llegó a Venezuela con la conquista española llevada a cabo desde los primeros años del siglo XVI. La mayoría de los españoles eran originarios de las regiones de Andalucía y de Extremadura trayendo consigo ese acento y modalidad. Otro grupo llegó de las Islas Canarias, muy alejada de la Península Ibérica, y por lo tanto se caracterizaba por importantes diferencias dialectales. Además de su origen español, a lo largo del tiempo el léxico venezolano fue enriquecido bajo la influencia por la llegada de numerosos grupos de otras nacionalidades, como ejemplos se puede mencionar (Cava, sf): Portugués: garúa, lamber. Francés: chofer, crayón, petipuá. Italiano: chao, ñoquis, pasticho, pizza. Alemán: delicateses, sauekraut. Fonética y Fonología La fonética y la fonología son dos disciplinas de las lingüísticas encargadas de estudiar los sonidos del lenguaje. El ámbito de estudio de una y otra no es exactamente igual, dado que ambas disciplinas se centran en aspectos distintos.

44 36 En cualquier caso, la fonética es una especialidad que abarca un ámbito mayor que la fonología. En la primera hay una base meramente acústica, mientras que en la segunda se tiende a considerar la imagen mental de lo que percibimos. El Sistema Vocálico El sistema vocálico del español venezolano es muy parecido al de español general, aunque se puede encontrar en el habla espontáneo de todo el país la diptongación de las secuencias vocálicas (Cava, sf): ea (rial en vez de real) ee (emplié en vez de empleé) eo (pion en vez de peón) oa (tualla en vez de toalla) El Sistema Consonántico En Venezuela existe 17 consonantes: uno lateral /λ/ dos vibrantes /r,r/ tres nasales /m,n,ñ/ cuatro fricativos /f,s,j,h/ uno africativo /c/ seis oclusivos /p b/, /t d/, /k g/ Además incluye el seseo (ausencia de c ) y el yeísmo. El fonema fricativo sordo /h/ sustituye al fonema velar /x/, igualmente fricativo y sordo. Las características fonéticas más sobresalientes de los venezolanos son las siguientes:

45 37 La utilización del archifonema /N/ se da tanto en el interior de la palabra como entre palabras: campana-canpana / me gusta el pan con jamón-me gusta el pam con jamóm. El grupo consonántico sc tiende a pronunciarse como x: excenario, pixcina, en vez de escenario y piscina. El fonema /s/ en situación implosiva suele aspirarse: los niños lo niño. Oposición entre fonema oclusivos /p b/, /t d/, /k g/ que se neutralizan en posición implosiva, dando lugar al archifonema /K/ en el habla coloquial: akto en vez de apto/ suksidio en vez de subsidio. La neutralización de /l/ y /r/ en posición implosiva da lugar a dos fonómenos conocidos como rotacismo: borsa en vez de bolsa, y landacismo: puelta en vez de puerta. El alófono fricativo /d/ se debilita en posición intervocálica, en mayor grado en la terminación ado, aun cuando raramente llega a la total elisión. Ésta, sin embargo, puede darse cuando /d/ está en posición final de la palabra: verdá en vez de verdad. Entonación Al hablar, el tono de voz no es constante, cambia con subidas y bajadas para expresar información, porque no es lo mismo enunciar, preguntar y exclamar, como se ve en: Enunciado: Hoy está lloviendo Pregunta: Hoy está lloviendo? Exclamación: Hoy está lloviendo! Lo que en la lengua escrita se expresa por medio de signos gráficos auxiliares, en la lengua oral se expresa con el cambio de tono.

46 38 Tradicionalmente, la entonación ha sido considerada como uno de los factores más importante a la hora de establecer las diferencias dialectales. Pero en este aspecto, y a pesar de los muchos estudios realizados, no se han encontrado diferencias distintivas que permitan diferenciar un dialecto de otro. (Cava, sf) Procesamiento Digital de la Señal de la Voz En un sistema verificador de locutor, la señal de la voz tiene que ser procesada para obtener las características más relevantes, y lograr así la verificación del locutor. El propósito del procesamiento de la señal de la voz es convertir dicha señal a una señal digital adecuada para la verificación de los patrones de la voz. Para esto es necesario muestrear la señal que se obtiene del micrófono con la intención de convertirla a una señal digital, seguidamente se le aplica un preénfasis el cual acentúa las alta frecuencias de la señal, luego se emplea la ventana de Hammings para obtener una señal segmentada en tramas que hagan posible el posterior análisis espectral discreto y finalmente se realiza el cálculo de los Coeficientes Cepstrales en la Escala de Frecuencias MEL. Figura N 2 Diagrama del Procesamiento de la Señal de la voz

47 39 Micrófono En el sistema se utiliza un micrófono para recibir las señales sonoras emitidas por el usuario. Este micrófono cumple la función de elemento transductor, convirtiendo la presión de la onda sonora en una señal eléctrica. Figura N 3 Señal de la voz La selección de micrófono es determinado por algunas cuestiones especificas relativa a (Becchetti y Prina, 2004: Características electroacústicas como sensibilidad, rango de frecuencia, respuesta transitoria, no linealidad, entre otras. Características mecánicas como robustez, peso y tamaño. Características eléctricas para la interfaz con otros componentes. Susceptibilidad a eventos externos como choques, vibraciones, campos electromagnéticos, vientos, entre otros. Conveniencia, costo y otras características externas.

48 40 Conversión de la Señal Analógica a Digital Los procesos que intervienen en una conversión analógica-digital de una señal de voz son: el muestreo, la cuantificación y la codificación. A continuación se describirá cada uno de estos pasos. Muestreo La señal de la voz es continua en tiempo y en amplitud. Para ser procesada, es necesario convertirla en una señal discreta tanto en tiempo como en amplitud, es decir, convertirla a una secuencia binaria o representación digital. La señal procedente del micrófono es convertida a una señal en tiempo discreto, esto se logra tomando muestras de la señal en periodos de tiempo iguales. Para que en este proceso de digitalización no exista pérdida de información, se debe tomar en cuenta el teorema de Nyquist el cual establece que la frecuencia de muestreo debe ser al menos dos veces mayor que el ancho de banda de la señal, en otras palabras la frecuencia de muestreo mínima que se debe utilizar debe ser mayor que 2 fmax, donde fmax es la frecuencia máxima de la señal a muestrear. Si se utiliza una frecuencia más alta que la que nos dice Nyquist obtendríamos una representación más exacta de la señal de entrada. La Figura N 4 representa gráficamente el muestreo a una señal, donde se observa el periodo en el que se toma muestra de dicha señal.

49 41 Figura N 4 Muestreo de una señal Cuantificación La señal en tiempo discreto es llevada a valores de voltaje digitales, relacionando la amplitud de los valores muestreados con niveles de cuantificación. El valor máximo de cuantificación estará determinado por el valor muestreado que tenga mayor amplitud. Figura N 5 Cuantificación de una señal

50 42 Codificación El paso final para la conversión de la señal de voz a una señal digitalizada, es la codificación, la cual es la representación numérica de los valores de voltajes obtenidos en la cuantización por medio de un código numérico binario, en otras palabras, la asignación de valores binarios equivalentes a los valores de tensión que conforman la señal de voz. Figura N 6 Codificación de una señal Preénfasis Una vez obtenida la señal de voz digitalizada, se realiza un filtrado digital, a través de un filtro de respuesta finita al impulso (FIR) (Navarro, J.) que tiene la siguiente expresión: = ( )

51 43 El filtrado de preénfasis se conoce como un filtrado digital de primer orden, toma la expresión de un diferenciador como el siguiente: = 1 ; 0 1 El efecto de Hpre (z) esencialmente es el realce o énfasis de las componentes de alta frecuencia de la señal. En la expresión mostrada es el parámetro de preénfasis y toma valores próximos a la unidad. En el dominio del tiempo, el signo del preénfasis se relaciona al signo de la entrada por la siguiente ecuación: = ( 1) Un valor típico de a es 0.95, que dan lugar a más de 20dB de amplitud en el espectro de frecuencias altas. Figura N 7 Efecto del Filtrado de Preénfasis de un fonema sordo.

52 44 En la figura N 7 se puede apreciar el efecto del filtrado en una señal de voz sorda mediante un filtro de preénfasis, observándose el realce que toma el espectro de la señal en la zona de alta frecuencias. Aplicación de la Ventana Como se sabe, la voz es un proceso estocástico; es decir, sus variaciones temporales son aleatorias. Para representar las características de la señal de voz, se realiza una representación en segmentos de dicha señal, tomando en cuenta que este espectro cambia lentamente. Lo dicho anteriormente sugiere que se pueden tomar segmentos cortos de la señal, de manera que se pueda asumir estacionalidad en ellos para poder realizar los cálculos de las características de la señal de la voz del locutor en tramos. Un aspecto importante que se debe considerar al realizar el entramado de la señal es la duración de las tramas y la separación entre tramas adyacentes, resaltando el número de muestras de cada trama (N) y las muestras de separación entre tramas adyacentes (M). La Figura N 8 presenta un ejemplo de segmentación en tramas para el caso en el que M=(1/3)N, donde las primeras N tramas contiene las primeras N muestras, la segunda trama empieza M muestras después de la primera y se solapa (N-M) muestras y así sucesivamente. Se pueden presentar tres situaciones con respecto a la relación que existe entre N y M: Si M N se solaparán las muestras adyacentes y el espectro resultante estará correlacionada trama a trama. Si M<<N la estimación espectral estará demasiado suavizada. Si M>N no existirá solapamiento entre tramas adyacentes, perdiéndose parte de la señal de voz y la correlación entre tramas adyacentes; por lo tanto, la

53 45 estimación espectral resultante contendrá una componente ruidosa cuya magnitud crecerá con M. Figura N 8 Segmentación de una señal de voz en tramas. Con lo expuesto anteriormente la elección de M y N depende directamente de la velocidad de articulación (velocidad de cambio de estado del tracto vocal) del sistema de producción de voz. En el proceso de segmentación, se realiza una operación de enventanado, esto es, multiplicar la señal de voz por una función ventana, con dos objetivos fundamentales como es lograr atenuar gradualmente la amplitud de la señal en los extremos del intervalo de extracción y producir la convolución entre la transformada de Fourier de la función ventana y el espectro de la señal, atendiendo a la siguiente propiedad de la transformada de Fourier: = = ( )

54 46 Existen muchas funciones de ventanas entre ellas la rectangular, Hamming, Hanning Blackman, Barlett y Kaiser, actualmente, en procesamiento de señal de voz, se utiliza la ventana Hamming que tiene la siguiente expresión: = Esta ventana ofrece una buena resolución frecuencial.figura Cálculo de los MFCC Los Mel Frequency Cepstral Coefficients (coeficientes cepstrales en escala de frecuencias Mel) son coeficientes para la representación del habla basados en la percepción auditiva humana. Se derivan de la Transformada de Fourier (FT) y de la Transformada discreta del coseno (DCT). La diferencia básica entre FT y MFCC es que en MFCC las bandas de frecuencia están espaciadas logarítmicamente (según la escala Mel) para modelar la respuesta auditiva humana más apropiadamente que las bandas espaciadas linealmente de la FT. Esto permite un procesado de datos más eficiente, por

55 47 ejemplo, en compresión de audio. La imagen siguiente representa el procesado de la señal que se realiza en un sistema típico para computar los coeficientes MFCC. En la Figura N 10 se describe, a través de bloques, el sucesivo procedimiento que se debe llevar a cabo para obtener los coeficientes cepestrales en la escala de frecuencias Mel. Figura N 10 Procedimiento para el cálculo de MFCC. La señal que proviene de aplicar la ventana de Hamming se introduce al bloque del cálculo de la transformada discreta de Fourier cuya representación está dada por: La señal que proviene de aplicar la ventana de Hamming se introduce al bloque del cálculo de la transformada discreta de Fourier cuya representación está dada por: = ; = 0, 1,, 1 Además, si el número de muestras N es una potencia de 2, N = 2 con p entero, la complejidad computacional puede ser reducida a un orden de N log(n) recurriendo al algoritmo de la Transformada Rápida de Fourier (FFT). También, si xt(n) es real, la FFT

56 48 puede ser calculada reduciendo a la mitad la complejidad computacional, resultando la reducción en un orden de (N/2)log(N/2). Las características del tracto vocal pueden ser estimadas por el periodograma de xt(n) que simplemente es el cuadrado de la magnitud de la DFT (Transforma Discreta de Fourier): ( ). Y esto es precisamente la estimación del espectro de potencia de la señal del habla Px(ω) (Becchetti y Prina, 2004). Luego, la señal es filtrada mediante un banco de filtros de diferentes frecuencias y amplitudes para dar más resolución en las bajas frecuencias, como ocurre en el sistema auditivo humano. Este filtrado se realiza en el dominio de la frecuencia. De la salida de cada filtro se calcula la energía en promedio y los valores obtenidos se pueden ver como una nueva señal de tiempo discreto. Existen muchas maneras de implementar tales filtros. Un método computacionalmente barato consiste en ejecutar el filtrado directamente en el dominio de la DFT. La DFT de las respuestas de los filtros es simplemente una versión desplazada y deformada en frecuencia de una ventana triangular (Becchetti y Prina, 2004): Donde k es el índice en el dominio DFT y 2 es el tamaño del m-ésimo banco de filtro de ventana triangular. La salida del m-ésimo banco de filtro está dado por (Becchetti y Prina, 2004): = ( + )

57 49 Donde Xt(k) es la DFT de la señal discreta y enventanada de la voz descrita en el apartado anterior y 1 m Q. La frecuencia central puede ser calculada por: = + y para f = < 1 khz, se elije de manera que diez filtros resulten uniformemente espaciados. Para f > 1 khz, se puede utilizar la fórmula: = 1,2 El procedimiento final en el cálculo de los coeficientes cepstrales en la escala de frecuencias en Mel consiste en aplicarle a la magnitud de la señal de salida del banco de filtros el logaritmo y luego calcular la transformada inversa de Fourier. Este procedimiento se representa con la siguiente expresión (Becchetti y Prina, 2004): = 1 2 ; = 0,, Y finalmente, se obtienen unos parámetros (de los que se toman habitualmente de 13 a 20) aproximadamente: estos son los coeficientes MFCC. En particular, el primer coeficiente representa la energía de la señal y se usa o no dependiendo de la aplicación (en caso de usarlo habitualmente se normaliza para compensar variaciones de energía debidas a proximidad al micrófono u otros efectos colaterales indeseados). Aparte de estos primeros coeficientes se suelen usar también las velocidades y/o las aceleraciones (Delta-MFCC y Delta-Delta-MFCC), que representan la evolución temporal de los fonemas al pasar de unos a otros. Los coeficientes Delta representan la variación de los coeficientes MFCC alrededor del instante de tiempo considerado. Suelen, por esto, llamarse coeficientes de primera derivada o velocidad. De modo similar, los Delta-Delta se denominan de aceleración.

58 50 Modelo Oculto de Markov En el mundo existen eventos en donde se hace necesaria la creación de modelos que permitan su estudio y así conocer su comportamiento en el mundo real. Dentro de estos fenómenos se pueden nombrar, los meteorológicos, los cuales no se pueden modelar de forma sencilla ya que tienen un comportamiento aleatorio en el transcurso del tiempo. Así también, la modulación del habla, debido que el encadenamiento de los fonemas tiene un comportamiento aleatorio al formar la voz. Existen dos tipos de modelos para representar algún evento, los cuales son los modelos determinísticos y los modelos estocásticos. Los modelos determinísticos, son aquellos establecidos por una secuencia conocida sin tener influencias del azar a través del tiempo y los modelos estocásticos son probabilísticos, utilizan la incertidumbre como parte del cálculo, estos simulan procesos en los que un sistema cambia de manera aleatoria entre diferentes estados, a intervalos regulares o irregulares simulando las probabilidades de distribución de los acontecimientos que podrían darse por efecto del azar. De esta manera surge la incógnita de cómo podemos crear una representación de un modelo estocástico que simule el comportamiento aleatorio de la creación de la voz. Para esto existen herramientas que permiten obtener tales representaciones, entre estos se tienen los modelos ocultos de Markov, los cuales determinan los parámetros ocultos a partir de los parámetros observables. El modelo oculto de Markov o HMM, son modelos estadísticos que constituyen una herramienta de modelización de datos secuenciales, permitiendo obtener mejores representaciones de fenómenos que son altamente probabilísticos, cambiando de manera aleatoria entre diferentes estados. La tarea fundamental consiste en determinar los parámetros ocultos a partir de los parámetros observados. La diferencia fundamental

59 51 respecto a un modelo de Markov habitual consiste en que los estados no son directamente visibles para el observador, pero sí lo son las variables influenciadas por el estado. Cada estado tiene una distribución de probabilidad asociada sobre el conjunto de posibles valores de salida. La secuencia de valores de salida generados a partir de un HMM nos dará cierta información sobre la secuencia de estados ocultos. Ahora bien, conociendo lo anterior, veamos un ejemplo para entender el funcionamiento de los modelos ocultos de Markov. Considere que se tiene un amigo en el exterior y con quien habla a diario por teléfono acerca de lo que hizo durante el día. A esta persona le interesan tres actividades: Caminar por la plaza. Salir de compras. Limpiar su departamento. Lo que este amigo hace depende exclusivamente del estado del tiempo en ese día, pero no se tiene información clara del estado del tiempo, en cambio se conoce la tendencia general del clima. Fundamentándonos en lo que nos cuenta ese amigo de lo que realiza durante el día, se intentará descifrar el estado del tiempo. Existen dos estados, Lluvioso y Soleado, pero usted no los puede observar directamente; es decir, están ocultos. Existe también una cierta posibilidad de que este amigo haga una de sus actividades cada día, dependiendo del estado del tiempo: caminar, comprar o limpiar. Dado que su amigo le cuenta sus actividades del día, esas son las observaciones. El sistema completo es un modelo oculto de Markov. Como se conocen las tendencias de las actividades de esta persona y las tendencias del tiempo podemos obtener los parámetros del HMM que se muestran a continuación:

60 52 Estados observables: los estados del proceso que son 'visibles' (p.ej., Caminar, Comprar, Limpiar). Estados ocultos: los estados del proceso que no son 'visibles' (p.ej., Lluvioso, Soleado). π vector: contiene la probabilidad del tiempo dado el tiempo del día anterior. Probabilidades iníciales del modelo. A (matriz de transición): contiene la probabilidad de pasar de un estado oculto dado el estado oculto anterior. B (matriz de confusión): contiene la probabilidad de observar un estado particular observable dado que el modelo oculto está en un estado particular oculto. De lo anterior, se puede decir que se tienen las probabilidades iníciales de que ocurran los eventos de tener un día lluvioso o un día soleado, igualmente se tienen las probabilidades de tener un día lluvioso dado que el día anterior fue lluvioso o soleado, o de tener un día soleado dado que el día anterior fue un día lluvioso o soleado, además de las probabilidades de que este amigo realice alguna de las actividades previstas, teniendo un día soleado o lluvioso. Obsérvese a continuación que para el ejemplo anterior, se tienen los siguientes parámetros: Probabilidad inicial: π = 0,6 0,4 Probabilidad de Transición: A= 0,7 0,3 0,4 0,6

61 53 Probabilidad de Observación: B = 0,1 0,4 0,6 0,3 0,5 0,1 Los enlaces entre los estados ocultos y los estados observables representan la probabilidad de generar un estado particular observado dado que el proceso de Markov está en un estado particular oculto. Así, debería ser claro que todas las probabilidades que entran en un estado observable sumarán uno (1), esto sería la suma de Pr (Obs soleado), Pr (Obs lluvioso). Recapitulando todo lo anterior, hemos visto que hay algunos procesos donde una secuencia observada está probabilísticamente relacionada con un proceso de Markov subyacente. En tales casos, el número de estados observables puede ser diferente al número de estados ocultos. Con lo expuesto anteriormente, se definirá un modelo oculto de Markov. Se dice que el modelo está dado por las siguientes matrices (π, A, B): π: El vector de las probabilidades iníciales de los estados. A: La matriz de transición de los estados: ( ) dado la probabilidad de que ocurra el evento xi en el instante t, dado el evento en el instante t-1. B: La matriz de confusión: ( )dado la probabilidad de que ocurra el evento dado el evento. La ( ) tambien es conocida como ( ), donde ( ) se modela por una mezcla de funciones de densidad de probabilidad gaussianas, entendiendo que por cada estado del modelo fonético existe una cantidad limitada de gaussianas las cuales son representadas con la siguiente fórmula (Becchetti y Prina, 2004):

62 54 1 = ( μ ) = 1 ( ) D: Número de elementos del vector de observación. : Vector de observacion. μ : Vector de media. : Vector de covarianza. : Gconst. = ( ) M: Número de gaussianas por estado. Cj: Peso de la gaussiana. Por otro parte, un problema más realista es el de reconocer el sonido que oímos al hablar, el cual es el producto de los acordes vocales, el tamaño de garganta, posición de lengua, entre otras variantes. Cada uno de estos factores actúa recíprocamente para producir el sonido de una palabra, y los sonidos que un sistema de reconocimiento vocal descubre, son los sonidos que se cambian generados por los cambios internos físicos de la persona que produce el discurso. En el reconocimiento del habla se considera la producción del discurso interno como una secuencia de estados ocultos, y el sonido como una secuencia de estados observables obtenidas del procesamiento de la señal de voz. Es importante destacar que el número de estados ocultos y el número de estados observables puede ser diferente, el discurso puro puede ser descrito por 80 fonemas, mientras un sistema de discurso físico puede generar un número de sonidos distinguibles entre más o menos 80 fonemas.

63 55 En el entrenamiento del modelo se utilizan secuencias de voz y posteriormente durante el reconocimiento, se obtiene la probabilidad de cada modelo (palabra o fonema), seleccionando la de mayor probabilidad. En el entrenamiento del modelo se utilizan secuencias de voz y posteriormente durante el reconocimiento, se obtiene la probabilidad de cada modelo (palabra o fonema), seleccionando la de mayor probabilidad. En la Figura N 11 se representa gráficamente una secuencia de estados al pronunciar la palabra tomate (en inglés, tomato) y la secuencia de los fonemas que se extraen al procesar la señal de voz. Figura N 11 Ejemplo de una secuencia de estado. En líneas más específicas en un sistema verificador de locutor, la comparación de patrones en reconocimiento del locutor dependiente del texto se realiza mediante la verosimilitud de una observación con el modelo del locutor que dice ser y a partir de esta comparación se decide autenticar o no al locutor.

64 56 Los modelos que se implementan en verificadores de locutor son modelos estocásticos, en donde las observaciones son una función probabilística de estado, que realiza la comparación de los patrones, obteniendo una medida de la probabilidad condicional de observación dado el modelo. Estos modelos son llamados modelos ocultos de Markov (HMMs). En la clasificación de patrones acústicos en el proceso de verificación de locutor, se debe medir la distancia entre, el modelo del habla del locutor afirmado j y la secuencia de vectores de observación O del locutor i que clama dicha identidad. Seguido de esto, la distancia obtenida es comparada con un límite de decisión, con el cual se aceptará o rechazará la identidad clamada. En los modelos ocultos de Markov, la distancia corresponde a una probabilidad, definida como (Becerra N., Fernández M.): ( = /, ) Donde: : Corresponde al locutor i que pretende ingresar al sistema. : Corresponde al cliente j quien dice ser el locutor. O: Vector de observación, obtenido de la elocución de verificación. : Modelo de referencia del cliente j generado a partir de las elocuciones de entrenamiento. En la figura N 12 se pueden observar los elementos que definen un modelo oculto de Markov: N: número de estados del modelo, donde a12 denota el estado en el instante de tiempo t.

65 57 La dimensión del conjunto de observaciones distintas de salida M. O={o 1, o 2,, o M } La distribución de probabilidad de transición entre estados A={a ij }: a ij = P(q t =s j q t-1 =s i ) 1 i,j N La distribución de parámetros de las probabilidades de observación B={b j (k)}: b j (O k )=P(O k q t =s j ) 1 j N, 1 k M, donde O k es un símbolo perteneciente a V. Probabilidad de que cada estado sea el primero. Distribución del estado inicial π={π i }: π i =P(q o =s i ) 1 i N Figura N 12 Modelo de generación de Markov. Por lo tanto, un modelo oculto de Markov se describe como λ= {A, B, π}, en la figura N 13 se puede observar con más detalle estos parámetros. De la Figura N 13, Π representa una matriz de 1 fila, N columnas, la matriz A tiene N filas con N columnas y finalmente la matriz B tiene N filas y M columnas. Se debe resaltar que N representa el número de estados posibles del modelo y M el número de observaciones distintas por estados, correspondientes a la salida física del sistema modelado.

66 58 Figura N 13 Representación grafica de un modelo oculto de Markov. Dado que el sistema puede ser descrito con un modelo oculto de Markov, surgen tres problemas para que el HMM tenga utilidad en el sistema verificador de locutor, los cuales se muestran a continuación: Evaluación de la probabilidad. Estimación de la secuencia más optima. Entrenamiento del modelo. Ahora el enfoque estará dirigido a la resolución de los problemas expuestos anteriormente.

67 59 Evaluación de la Probabilidad Sabemos que por cada sonido emitido por una persona, se puede construir un HMM que sea capaz de generar los mismos sonidos. Veamos cómo sería este procedimiento. Figura N 14 Parámetros observables. Como se muestra en la Figura N 14, una persona emite una palabra, la cual es caracterizada por una señal de voz descompuesta en una secuencia de observaciones características de la señal emitida (coeficientes que se obtiene de la frecuencia MEL). Partiendo de esto, se puede tener un modelo oculto de Markov, que genere tras un ciclo determinado de tiempo, una secuencia de observaciones idénticas a la emitida por el locutor, como la mostrada en la figura Nº 15. Se debe partir de una secuencia de observaciones inicial y mediante algoritmos determinados generar los valores necesarios para la obtención del modelo más probable para generarlas. Dada una secuencia de observación O={O 1,O 2,,O T } y un modelo λ={a, B, π} debemos calcular la probabilidad de la secuencia de observaciones.

68 60 Figura N 15 Secuencia de observación. El modo más directo de lograr calcular esta probabilidad es enumerar todas las posibles secuencias de estados de longitud T que generen la secuencia de observación O y sumando sus probabilidades según el teorema de Probabilidad Total (Esteve C.; (2007)).: =, (1) Para esto consideremos una secuencia de estado: Q = (q 1, q 2,, q T ) donde q 1 es el estado inicial. La probabilidad de la secuencia de observación O dada la secuencia de estado Q es (Esteve C.; (2007)).:, = (, ) (2) Donde se asumen estadísticamente independientes las observaciones. Por lo tanto se obtiene (Esteve C.; (2007)).:, = (3)

69 61 Por otra parte la probabilidad de la secuencia de estados Q se puede expresar como (Esteve C.; (2007)).: = (4) La ecuación anterior se interpreta como la probabilidad del estado inicial, multiplicada por las probabilidades de transición de un estado a otro. Sustituyendo la ecuación (3) y (4) en la ecuación (1) se obtiene la probabilidad de la secuencia de observación: =, = ( ),,, De la ecuación anterior se interpreta lo siguiente: Inicialmente en t=1 nos encontramos en el estado q 1 con probabilidad π q1 y generamos el símbolo O 1 con probabilidad b q1 (O 1 ). En t=2 se produce una transición al estado q 2 con probabilidad a q1q2 y generamos el símbolo O 2 con probabilidad b q2 (O 2 ). Este proceso se repite hasta que se produce la última transición del estado q T-1 al estado q T con probabilidad a Qt-1qT y generando el símbolo O T con probabilidad b qt (O T ). El cálculo de esta probabilidad es un poco compleja ya que requiere realizar 2T N T operaciones y esto es computacionalmente muy pesado. Por lo tanto se hace necesario el

70 62 uso del algoritmo de avance, el cual nos permite guardar los resultados intermedios y utilizarlos para los posteriores cálculos de la secuencia de estado. Al utilizar el algoritmo de avance primeramente se debe definir la variable hacia adelante como (Esteve C.; (2007)).: =,,, = Esta variable corresponde con la probabilidad de que el modelo λ se encuentre en el estado i habiendo generado la secuencia parcial O 1, O 2,, O t hasta el instante de tiempo t. Para realizar el cálculo de α t (i) se hace por inducción matemática siguiendo los pasos mostrados a continuación (Esteve C.; (2007)).: 1. Inicialización: En este paso se inicializan las probabilidades hacia delante como la probabilidad conjunta del estado S i y la observación inicial O i. =, 1 2. Inducción: =, 1 1, 1 La expresión entre corchete representa la probabilidad de alcanzar el estado S j en el instante de tiempo t+1 partiendo de todos los estados posibles S i, en el instante t habiendo observado hasta el instante t la secuencia parcial O 1, O 2,, O t. Si multiplicamos ahora dicho términos por la probabilidad de observar O t+1 se obtiene α t+1 (j).

71 63 3. Finalización: = ( ) El cálculo de P(O λ) final se realiza sumando todas las variables hacia adelante αt(i) en el instante T. Esto es así ya que por definición αt(i) es igual a la probabilidad conjunta de haber observado la secuencia O 1, O 2,, O T y encontrarnos en el estado si: = (,,,, = ), con lo que si sumamos dicha probabilidad para todos los estados posibles obtenemos la probabilidad esperada P(O λ). Estimación de la Secuencia de Estados Óptima La estimación de una secuencia de estados óptimas es de suma importancia para lograr el verificador de locutor. Se debe encontrar una secuencia de estados óptima, dada una secuencia de observación. En la obtención de la secuencia de observación que arroje la máxima probabilidad se implementa el algoritmo de Viterbi, que permite maximizar la probabilidad P(q O,λ) o lo que es equivalente, maximizar P(O,q λ). En la Figura N 16 se muestra la gráfica que representa el uso del algoritmo de Viterbi operando sobre un modelo oculto de Markov de estados con topología izquierda-derecha y sin salto de estado. El eje vertical representa los estados del modelo HMM y en el eje horizontal las tramas en la que está dividido la señal de voz.

72 64 Figura N 16 Representación gráfica del algoritmo de Viterbi. Ahora veamos cómo se implementa este algoritmo. Se tiene una secuencia de estados Q={q 1,q 2,,q T } para una secuencia de observación dada O={O 1,O 2,,O T }, para encontrar la mejor secuencia se definen las siguientes variables (Esteve C.; (2007)).: =,,,, =, Que representa la secuencia de estados con mayor probabilidad en el instante t que acaba en estado S i y que ha generado las t primeras observaciones. Pasos a seguir en la implementación del algoritmo de Viterbi (Esteve C.; (2007)).: 1. Inicialización: =, 1 = 0

73 65 Inicialmente se define la probabilidad δ 1 (i) como la probabilidad de encontrarse en el estado S i en el instante t=1 multiplicada por la probabilidad de generar el símbolo O 1. El vector ϕ, en donde se almacena el argumento que maximiza δ t (j) para cada valor de t y de j, toman como valor inicial Recursión: = ; 2, 1 = ; 2, 1 3. Finalización: = ( ) = ( ) La iteración del punto 3 se termina cuando se han generado las t observaciones. 4. Backtracking: En este paso se construye la secuencia de estados partiendo desde el estado final hasta llegar al principio. =, = 1, 2,,1 Entrenamiento del Modelo La fase de entrenamiento consiste en ajustar los parámetros del modelo {A, B, π} para maximizar la probabilidad de la secuencia de observación dado el modelo P(O λ).

74 66 Para lograr el entrenamiento del modelo se utiliza un procedimiento iterativo como el algoritmo de Baum-Welch, también conocido como el algoritmo de avance-retroceso. Este algoritmo usa los mismos principios del algoritmo de maximización de expectativas (EM), el cual es un algoritmo de dos pasos, estimación-maximización, en el que de manera iterativa se refinan los parámetros que aumente la probabilidad de generar el modelo. El procedimiento consiste en actualizar los pesos de forma iterativa para poder explicar mejor las secuencias de entrenamiento observadas. En la aplicación del algoritmo de Baum-Welch, se necesita definir la probabilidad hacia atrás de una forma similar a como se definió la probabilidad hacia adelante: =,,, = β t es en este caso la probabilidad generará la observación parcial =,, desde el instante t+1 hasta el instante final T dado que el modelo se encuentra en el estado S i en el instante de tiempo t. β t se puede calcular por inducción como sigue (Esteve C.; (2007)).: 1. Inicialización: = 1; 1 2. Recursión: = ( ), = 1, 2,,1; 1 La relación entre α y β adyacentes se puede observar mejor en la Figura N

75 α se calcula recursivamente de izquierda a derecha mientras β se calcula recursivamente de derecha a izquierda. Figura N 17. Relación entre α t-1 y α t ; β t-1 y β t en el algoritmo de adelanto-atraso. Luego de esto, se define la variable γ t (i,j), que representa la probabilidad de realizar una transición del estado S i al estado S j en el instante de tiempo t dado el modelo y la secuencia de observación., = ( =, =, ), = ( =, =, ) ( ), = ( ) ( ) ( ) ( )

76 68 La Figura N 18 ilustra el resultado obtenido. Figura N 18. Ilustra las operaciones necesarias para el cálculo de γ t (i,j). Es posible maximizar iterativamente el vector de parámetros del HMM λ= {A, B, π} si se maximiza la probabilidad de la observación P(O λ), en cada iteración. Para esto denotamos como al nuevo vector de parámetros calculado a partir del vector de parámetros λ, obtenido en la iteración anterior. De acuerdo con el algoritmo EM, esto es equivalente a maximizar la siguiente función de Q:, =, (, ),, Donde P(O,S λ) y log P(O,S ) se definen como sigue:, = ( )

77 69, = + log ( ) Por lo tanto la ecuación inicial se puede reescribir de la siguiente manera:, =, +,, (, ) = (, =, = ) ( ) (, ) =, = ( ) Como hemos separado la función en tres términos independientes, se puede maximizar (, )cada uno de los términos por separado, sujeto a las siguientes restricciones: = 1 ( ) = 1 Por otro lado, los términos de las expresiones de (, ) y (, ) tienen las siguientes formas: Donde = = 1.

78 70 Haciendo uso de los términos de los multiplicadores de Lagrange, se demuestra que la función F(x) toma su valor máximo en = A partir de todo esto, se obtienen las estimaciones de los parámetros del modelo HMM: 1 ( = ) (, =, = ) (, ) 1 ( ) (, = = ) (, ) 1 ( = ) (, = ) (, ) 1 ( ) (, = = (, ) ) (, ) La probabilidad inicial se puede derivar como un caso especial de probabilidad de transición. Sin embargo, se suele fijar para la mayoría de aplicaciones de voz, por ejemplo = 1 para el estado inicial. De acuerdo con el algoritmo EM, el algoritmo de estimación Baum-Welch garantiza una mejora monótona en la probabilidad en cada iteración hasta que converge en un máximo local. Para finalizar se puede decir que el entrenamiento del modelo oculto de Markov se basa en los siguientes puntos: 1. Inicialización: Se elige la estimación inicial del modelo λ. 2. Paso E: Se calcula la función auxiliar, a partir de λ.

79 71 3. Paso M: Se calcula la de acuerdo con las ecuaciones de reestimación para maximizar la función auxiliar Q- 4. Iteración: λ pasa a tomar el valor de y se repite el algoritmo desde el paso 2 hasta que converge. Entrenamiento del Modelo Universal o Modelo Independiente del Locutor Se requiere un modelo universal que sea independiente del locutor para poder calcular un puntaje de verosimilitud normalizado y así evitar la variabilidad del umbral de decisión. La manera más extendida de generar este modelo universal, consiste en tomar un conjunto grande de locutores cuyo número sea representativo de la población de locutores que se van a reconocer, es decir, de la población de usuarios del sistema y con estos datos se entrena un modelo el cual es precisamente el modelo universal o Universal Background Model (UBM). Adaptación del Modelo Oculto de Markov Universal a un Sistema de Verificación de Locutor Este apartado muestra cómo se implementará el modelo oculto de Markov, en el sistema verificador de locutor. Para un mejor entendimiento de este aspecto se muestra la Figura N 19.

80 72 Figura N 19. Aplicación de HMMs a un sistema de verificación de locutor. Lo primero es partir de un conjunto de modelos ocultos de Markov independientes del locutor en donde la unidad que se modela puede ser bien palabras enteras o fonemas. Seguidamente, en la etapa de entrenamiento se reúnen locuciones de distintos locutores usando una base de datos. Es importante resaltar que el número de sesiones de entrenamiento es determinante en el funcionamiento del sistema. Partiendo del modelo independiente de locutor (λ I ) y con las locuciones de la base de dato se actualizan (reentrenamiento) los parámetros del modelo independiente de locutor generándose unos nuevos modelos acústicos dependientes de cada locutor (λ D ). Este reentrenamiento se realiza usando el algoritmo de Baum-Welch (Esteve E.; (2007)). Luego de haber culminado la etapa de entrenamiento se procede a la fase de verificación. En este punto se toma la señal de voz procesada del locutor desconocido y se compara

81 73 con el modelo dependiente que se obtuvo en la fase anterior y así obtener en función de un umbral si la persona es aceptada o rechazada por el sistema. En otras palabras, se enfrenta la palabra a reconocer del modelo dependiente (λ D ) e independiente (λ I ) de locutor y la puntuación final se obtiene como el cociente de las puntuaciones acústicas obtenidas por el mejor camino (Qbest) en el reconocimiento de voz, P(O,Qbest λ D )/ P(O,Qbest λ I ), y se compara con el umbral para tomar la decisión.

82 74 CAPÍTULO III MARCO METODOLÓGICO Este capítulo tiene como propósito indicar el camino que se ha elegido para realizar la investigación, es decir, la manera cómo se ha realizado, indicando el tipo de investigación a efectuar, diseño, procedimientos y técnicas a seguidas que permitieron el logro de los objetivos, así como también la definición de la población, selección de las muestras e instrumentos implementados. Tipo de Investigación Según los criterios de propósito de la investigación, variables utilizadas, tipo de producto y forma de obtener la información, descritos por Farci y Ruiz en el año 2002, el presente trabajo se encuentra dentro de una investigación de tipo aplicada, analítica experimental, tecnológica y de campo respectivamente. De acuerdo con la definición de una investigación de tipo aplicada, la indagación aplicada se dirige básicamente al uso inmediato del conocimiento y no al desarrollo de la teoría. Produce conocimientos dirigidos a la solución de problemas prácticos (Farci y Ruiz, 2002). La presente investigación se clasifica como de tipo aplicada debido que a que se utilizan conocimientos teóricos ya desarrolladas para la elaboración del proyecto. En cuanto a la consideración de las variables utilizadas, para la evaluación de la base de datos segmentada se utilizará un sistema de verificación del locutor donde éste se manipulará las variables que indican el desempeño en la exactitud de dicho sistema, por lo tanto la presente investigación es de tipo analítica experimental pues en esta clasificación el investigador manipula una variable (independiente), controla

83 75 rigurosamente las que podría afectarla (intervinientes) con la finalidad de observar y/o medir las consecuencias sobre la otra variable (dependiente). (Farci y Ruiz, 2002). Por otra parte, una investigación tecnológica clasificada según el tipo de producto plantea el estudio de problemas concretos a los cuales se les da una solución práctica elaborando un producto o servicio para su posterior aplicación. (Farci y Ruiz, 2002). El presente trabajo pertenece a dicha clasificación ya que se desarrolla una base de datos que es esencial el entrenamiento de un sistema de verificación del locutor, el cual sirve para la solución práctica de un problema, como es la seguridad en diferentes ámbitos, y para satisfacer las necesidades del ser humano. Finalmente, tomando en cuenta la presente investigación utiliza técnicas para la recolección de datos de la vida real (voz humana en este caso) que según Farci y Ruiz (2002) se puede clasificar de tipo campo y lo defina como El investigador se pone en contacto con la realidad en que ocurre el hecho, fenómeno o situación, tomando la información directamente de ella. Identificación de las Variables En el presente trabajo se manipularon variables de tipo cuantitativas, las cuales poseen valores cuantificables, es decir, se pueden expresar numéricamente. Existe una relación entre las variables que se manejan, en donde se establecen los efectos de unas en las otras. Según Hurtado L., Toro G., (1997). La variable que afecta o influye es llamada independiente y La variable que es afectada o influida es denominada dependiente. En el caso de la presente investigación, cuyo objetivo final es comprobar el desempeño de la base de datos segmentada mediante un sistema verificación de locutor, donde para éste la variable dependiente está representada por la exactitud en la respuesta dada por el

84 76 sistema y los indicadores de desempeño FAR (False Acceptance Rate) y FRR (False Rejection Rate), la variable independiente será el umbral de decisión t, que se manipula para lograr un alto desempeño del sistema, entre las variables intervinientes se encuentra el ruido introducido al sistema, tales como, las condiciones ambientales, la salud del locutor, es decir, aquellos factores no deseados que se pueden presentar al implementar el sistema. Población Según Hurtado L., Toro G., (1997). La población o universo se refiere al conjunto para el cual serán válidas las conclusiones que se obtengan. La población del sistema verificación de locutor estuvo conformada por todos los miembros de la Universidad Nacional Experimental Politécnica Antonio José de Sucre Vicerrectorado Barquisimeto y los alumnos del colegio Ilustre Americano. Muestra En el desarrollo del sistema se utilizaron muestras probabilísticas, en donde se toman muestras al azar simple, que no es más que un sorteo entre los integrantes de la población escogida (Hurtado y Toro, 1997). Dándole a todos los miembros de la población la misma oportunidad de ser seleccionados como integrantes de la muestra. En el tamaño de la prueba, se tomará en cuenta lo estipulado en (UKBWG, 2002), en donde se expresa. El tamaño de una evaluación, en términos de voluntarios y el número de ensayos afectará la medición de las tasas de error. Mientras más grande es la prueba, más grande será la probabilidad de que los resultados sean más exactos.

85 77 Para determinar el tamaño de la prueba se plantean la regla de 3, la cual se explica a continuación. La Regla de 3: Esta regla responde la pregunta Cuál es la tasa de error más baja que estadísticamente puede ser establecida con un número particular de N comparaciones (distribuidas idénticamente e independientes). Este valor es la tasa de error p para la cual la probabilidad de cero errores en N ensayos, por pura casualidad, es 5%. Esto resulta en: Para un nivel de confiabilidad de 95%. De este modo, por ejemplo, una prueba con 300 muestras independientes que no retornan error pueden representar, con un 95% de confiabilidad, una tasa de error de 1% o menos. Técnicas e Instrumentos de Recolección de la Información En este trabajo los datos se recolectan haciendo uso de las siguientes técnicas: Análisis documental Observación científica directa, participante y de laboratorio. Los instrumentos de recolección de información utilizados son: Libros, trabajos de investigación, documentos de fuentes electrónicas. Computador personal, micrófono Lista de palabras Listas de cotejo

86 78 Listas de frecuencia Técnicas de Procesamiento y Análisis de la Información Las técnicas utilizadas para el procesamiento son: Clasificación Registro Tabulación y graficado El análisis de la información se hace siguiendo las técnicas lógicas de la deducción, la síntesis y el análisis, y como técnica estadística se ha usado la descripción. Este procedimiento básico se ha completado con fichas técnicas, las cuales permiten resumir, dar significación a los resultados y aportar conclusiones mediante la mera observación y descripción de los datos. Descripción del Procedimiento Según lo establecido en los objetivos específicos el presente trabajo se desarrolló en 5 fases principales los cuales siguen una secuencia de actividades con la finalidad de obtener los resultados en forma pertinente. A continuación se listan esas actividades por objetivos específicos. 1. Para dar cumplimiento al objetivo relacionado con la selección del formato de los archivos para la grabación y el almacenamiento, se revisaron los archivos que contiene una base de datos segmentada para un verificador de locutor mediante un análisis documental basado en la revisión bibliográfica de los libros y documentos electrónicos relacionados con la creación de una base de datos,

87 79 seguidamente se analizó la información y se establecieron los requerimientos para llevar a cabo dicho objetivo. 2. Para diseñar la estrategia para la sesiones de grabaciones se toma en consideración las características de representatividad y universalidad mencionadas en la Base Teórica, bajo este orden de ideas, se siguió el procedimiento que se explica a continuación: Se seleccionó la cantidad de sesiones de las grabaciones así como los días de separación entre éstas. Se seleccionó el número de locutor. Se clasificaron los locutores por edad y sexo. Se seleccionó un sistema de grabación. Se estableció la velocidad de lectura para la grabación. Se seleccionaron, del diccionario venezolano, las frases para las grabaciones, así como la cantidad de repeticiones que se pronunciaron cada una de ellas. Se estableció el lugar de grabación tomando en cuenta la presencia de nivel de ruido. Se tomaron las muestras de voz. 3. Para construir los modelos de referencia HMM mediante la segmentación manual se aplicó el siguiente procedimiento: Se estudiaron los modelos ocultos de Markov. Se analizaron los pasos que se debieron seguir para la creación de un modelo fonético de lenguaje usando modelos ocultos de Markov. Se buscó un diccionario segmentado fonéticamente de palabras venezolanas. Se seleccionó un programa computacional que permite visualizar las formas de ondas de las muestras de voz.

88 80 Se separaron en fonemas las muestras de voz obtenidas, mediante la observación visual de sus formas de ondas, y se realizó sus respectivos etiquetados. Se creó un modelo fonético de lenguaje, para cada una de las frases seleccionadas mediante una lista de cotejo, la cual permitió verificar si las grabaciones cumplen con cada uno de los procedimientos. 4. Para realizar la segmentación automática mediante el uso de HMM y de un programa computacional se procederá de esta forma: Se estudió los pasos necesarios para la segmentación automática usando el software RES. Se inicializó el software RES usando un modelo fonético de Markov obtenido previamente en el objetivo específico N 3. Se configuró la herramienta RES. Se ejecutó el software RES para segmentar automáticamente la data. 5. Para comprobar el funcionamiento de la base de datos por medio de un verificador de locutor se construyó la curva ROC (característica de operación del receptor) la cual muestra el porcentaje de genuinos aceptados Vs. el porcentaje de impostores aceptados. Para trazar las curvas ROC se realizaron los siguientes pasos: Se graficaron las curvas de porcentaje de error FAR y FRR, de la siguiente manera: 1) Se seleccionó un valor de puntaje como umbral de decisión para el clasificador. 2) Se realizaron ensayos con transacciones genuinas (para la curva FRR) o transacciones impostoras (para la curva FAR), según sea el caso hasta alcanzar el número de ensayos con cero error estipulado por la Regla de 3. En cada ensayo se registra el puntaje logrado y la respuesta del clasificador en una lista de

89 81 frecuencia; estos datos se utilizan para calcular la tasa de error. Los ensayos se detendrán cuando la tasa de error calculada desde la lista de frecuencia sea aproximadamente igual a la tasa de error calculada por la Regla de 3. Lo anterior se puede expresar matemáticamente por la siguiente relación: ) Se graficó el porcentaje de error alcanzado Vs. el umbral seleccionado. 4) Se repitieron los pasos anteriores escogiendo un umbral diferente, hasta completar la gráfica. Con las curvas FAR y FRR, se graficaron como puntos de la curva ROC el valor de 1-FRR Vs. FAR para igual valor de umbral de decisión. Se determinó ERR tomando el valor en donde FRR y FAR son iguales. Recursos Los recursos necesarios para la implementación del sistema verificación de locutor se enumeran a continuación: Computador o PC. Micrófono. Software Sistema de Reconocimiento Experimental (RES).

90 82 Plan de Trabajo El plan de trabajo se resume en la tabla 1: Tabla 1. Cronograma de elaboración de las fases de la investigación Fase Nombre Duración Comienzo Fin Seleccionar el formato 1 de los archivos para la grabación y el almacenamiento 5 días Lunes,26 de Abril de 2010 Viernes, 30 de Abril de 2010 Diseñar una estrategia 2 para las sesiones de grabaciones 20 días Lunes, 3 de Mayo de 2010 Viernes, 28 de Mayo de 2010 Construir los modelos de referencia mediante 3 HMM con segmentación manual 30 días Lunes, 3 de Mayo de 2010 Viernes, 11 de Junio de 2010 de la voz Realizar la segmentación 4 automática mediante el uso de HMM y de un programa 20 días Lunes, 24 de Mayo de 2010 Viernes, 18 de Junio de 2010 computacional Comprobar el funcionamiento de la 5 base de datos segmentada por medio de un verificador del 10 días Lunes, 21 de Junio de 2010 Viernes, 2 de Julio de 2010 locutor 6 Elaboración informe final de 10 días Lunes, 28 de Junio de 2010 Viernes, 10 de Julio de 2010

91 83 CAPÍTULO IV RESULTADOS Y ANÁLISIS DE LOS RESULTADOS En este capítulo se presentan los resultados obtenidos en consecución de los pasos mencionados en el Capítulo III y así como el análisis de ellos. Luego de estudiar los formatos para la grabación y almacenamiento de las distintas bases de datos, se decide utilizar los formatos.wav,.phn y.sgm para la construcción de la base de datos de este trabajo. Los archivos.wav son obtenidos en las grabaciones de voz los cuales contiene el sonido y la forma de onda que es necesario escucharlo y visualizarlo para la segmentación manual, también proporciona información necesaria para poder ejecutar el programa computacional para la segmentación automática. En la siguiente figura se muestra la forma de onda que se muestra el archivo.wav para la palabra uno. Figura N 20. Forma de onda de la frase uno

92 84 Por otra parte, los archivos.phn contienen la información de los etiquetados fonéticos de las muestras, los cuales se pueden crear utilizando el Bloc de Notas y son necesarios en la ejecución de la segmentación automática. En la siguiente figura se muestra el contenido de un archivo.phn de la palabra UNO. Figura N 21. Contenido de cero-h0001.phn Por último, los archivos.sgm contienen la información de la frontera entre los fonemas de cada muestra, esta se obtiene en el proceso de la segmentación manual y es necesario para el funcionamiento del programa para la segmentación automática, estos archivos son creados utilizando el Bloc de Notas. En la figura se muestra el ejemplo de un archivo.sgm de la palabra UNO. Figura N 22. Contenido de uno_1.sgm

93 85 Para el diseño de la estrategia para las sesiones de grabaciones se procede a realizar todos los pasos indicados en el marco metodológico tomando en cuenta de que las muestras recolectadas sean lo más variable y universalmente posible, para ellos se realiza el siguiente procedimiento: En el colegio Ilustre Americano se seleccionan aleatoriamente a 40 personas divididos en 3 grupos de 14, 13 y 13 personas respectivamente para realizar 3 sesiones de grabación con una separación de 3 días mínima por sesión. En el siguiente cuadro se resumen el cronograma de las sesiones de grabaciones realizadas: Tabla N 2. Cronograma de las sesiones de grabaciones realizadas en el colegio Ilustre Americano Fecha Grupo Sesión 05/05/ /05/ /05/ /05/ /05/ /05/ /05/ /05/ /05/10 3 3

94 86 Por otra parte, se seleccionan 40 personas en la UNEXPO, debido que los miembros de esta casa de estudio tienen compromisos con las clases solamente se pudo realizar 3 sesiones por separado a 30 de ellos, para esto se divide en 3 grupo de 10 personas, y con el resto se hace la grabación de las 3 sesiones en una sola sesión en el día que está disponible durante el período de la grabación. A continuación se presenta el cronograma de la actividad de grabación: Tabla N 3. Cronograma de las sesiones de grabaciones realizadas en la UNEXPO Fecha Grupo Sesión 10/05/ /05/ /05/ /05/ /05/ /05/ /05/ /05/ /05/10 3 3

95 87 Las muestras obtenidas durante las sesiones de grabaciones son organizadas por edad y sexo de la siguiente manera: o Por edad: - Niños: 8-12 años. - Adolescentes: años. - Adultos: mayores de 18 años. o Por sexo: - Hombre. - Mujer. Las grabaciones son realizadas usando un micrófono de tipo karaoke marca Magnetics USA, el cual se conecta en una laptop HPCompaq utilizando un programa de editor del audio llamado Cool Edit Pro para el proceso de la grabación. A continuación se presentan las características principales de las herramientas mencionadas anteriormente: o Micrófono: - Modelo: MAG Frecuencia de operación: 60 Hz-10 Khz. - Direccionalidad del patrón: Unidireccional. o Laptop: - Modelo: 6830s. - CPU: Intel Core 2 Duo 2.4 GHz. - RAM: 2 GHz - Sistema Operativo: Windows XP SP3. - Tarjeta del sonido: Integral SoundMAX Digital HD Audio. o Editor del Audio: - Nombre: Cool Edit Pro

96 88 - Version: Las muestras se graban a una velocidad de 8 KHz a 16 bits en calidad Mono. Para esto se configura el Cool Edit Pro de la siguiente manera: o Selecciona la opción File New y luego selecciona las siguientes opciones en la ventana New Waveform: - Sample Rate: Channels: Mono. - Resolution: 16 bits. En la siguiente gráfica se ilustra el procedimiento descrito anteriormente: Figura N 23. Configuración inicial de Cool Edit Pro para las grabaciones. Las frases seleccionadas para las grabaciones son 19 números de 1 y 2 dígitos, los cuales se presentan en la siguiente tabla:

97 89 Tabla N 4. Frases para las sesiones de grabaciones Números de 1 dígito Números de 2 dígitos Uno (1) Diez (10) Dos (2) Veinte (20) Tres (3) Treinta (30) Cuatro (4) Cuarenta (40) Cinco (5) Cincuenta (50) Seis (6) Sesenta (60) Siete (7) Setenta (70) Ocho (8) Ochenta (80) Nueve (9) Noventa (90) Cero (0) Cada locutor se va a pronunciar estas frases 5 veces por sesión, y con la finalidad de lograr la variabilidad en las pronunciaciones se diseña una tabla de 5 listas con todas las frases ordenadas aleatoriamente en cada una de ellas, y se le pide que se pronuncie de la siguiente manera: o Para la sesión Nº 1: Lista 1 Lista 2 Lista 3 Lista 4 Lista 5 o Para la sesión Nº 2: Lista 5 Lista 4 Lista 3 Lista 2 Lista 1 o Para la sesión Nº 3: Lista 1 Lista 2 Lista 3 Lista 4 Lista 5

98 90 A continuación se presenta la tabla de las listas de palabras diseñada para las sesiones de grabaciones: Tabla N 5. Listas de frases para las sesiones de grabaciones Lista 1 Lista 2 Lista 3 Lista 4 Lista 5 Cero Uno Dos Tres Cuatro Cinco Seis Siete Ocho Nueve Diez Veinte Treinta Cuarenta Cincuenta Sesenta Setenta Ochenta Noventa Noventa Ochenta Setenta Sesenta Cincuenta Cuarenta Treinta Veinte Diez Nueve Ocho Siete Seis Cinco Cuatro Tres Dos Uno Cero Uno Cero Tres Dos Cinco Cuatro Siete Seis Nueve Ocho Veinte Diez Cuarenta Treinta Sesenta Cincuenta Noventa Ochenta Setenta Diez Uno Veinte Dos Treinta Tres Cuarenta Cuatro Cero Cincuenta Cinco Sesenta Seis Setenta Siete Ochenta Ocho Noventa Nueve Cincuenta Nueve Cuarenta Ocho Sesenta Siete Treinta Seis Setenta Cinco Cero Veinte Uno Ochenta Dos Diez Tres Noventa Cuatro Se seleccionaron el salón de audio visual en el colegio Ilustre Americano y el aula D-201 como lugares de grabación debido a su disponibilidad y en consideración de la poca presencia de ruidos, cabe destacar que en ambos lugares se realiza la grabación en ambiente natural sin aire acondicionado. Según los procedimientos realizados anteriormente se pueden obtener una base de datos de pronunciaciones divididas equitativamente entre 19 frases, resulta una cantidad de muestras por frase. Además con el fin de cumplir el último objetivo de este trabajo de investigación se selecciona una persona de los 80 locutores la cual sirve

99 91 como la base de datos del usuario genuino, y se le hace una grabación adicional de 600 muestras por frase. Para el fin de la organización de toda la base de datos recolectada, se dividen las muestras en carpetas de la siguiente manera: Una carpeta llamada Genuino en la cual contiene las muestras del usuario genuino dividido según la frase pronunciada. Una carpeta llamada BDS donde se almacena las muestras de los 80 locutores divididos por género, edad y frase pronunciada. En las siguientes gráficas se muestran el árbol organizacional de la base de datos: Figura N 24. Árbol Organizacional de la carpeta Genuino

100 92 Figura N 25. Árbol Organizacional de la carpeta BDS Y por último, con la finalidad de mantener en anónimos a los locutores y de proporcionar informaciones de los archivos a primera vista, cada uno de ellos es nombrado con una nomenclatura de esta forma: frase-gxxxx, donde:

101 93 o : Frase pronunciada. o : Género del locutor, (H) hombre, (M) mujer. o : Número aleatorio que sustituye el nombre del locutor. o : Orden de la repetición de la frase. Por ejemplo, si el archivo tiene el nombre de cero-m0112 esto indica que éste es un archivo que contiene información de la decima segunda pronunciación de cero del locutor 01 quien es una mujer. Es importante mencionar que el locutor seleccionado como usuario genuino lleva la identificación M28, como éste tiene 600 pronunciaciones por frase, se le agrega un dígito al final de la codificación para a partir de la repetición N 100 para identificar su orden, por ejemplo la pronunciación N 231 de la palabra dos se codifica como dos- M Una vez que tenga todas las muestras recolectadas, se procede a construir los modelos de referencia de HMM mediante la segmentación manual. Para esto es necesario primero estudiar los modelos ocultos de Markov. De acuerdo con el análisis documental realizado en el capítulo II, el método HMM permite modelar a las palabras por la secuencia de fonemas y a los fonemas por los estados articulatorios del tracto vocal, conocidos como estados acústicos. Por otra parte, se debe destacar que la voz humana es producto de factores fisiológicos como las cuerdas vocales, el tamaño de la garganta, la posición de la lengua y otros, cada uno de ellos se interactúa para producir los sonidos de una palabra. La implementación de los modelos ocultos de Markov en un sistema de verificador de locutor considera que la producción interna del habla está constituido por una secuencia de estados ocultos, y los sonidos resultantes constituidos por una secuencia de estados

102 94 observables generados por el proceso del habla, es decir, la mejor aproximación a los estados (ocultos) reales. Es importante destacar que el número de estados ocultos puede ser diferente que el número de estados observables. Figura N 26. Modelado de la formación de las palabras usando HHM Fuente: Becchetti y Prina, 2004 En la figura anterior muestra la estructura del modelado de la producción de palabras usando HHM, la cual está dividido en 3 capas que son: capa de palabras, capa de fonemas y capa de estados acústicos. Es importante resaltar que la capa de los estados acústicos representan los estados ocultos del modelo de Markov. La emisión de símbolos de estos estados, es modelado con una función de densidad de probabilidad conformada por una mezcla de gaussianas, se puede modelar a cada una de las gaussianas por la siguiente ecuación: = { ( ) ) } (2 ) = 1 ( ) Donde se aprecian los siguientes parámetros:

103 95 Vector de media (µ): Representa la media del vector de observación. Matriz de covarianza ( ): Representa la varianza del vector de observación. Esta matriz puede ser completa o una matriz diagonal. Gconst( ): (2 ) La función de densidad de probabilidad resultante de la mezcla, se modela por la siguiente ecuación: = ( ) = 1 ; 1 Donde representa el peso de la gaussiana n en la mezcla. Estos estados acústicos se interconectan usando un modelo que donde sólo se permite las transiciones de izquierda a derecha como se muestra en la siguiente figura:

104 96 Figura N 27. Gráficos de los modelos ocultos de Markov. Fuente: Becchetti y Prina, 2004 Donde: a) Modelo_0. b) Modelo_1. c) Modelo_2. d) Modelo_3. Se puede observar que en los extremos están situados los círculos oscuros los cuales, entre ellos se ubican los estados emisores. Las transiciones de estado a estado son representados por los arcos, las cuales son modelados a través de una matriz de transición, cuyos elementos representan la probabilidad de cambio de un estado a otro. Además, los estados finales de cada uno de los fonemas se conectan con el estado inicial de siguiente fonema formando así una palabra. Las transiciones entre los fonemas están representadas por una matriz que informa la probabilidad de transición entre los fonemas. Una vez que culmina el estudio sobre los modelos ocultos de Markov se procede a analizar los pasos para la creación del modelo fonético de lenguaje usando los modelos ocultos de Markov, los pasos a seguir se resumen en la siguiente figura:

105 97 Figura N 28. Pasos para la creación del modelo fonético de lenguaje usando modelos ocultos de Markov Creación de la base de datos Segmentación de la data Inicialización del modelo Entrenamiento del modelo independiente Entrenamiento del modelo dependiente La base de datos fue recolectada según los procedimientos realizados en el objetivo Nº 2 descrito en el marco metodológico. La segmentación de la data se realiza en 2 fases, la manual y la automática, en el presente objetivo se trata de construir un modelo de referencia a través de la segmentación manual el cual es utilizado para segmentar automáticamente la data. Para esto se busca primero un diccionario segmentado fonéticamente de palabras venezolanas tomado del trabajo de Maldonado J. (2002), de allí se seleccionan las frases usadas en la construcción de la base de datos. En la tabla siguiente se muestra las frases segmentadas fonéticamente: Tabla N 6. Listas de frases segmentadas fonéticamente Frases Segmentación Fonética Frases Segmentación Fonética Cero sil-t-e-r-o-sil Diez sil-d-j-e-t-t-sil Uno sil-u-n-o-sil Veinte sil-b-e-j-n-t-e-sil Dos sil-d-o-s-sil Treinta sil-t-r-e-j-n-t-a-sil

106 98 Tres sil-t-r-e-s-sil Cuarenta sil-k-w-a-r-e-n-t-a-sil Cuatro sil-k-w-a-t-r-o-sil Cincuenta sil-t-i-n-k-w-e-n-t-a-sil Cinco sil-t-i-n-k-o-sil Sesenta sil-s-e-s-e-n-t-a-sil Seis sil-s-e-j-s-sil Setenta sil-s-e-t-e-n-t-a-sil Siete sil-s-j-e-t-e-sil Ochenta sil-o-ts-e-n-t-a-sil Ocho sil-o-ts-o-sil Noventa sil-n-o-b-e-n-t-a-sil Nueve sil-n-w-e-b-e-sil Luego se procede a realizar la segmentación manual de la data. Para esto se selecciona un programa computacional que permite visualizar la señal de cada archivo de audio en la pantalla, seleccionar el segmento de esta señal, escucharlo e identificar de qué fonema se trata y por último establecer los límites que los separan de sus vecinos inmediatos y hacer la transcripción simbólica. El programa computacional seleccionado es el mismo utilizado en el proceso de la grabación (Cool Edit Pro), tomando en cuenta que este programa permite realizar todas las actividades necesarias para la segmentación manual descrita anteriormente, además uno de los aspectos más importante es que el Cool Edit Pro permite visualizar la señal directamente por la cantidad de muestras en vez del tiempo como lo hacen los otros editores de audio, esto evita la necesidad de un proceso de conversión adicional (cambiar el tiempo por cantidad de muestras) el cual es un dato obligatorio para poder crear los archivos.sgm. Por último, se selecciona aleatoriamente entre 60 a 80 muestras por frase para realizar la segmentación manual, tomando en cuenta que con esta cantidad de muestras es suficiente para crear el modelo fonético referencial para la segmentación automática,

107 99 además cabe destacar que no es práctico segmentar manualmente a la data completa debido que se requiere un tiempo excesivo para realizar todo el trabajo como fue explicado en la base teórica en el capítulo II. En la siguiente figura se muestra la segmentación manual de la frase veinte con su respectivo etiquetado fonético utilizando el programa Cool Edit Pro: Figura N 29. Segmentación manual de la frase veinte Debe señalarse, que por la consecuencia de la variabilidad en las pronunciaciones, las fronteras que limitan entre los fonemas de una frase son distintas en cada muestra sin importar que son provenientes de un mismo locutor, por lo tanto la cantidad de muestras de un fonema suele ser diferente, sin embargo es posible observar un patrón en la forma de onda de los fonemas de esta manera puede facilitar su identificación en el proceso de la segmentación.

108 100 Finalmente para crear el modelo fonético para la segmentación automática se crean los archivos.wav,.phn y.sgm a cada uno de las frases segmentadas manualmente usando los pasos explicados en el objetivo Nº 1 del marco metodológico, luego se inicializa un modelo fonético por cada frase y entrenar los modelos independientes de locutor los cuales serán explicados posteriormente. Una vez que culmina la segmentación manual de todas las muestras necesarias se procede a segmentar automática la data siguiendo los pasos descritos en el capítulo III. Mediante un estudio documental sobre los pasos necesarios para la segmentación manual usando el software RES, se puede resumir los procedimientos en el siguiente esquema: Figura N 30. Pasos para la segmentación automática. Segmentación manual de la data Inicialización del modelo Entrenamiento del modelo independiente Segmentación automática de la data La segmentación manual de la data fue cumplida previamente, para realizar la inicialización del modelo se realiza los pasos que se muestran en la siguiente figura:

109 101 Figura N 31. Pasos para la inicialización del modelo para la segmentación automática INICIO Inicializar el modelo usando la data segmentada manual Aumentar el número de gaussianas Ejecutar el RES para segmentar la data segmentada manual Comparar la data segmentada automática con la manual No Es la mejor aproximación? Sí FIN Para la inicialización del modelo de una frase se utiliza sus correspondientes muestras segmentadas manualmente, y con la ayuda de la herramienta iniciali.exe del software RES siguiendo los paso descritos a continuación: 1. Se ubican los archivos.wav,.phn y.sgm de cada frase dentro de la carpeta RES, organizados por carpetas separadas según la frase.

110 Se crea el archivo prueba.lst por cada frase en donde se indica la ubicación y el nombre de todos los archivos involucrados. En la siguiente imagen se muestra un ejemplo: Figura N 32. Prueba.lst de la frase veinte 3. Se configura el archivo res.ini: Tipo de archivo de sonido (SoundFileType):.wav. Extensión de archivo de etiqueta (LabelFileExtension): sgm. Lista de los nombre de sonido (ListOfSoundFNames): prueba.lst. En la siguiente imagen se muestra la configuración antes mencionado:

111 103 Figura N 33. Configuración de res.ini Para el efecto de inicialización se debe ubicar en la etiqueta [Initialization] y realiza la siguiente configuración: o Tipo de modelo (ModelType): aquí se puede escoger el modelo oculto de Markov (modelo_0, modelo_1, modelo_2, modelo_3) que se desea utilizar. o Archivos de entrada de los modelos (ModelsFileInput): prueba.lst. o Nombre de modelo inicializado (InitializedModelsFName): se asigna el nombre con extensión.spt que será generado una vez que se culmina el proceso de inicialización. o Archivo de los modelos de símbolo (FileOfSymbolModels): models_speechdat.ini. o Rango de símbolos (SymbolRange): todos o parcial. En este punto se especifica los fonemas que se presenta en la frase para inicializar el modelo. Si la opción es todos, no se configura la lista de símbolo. o Lista de símbolo (SymbolList): se indica la lista de fonemas presentes en la frase que son utilizados para la inicialización, cada fonema está

112 104 asociado con un número dentro del programa, el cual está indicado en el archivo labelcl.cpp con se muestra en la siguiente imagen: Figura N 34. Asignación numérica de los fonemas Por ejemplo, para la palabra veinte está formado por los fonemas sil, b, e, j, n y t se debe identificarlos con los números 16, 1, 4, 23, 8 y 19 respectivamente. o Los otros parámetros que no fueron mencionado se dejan en configuración por defecto.

113 105 Como ejemplo, la siguiente figura se muestra la configuración para la frese veinte : Figura N 35. Configuración de inicialización de la frase veinte 4. Se configura el archivo model_speechdat.ini: este archivo contiene la lista de fonemas de la palabra a la cual se quiere inicializar el modelo. Los parámetros que se configuran son: Nombre de la lista de símbolo (symb_alphabetname): SpeechDatLabel. Número de símbolos (symb_alphabetcardinality): este número depende de la cantidad de fonemas de la palabra. Símbolo de fonema: para cada uno de los fonemas de la palabra se configura: o Número de estados (num_sections_symb): se coloca la cantidad de los estados emisores que tiene en el modelo oculto de Markov utilizado, por ejemplo se coloca un 3 ya que posee tres emisores en su topología. o M (mix_order_symb): se especifica la cantidad de gaussianas para la inicialización del fonema.