USO DE TÉCNICAS AVANZADAS DE COMPENSACIÓN DE VARIABILIDAD INTER-SESIÓN PARA RECONOCIMIENTO AUTOMÁTICO DE LOCUTOR EN LOCUCIONES DE DURACIÓN VARIABLE

UNIVERSIDAD AUTÓNOMA DE MADRID ESCUELA POLITÉCNICA SUPERIOR USO DE TÉCNICAS AVANZADAS DE COMPENSACIÓN DE VARIABILIDAD INTER-SESIÓN PARA RECONOCIMIENTO AUTOMÁTICO DE LOCUTOR EN LOCUCIONES DE DURACIÓN VARIABLE -ANTEPROYECTO- Rubén Zazo Candil Ingeniería de Telecomunicación TUTOR: Javier González Domínguez Madrid, Enero 2014

MOTIVACIÓN Y OBJETIVOS Los sistemas automáticos de reconocimiento de locutor basan su funcionamiento en la medida de similitud entre las identidades asociadas a dos muestras de voz. Esta medida de similitud es obtenida mediante diversos tipos de procesado/modelado matemático aplicados a distintas características extraídas de la señal de voz a diferentes niveles (acústico, fonético, ). Durante las dos últimas décadas, los sistemas de reconocimiento de locutor que han obtenido un mejor rendimiento, desde los primeros sistemas basados en GMM-UBM y SVM hasta los recientes i-vector [2] y PLDA [5] con especial atención a la compensación de variabilidad de sesión. El análisis de reconocimiento se realiza sobre los vectores (linguistic-independent) extraídos a partir de una locución, de una duración típica de 250 segundos. Utilizando PLDA [5], obtenemos unos errores muy cercanos a cero, lo que significa un gran rendimiento, pero este funcionamiento se ve rápidamente deteriorado a medida que los vectores utilizados son extraídos de locuciones de una duración más moderada. El proyecto tiene como objeto analizar y adaptar la técnica más avanzada de la actualidad para la compensación de variabilidad de sesión en el reconocimiento automático de locutor utilizando locuciones de duración variable. METODOLOGÍA DE TRABAJO 1. Fase de documentación Estudio, a través de bibliografía, de los sistemas en el estado del arte de reconocimiento automático de locutor. Estudio, a través de bibliografía, de las técnicas existentes de compensación de variabilidad de sesión, y en particular de aquellas basadas en Factor de Analysis. Estudio de documentación relativa a las bases de datos que serán utilizadas en el proyecto.

2. Desarrollo e investigación Inicialmente el proyectando se familiarizará con el software de reconocimiento de locutor ya desarrollado por el grupo ATVS, llevando a cabo diversas pruebas sobre las bases de datos derivadas de las evaluaciones de tecnología internacional conducidas por NIST (National Institute of Standards and Technology SRE 2006, 2008 y 2010), con la finalidad de comprender y adquirir capacidad de análisis de los resultados. Se estudiarán, analizarán y ajustarán las técnicas más avanzadas de reconocimiento automático de locutor haciendo hincapié en las diferencias producidas al alimentar los sistemas con locuciones de duración variable. 3. Análisis de resultados y conclusiones El proyectando realizará un análisis exhaustivo de los resultados obtenidos en las diferentes pruebas llevadas a cabo a lo largo de la elaboración del proyecto. Se expondrán las conclusiones de dichos resultados, estableciendo una comparativa entre las diferentes técnicas implementadas en las pruebas llevadas a cabo. 4. Memoria y presentación Se elaborará una memoria que comprenda los siguientes aspectos: Análisis del estado del arte relativo a los sistemas de reconocimiento de locutor. Estudio teórico de la metodología del reconocimiento de locutor combinando características lingüísticas. Experimentación en entornos bien conocidos (evaluaciones NIST) Resultados obtenidos Conclusiones Trabajo futuro

MEDIOS A UTILIZAR Para la realización del proyecto, será necesario disponer de los siguientes elementos, que en su caso, serán proporcionados por el grupo de investigación ATVS de la Universidad Autónoma de Madrid: Un ordenador personal con capacidad suficiente para llevar a cabo los experimentos. Software necesario de apoyo. Las bases de datos de muestras de audio vocales que se consideren oportunas. Servidor de discos ATVS: Máquina: Sun FIRE X2200 M2 Especificaciones técnicas: - 2 procesadores de AMD Opteron de doble núcleo de última generación Serie 2000 de 2.8 GHZ. - Memoria 4 GB - Red: Cuatro puertos Ethernet 10/100/1000Base-T integrados - 1 disco duro de 250 GB Sistema operativo instalado: - Red Hat Linux Enterprise 5

BIBLIOGRAFÍA BÁSICA 1. AitKen, C.G.G and Lucy, D., Evaluation of trace evidence in the form of multivariate data, Applied Statistics 53, pp. 109-122. with corrigendum pp. 665-666, 2005. 2. Dehak, N., Front-End Factor Analysis for Speaker Verification, IEE Trans on Audio, Speech and Lang. Proc., 19(4), 788-798, May 2011 3. Kenny, P., A study of Interspeaker Variability in Speaker Verification, IEEE Trans. on Audio, Speech and Lang. Proc., 16(5):980-988, 2008 4. Kinnunen, T., and Li, H., An overview of text-independent speaker recognition: from features to supervectors, Speech Communication, vol. 52, pp. 12-40, 2010. 5. Kenny, P., Bayesian speaker verification with heavy tailed priors, Keynote presentation at Odyssey 2010, Brno, 2010. 6. R. Vogt and S. Sridharan, Explicit modelling of session variability for speaker verification, Computer Speech & Language, vol. 22, no. 1, pp. 17 38, 2008.