USO DE TÉCNICAS AVANZADAS DE COMPENSACIÓN DE VARIABILIDAD INTER-SESIÓN PARA RECONOCIMIENTO AUTOMÁTICO DE LOCUTOR EN LOCUCIONES DE DURACIÓN VARIABLE

Documentos relacionados
EXTRACCIÓN DE INFORMACIÓN DE AUDIO PARA RECUPERACIÓN DE INFORMACIÓN

Reconocimiento automático de locutores independiente de texto Estado del arte y uso en la valoración estadística de la evidencia forense

EXTRACCIÓN DE LRs DE AUDIOS DE CASOS CERRADOS DE LA POLICÍA DE INVESTIGACIONES DE CHILE PDI

Análisis de técnicas caligráficas para la mejora del reconocimiento automático de firma

Reconocimiento de Locutor (Biometría Vocal)

ACÚSTICA FORENSE Máster Universitario en CIENCIAS POLICIALES Universidad de Alcalá Curso Académico 2012/13

CONSTRUCCIÓN DE UNA NUEVA BASE DE DATOS PARA EL RECONOCIMIENTO AUTOMÁTICO DE CARACTERES MANUSCRITOS Y GENERACIÓN DE RESULTADOS DE REFERENCIA

Universidad Autónoma de Madrid. Escuela politécnica superior. Proyecto fin de carrera

ACÚSTICA FORENSE Máster Universitario en CIENCIAS POLICIALES Universidad de Alcalá Curso Académico 2017/18

6 BASE DE DATOS Y SOFTWARE

PLAN DE ESTUDIOS 1996

Eclipse SDK 3.3: Utilizado para el desarrollo del software de la aplicación web.

Curso de análisis cualitativo y mixto con NVivo11

VERIFICACIÓN AUTOMÁTICA DEL LOCUTOR

1. Necesidades del comprador: COMPUTADOR PERSONAL Y DE OFICINA PROCESADORES, MEMORIAS RAM, ROM, DISCO DURO, CACHÉ, TARJETAS, IMPRESORAS

MEJORA DE ALGORITMOS DE RECONOCIMIENTO DE HUELLAS DACTILARES EN ENTORNOS FORENSES

Reconocimiento Automático de Locutor

Identificación del hablante

EXTRACCIÓN DE INFORMACIÓN DE SEÑALES DE VOZ PARA EL AGRUPAMIENTO POR LOCUTORES DE LOCUCIONES ANÓNIMAS

INSTRUCTIVO DE INSTALACION DE SPSS

Guión. Bayesian Biometrics for Forensics (BBfor2): Red Europea Marie Curie para la Integración de Avances en Sistemas Biométricos y Ciencia Forense

Sistema Automático de Reconocimiento Fonético

Sage 50c Premium / Standard Requisitos mínimos

Licitación Pública No. LPN-FIDE-COPRISAO/DARA ADQUISICIÓN DE EQUIPAMIENTO PARA CENTROS DE DATOS PRINCIPAL Y ALTERNO DARA

PLANEACIÓN DE UNA INSTALACIÓN

Grupo de Inteligencia Artificial y Sistemas Departamento de Informática y Sistemas Universidad de Las Palmas de Gran Canaria

Identificación del hablante

Sistemas de Información. Agosto de 2017

VILE_CoLiCo2.pdf

IDENTIFICACIÓN DE HABLANTES A PARTIR DE TRAYECTORIAS TEMPORALES EN UNIDADES LINGÜÍSTICAS SOBRE GRANDES BASES DE DATOS UNIVERSIDAD AUTÓNOMA DE MADRID

Para acceder al sistema ART-e de EDP HC Energía, es necesario tener instalado el siguiente software en el puesto cliente:

MOMENTO I. BLOQUE 1. Opera las funciones básicas del sistema operativo y garantiza la seguridad de la información

Sage 50c Premium / Standard / Essential Requisitos mínimos

Paul McCartney es un impostor?

SOLICITUD DE DEFENSA DEL TRABAJO DE INICIACIÓN A LA INVESTIGACIÓN

Reingeniería de un generador de casos de prueba por algoritmos genéticos para WS-BPEL 2.0

ESPECIFICACIONES TÉCNICAS Y CONDICIONES REQUERIDAS DEL BIEN Y/O SERVICIO

Curso online: Arquímedes

PrefSuite Requisitos de instalación Mayo de 2016

Desarrollo y optimización de un sistema de estimación del nivel UPDRS de un paciente de Parkinson a partir de grabaciones del habla

Especificación Técnica

En el siguiente tutorial le guiaremos para que pueda instalar el SQL Express 2014

Sage 50c Premium / Standard / Essential Requisitos mínimos

40951 Tecnologies de la parla

Nombre y firma del solicitante

Sonido Inmersivo. Increíble desempeño.

EXPERIMENTOS PRELIMINARES DE VERIFICACIÓN DE LOCUTORES CON UNA BASE DE DATOS REALISTA

Instalación del segundo Root-Server en REACCIUN y actualización de sus políticas de enrutamiento

GUÍA DOCENTE Informática básica «Basic computer skills»

0,00. PYME Ofimática Basic

Peppermint. David De Maya Merras. Pedro José Hernández López

PLIEGO DE PRESCRIPCIONES TECNICAS PARA LA CONTRATACION DEL SUMINISTRO DE PLATAFORMA DE SISTEMAS DE ENTORNO DE CONSOLIDACIÓN Y FORMACIÓN PARA LA

Materia compuesta por 2 asignaturas programadas en el 3º y 4º semestre, tal y como se recoge a continuación en la tabla de asignaturas

CENTRO INTEGRADO POLITÉCNICO ETI DE TUDELA

Drupal 7-8 Diplomado en (Formación y Consultoría)

LENOVO LEGIÓN Y520 LAPTOP PARA GAMING INICIAL. Trabaja mucho para que tu trabajo sea más fácil. Dura el tiempo suficiente para tener su propia carrera

UNIVERSIDAD MILITAR NUEVA GRANADA INVITACIÓN PÚBLICA No. 12 de 2015 ANEXO 02 INFRAESTRUCTURA ACTUAL

ESPECIFICACIONES TECNICAS DE SOFTWARE ESPECIALIZADO PARA PRUEBAS, COMMISSIONING, DIAGNÒSTICO Y SOLUCIÒN DE PROBLEMAS EN REDES IEC ANEXO 3

Tema 2: Conceptos básicos. Escuela Politécnica Superior Ingeniería Informática Universidad Autónoma de Madrid

PrefSuite Requisitos de instalación Noviembre de 2016

Reconocimiento de Voz: Una Realidad que Posiciona al Centro de Contacto en Una Nueva Dimensión

LA FRECUENCIA FUNDAMENTAL DE LA VOZ Y SUS EFECTOS EN RECONOCIMIENTO DE HABLA CONTINUA

ThinkCentre M73. ThinkCentre M73 PC de escritorio formato compacto

Pliego de condiciones técnicas que regirán el procedimiento abierto para la adquisición de equipamiento informático para el Ayuntamiento de Tarragona

EXCMO. AYUNTAMIENTO DE UBEDA Departamento de Informática. Plaza Vázquez de Molina s/n Tlfno. (953) Ext. 213 Fax:(953)750770

DISEÑO DE UN AULA MULTIMEDIA PARA LA ENSEÑANZA TEÓRICO/PRÁCTICA DE DISEÑO VLSI

UNIVERSIDAD DE CONCEPCIÓN, DEPTO. INGENIERÍA MATEMÁTICA Concepción, Chile

SISTEMA DE NAVEGACIÓN AUTOMÁTICA CONTROLADA POR VOZ PARA UNA SILLA DE RUEDAS

Supercomputador LUSITANIA

Notas sobre la versión de TOOLS for CI2 V1.6.5 para Windows

1. Presentación - Introducción

PrefSuite Requisitos de instalación Noviembre de 2018

Memoria de Prácticas. Creación de Wikis en Servidor

Windows 7 (Professional, Enterprise o Ultimate), Windows 8 (Pro, Pro WMC, Enterprise), Windows 10 (Professional, Enterprise)*.

Windows 7 (Professional, Enterprise o Ultimate), Windows 8 (Pro, Pro WMC, Enterprise), Windows 10 (Professional, Enterprise)*.

Para acceder al GIS de EDP HC Energía, es necesario tener instalado el siguiente software en el puesto cliente:

Título del proyecto Tutor/es Tutor de la Universidad Alumno/os Puesto del tutor/es

Incorporación de n-gramas discriminativos para mejorar un reconocedor de idioma fonotáctico basado en i-vectores

PORTAFOLIO DE PRODUCTOS

gamificación elive English Do, Play & Learn!

Consulta de Expedientes Manual de Usuario

Diseño clásico. Colores expresivos

PLIEGO PARA LA CONTRATACIÓN DEL RECONOCIMIENTO DE VOZ Y SU TRANSCRIPCIÓN AUTOMATICA A TEXTO. Exp

UNIVERSIDAD TÉCNICA DEL NORTE

Código Asignatura ECTS Código Asignatura ECTS

Tecnologías de la Información

1.7. Número de créditos / Credit allotment

DETECCIÓN DE HABLANTES EN LOCUCIONES CORTAS EN AUDIO BROADCAST

Experimentación distribuida basada en el sistema Condor

GUIA PARA SOLUCION DE PROBLEMAS MAS COMUNES

Tarjeta de Red Ethernet de 1 Puerto con 10G - con Chipset Intel X550-AT

Biblioteca Digital UANL Avances e innovaciones

Máster en Ingeniería de Sistemas e Informática Diseño de sistemas empotrados. Información básica. Guía docente para el curso

HP Operations Orchestration

Transcripción:

UNIVERSIDAD AUTÓNOMA DE MADRID ESCUELA POLITÉCNICA SUPERIOR USO DE TÉCNICAS AVANZADAS DE COMPENSACIÓN DE VARIABILIDAD INTER-SESIÓN PARA RECONOCIMIENTO AUTOMÁTICO DE LOCUTOR EN LOCUCIONES DE DURACIÓN VARIABLE -ANTEPROYECTO- Rubén Zazo Candil Ingeniería de Telecomunicación TUTOR: Javier González Domínguez Madrid, Enero 2014

MOTIVACIÓN Y OBJETIVOS Los sistemas automáticos de reconocimiento de locutor basan su funcionamiento en la medida de similitud entre las identidades asociadas a dos muestras de voz. Esta medida de similitud es obtenida mediante diversos tipos de procesado/modelado matemático aplicados a distintas características extraídas de la señal de voz a diferentes niveles (acústico, fonético, ). Durante las dos últimas décadas, los sistemas de reconocimiento de locutor que han obtenido un mejor rendimiento, desde los primeros sistemas basados en GMM-UBM y SVM hasta los recientes i-vector [2] y PLDA [5] con especial atención a la compensación de variabilidad de sesión. El análisis de reconocimiento se realiza sobre los vectores (linguistic-independent) extraídos a partir de una locución, de una duración típica de 250 segundos. Utilizando PLDA [5], obtenemos unos errores muy cercanos a cero, lo que significa un gran rendimiento, pero este funcionamiento se ve rápidamente deteriorado a medida que los vectores utilizados son extraídos de locuciones de una duración más moderada. El proyecto tiene como objeto analizar y adaptar la técnica más avanzada de la actualidad para la compensación de variabilidad de sesión en el reconocimiento automático de locutor utilizando locuciones de duración variable. METODOLOGÍA DE TRABAJO 1. Fase de documentación Estudio, a través de bibliografía, de los sistemas en el estado del arte de reconocimiento automático de locutor. Estudio, a través de bibliografía, de las técnicas existentes de compensación de variabilidad de sesión, y en particular de aquellas basadas en Factor de Analysis. Estudio de documentación relativa a las bases de datos que serán utilizadas en el proyecto.

2. Desarrollo e investigación Inicialmente el proyectando se familiarizará con el software de reconocimiento de locutor ya desarrollado por el grupo ATVS, llevando a cabo diversas pruebas sobre las bases de datos derivadas de las evaluaciones de tecnología internacional conducidas por NIST (National Institute of Standards and Technology SRE 2006, 2008 y 2010), con la finalidad de comprender y adquirir capacidad de análisis de los resultados. Se estudiarán, analizarán y ajustarán las técnicas más avanzadas de reconocimiento automático de locutor haciendo hincapié en las diferencias producidas al alimentar los sistemas con locuciones de duración variable. 3. Análisis de resultados y conclusiones El proyectando realizará un análisis exhaustivo de los resultados obtenidos en las diferentes pruebas llevadas a cabo a lo largo de la elaboración del proyecto. Se expondrán las conclusiones de dichos resultados, estableciendo una comparativa entre las diferentes técnicas implementadas en las pruebas llevadas a cabo. 4. Memoria y presentación Se elaborará una memoria que comprenda los siguientes aspectos: Análisis del estado del arte relativo a los sistemas de reconocimiento de locutor. Estudio teórico de la metodología del reconocimiento de locutor combinando características lingüísticas. Experimentación en entornos bien conocidos (evaluaciones NIST) Resultados obtenidos Conclusiones Trabajo futuro

MEDIOS A UTILIZAR Para la realización del proyecto, será necesario disponer de los siguientes elementos, que en su caso, serán proporcionados por el grupo de investigación ATVS de la Universidad Autónoma de Madrid: Un ordenador personal con capacidad suficiente para llevar a cabo los experimentos. Software necesario de apoyo. Las bases de datos de muestras de audio vocales que se consideren oportunas. Servidor de discos ATVS: Máquina: Sun FIRE X2200 M2 Especificaciones técnicas: - 2 procesadores de AMD Opteron de doble núcleo de última generación Serie 2000 de 2.8 GHZ. - Memoria 4 GB - Red: Cuatro puertos Ethernet 10/100/1000Base-T integrados - 1 disco duro de 250 GB Sistema operativo instalado: - Red Hat Linux Enterprise 5

BIBLIOGRAFÍA BÁSICA 1. AitKen, C.G.G and Lucy, D., Evaluation of trace evidence in the form of multivariate data, Applied Statistics 53, pp. 109-122. with corrigendum pp. 665-666, 2005. 2. Dehak, N., Front-End Factor Analysis for Speaker Verification, IEE Trans on Audio, Speech and Lang. Proc., 19(4), 788-798, May 2011 3. Kenny, P., A study of Interspeaker Variability in Speaker Verification, IEEE Trans. on Audio, Speech and Lang. Proc., 16(5):980-988, 2008 4. Kinnunen, T., and Li, H., An overview of text-independent speaker recognition: from features to supervectors, Speech Communication, vol. 52, pp. 12-40, 2010. 5. Kenny, P., Bayesian speaker verification with heavy tailed priors, Keynote presentation at Odyssey 2010, Brno, 2010. 6. R. Vogt and S. Sridharan, Explicit modelling of session variability for speaker verification, Computer Speech & Language, vol. 22, no. 1, pp. 17 38, 2008.