Reconocimiento Automático de Locutor

Transcripción

1 Reconocimiento Automático de Locutor Joaquín González Rodríguez ATVS Biometric Recognition Group Universidad Autónoma de Madrid Sumario Introducción: n: voz e identidad Reconocimiento de locutor multinivel Reconocimiento acústico (bajo nivel) GMM SVM-GLDS Reconocimiento de alto nivel Fonético Prosódico Fusión Evaluaciones NIST Desafíos Actuales y Últimas Tendencias Conclusiones 2 1

2 Información de identidad en la señal de voz 3 Señal de Voz e Información de Identidad Las personas somos capaces de identificar locutores a partir de sus voces Durante toda nuestra vida adquirimos voces. Inconscientemente creamos un modelo de cada locutor. Por tanto, la señal de voz conlleva información n de identidad del hablante. Dónde se encuentra esa información? n? Cómo podemos extraerla, caracterizarla y compararla? 4 2

3 Niveles de Identidad en la Voz Existen diferentes niveles en los que la identidad del hablante se encuentra en la señal de voz Cuando reconocemos a alguien por la voz tenemos en cuenta Su timbre El uso de los sonidos Su forma de entonar Influye uno o varios niveles (fusi( fusión) Esa combinación n es dependiente del locutor a reconocer 5 Niveles de Identidad en la Voz Bajo nivel Segmentales: : Formantes, ancho de banda de formantes, frecuencia fundamental Suprasegmentales: : transición n y ataque entre sonidos, coarticulación y concatenación Alto nivel Nivel prosódico: entonación, n, acentuación, n, duración n (grupos fónicos f y silencios) Nivel lingüí üístico: ritmo, melodía, tempo, jerga, léxico, reiteración n de expresiones, variedad dialectal 6 3

4 Estrategia en Biometría Vocal En biometría a vocal tendrán n que tenerse en cuenta: 1.La información n extraída a diferentes niveles Estrategia multinivel Y de diferente forma en cada nivel Estrategia multisistema 2.La combinación n de esa información Fusión multinivel Fusión multisistema Rec. Acústico 1 Rec. Acústico 2 Rec. Prosódico Fusión Rec. Fonético 7 Problema: Variabilidad Problema fundamental en la señal de voz Debida a múltiples m (y comunes) factores: Factores internos intrínsecos: nsecos: Permanentes: sexo, edad, sesión, tipo y cantidad de habla Transitorios: estado emocional, patologías as fonatorias Factores internos forzados: Efecto Lombard (voz en ambiente ruidoso) Efecto cocktail-party (voz en voces concurrentes) Factores externos: Canal (electro)ac( electro)acústico: : ruido acústico, reverberación, microfonía,, distancia Canal de comunicaciones: ruido eléctrico, ancho de banda, margen dinámico, distorsión, codificación 8 4

5 Reconocimiento de locutor dependiente del texto Sistema text-dependent 39 modelos fonéticos (english) spk-indept de TIMIT 23 modelos fonéticos (español) spk-indept Albayzin Alineamiento forzado con locuciones train Técnicas evaluadas: EM: reestimación Baum-Welch (1-5 iteraciones) MLLR: adaptación de modelos (1-32 clases) Sin normalización de scores (t-norm, etc.) Implementación actual: HTK Próximamente portado a Sphinx 10 5

6 Pruebas sobre Yoho 4 sesiones enrollment, 24 frases/sesión = 96 locuciones 10 sesiones de test, 4 frases/sesión = 40 locuciones 138 locutores Locuciones: tipo Tipo de habla: (single) microphone Protocolo de prueba: reconocimiento fonético con desafío dinámico Condiciones de entrenamiento en prueba: 4 sesiones, 96 locuciones 1 sesión, 24 locuciones 1 sesión, 6 locuciones 11 Text-dependent: MLLR vs EM 12 6

7 GMM-HMM-Fusion sobre Yoho (6 frases) 13 Phone-dependent t-norm 14 7

8 Fusión T-HMM + GMM 15 Comparativa t-norm HMM 16 8

9 Pruebas sobre Biosec Habla microfónica y webcam 1 archivo de train frente a 1 test 150 locutores: 2 sesiones, 4 locuciones/sesion 16 train/test true pairs per speaker (2400 trials) 150 x 149/2 = non-target trials Sistema MLLR 17 Resultados habla microfónica MLLR Resultados TALP con habla webcam mediante GMM: 13% EER 18 9

10 Reconocimiento multinivel de locutores (independiente de texto) 19 Reconocimiento de locutor multinivel Tradicionalmente (años 90), sólo s sistemas basados en parámetros acústicos Diferentes estrategias: Dynamic Time Warping (DTW) Vector Quantization (VQ) Artificial Neural Network (ANN) Hidden Markov Models (HMM) Gaussian Mixture Models (GMM) Los sistemas de alto nivel proporcionan enormes posibilidades, especialmente para longitudes de entrenamento grandes (>10min.) Para longitudes de entrenamiento pequeñas, los sistemas acústicos funcionan mucho mejor 20 10

11 Reconocimiento de locutor multinivel Parámetros acústicos: Fáciles de extraer y modelar, buenos resultados (GMM/SVM) Alta sensibilidad a fuentes de variabilidad (canal, paso del tiempo, etc.) Parámetros de alto nivel: Dificultad de extracción n variable, pero en general alta complejidad Sólo a partir de duraciones grandes Alta robustez a fuentes de variabilidad (una vez extraídos de forma fiable) 21 Reconocimiento de locutor multinivel Fusión de sistemas a distintos niveles: Acústico Prosódico Fonético Léxico Conversacional Referencia: SuperSID: D. A. Reynolds, et al., The SuperSID Project: Exploiting High-level Information for High-accuracy Speaker Recognition, IEEE Intl. Conf. on Acous. Speech and Signal Proc., ICASSP

12 Sistemas Acústicos: GMM y SVM-GLDS 23 Reconocimiento acústico de locutor Los sistemas acústicos basan el reconocimiento en las características espectrales de la señal de voz Y en la variación n de esas características a lo largo del tiempo s i e t e c e r o 24 12

13 Mecanismo de producción de voz El espectro de la señal de voz está directamente relacionado con La señal de excitación n procedente de las cuerdas vocales La configuración n de tracto vocal 25 Cuerdas vocales: excitación Las cuerdas vocales generan el sonido Señal de excitación Si las cuerdas vibran, señal sonora (estructura periódica subyacente) Ciclo de Vibración Si las cuerdas no vibran, señal sorda (ruido sin periodicidad alguna) 26 13

14 Espectro: Sonidos Sordos Si las cuerdas vocales no vibran Espectro ruidoso de alta frecuencia Ejemplo: s s sorda, f, z 27 Espectro: Sonidos Sonoros Si las cuerdas vocales vibran Tono (pitch( pitch) ) + formantes (envolvente) Señal cuasi-peri periódica: pitch Ejemplo: vocales, m, l Estructura periódica, alta energía Estructura fina (armónicos) y formantes Amplitud(dB) Tiempo(ms) Frecuencia(KHz) 14

15 Tracto vocal: articulación La señal de excitación n define la frecuencia fundamental de vibración n (pitch( pitch) Sin embargo, la forma del espectro (formantes) está definida por la configuración n de los órganos articulatorios (tracto vocal) El tracto vocal de cada ser humano genera formantes ligeramente diferentes para un mismo sonido Por tanto, de la forma del espectro se puede extraer información n que permite discriminar entre personas 29 Análisis a corto plazo El espectro de la señal de voz tiene mucha variabilidad temporal s i e t e c e r o Un análisis del espectro total de la voz no resulta práctico, porque los espectros de los diferentes sonidos no se distinguirían 30 15

16 Análisis a corto plazo Sin embargo, a corto plazo (entre 5 y 30 ms) Sonidos sonoros se pueden considerar periódicos Sonidos sordos se pueden considerar estacionarios Tiempo(ms) Estrategia: muchas muestras de la señal a corto plazo (enventanado) 31 Parametrización acústica Primer paso: enventanado Se obtienen trozos de la señal con solapamiento Segundo paso: parametrización Se obtienen características (parámetros) de cada ventana Se obtiene una secuencia de vectores de parámetros Una secuencia por cada locución 32 16

17 Parametrización acústica Objetivo: extraer información n discriminante de cada ventana de voz en la locución De cada ventana se obtiene un vector de parámetros Generalmente de longitud fija 0 Amplitud(dB) Frecuencia(KHz) Diversos tipos Parametrización Linear Prediction Cepstal Coefficients (LPCC) Mel Frequency Cepstral Coefficients (MFCC) 33 Linear Prediction Cepstral Coefficients (LPCC) La envolvente de la ventana bajo análisis se estima utilizando un filtro de predicción n lineal La transformada cepstral de los coeficientes de dicho filtro genera unos coeficientes transformados Parte de esos coeficientes cepstrales serán n el vector de parámetros de esa ventana 34 17

18 Mel Frequency Cepstral Coefficients (MFCC) No se modela la envolvente Se extrae una serie de coeficientes procedentes de un banco de filtros Mel La escala Mel está basada en la percepción n logarítmica del oído o humano La transformada cepstral de dichos coeficientes genera unos coeficientes transformados Parte de esos coeficientes cepstrales serán n el vector de parámetros de esa ventana 35 Espacio de características espectrales El espacio de características es compartido por cada locutor y hay solapamiento entre ellos Además, existe variabilidad dentro del mismo locutor por diversos factores Siete hablantes españoles Un hablante por idioma 36 18

19 Modelado Una vez extraídos los parámetros, será necesario crear un modelo para cada locutor En un esquema de verificación, compararemos una locución n desconocida con el modelo almacenado Veremos dos tipos de modelado acústico GMM SVM-GLDS 37 Sistema GMM 38 19

20 Gaussian Mixture Models (GMM) Cada vector en la secuencia de vectores es una muestra Con todas las muestras se obtiene un modelo de mezclas de gaussianas GMM Función n densidad de probabilidad multidimensional Gaussian Mixture Models (GMM) Modelo paramétrico Cada modelo de locutor viene definido por los siguientes parámetros: Pdf en el espacio de características: p M ( x λp ) = ωipgip ( x) i= 1 Vector de de medias (mezcla i): i): µ p ={µ p ={µ ip } ip } Matriz de de covarianzas (mezcla i): i): Σ p ={Σ p ={Σ ip } ip } Vector de de pesos (mezcla i): i): ω p ={ω p ={ω ip }, ip }, Σ i ω i ip =1 ip =1 Modelo del del locutor p: p: λ p ={µ p ={µ ip,σ ip,σ ip,ω ip,ω ip } ip } ( x ) = N ( µ ip, Σip ) Los parámetros del modelo se obtienen (usualmente) mediante el algoritmo EM (Expectation( Maximization). g ip 40 20

21 Adaptación desde modelo universal Cuando hay poca habla del locutor, el modelo GMM puede ser poco general Se introduce generalidad a partir de un modelo universal Universal Background Model (UBM) El UBM se entrena con muchísima habla de todo el mundo Idea: El modelo UBM nos da lo general, común n a todos El modelo del locutor nos da lo particular de ese locutor con respecto del modelo universal Robustez frente a pocos datos 41 Adaptación desde modelo universal Adaptación n MAP (Máximo a Posteriori) mediante el algoritmo EM 42 21