Reconocimiento de Locutor (Biometría Vocal)

Transcripción

1 Reconocimiento de Locutor (Biometría Vocal) Daniel Ramos Castro ATVS Biometric Recognition Group Universidad Autónoma de Madrid Sumario Introducción: voz e identidad multinivel Reconocimiento acústico (bajo nivel) GMM SVM-GLDS Reconocimiento de alto nivel Fonético Prosódico Fusión Evaluaciones NIST Desafíos Actuales y Últimas Tendencias Conclusiones 2 1

2 Información de identidad en la señal de voz 3 Señal de Voz e Información de Identidad Las personas somos capaces de identificar locutores a partir de sus voces Durante toda nuestra vida adquirimos voces Inconscientemente creamos un modelo de cada locutor Por tanto, la señal de voz conlleva información de identidad del hablante Dónde se encuentra esa información? Cómo podemos etraerla, caracterizarla y compararla? 4 2

3 Niveles de Identidad en la Voz Eisten diferentes niveles en los que la identidad del hablante se encuentra en la señal de voz Cuando reconocemos a alguien por la voz tenemos en cuenta 5 Niveles de Identidad en la Voz Eisten diferentes niveles en los que la identidad del hablante se encuentra en la señal de voz Cuando reconocemos a alguien por la voz tenemos en cuenta Su timbre 6 3

4 Niveles de Identidad en la Voz Eisten diferentes niveles en los que la identidad del hablante se encuentra en la señal de voz Cuando reconocemos a alguien por la voz tenemos en cuenta Su timbre Su uso de los sonidos 7 Niveles de Identidad en la Voz Eisten diferentes niveles en los que la identidad del hablante se encuentra en la señal de voz Cuando reconocemos a alguien por la voz tenemos en cuenta Su timbre Su uso de los sonidos Su forma de entonar Identidad en varios niveles (fusión( fusión) Esa combinación es dependiente del locutor a reconocer 8 4

5 Niveles de Identidad en la Voz Las diferentes características de la voz se agrupan en niveles (lingüística) Fonético: utilización de diferentes sonidos, pronunciación, etc. Prosódico: entonación particular, variación de energía, pausas entre frases o palabras, etc. Espectral: configuración (resonancia) del tracto vocal, co-articulación, nasalidad, etc. Nivel más alto 9 Estrategia en Biometría Vocal En biometría vocal tendrán que tenerse en cuenta: 1. La información etraída a diferentes niveles Estrategia multinivel Y de diferente forma en cada nivel Estrategia multisistema Rec. espectral 1 Rec. espectral 2 Rec. Prosódico Rec. Fonético 10 5

6 Estrategia en Biometría Vocal En biometría vocal tendrán que tenerse en cuenta: 1. La información etraída a diferentes niveles Estrategia multinivel Y de diferente forma en cada nivel Estrategia multisistema 2. La combinación de esa información Fusión multinivel Fusión multisistema Fusión (capítulo de multibiometría) Rec. espectral 1 Rec. espectral 2 Rec. Fonético Rec. Prosódico 11 Problema: Variabilidad Problema fundamental en la señal de voz Debida a múltiples (y comunes) factores: Factores internos intrínsecos: 12 Permanentes: seo, edad, sesión, tipo y cantidad de habla Transitorios: estado emocional, patologías fonatorias Factores internos forzados: Efecto Lombard (voz en ambiente ruidoso) Efecto cocktail-party (voz en voces concurrentes) Factores eternos: Canal (electro)acústico( electro)acústico: : ruido acústico, reverberación, microfonía,, distancia Canal de comunicaciones: ruido eléctrico, ancho de banda, margen dinámico, distorsión, codificación 6

7 Arquitectura básica de un sistema de reconocimiento de locutores 13 Reconocimiento automático La gran mayoría de sistemas calcula puntuaciones (scores( scores) Similitud entre las identidades en dos fragmentos de voz Identidad A Identidad B Reconocimiento automático de locutor score Idealmente (y sin perder generalidad): Si A y B son la misma identidad, score más alto Si A y B son identidades diferentes, score más bajo Un score permite discriminar 14 7

8 Cálculo de una puntuación (score): etapas Paso 1: modelado de características A Etracción de características Modelado Modelo A 15 Cálculo de una puntuación (score): etapas Paso 1: modelado de características A Etracción de características Modelado Modelo A Paso 2: cálculo de la puntuación (score( score) B Etracción de características Comparación score Modelo A 16 8

9 Detección (verificación) de locutor Tarea básica Es la identidad de ambos fragmentos de voz la misma? Típicamente en dos pasos: 1. Cálculo de la puntuación 2. Comparación con un umbral A B Reconocimiento automático de locutor score > τ A y B son iguales < τ A y B son diferentes 17 Reconocimiento multinivel de locutores (independiente de teto) 18 9

10 multinivel Tradicionalmente (años 90), sólo sistemas basados en parámetros espectrales Diferentes estrategias: Dynamic Time Warping (DTW) Vector Quantization (VQ) Artificial Neural Network (ANN) Hidden Markov Models (HMM) Gaussian Miture Models (GMM) Los sistemas de alto nivel proporcionan posibilidades Especialmente para longitudes de entrenamento grandes (>10min.) Para longitudes de entrenamiento pequeñas (<5m.), los sistemas acústicos funcionan mucho mejor 19 multinivel Parámetros espectrales: Fáciles de etraer y modelar, buenos resultados (GMM/SVM) Alta sensibilidad a fuentes de variabilidad (canal, paso del tiempo, etc.) Parámetros de alto nivel: Dificultad de etracción variable, pero en general alta complejidad Sólo a partir de duraciones grandes Información muy complementaria a la del nivel espectral 20 10

11 multinivel Fusión de sistemas a distintos niveles: Acústico Prosódico Fonético Léico Conversacional Referencia: SuperSID: D. A. Reynolds, et al., The SuperSID Project: Eploiting High-level Information for High-accuracy Speaker Recognition, IEEE Intl. Conf. on Acous. Speech and Signal Proc., ICASSP a nivel espectral 22 11

12 Reconocimiento acústico de locutor Los sistemas acústicos basan el reconocimiento en las características espectrales de la señal de voz Y en la variación de esas características a lo largo del tiempo s i e t e c e r o Amplitud(dB) Frecuencia(KHz) Mecanismo de producción de voz El espectro de la señal de voz está directamente relacionado con La señal de ecitación procedente de las cuerdas vocales La configuración de tracto vocal 24 12

13 Cuerdas vocales: ecitación Las cuerdas vocales generan el sonido Señal de ecitación Si las cuerdas vibran, señal sonora (estructura periódica subyacente) Ciclo de Vibración Si las cuerdas no vibran, señal sorda (ruido, sin periodicidad) 25 Espectro: Sonidos Sordos Si las cuerdas vocales no vibran Espectro ruidoso de alta frecuencia Ejemplo: s sorda, f, z 26 13

14 Espectro: Sonidos Sonoros Si las cuerdas vocales vibran Tono (pitch( pitch) ) + formantes (envolvente) Señal cuasi-periódica: pitch Ejemplo: vocales, m, l Estructura periódica, alta energía Estructura fina (armónicos) y formantes Amplitud(dB) Tiempo(ms) Frecuencia(KHz) Tracto vocal: articulación La señal de ecitación define la frecuencia fundamental de vibración (pitch( pitch) Sin embargo, la forma del espectro (formantes) está definida por la configuración de los órganos articulatorios (tracto vocal) El tracto vocal de cada ser humano genera formantes ligeramente diferentes para un mismo sonido Por tanto, de la forma del espectro se puede etraer información que permite discriminar entre personas 28 14

15 Pulso glotal y resonancia Tracto vocal (resonancia) Envolvente espectral: estructura del tracto vocal (particular de cada locutor) 29 Pulso glotal (vibración, periódica) Etracción de características Primer paso para el reconocimiento: etracción de características A Etracción de características Modelado Modelo A 30 15

16 Análisis a corto plazo El espectro de la señal de voz tiene mucha variabilidad temporal s i e t e c e r o Un análisis del espectro total de la voz (a( a largo plazo) no resulta práctico, porque los espectros de los diferentes sonidos no se distinguirían 31 Análisis a corto plazo Sin embargo, a corto plazo (entre 5 y 30 ms) Sonidos sonoros se pueden considerar periódicos Sonidos sordos se pueden considerar estacionarios /a/ (sonora) /s/ (sorda) Time (seconds) Time (seconds) Estrategia: muchas muestras de la señal a corto plazo (enventanado) 32 16

17 Parametrización acústica Primer paso: enventanado Se obtienen trozos de la señal con solapamiento Segundo paso: parametrización Se obtienen características (parámetros) de cada ventana Analysis Windows Feature Vectors o 1 o 2 o 3 o 4 o 5 o t o T Se obtiene una secuencia de vectores de parámetros Una secuencia por cada locución 33 Parametrización acústica Objetivo: etraer información discriminante de cada ventana de voz en la locución De cada ventana se obtiene un vector de características Generalmente de longitud fija 0 Amplitud(dB) Frecuencia(KHz) Diversos tipos Parametrización Mel Frequency Cepstral Coefficients (MFCC) Linear Prediction Cepstal Coefficients (LPCC) 34 17

18 Mel Frequency Cepstral Coefficients (MFCC) Banco de filtros Mel La escala Mel está basada en la percepción logarítmica del oído humano Trasformada cepstral Propiedades interesatnes Deconvolucíón Ortogonalización Parte de esos coeficientes cepstrales serán el vector de parámetros de esa ventana m 1 m 2... m p Cepstral transform f 1 f 2... f D Frequency 35 Linear Prediction Cepstral Coefficients (LPCC) La envolvente de la ventana bajo análisis se estima utilizando un filtro de predicción lineal La transformada cepstral de los coeficientes de dicho filtro genera unos coeficientes transformados Parte de esos coeficientes cepstrales serán el vector de parámetros de esa ventana 36 18

19 Espacio de características espectrales El espacio de características es compartido por cada locutor y hay solapamiento entre ellos Además, eiste variabilidad dentro del mismo locutor por diversos factores Siete hablantes españoles Un hablante por idioma 37 Modelado Una vez etraídos los parámetros, será necesario crear un modelo para cada locutor La puntuación se obtendrá comparando la locución de prueba con el modelo creado (entrenado( entrenado) Veremos dos tipos de modelado y cálculo de puntuación de características espectrales GMM SVM-GMM A Etracción de características Modelado Modelo A 38 19

20 Modelos de mezclas de gaussianas (Gaussian Miture Models, GMM) 39 Modelos de Mezclas de Gaussianas (GMM) Función densidad de probabilidad multidimensional Modela la probabilidad de obtener características de un locutor determinado en el espacio Suma ponderada de densidades de probabilidad gaussianas Función densidad de probabilidad Ejemplo: M=4 componentes (mezclas) gaussianas Espacio de características de D=2 dimensiones Detalles en [Reynolds00] 40 20

21 Modelos de Mezclas de Gaussianas (GMM) Vector de medias (mezcla i): μ p ={μ ip } Matriz de covarianzas (mezcla i): Σ p ={Σ ip } Vector de pesos (mezcla i): ω p ={ω ip }, Σ i ω ip =1 Modelo del locutor p: λ p ={μ ip,σ ip,ω ip } p g M ( o λp) = ωipgip( o) i= 1 ip ( o) = N( μip, Σip ) Regiones diferentes del espacio corresponden a configuraciones diferentes del tracto vocal Valores diferentes de las características GMM representa bien muy diversas distribuciones de características Entrenamiento GMM A partir de datos de entrenamiento A Etracción de características cj ci 42 21

22 Entrenamiento GMM A partir de datos de entrenamiento Inicialización del modelo cj ci 43 Entrenamiento GMM A partir de datos de entrenamiento Inicialización del modelo Maimum Likelihood (ML) Ajuste a datos cj Iterativamente Algoritmo Epectation Maimization (EM) ci 44 22

23 Entrenamiento GMM A partir de datos de entrenamiento Inicialización del modelo Maimum Likelihood (ML) Ajuste a datos cj Iterativamente Algoritmo Epectation Maimization (EM) ci 45 Entrenamiento GMM A partir de datos de entrenamiento Inicialización del modelo Maimum Likelihood (ML) Ajuste a datos cj Iterativamente Algoritmo Epectation Maimization (EM) Modelo GMM A entrenado ci 46 23

24 Cálculo del score utilizando GMM Partimos del modelo GMM entrenado con el habla de identidad A Etraemos características del habla de identidad B Cálculo del score: Probabilidad de las muestras de B suponiendo el modelo de A Asumiendo independencia entre muestras 47 B Etracción de características (o 1,...,o 6 ) p( O λ A ) = p t T t = 1 ( o λ A ) c j o 1 o 2 o 4 o 3 o 5 Modelo GMM de de A o 6 c i Adaptación desde modelo universal El habla de entrenamiento en general es limitada Pueden entrenarse modelos de locutor no generales Sobreajuste a datos de entrenamiento Universal Background Model (UBM) Entrenado con habla de muchos individuos Intenta modelar la máima variabilidad para la aplicación dada Idea: UBM representa distribuciones de características comunes a todos los locutores El modelo de locutor se adapta desde el UBM Características de entrenamiento: distribución particular del locutor Las regiones del espacio en las que no hay características del locutor mantienen la distribución común a todos (UBM) Robustez frente a pocos datos de entrenamiento 48 24

25 Adaptación desde UBM Características de un conjunto grande de locutores Representa la variabilidad en la aplicación objetivo Etracción cj ci 49 Adaptación desde UBM Entrenamiento de UBM ML con algoritmo EM Etracción cj UBM ci 50 25

26 Adaptación desde UBM Entrenamiento de UBM ML con algoritmo EM cj 51 UBM ci Adaptación desde UBM Características del habla de entrenamiento (A) Pueden ser escasas A Feature etraction cj cj UBM ci ci 52 26

27 cj Adaptación desde UBM Adaptación a partir del UBM Máimo A Posteriori (MAP) Utilizando de nuevo el algoritmo EM El modelo cambiará en las regiones con datos de entrenamiento En el resto de regiones el modelo se mantiene como el UBM cj Feature etraction A 53 UBM ci Speaker Model A ci Puntuación GMM-UBM Puntuación frente al modelo con respecto a puntuación frente al UBM Resalta especificidades del locutor con respecto al universo B Etracción p( O λa) = p t t= 1 Puntuación Modelo A Puntuación UBM p( O λubm ) = p T T t= 1 ( o λa ) / ( ot λu BM ) score = log T t= 1 T t= 1 p p ( ot λa ) ( ot λu BM ) 54 27

28 Máquinas de vectores soporte (SVM) utilizando supervectores GMM 55 Máquinas de vectores soporte (SVM) utilizando supervectores GMM SVM: plano de separación óptimo entre características de clases distintas Pero las características espectrales son difíciles de separar con n un plano Espacio de características alternativo: supervectores GMM [Campbell06] Paso 1: Se entrena un GMM por cada locución Paso 2: construcción del supervector con los vectores de medias del GMM concatenados = ( µ,..., µ ) A 1 M cj Nuevo espacio de dimension D M D es la dimensión del espacio original M es el número de mezclas del GMM GMM locución A ci 56 28

29 Máquinas de vectores soporte (SVM) utilizando supervectores GMM Paso 1: modelado A cj Modelo Modelo GMM GMM A ci Impostores A Modelo SVM A (hiperplano de separación) Paso 2: cálculo del score B 57 cj Modelo Modelo GMM GMM B ci B Score (distancia al hiperplano) Sistemas de Alto Nivel: Fonético 58 29

30 Reconocimiento Fonético Discrimina locutores por el uso que hacen de los sonidos Diferentes locutores emplearán sonidos diferentes Objetivo: medida de similitud entre secuencias de fonemas reconocidos Qué necesitamos?: 1. Reconocedor fonético (uno o varios, diferentes configuracions y/ó idiomas) transcripción fonética 2. Modelado de lenguaje con n-gramas n 59 bigram,, trigram, 4-gram4 gram Reconocedor Fonético Como entrada recibe la señal de voz Como salida devuelve una secuencia de fonemas reconocidos Locución de entrada: casa Reconocedor fonético /k/ /a/ /s/ /a/ Basado en modelos de fonema Alto coste computacional No eento de errores Sensible a variabilidad en el habla 60 30

31 Modelo de lenguaje Trata de representar la frecuencia de ocurrencia de secuencias de fonemas o n-gramas Un n-grama n es una secuencia de n fonemas seguidos en la cadena reconocida A partir de una locución de entrenamiento se obtiene: /k/ /a/ /s/ /a/ Modelado de n-gramas Probabilidades de cada n-grama para el locutor i La probabilidad de que una secuencia de fonemas de test la haya pronunciado el locutor i se obtiene a partir de la probabilidad de cada n-grama n en la secuencia Generalmente se asume independencia (producto) 61 Sistema fonético Cálculo del score 62 31

32 Sistemas de Alto Nivel: Prosódico 63 Información prosódica Semántica, Léico Estado: Edad Seo Ánimo Pausas y declinación Duración Pitch (F0) Energía Estilo de habla Leída Espontánea Conversación Susurro Prosodia = f (semántica, léico, edad, emoción,, estilo de habla,. ) Lingüístico Etralingüístico 64 32

33 Reconocimiento Prosódico Discrimina locutores por el uso que hacen de la prosodia Diferentes locutores emplearán la prosodia de manera diferente Objetivo: medida de similitudes entre la prosodia de dos locuciones Variación de la energía Variación de la frecuencia funcamental (pitch,, f0) 65 Reconocimiento Prosódico Qué necesitamos?: 1. Etraer la variación de la energía y la F0 2. Modelado estadístico mediante n-gramas n bigram,, trigram, 4-gram4 gram 66 33

34 Parametrización prosódica: F0 y energía 67 Contornos de F0 y Energía Contornos Apro. Lineal O Puntos de infleión O Comienzo-final 68 34

35 Cuantificación Se detectan tipos de contorno Sube rápido, baja rápido, sube despacio A cada tipo de contorno se le asigna una clase (token( token) F0 Log E TOKEN FO +F +F +S +S -F -F -S -S +F +F +S +S -F -F -S -S E +F +S +F +S -F -S -F -S -F -S -F -F +F +S +F +S +F=Fast-rising; +S=Slow-rising; -F=Fast-falling; -S=Slow-falling; UV=Unvoiced 17 UV * 69 Modelo de n-gramas Trata de representar la frecuencia de ocurrencia de secuencias de tokens o n-gramas Un n-grama n es una secuencia de n tokens seguidos en la cadena cuantificada A partir de una locución de entrenamiento se obtiene: T8 T16 T5 T3 Modelado de n-gramas Probabilidades de cada n-grama para el locutor i Scoring igual que en reconocimiento fonético 70 35

36 Compensación de variabilidad entre sesiones 71 Variabilidad: el desafío El reconocimiento espectral supera ampliamente en rendimiento al de alto nivel Pero la variabilidad sigue siendo un problema Aún muy dañina (micro vs. teléfono, alto ruido o reverberación, etc.) Técnicas de compensación 72 36

37 Compensación: factor analysis y cía. Variabilidad entre sesiones 73 Compensación: factor analysis y cía. Idea sencilla: búsqueda y compensación de direcciones de variación no deseadas eigen Implementación no tan sencilla ( ) ( ( ) ) ( ) ( () ( )( ) ) ( ) t j = t w k j k ( ) ( () ) T K 1 ( ( ) ) T s s s s s s 1 s γm em Σm ot γm em ( ) Σm em s m t s m t k=

38 Compensación: factor analysis y cía. Y Y cía. (sic( sic) ) porque eisten muchas variantes Factor analysis Joint factor analysis Nuissance Attribute Projection Channel factors Speaker Factors... Vendrán más, es un campo en actual ebullición Factor analysis ha revolucionado la compensación de canal 75 Estado del Arte y tendencias 76 38

39 Estado del Arte Dominio de los sistemas espectrales Superan a los sistemas de alto nivel [Reynolds00, Campbell06] Compensación de variabilidad entre sesiones Intensa actividad investigadora en la actualidad [Kenny07,Vogt07] Fusión de diferentes sistemas Eplotar información complementaria [Brummer07] Tema de multibiometría 77 Desafíos actuales Variabilidad de la voz entre sesiones Sigue siendo muy problemático en condiciones etremas [Kenny07,Vogt07] Degradación del rendimiento con poco material de voz Locuciones cortas (típicamente de prueba) [Vogt08,Fauve08] Desajuste de base de datos El sistema se entrena con datos en condiciones muy diferentes a la de funcionamiento real (ruido, estilo de habla, reverberación, etc.) [Ramos08] 78 39

40 Evaluaciones NIST de reconocimiento de locutor 79 Evaluaciones NIST Realizadas anualmente por el NIST americano (National( Institute of Standards and Technology) Objetivo: fomentar el desarrollo de la tecnología de reconocimiento de locutor Primera edición en 1998 ATVS ha participado de manera eitosa desde 2001 salvo en la edición de 2003 Impulso radical en la tecnología de reconocimiento de locutor Bases de datos Protocolos comunes Foro científico muy competitivo speech 80 40

41 ATVS-UAM en NIST SRE 2008 Sistema primario ATVS1 Fusión de sistemas espectrales con compensación de variabilidad GMM, SVM-GMM, SVM-GLDS Sub-condición teléfono (entrenamiento) vs. teléfono (test( test) 81 ATVS-UAM en NIST SRE 2008 Sub-condición micrófono (entrenamiento) vs. micrófono (test) 8 diferentes tipos de micrófono, muy diversas calidades Diferentes estilos de habla (conversación, entrevista) 82 41

42 ATVS-UAM en NIST SRE 2008 Condiciones de desajuste muy fuerte Robustez Teléfono vs. micrófono Micrófono vs. teléfono 83 Efecto y compensación de variabilidad Desarrollo NIST SRE 2008, hombres Desajuste de base de datos (datos microfónicos) Compensación de variabilidad entre sesiones Eliminación de ruido (filtrado de Wiener) 84 42

43 Conclusiones 85 Conclusiones Señal de voz: gran cantidad de información sobre hablante Distintos niveles de identidad Muy alta variabilidad Estrategis en biometría vocal: Combinación de múltiples etractores de información Fusión multinivel Fusión multisistema Algoritmos de compensación de variabilidad Problema de difícil resolución Gran actividad investigadora Evaluaciones NIST: claves en el desarrollo de la tecnología de reconocimiento de locutor 86 43

44 Muchas Gracias 87 Referencias 44

45 Referencias [Reynolds00] D. A. Reynolds et al., Speaker verification using adapted Gaussian miture models, Digital Signal Processing, v. 10, pp , [Campbell06] W. M. Campbell et al., Support vector machines using GMM supervectors for speaker verification. Signal Processing Letters, v. 13(5), pp [Reynolds03] D. A. Reynolds et al., The SuperSID project: Eploiting high-level information for high-accuracy speaker recognition. Proc. of ICASSP 2003, Hong Kong, China. [Karajarekar04] S. Kajarekar et al., Modelling NERFs for Speaker Recognition. Proc. of Odyssey 2004, Toledo, Spain. [Rabiner07] L. Rabiner, HMMs and Related Speech Technologies. In Springer Handbook of Speech Technologies (ISBN: ). J. Benesty, M. M. Sondhi, Y. Huang (Eds.). [Stolcke06] A. Stolcke et al., MLLR Transforms as Features in Speaker Recognition. Proc. of Interspeech 2005, Lisbon, Portugal. 89 Referencias [Campbell06b] W. M. Campbell et al., Support vector machines for speaker and language recognition. Computer Speech and Language, v. 20(2-3), pp [Lopez07] I. Lopez-Moreno et al. Support Vector Regression for Speaker Verification. Proc. of Interspeech 2007, pp Antwerp, Belgium. [Auckenthaller00] R. Auckenthaler et al., Score normalization for tet-independent speaker verification systems. Digital Signal Processing, vol. 10, pp [Brummer07] N. Brümmer et al., Fusion of heterogeneous speaker recognition systems in the STBU submission for the NIST speaker recognition evaluation IEEE Transactions on Audio, Speech and Signal Processing, vol. 15, no. 7, pp [Kenny07] P. Kenny et al., Speaker and session variability in GMMbased speaker verification. IEEE Transactions on Audio, Speech and Language Processing, vol. 15, no. 4, pp

46 Referencias [Vogt07] R. Vogt and S. Sridharan, Eplicit modelling of session variability for speaker verification. Computer Speech and Language, vol. 22, no. 1, pp [Vogt08] R. Vogt et al., Factor Analysis Modelling for Speaker Verification with Short Utterances. Proc. of Odyssey 2008, Stellenbosch, South Africa. [Fauve08] B. Fauve et al., Improving the performance of tetindependent short duration SVM- and GMM-based speaker verification. Proc. Of Odyssey, Stellenbosch, South Africa. [Ramos08] D. Ramos et al., Addressing database mismatch in forensic speaker recognition with Ahumada III: a public real-casework database in Spanish. Proc. of Interspeech 2008, Brisbane, Australia. 91 Reconocimiento de Locutor (Biometría Vocal) Daniel Ramos Castro daniel.ramos@uam.es ATVS Biometric Recognition Group Universidad Autónoma de Madrid 46