de extracción de características

Documentos relacionados
Procesamiento de la señal de voz

ANÁLISIS LOCALIZADO. 1. Análisis Localizado en el Dominio Temporal. 2. Análisis Localizado en el Dominio Frecuencial

Programa. Introducción 1. Generación y percepción de la señal de voz 2. Técnicas avanzadas

Modelos de producción de voz. Curso de doctorado 2001/2002 Inmaculada Hernáez

Tecnologías del habla

Podriamos conversar con las maquinas como lo hacemos con los humanos?

Coeficientes Cepstrales en Frecuencia Mel y Dynamic Time Warping para Reconocimiento Automatico del Habla

Procesamiento de la voz

Procesamiento digital de voz

UNIVERSIDAD RICARDO PALMA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA ELECTRÓNICA SÍLAB0 PLAN DE ESTUDIOS 2006-II

Modelo de producción de la voz

Sistema Automático de Reconocimiento Fonético

3. Señales. Introducción y outline

Análisis Espectral mediante DFT PRÁCTICA 4

Aplicaciones del Tratamiento de Señales. Parte 1: Grabación y Reproducción de Señales de Voz

Filtros senoc-enventanado Filtros personalizados. clase 11

Análisis Espectral mediante DFT PRÁCTICA 4

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE INGENIERÍA PROGRAMA DE ESTUDIO

ELO 385 Laboratorio de Procesamiento Digital de Señales Laboratorio 5: Transformada Discreta de Fourier Parte I

Métodos de modelado y clasificación de patrones. clasificación de patrones

Seriación obligatoria antecedente: Análisis Espectral de Señales y Variable Compleja Aplicada a la Geofísica

Reconocimiento de comandos de voz utilizando técnicas de PDS aplicadas a robótica

6 10 3,5 2,0 4,5. PROGRAMA DE CURSO Código Nombre EL Señales y Sistemas I Nombre en Inglés Signals and Systems I SCT

MÓDULO MATERIA CURSO SEMESTRE CRÉDITOS TIPO

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN

Victrola de La Transformada de Fourier

INDICE 1. Panorama 2. Señales Analógicas 3. Señales Discretas 4. Sistemas Analógicos 5. Sistemas en Tiempo Discreto

Seguimiento de los parámetros del modelo del tracto vocal

Primera parte (2.5 puntos, 20 minutos):

Primera parte (2.5 puntos, 20 minutos):

Ampliación de Señales y Sistemas

Asignatura: TRATAMIENTO DE SEÑALES ACUSTICAS, AUDIO Y VOZ. Horas/Semana:4 Teoría + 0 Laboratorio. Objetivos

Análisis y Procesado de Señal

UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE INGENIERÍA ESCUELA DE INGENIERÍA ELÉCTRICA DEPARTAMENTO DE ELECTRÓNICA

Reconocimiento Automático de Voz basado en Técnicas de Comparación de Patrones

Fundamentos de producción y tratamiento de audio mediante com

Análisis Espectral mediante DFT PRÁCTICA 4

MÓDULO MATERIA CURSO SEMESTRE CRÉDITOS TIPO

Procesamiento y análisis de imágenes digitales II

3. ANÁLISIS DE SEÑALES

Planificaciones Señales y Sistemas. Docente responsable: REY VEGA LEONARDO JAVIER. 1 de 6

Pontificia Universidad Católica Argentina

INGENIERO EN TELECOMUNICACIONES

Acústica del Habla. Introducción a las Tecnologías del Habla 2 o cuatrimestre 2014 Agustín Gravano

Tema 1. Producción de Voz y Fonética

Universidad Autónoma de San Luis Potosí Facultad de Ingeniería Programas Analíticos del Área Mecánica y Eléctrica

ANX-PR/CL/ GUÍA DE APRENDIZAJE. ASIGNATURA Procesado digital de la señal. CURSO ACADÉMICO - SEMESTRE Segundo semestre

Introducción a la Teoría del Procesamiento Digital de Señales de Audio

Familiarizar al estudiante con las técnicas actuales del procesamiento digital de señales y sus diferentes aplicaciones.

Introducción al Tratamiento de Señales

SS - Señales y Sistemas

TEMARIO DE CURSO PROCESAMIENTO DIGITAL DE SEÑALES INAOE OTOÑO 2014 Versión: 25 de Noviembre 2014

Análisis de la Señal Acústica

INGENIERIA DE TELECOMUNICACIÓN TRATAMIENTO DIGITAL DE LA SEÑAL I CURSO 2005/2006 TEMA 5: ANALISIS ESPECTRAL DE SEÑALES MEDIANTE LA DFT

UNIVERSIDAD DE GRANADA PROCESAMIENTO DE VOZ

COMUNICACIONES MÓVILES

1. Señales y sistemas Sistemas lineales e invariantes en el tiempo (SLI) 13.5

Fonética práctica UVG Sololá de julio 2016

Datos del profesorado Profesor Javier Matanza Domingo Departamento Electrónica, Automática y Comunicaciones Área Despacho D-215

TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE INGENIERÍA PROGRAMA DE ESTUDIO

TECNOLOGIAS DE LA VOZ

Primera parte (3 puntos, 25 minutos):

Cómo se ve la voz? Recibido: 19 de julio de 2007 Aceptado: 26 de julio de 2007

Procesamiento digital de señales Semana 11. Transformadas Wavelet parte 1

Cuatrimestral CÓDIGO ASIGNATURA. DEPARTAMENTO: Ingeniería e Investigaciones Tecnológicas. ASIGNATURA: Análisis de Señales

Maestría en Electrónica y Telecomunicaciones II-2011

Tratamiento Digital de Señales

Transformada Discreta de Fourier (II)

Tratamiento Digital de Señales TEMA 2 : DFT (I)

Adquirir la capacidad de distinguir señales continuas y discretas, aplicar muestreo y procesarlas para filtrarlas, atenuarlas o amplificarlas.

PRÁCTICA 6: DISEÑO DE FILTROS FIR

Planificaciones Procesamiento de Señales I. Docente responsable: GIRIBET JUAN IGNACIO. 1 de 6

TICRM - Tecnologías del Habla Codificación de Voz. 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridos

Representación de señales de audio

Técnicas de Compresión de Datos:

INDICE Capitulo 1. Introducción Capitulo 2. Descripción matemática de señales 2.1. Introducción y objetivos

El Sistema de Producción de Voz

Seminario de Audio Ernesto López Martín Rocamora

UNIVERSIDAD DE LOS LLANOS Facultad de Ciencias Básicas e Ingeniería Programa Ingeniería de Sistemas ANALISIS DE SEÑALES

INGENIERÍA EN MECATRÓNICA PROCESAMIENTO DIGITAL DE SEÑALES CUP-17 RP-CUP 17/REV:00

Programa de la asignatura Curso: 2008 / 2009 PROCESAMIENTO DIGITAL DE SEÑAL (3241)

PRÁCTICA 4: LA TRANSFORMADA RÁPIDA DE FOURIER (FFT)

TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS

Caracterización y agrupamiento de fonemas vocálicos en español e inglés

Sistemas Lineales. Tema 7. Problemas

A502 - Teoría de Sistemas y Señales

Taller de Filtros Digitales 2016 Práctica 2

Procesamiento de Señales Digitales

Codificación de audio MPEG. Álvaro Pardo

Identificación del Hablante Empleando Modelos de Clases de Fonemas. Vizcaya Pedro, Ulloa Nicolás,

La transformada rápida de Fourier (FFT) y otros algoritmos para la implementación de la DFT

INGENIERÍA MECATRÓNICA EN COMPETENCIAS PROFESIONALES

ANÁLISIS ESPECTRAL POR CORRIMIENTO DE LA FRECUENCIA DE MUESTREO. Introducción. Gustavo Caamaño León. 20 Con -ciencias

transmisión de señales

Transcripción:

FUNDAMENTOS DEL RECONOCIMIENTO AUTOMÁTICO DE LA VOZ Algoritmos de extracción de características Agustín Álvarez Marquina Introducción (I). Caracterización acústica de los sonidos Diptongos Semivocales Semiconsonantes Fricativas de resonancias bajas Resonancias estables (-) (+) (+) Concentración puntual de la energía (-) Fricativas de resonancias altas Oclusivas orales Africadas Vocales Líquidas Oclusivas nasales /22/200 Facultad de Informática, UPM. 2

t Introducción (II). Representación de la señal Objetivo: transformar la información presente en la traza de voz en un conjunto reducido de valores. Extractor paramétrico Coeficientes Coeficientes estáticos. Obtenidos a partir del análisis de pequeños fragmentos de la señal de voz (5-20 ms). Coeficientes dinámicos. Producto de la combinación de componentes de diversos vectores. /22/200 Facultad de Informática, UPM. 3 Métodos de extracción paramétrica Análisis por banco de filtros digitales. Transformada discreta de Fourier. Predicción lineal. Análisis cepstral. Predicción lineal perceptual. /22/200 Facultad de Informática, UPM. 4

Análisis por banco de filtros digitales (I) El uso de bancos de filtros digitales [PIC93] [ROB98], implementados inicialmente como filtros analógicos, ha sido históricamente la primera aproximación al procesamiento del habla. Un banco de filtros paso banda puede entenderse como un modelo sencillo de las etapas iniciales del sistema auditivo humano. La señal inicial se descompone en un conjunto discreto de muestras espectrales, que contienen una información similar a la que se presenta en los niveles superiores del sistema auditivo. /22/200 Facultad de Informática, UPM. 5 Análisis por banco de filtros digitales (II) Con objeto de aproximarse a la sensibilidad del oído humano, que no tiene una respuesta lineal en frecuencia existen diferentes escalas. Algunos ejemplos expresados de forma analítica, siendo f el valor de frecuencia en Hz, son: Escala de Bark. Bark 0.76 f 3arctan 000 + 3.5atan = 2 f 2 ( 7500) /22/200 Facultad de Informática, UPM. 6

Análisis por banco de filtros digitales (III) Escala de Mel. m = + f 2595log0 700 Ésta última es la más usual en aplicaciones de tratamiento de la voz. /22/200 Facultad de Informática, UPM. 7 Análisis por banco de filtros digitales (IV) Un banco de filtros está constituido por un conjunto de filtros cada uno de los cuales retiene la información de una serie determinada de frecuencias del espectro. A su vez cada filtro puede ponderar de manera diferente las frecuencias que quedan bajo su ámbito. Un ejemplo de banco de filtros empleando escalas de Mel y 9 filtros es el de la Figura. /22/200 Facultad de Informática, UPM. 8

Análisis por banco de filtros digitales (V) 500 000 500 2000 2500 3000 3500 4000 Figura. Banco de filtros de Holmes. Este tipo de técnica, generalmente se emplea de manera conjunta con otros métodos como son el cálculo de coeficientes cepstrales. /22/200 Facultad de Informática, UPM. 9 Transformada discreta de Fourier (I) La transformada discreta de Fourier o DFT (Discrete Fourier Transform) [COO92] [DEL93] [KRA94] [DEL94], se define como: X N j ( ) ( ) N k x n e k = 0,,2, K, N = k= 0 2πkn donde N es el número de muestras de la ventana que se va a analizar. /22/200 Facultad de Informática, UPM. 0

Transformada discreta de Fourier (II) La DFT es periódica en la frecuencia con periodo f s (frecuencia de muestreo). Presenta también como propiedades interesantes: La linealidad. ( n) + βg( n) αh ( k) βg( k) α h + /22/200 Facultad de Informática, UPM. Transformada discreta de Fourier (III) La relación existente entre las operaciones de multiplicación/convolución en los dominios temporal y frecuencial. h h ( n) g( n) H ( k ) G( k ) ( n) g( n) H ( k ) G( k ) /22/200 Facultad de Informática, UPM. 2

Transformada discreta de Fourier (IV) Por su parte la DFT inversa o IDFT se define como: x N j ( ) ( ) N n X k e n = 0,,2, K, N = k= 0 2πkn La motivación del uso de la DFT parte del hecho de la utilidad que tiene descomponer la señal de voz de partida en sus componentes en frecuencia. /22/200 Facultad de Informática, UPM. 3 Transformada discreta de Fourier (V) Un aspecto importante si queremos usar la DFT con señales de voz es que debemos asumir que al menos en periodos cortos de tiempo se cumple que la señal es estacionaria. En la realidad esto no es estrictamente así aunque podemos suponerlo. La solución consiste en multiplicar la señal por una función ventana que sea 0 fuera de un determinado rango y reproducir el resultado de forma que tengamos un número de bloques iguales. /22/200 Facultad de Informática, UPM. 4

Transformada discreta de Fourier (VI) La ventana rectangular se define como: w n = 0 0 n resto N Sin embargo la utilización de esta ventana trae consigo, que en los puntos de inicio y fin exista una fuerte discontinuidad. /22/200 Facultad de Informática, UPM. 5 Transformada discreta de Fourier (VII) Para reducir el efecto de discontinuidad al mínimo debemos emplear tipos de ventana que tiendan a reducir a 0 los valores de las muestras en los extremos. Aunque existe un buen número de tipos de ventana, la más común en el análisis de la voz es la que se conoce como ventana de Hamming (Figura 2): 0.54 0.46cos π w n = 0 ( 2 n ( N ) ) 0 n N resto /22/200 Facultad de Informática, UPM. 6

Transformada discreta de Fourier (VIII).2 0.8 0.6 0.4 0.2 0 Figura 2. Ventana de Hamming. /22/200 Facultad de Informática, UPM. 7 Transformada discreta de Fourier (IX) La complejidad de la DFT es de O(n2) operaciones y con objeto de acelerar el cálculo de este procedimiento, se emplea habitualmente lo que se conoce como transformada rápida de Fourier o FFT (Fast Fourier Transform). Simplemente es una manera eficiente de computar la DFT y su complejidad es de O(n log n), si n es una potencia de 2. /22/200 Facultad de Informática, UPM. 8

Predicción Lineal (I) El método de predicción lineal o LP (Linear Prediction) [ITA70] [MAK75] [HAY96] [DEL93] es históricamente uno de los métodos más importantes para el análisis de la voz. Su fundamento se basa en establecer un modelo de filtro del tipo todo polo, para la fuente de sonido. La principal motivación del modelo todo polo viene dada porque permite describir la función de transferencia de un tubo, que sin pérdidas estuviese formado por diferentes secciones. /22/200 Facultad de Informática, UPM. 9 Predicción Lineal (II) Constituye una aproximación razonable al habla producida por la excitación del tracto vocal causada por el conjunto de pulsos glotales. Objeciones: Los pulsos glotales no tienen una estructura espectral plana. El tracto vocal no está compuesto de cilindros. La cavidad nasal constituye un pasaje adicional. Algunos sonidos se generan cerca de los labios como algunos sonidos fricativos sordos. /22/200 Facultad de Informática, UPM. 20

Predicción Lineal (III) Con un número suficiente de parámetros el modelo de predicción lineal puede constituir una aproximación adecuada a la estructura espectral de todo tipo de sonidos. El método de predicción lineal recibe este nombre porque pretende extrapolar el valor de la siguiente muestra de voz x(n) como la suma ponderada de muestras pasadas x(n-), x(n-2),..., x(n-k): ~ x K ( n) = aix( n i) i= /22/200 Facultad de Informática, UPM. 2 Predicción Lineal (IV) Para ello se debe realizar el cálculo de los coeficientes ai minimizando alguna función de error E, concretamente de mínimos cuadrados, sobre una ventana de tamaño N. E = N- N K 2 e n=0 n= 0 i= ( n) = x( n) a x( n i) 0 n N i 2 /22/200 Facultad de Informática, UPM. 22

Cepstrum (I) Desde la introducción en los primeros años de la década de los 70, de las técnicas homomórficas de procesado de señal [OPP75] [PIC93], su importancia dentro del campo del reconocimiento de voz ha sido muy grande. Los sistemas homomórficos son una clase de sistemas no lineales que obedecen a un principio de superposición. De éstos, los sistemas lineales constituyen un caso especial. /22/200 Facultad de Informática, UPM. 23 Cepstrum (II) La motivación para realizar un procesado homomórfico del habla viene resumida en la Figura 3: Excitación (Sistema Subglotal) e(n) Filtro del Tracto Vocal H(f) Voz s(n) Figura 3. Las técnicas homomórficas pueden servir para separar la acción del tracto vocal (filtro lineal variable en el tiempo) de la señal de excitación. /22/200 Facultad de Informática, UPM. 24

Cepstrum (III) La señal de voz s(n) se descompone en una parte de excitación e(n) y en un filtro lineal H(e iθ ). Así en el dominio frecuencia tenemos: iθ iθ iθ ( e ) H ( e ) E( e ) S = Para mayoría de las aplicaciones de voz sólo necesitamos la amplitud espectral. ( ( )) iθ ( iθ S e = log H e ) log + ( ) ( ( )) iθ log E e /22/200 Facultad de Informática, UPM. 25 Cepstrum (IV) En el dominio logarítmico, las dos componentes anteriores pueden separarse empleando técnicas convencionales de procesamiento de señal. Voz Ventana DFT Log IDFT Cepstrum Figura 4. Análisis cepstral partiendo de la transformada discreta de Fourier. c N = N s N s ( n) log S ( k) e 0 n N s k= 0 2π j kn 0 med s /22/200 Facultad de Informática, UPM. 26

Cepstrum (V) Es este caso, el valor c(n) se conoce como coeficientes cepstrales derivados de la transformada de Fourier. N s es el número de puntos con los que se calculó la DFT. Esta ecuación también se conoce como la inversa de la DFT del espectro logarítmico. Puede ser convenientemente simplificada teniendo en cuenta que el espectro logaritmo es una función real simétrica: c N 2 s 2π med cos kn N s k= N s ( n) = S ( I ( k) ) /22/200 Facultad de Informática, UPM. 27 Cepstrum (VI) Lo habitual es usar solamente los primeros términos (n 20). I(k) representa una función que traduce la posición de un valor en frecuencia al intervalo donde esté contenido. Es posible a la hora de calcular un coeficiente cepstral, emplear bandas definidas según escalas de Mel. Este tipo de parámetros se conoce como coeficientes cepstrales con frecuencia en escalas de Mel o MFCC (Mel Frequency Cepstral Coefficients) [DAV80]. /22/200 Facultad de Informática, UPM. 28

Cepstrum (VII) Voz Preénfasis y Enventanado Log 0. Transformada Discreta de Fourier Transformada Inversa Discreta de Fourier Creación de Bandas Mel MFCC Figura 5. Esquema de parametrización para la obtención de MFCC. /22/200 Facultad de Informática, UPM. 29 Cepstrum (VIII) Partiendo del análisis de predicción lineal también es posible obtener la expresión de los coeficientes cepstrales asociados: c c () 0 = log() = 0 i () i a() i a( j) c( i j) i Nc = = j j i /22/200 Facultad de Informática, UPM. 30

Cepstrum (IX) Una transformación usual sobre este tipo de coeficientes es lo que se conoce como coeficientes cepstrales delta o coeficientes delta cepstrum. La expresión que permite obtener estos últimos es: c j ( i) = 2T + T k = T k c j+ k () i /22/200 Facultad de Informática, UPM. 3 Predicción Lineal Perceptual (I) La técnica de predicción lineal perceptual o PLP (Perceptual Linear Prediction) [HER90], es en esencia una combinación de las técnicas de la transformada discreta de Fourier y de predicción lineal como puede verse en la Figura 6. Para obtener el análisis de banda crítica se utiliza primeramente la transformada discreta de Fourier con una ventana de Hamming de 20 ms. Posteriormente se calcula el espectro de potencia y se transfiere a una escala de Bark. /22/200 Facultad de Informática, UPM. 32

Predicción Lineal Perceptual (II) El segundo paso consiste en la igualación de las alturas perceptuales tiene su origen en la necesidad de compensar la diferente percepción de alturas sonoras para diferentes frecuencias. Tras la IDFT se calculan los coeficientes de autorregresión de un modelo todo polo. Adicionalmente se pueden calcular a partir de éstos los coeficientes cepstrales. /22/200 Facultad de Informática, UPM. 33 Predicción Lineal Perceptual (III) Voz Análisis de Banda Crítica Transformada Inversa Discreta de Fourier Preénfasis para Igualdad de Alturas Perceptuales Obtención de Coeficientes de Autoregresión Conversión de Intensidad-Altura Perceptual Modelo Todo-Polo Figura 4. Predicción Lineal Perceptual (PLP). /22/200 Facultad de Informática, UPM. 34

Predicción Lineal Perceptual (IV) Como extensión de la técnica anteriormente descrita, encontramos el método RASTA-PLP (RelAtive SpecTrAl) [HER92] [HER94]. La motivación de este complemento viene dada por el intento de robustecer el mecanismo del algoritmo frente a distorsiones lineales en el espectro, por ejemplo debidas al canal de comunicación. Una extensión del algoritmo RASTA es la conocida como J-RASTA [KOE94], que puede también compensar el ruido cuando la relación señal/ruido es baja. /22/200 Facultad de Informática, UPM. 35 Bibliografía (I) [COO92] J. W. Cooley, How the FFT Gained Acceptance, IEEE SP Magazine, enero 992, pp. 0-3. [DAV80] [DEL93] [DEL94] S. B. Davis and P. Mermelstein, Comparison of Parametric Representations for Monosillabic Word Recognition in Continuously Spoken Sentences, IEEE Transactions on Acoustic, Speech, and Signal Processing, Vol. ASSP-28, Nº 4, agosto 980, pp. 357-366. J. R. Deller, J. G. Proakis and J. H. L. Hansen, Discrete-Time Processing of Speech Signals, Mac Millan, N. Y., 993. J. R. Deller, JR., Tom, Dick and Mary Discover the DFT, IEEE Signal Processing Magazine, abril 994, pp. 36-50. [HAY96] S. Haykin, Adaptive Filter Theory, 2nd Ed., Prentice Hall, Englewood Cliffs, N. J., 996 [HER90] [HER92] H. Hermansky, Perceptual linear predictive (PLP) analysis of speech, Journal of Acoustic Society of America, Vol. 87, Nº 4, abril 990, pp. 738-752. H. Hermansky et al., RASTA-PLP speech analysis technique, Proc. of ICASSP 92, San Francisco, Estados Unidos, 23-26 marzo 992, pp. 2-24. /22/200 Facultad de Informática, UPM. 36

Bibliografía (II) [HER94] [ITA70] [KOE94] [KRA94] H. Hermansky and N. Morgan, RASTA Processing of Speech, IEEE Transactions on Speech and Audio Processing, Vol. 2, Nº. 4, octubre 994, pp. 578-589. F. Itakura and S. Saito, A Statical Method for Estimation of Speech Spectral Density and Formant Frequencies, Electron. Communication, Vol. 53, pp. 36-43 J. Koehler et al., Integrating RASTA-PLP Into Speech Recognition, Proc. of ICASSP 87, Dallas, Estados Unidos, 6-9 abril 987, Vol. I, pp. 42-424. P. Kraniauskas, A Plain Man s Guide to the FFT, IEEE Signal Processing Magazine, abril 994, pp. 24-35. [MAK75] J. Makhoul, Linear Prediction: A tutorial Review, Proc. of the IEEE, Vol. 63, abril 975, pp. 24-43. [OPP75] [PIC93] [ROB98] A. V. Oppenheim and R. W. Schafer, Digital Signal Processing, Prentice Hall, Englewood Cliffs, N. J., 975. J. W. Picone, Signal Modeling Techniques in Speech Recognition, Proc. of the IEEE, Vol. 8, Nº 9, septiembre 993, pp. 25-247. A. Robinson, Speech Analysis, ftp://svr-ftp.eng.cam.ac.uk/pub/com.sppech/info, Lent Term 998. /22/200 Facultad de Informática, UPM. 37