Análisis de la Señal Acústica

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Análisis de la Señal Acústica"

Transcripción

1 Capítulo 2 Análisis de la Señal Acústica 2.1. Introducción Las aplicaciones como la codificación, la síntesis o el análisis del habla necesitan el procesamiento de la señal voz y requieren una representación específica de la información acústica. Por ejemplo, el requisito principal del reconocimiento del habla es la extracción de aquellas características de la voz que pueden distinguir los diferentes fonemas de un idioma. Este procedimiento es equivalente a encontrar un estadístico suficiente para estimar los fonemas. Otra información, no necesaria para esta tarea, como las dimensiones del aparato fonador (dependiente del hablante), sexo, edad, inflexiones del dialecto, ruido del ambiente, etc... debe ser ignorada. Para reducir la ambigüedad del mensaje oral, la señal del habla se analiza antes de pasar al sistema automático de reconocimiento de patrones. Entonces, el análisis de la señal acústica puede considerarse el primer paso dentro del reconocimiento del habla. La señal que se analiza es una señal discreta en el tiempo. Así el primer paso en el análisis de la señal acústica es su conversión de señal analógica a señal digital. La extracción de las características significativas de la señal se realiza como se describe en el Apartado 2.3. La eficiencia del proceso de reconocimiento puede verse enormemente reducida si la obtención de la señal se produce en un ambiente ruidoso y en general cuando las características acústicas del ambiente difieren de aquellas existentes durante el proceso de adiestramiento del sistema. 25

2 26 CAPÍTULO 2. ANÁLISIS DE LA SEÑAL ACÚSTICA 2.2. Conversión de la Señal Acústica de Analógica a Digital La voz es una onda de presión que se convierte posteriormente a valores numéricos para procesarse de forma digital. Esta conversión (esquematizada en la Figura 2.1) requiere la utilización de algunos dispositivos de hardware. Un micrófono permite convertir la onda de presión sonora p(t) en una señal eléctrica x c (t). Entonces un sampler toma valores x c (nt c ) = x(n) a intervalos T c, es decir, con una frecuencia de muestreo f c = 1/T c. Por último un convertidor analógico digital (CAD) transforma al valor real a una escala digital, generalmente de 16 bits. Figura 2.1: Conversión de la señal del habla. El muestreo del habla requiere al menos bits/seg para retener toda la información necesaria [27]. Este ratio es mucho mayor que el de la información fonética. De hecho, un hablante es capaz de producir alrededor de 50 fonemas diferentes. Así que, se puede representar cada fonema con 6 bits, pues 50 < 2 6 = 64. Con esta codificación la información fonética tiene un ratio de 60 bits/seg, que es mucho menor que bits/seg. Por lo tanto se requiere una representación de la señal del habla que no contenga elementos redundantes ni inútiles para el reconocimiento. Una señal procedente del muestreo contiene la misma información que su original continua x c (t) si la frecuencia de muestreo es al menos el doble de la mayor frecuencia significativa contenida en la señal continua [25]. Para el habla esta frecuencia máxima ronda los 16 khz. Entonces para obtener la señal sin pérdidas se puede hacer el muestreo de una señal x c (nt c ), n = 0, 1,..., N 1 con un periodo T c = 1/(2 16 khz) = 1/32 ms. Los valores de amplitud analógicos x c (nt c ) no pueden ser tratados directamente por algoritmos de software. De hecho, todos los valores pueden encontrarse en un rango incompatible con un sistema numérico digital que puede gestionar cantidades representadas por un número relativamente pequeño de bits. Por ejemplo, si el valor x se representa con

3 2.2. CONVERSIÓN DE LA SEÑAL ACÚSTICA DE ANALÓGICA A DIGITAL bits entonces a x se le pueden asignar entonces únicamente valores distintos en el eje de amplitud. Después del proceso de transformación a la escala digital los valores que no se corresponden con uno de los posibles serán asociados al más cercano. De este modo se produce un error llamado error de muestreo (cuantización) ɛ q : x c (nt c ) = x c(nt c ) + ɛ q (nt c ) (2.1) Una vez que la señal de voz está digitalizada, tanto en tiempo como en amplitud, se puede almacenar y procesar por un ordenador, en este caso se puede considerar una secuencia de N muestras como las coordenadas de un único punto en un espacio vectorial N-dimensional. Ahora trazando los puntos generados por réplicas consecutivas del mismo fonema se observa que no se acumulan en un espacio de bordes definidos. Al contrario, estos puntos tienden a ocupar el espacio de forma aleatoria. Un procesamiento adecuado para el reconocimiento de fonemas debe transformar los N valores de amplitud en L más significativos, eventualmente con L < N para obtener una menor complejidad computacional. Esto debe hacerse además con la restricción de que diferentes repeticiones del mismo fonema produzcan puntos cercanos en el espacio L- dimensional, así se puede asociar un espacio de bordes definidos a cada fonema. Después de este proceso, si es cierto que se pueden obtener volúmenes de bordes definidos para cada fonema, el algoritmo de reconocimientos de fonemas es un simple clasificador, es decir, un módulo que determina cuales son los volúmenes del espacio L-dimensional que corresponden a cada fonema Propiedades Físicas de la Señal del Habla El ancho de banda en frecuencia de una señal acústica del habla es de aproximadamente 16 khz. Aún así la mayor parte de la energía del habla se encuentra por debajo de los 7 khz. El ancho de banda del habla se reduce generalmente durante la grabación. A una señal de habla se le llama ortomórfica si se elimina toda componente espectral por encima de los 16 khz. Una señal telefónica de menor calidad se obtiene cuando una señal no tiene energía fuera de la banda entre 300 y Hz. Así, el procesamiento de la señal del habla se realiza en un rango de la frecuencia de muestreo entre y muestras por segundo, que corresponden a frecuencias de 4 y 16 khz respectivamente. La voz se produce por la articulación del aparato fonador, que se encuentra en un estado estable durante muy poco tiempo en la duración de la producción de un fonema, y cambia a una posición estable diferente durante un movimiento de transición articulatoria. Por

4 28 CAPÍTULO 2. ANÁLISIS DE LA SEÑAL ACÚSTICA esto una señal del habla tiene una variación relevante cada ms. Un modelo matemático simple pero efectivo del proceso fisiológico de producción de la voz es el modelo de la excitación y el tracto vocal (descrito en la Figura 2.2). La excitación representa el sonido producido por la parte del aparato fonador, que incluye pulmones y cuerdas vocales, mientras el tacto vocal es el conducto por el que circula el aire hasta la boca. La excitación requiere descripciones matemáticas distintas para sonidos sordos o sonoros. Figura 2.2: Modelo de excitación y tracto vocal. La señal de excitación se asume periódica, con un periodo igual al paso para vocales y otros fonemas sonoros, mientras que para las consonantes sordas se asume como un ruido blanco, es decir, una señal aleatoria sin frecuencias dominantes. La señal de excitación está sujeta a modificaciones espectrales mientras pasa a través del tracto vocal que tiene un efecto acústico equivalente a un filtrado lineal invariante en el tiempo. Estas modificaciones dan al sonido final las propiedades características de los diferentes fonemas del lenguaje. El modelo es relevante porque, para cada tipo de excitación, un fonema se identifica principalmente considerando la forma del tracto vocal. Así, la configuración del tracto vocal puede ser estimada por la identificación del filtrado aplicado por el tracto vocal sobre la excitación. A partir del espectro de potencia de la señal P x (ω), de la excitación P v (ω) y el espectro del filtro del tracto vocal P h (ω), se tiene: P x (ω) = P v (ω)p h (ω), (2.2) donde ω es a frecuencia de la señal discreta en el tiempo. El espectro del filtro se puede obtener del espectro de la potencia del habla P x (ω) y la contribución de la potencia de

5 2.3. EXTRACCIÓN DE CARACTERÍSTICAS 29 excitación P v (ω) Extracción de Características En esta sección se describe el proceso completo que devuelve las características de la señal. El esquema de la Figura 2.3 describe este proceso en el que se obtienen los Coeficientes Cepstrales de Frecuencia de Mel (a partir de ahora MFCC del inglés Mel Frequency Cepstral Coefficients) Aunque son posibles otros esquemas de proceso, este es el que ha obtenido generalmente mayor eficiencia con una menor complejidad computacional respecto a procesos alternativos [6]. El proceso comienza con el preénfasis y el enventanado de la señal. De el resultado de estos dos pasos se calcula por un lado la energía y por otro se obtienen los coeficientes MFCC tras la secuencia consistente en aplicar la transformada de Fourier, aplicar el banco de filtros necesario y por último la transformada inversa de Fourier. Para incluir en el estudio no sólo los coeficientes sino también su evolución se obtiene en el último paso las derivadas de estos. Cada uno de estos pasos se describe con detalle en los siguientes apartados. Figura 2.3: Procesamiento MFCC Preprocesamiento de la Señal En este punto se pretende aplicar los filtros necesarios para realzar aquellas frecuencias de la señal que aportan maor información a la identificación del sonido. Las características del tracto vocal determinan la pronunciación de cada fonema. Estas características se evidencian en el dominio de la frecuencia por la localización de los formantes, es decir, los picos dados por las resonancias del tracto vocal. Aunque poseen información relevante, los formantes de alta frecuencia tienen menor amplitud respecto a

6 30 CAPÍTULO 2. ANÁLISIS DE LA SEÑAL ACÚSTICA los formantes de baja frecuencia. Se requiere, por tanto, un preénfasis de las altas frecuencias para obtener amplitudes similares para todos los formantes que se obtiene usualmente filtrando la señal con un filtro FIR de primer orden cuya función de transferencia en el dominio z es [25]: H(z) = 1 a z 1 0 a 1, (2.3) siendo a el parámetro de preénfasis. En el dominio del tiempo la señal resultante se relaciona con la señal original de la siguiente forma: x (n) = x(n) a x(n 1) (2.4) Un valor típico para a es 0.95, que da un aumento de mas de 20 db al espectro de alta frecuencia. Otro elemento adicional del preprocesamiento como es la eliminación de ruidos se analizará en el Apartado Finalmente, los sistemas de reconocimiento del habla basados en Modelos Ocultos de Markov experimentan una reducción importante de su rendimiento si no se eliminan de la señal los silencios prolongados. Al no poder ser analizados por el sistema de reconocimiento se necesita la detección del habla dentro de la señal. Se pueden emplear detectores simples de energía cuando el ratio entre señal y ruido no cambia de forma apreciable Enventanado Los métodos tradicionales para la evaluación espectral de una señal son fiables en el caso de una señal estacionaria (es decir, una señal cuyas características estadísticas son invariantes a lo largo del tiempo). Para la voz, la señal se mantiene estacionaria sólo durante los cortos intervalos de estabilidad articulatoria. Para estos periodos se puede hacer un análisis a corto plazo dividiendo una señal x (n) en una sucesión de secuencias enventandas x t (n), t = 1, 2,..., T, llamadas frames, que se procesan de forma individual: x t(n) x (n t Q), 0 n N, 1 t T, (2.5) x t (n) w(n) x t(n), (2.6) donde w(n) es la respuesta impulsional de la ventana. Cada frame está superpuesto a sus vecinos según la longitud de intervalo Q. Si Q = N, los frames no se solapan mientras que si Q < N entonces N Q muestras al final de cada frame están duplicadas al principio

7 2.3. EXTRACCIÓN DE CARACTERÍSTICAS 31 del siguiente frame. Figura 2.4: Señal de la pronunciación del fonema /a/ dividida en frames y uno de ellos aumentado. Recuérdese que el análisis de Fourier se realiza mediante la transformada del mismo nombre, que para una señal discreta en el tiempo x t (n) es: X t (e jω ) = N 1 n=0 x t (n)e jωn = I{x t (n)}, (2.7) donde ω es el eje de frecuencia continuo. Siendo la transformada de Fourier de w(n) y de x t(n), W (e jω ) = I{w(n)} y X t(e jω ) = I{x t(n)}, el producto en el dominio del tiempo de la ecuación Eq.2.6 se convierte en una convolución en el dominio de la frecuencia: X t (e jω ) = 1 π X 2π t(e jθ ) W (e j(ω θ) )dθ = Ix t(n)w(n) (2.8) π Considerando las ecuaciones Eq.2.5 y Eq.2.6, la Eq.2.7 se puede escribir como: X t (e jω ) = + n= x (n t Q) w(n)e jωn (2.9) La fórmula de Eq.2.9 se llama también transformada de Fourier de un intervalo corto (STFT de Short Time Fourier Transform) o transformada de Fourier enventanada (WFT de Windowed Fourier Transform) de x t(n).

8 32 CAPÍTULO 2. ANÁLISIS DE LA SEÑAL ACÚSTICA La ventana más simple tiene forma rectangular. Esta ventana se utiliza de forma implícita cuando se toma una secuencia de N muestras de una señal: { 1 0 n N 1 w(n) = (2.10) 0 en cualquier otro caso La presencia de una ventana provoca una distorsión en el espectro estimado dado que X t (e jω ) es la convolución del espectro de x t(n) y de la transformada de Fourier de la ventana rectangular w(n).w (e jω ) está compuesta de un lóbulo principal de gran energía centrado en la frecuencia nula y por lóbulos laterales de menor energía centrados a altas frecuencias (ver Fig.2.5). El lóbulo principal se propaga en un rango de frecuencias más ancho que el de la potencia de banda estrecha de la señal x t(n) que en nuestro caso está representada por los formantes. Este fenómeno reduce la resolución local de frecuencia. Además, los lóbulos laterales de W (e jω ) trasladan la energía desde frecuencias distantes y diferentes de x t(n). Este problema se llama dispersión. Figura 2.5: Espectro de la ventana rectangular. Para reducir estos efectos, x t(n) se multiplica por una ventana con la forma adecuada w(n). La elección de w(n) se realiza en función de diversos factores como son: la forma de la ventana puede disminuir la distorsión, pero puede incrementar la alteración de la forma de la señal, la longitud N es proporcional a la resolución de la frecuencia e inversamente proporcional a la resolución en el tiempo,

9 2.3. EXTRACCIÓN DE CARACTERÍSTICAS 33 el solapamiento N Q es proporcional a la relación de frames por unidad de tiempo, pero lo es también a la correlación de frames consecutivos. En el reconocimiento automático del habla, la ventana más usada es la ventana de Hamming, cuya respuesta impulsional es un coseno ascendente: w(n) = { ( ) 0, 54 0, 46 cos 2πn N 1 n = 0,..., N 1 0 en cualquier otro caso (2.11) Los lóbulos laterales de esta ventana son mucho más bajos que los de la ventana rectangular (es decir, disminuye el efecto de dispersión) aunque la resolución también se reduce apreciablemente ya que el lóbulo central de la ventana de Hamming es más ancho. La ventana de Hamming es una buena elección en el reconocimiento del habla, puesto que no requiere una alta resolución, considerando que el siguiente bloque en la cadena del proceso de extracción de características (Figura 2.3) integra las líneas de frecuencia más próximas. Por contra, la dispersión tiene un efecto negativo dado que las características del tracto vocal se obtienen considerando la localización y la amplitud de los picos en frecuencias distantes. Respecto a la longitud N, las ventanas que se usan generalmente tienen entre 10 y 15 ms de longitud. La longitud de la ventana se escoge como una solución de compromiso entre el tiempo requerido y la resolución en frecuencia. Una ventana corta (3-5 ms) permite la detección de la decadencia de la amplitud de los formantes, pero tiene también un gran impacto en la resolución de la frecuencia requerida para estimar su posición y como consecuencia la caracterización de los fonemas. La longitud de la ventana N define la resolución espectral de la representación de Fourier. Considerando el periodo de muestreo T c = 1/f c, tomando muestras de la secuencia transformada en el eje ω en 2π/N puntos equidistantes, la resolución de la frecuencia analógica f es: f = ω 2πT c = 2π 2πT c N = f c N (2.12) Una vez que está fijada la frecuencia de muestreo f c, la resolución espectral es inversamente proporcional a la longitud de la secuencia N. Un espectro de banda estrecha es el que se obtiene cuando la resolución es alta, mientras que uno de banda ancha se obtiene cuando la resolución es baja. Incrementar la resolución es equivalente a usar una secuencia de mayor tamaño y esto es incompatible con los requisitos para analizar segmentos de señal estacionaria. Entonces se necesita entonces una solución de compromiso entre estos dos requisitos. Por ejemplo,

10 34 CAPÍTULO 2. ANÁLISIS DE LA SEÑAL ACÚSTICA Figura 2.6: Ventane de Hamming y espectro esta ventana. en el caso de f c = 20 khz, la secuencia más larga compatible con el carácter estacionario de la onda estará compuesta como mucho de 512 muestras (512/20 = 25,6 ms) mientras que la más corta compatibles con la resolución estaría compuesta de 64 muestras (64/20 = 3,2 ms). Además, ventanas más largas (alrededor de 70 ms) tienen una mayor resolución en frecuencia. Esto permite la identificación de cada armónico simple. No obstante, en estos casos, las transiciones rápidas en el espectro (como la pronunciación de consonantes de parada) no son detectadas. Se ha propuesto el uso de ventanas estrechas para detectar la variación rápida de los parámetros del tracto vocal; mientras que las ventanas anchas se usan para detectar la frecuencia fundamental. Se suelen considerar ventanas de un ancho

11 2.3. EXTRACCIÓN DE CARACTERÍSTICAS 35 entre 20 y 30 ms Análisis Espectral Como se ha mencionado, los métodos estándar para el análisis espectral se basan en la transformada de Fourier de x 1 (n) : X 1 (e jω ). La complejidad computacional del cálculo se ve muy reducida si X 1 (e jω ) se evalúa únicamente para un conjunto discreto de valores de ω. Si dichos valores se encuentran separados por la misma distancia, por ejemplo considerando ω = 2πk/N entonces la transformada discreta de Fourier (DFT) se obtiene: X t (k) = X t (e jπkn ), k = 0,..., N 1 (2.13) Además, si el número de muestras N es potencia de 2, N = 2 p con p entero, el coste computacional puede ser reducido hasta orden N log(n) aplicando el algoritmo de la transformada rápida de Fourier (FFT) [25]. Nótese que si x 1 (n) es real, la complejidad del método se reduce a la mitad resultando su orden en (N/2) log(n/2) [10]. Las características del tracto vocal pueden ser estimadas por el periodograma de x 1 (n) que es simplemente la norma al cuadrado de la transformada discreta de Fourier: X 1 (k) 2. Considerando que el periodograma es un estimador del espectro de potencia, X 1 (k) 2 es un estimador de P x (ω) dado en Eq.2.2. Un ejemplo de este espectrograma se da en la Figura 2.7. Nótese que la información de fase de las muestras de la transformada discreta de Fourier para cada frame se descarta. Esto es consistente con el hecho de que la fase no contiene información relevante. Experimentos empíricos han demostrado que la percepción de la señal reconstruida con fases aleatorias es indistinguible de la original, si se preserva la continuidad de fases entre frames consecutivos Procesamiento de Bancos de Filtros El análisis espectral revela aquellas características de la señal que se deben principalmente a la forma del tracto vocal. Las características espectrales del habla se obtienen generalmente como salida de la aplicación de bancos de filtros, que integran de manera apropiada un espectro en un rango de frecuencias definido. En el proceso de simulación del oído humano, generalmente se emplea un conjunto de 24 filtros paso banda. Los filtros se reparten, normalmente, de forma no uniforme a lo largo del eje de frecuen-

12 36 CAPÍTULO 2. ANÁLISIS DE LA SEÑAL ACÚSTICA Figura 2.7: Espectrograma de una señal de audio. cias. Como regla general, la parte del espectro que se encuentra por debajo de 1 khz es procesada por más bancos de filtros dado que contiene mas información del tracto vocal debido a la localización del primer formante. La respuesta en frecuencia de los bancos de filtros simulan el proceso de percepción del oído y por eso este filtrado se llama promediado de percepción. También se emplea un análisis en frecuencia no lineal para obtener la resolución frecuencia/tiempo. Usar filtros paso banda estrechos a bajas frecuencias permite la detección de los armónicos, pero en principio da una información pobre. El uso de un mayor ancho de banda permite una mayor frecuencia temporal de los bancos. En el reconocimiento automático del habla la escala de percepción más empleada es la escala de Mel (las características de su banco de filtros se muestran en la figura Fig.2.8). La frecuencia central de cada filtro del banco se reparte uniformemente hasta 1 khz y sigue una escala logarítmica más allá. Dado el periodo de muestreo T c, la frecuencia ω de las señales discretas en el tiempo está relacionada con la frecuencia de la respectiva señal continua mediante la siguiente expresión: f = ω 2πT c (2.14) Hay muchos métodos para implementar dichos filtros. Un método eficiente desde el pun-

13 2.3. EXTRACCIÓN DE CARACTERÍSTICAS 37 Figura 2.8: Banco de filtros empleando la escala de Mel. to de vista computacional consiste en filtrar directamente en el dominio de la transformada discreta de Fourier. Las respuestas en la transformada discreta de Fourier de los filtros son simplemente versiones de ventanas triangulares U m (k) intercambiadas y deformadas en frecuencia: U m (k) = { k < m 1 k / m k m 0, (2.15) donde k es el índice en el dominio DFT y 2 m es el tamaño de la m-ésima ventana triangular del banco de filtros. La salida del m-ésimo filtro viene determinada por: Y t (m) = b m + m k=b m m X t (k)u m (k b m ), (2.16) donde X t (k) está dado en Eq.2.13 y 1 m M. La frecuencia central se puede calcular con b m = b m 1 + m y para ω 2πT c = f < 1 khz se elige m de modo que se obtengan 10 filtros espaciados de forma uniforme. Para f > 1 khz se puede usar la aproximación m = 1 2 m Cálculo del Logaritmo de la Energía El procedimiento anterior tiene la función de suavizar el espectro, realizando un proceso similar al ejecutado por el oído humano. El siguiente paso consiste en calcular el logaritmo del cuadrado de la magnitud de los coeficientes Y t (m) obtenidos con Eq Esto se reduce simplemente a calcular el logaritmo de la magnitud de los coeficientes, debido a la propiedad algebraica de los logaritmos que convierte al logaritmo de una potencia en el

14 38 CAPÍTULO 2. ANÁLISIS DE LA SEÑAL ACÚSTICA logaritmo de la base multiplicado por el exponente. Los beneficios de este método se ponen de manifiesto en el análisis ceptral, estudiado en el siguiente apartado. Llegado este punto hay que destacar que el oído humano realiza tanto el procesamiento de la magnitud como del logaritmo del filtrado. La magnitud descarta la información inútil de fase mientras el logaritmo realiza una compresión dinámica, haciendo la extracción de características menos sensible a variaciones dinámicas Cálculo de los Coeficientes Cepstrales de Mel El último paso en el cálculo de los coeficientes (MFCC) cepstrales consiste en realizar la inversa de la transformada discreta de Fourier (IDFT) a la salida del banco de filtros: y (m) t (k) = M m=1 ( ( log { Y t (m) } cos k m 1 ) ) π, k = 0,..., L (2.17) 2 M Este procedimiento posee grandes ventajas. Dado que el espectro de la potencia del logaritmo es real y simétrico, la inversa de la transformada discreta de Fourier se reduce a una transformada discreta del coseno (DCT, Discrete Cosine Transform). La transformada discreta del coseno tiene la propiedad de producir parámetros muy poco correlados y (m) t (k) [18]. Así, el proceso de obtención de características es más simple y en las funciones de densidad de probabilidad de las características, generalmente modeladas por combinaciones lineales de funciones Gaussianas, se pueden usar matrices de covarianza diagonales en lugar de completas. Esto reduce de manera significativa el coste computacional del proceso y el número de parámetros que se deben estimar. El coeficiente MFCC de orden cero y (0) t (k) en Eq.2.17 es aproximadamente equivalente al logaritmo de la energía en el frame. Este coeficiente generalmente se descarta ya que la energía se calcula directamente de la señal temporal. La transformada discreta del coseno tiene también el efecto de suavizar el espectro si se retienen únicamente los primeros coeficientes. El número de coeficientes cepstrales para el reconocimiento automático del habla se encuentra generalmente por debajo de 15. Haciendo referencia a Eq.2.17, los valores típicos de los coeficientes son 1 k 9 o 1 k 12. En la Figura 2.9 y se muestran algunos resultados parciales del cálculo de los coeficientes cepstrales en un frame.

15 2.3. EXTRACCIÓN DE CARACTERÍSTICAS 39 Figura 2.9: Proceso de análisis de la señal Coeficientes Delta y Energía Los coeficientes cepstrales se presentan generalmente junto a coeficientes de energía e, teniendo en cuenta el logaritmo de la energía del frame tal y como se muestra en la Figura 2.3. Este parámetro es útil pues se encuentran diferencias de energía entre los distintos fonemas. Se obtiene una mejora en el rendimiento si se considera que los coeficientes cepstrales y la energía no tienen en cuenta la evolución dinámica de la señal del habla, aunque dicha evolución contiene información relevante para el reconocimiento automático del habla. De esta forma para un vector genérico u t se puede calcular su diferencial i-ésima en el tiempo como [12]: i {u t } = i 1 {u t+1 } i 1 {u t 1 }, 0 {u t } = u t (2.18) Nótese que la diferencial de orden i incluye a la de orden (i 1) en un entorno de dos periodos de tiempo. Se pueden tener en cuenta mayores o menores distancias en función del solapamiento de los intervalos de tiempo. Las distancias muy pequeñas pueden implicar frames demasiado correlados y que así la dinámica no se refleje en las diferenciales, valores mayores pueden implicar frames representando estados demasiado diferentes. Haciendo referencia a la Figura 2.3 el vector de características calculado en el instante t estaría compuesto por un conjunto de L + 1 características acústicas {e t, y (m) t (1), y (m) t,..., y (m) t (L)},

16 40 CAPÍTULO 2. ANÁLISIS DE LA SEÑAL ACÚSTICA y sus correspondientes diferenciales de primer y segundo orden: { y t = y (m) t }, e t, {y (m) t }, {e t }, 2 {y (m) t }, 2 {e t } (2.19) En los sistemas modernos de reconocimiento automático del habla, L es un conjunto de 8 ó 16 elementos y se añaden las derivadas de primer y segundo orden como componentes en el vector de características [1] Análisis Cepstral El cepstrum complejo (cepstrum es un anagrama de spectrum) ˆx(n) para una señal discreta x(n) es la transformada inversa de Fourier del logaritmo complejo log X(e (jω) ) [25]: ˆx(n) = I 1 {log X(e (jω) )} (2.20) El logaritmo del espectro tiene el efecto de reducir las amplitudes de las componentes en todas las frecuencias. Esta escala logarítmica es también propia del oído humano. Estas señales que se caracterizan por una combinación de armónicos se analizan mejor por el cepstrum que por el espectro o la autocorrelación. El uso del cepstrum se introdujo inicialmente para discriminar los segmentos sonoros del habla(vocales, consonantes sonoras) de los segmentos sordos (plosivas, fricativas, etc.). De hecho, el cepstrum enfatiza los formantes del tracto vocal, incluso con ruido. En cambio, es plano para sonidos que poseen una estructura de armónicos clara. Explotando estas propiedades, los coeficientes cepstrales se usan para clasificar segmentos de voz, determinando una evolución en la técnica del cepstrum. Entonces el análisis mediante coeficientes cepstrales, que es un análisis homomórfico con un logaritmo en la función intermedia, permite una deconvolución de la señal del habla. Como ya se ha especificado en el Apartado 2.2.1, una onda del habla x(n) puede considerarse como una convolución entre la excitación producida por las cuerdas vocales v(n) y la respuesta impulsional del filtro que representa al tracto vocal h(n): x(n) = v(n) h(n) (2.21) Dado que la información fonética está relacionada principalmente con la forma del tracto vocal, los algoritmos de deconvolución para señales del habla son muy interesantes para aislar la respuesta del tracto vocal. Estos algoritmos llevan al sistema teórico llamado

17 2.4. ANÁLISIS CEPSTRAL 41 filtrado homomórfico [25]. Para el cepstrum complejo se tiene: ˆx(n) = I 1 {log(i{v(n) h(n)})} = I 1 { log(v (e jω )) + log(h(e jω )) } = ˆv(n) + ĥ(n), (2.22) donde ˆv(n) y ĥ(n) son el cepstrum complejo de v(n) y h(n) respectivamente. El cepstrum complejo transforma la convolución Eq.2.21 en la suma de dos componentes ˆv(n) y ĥ(n) que pueden separarse por un filtro paso banda lineal si no hay solapamiento en frecuencia. Para señales del habla, esto es posible porque el espectro de corto alcance muestra que la envolvente del filtro del tracto vocal h(n) evoluciona despacio respecto a la estructura de los armónicos que se producen por la excitación periódica del habla v(n). Para señales de fase mínimas o cuando la información de fase no es interesante se puede usar el cepstrum real ˆx r (n) en lugar del cepstrum complejo, que se define como la transformada inversa de Fourier del logaritmo de la magnitud de X(e jω ): ˆx r (n) = I 1 { log X(e jω ) } (2.23) Como se muestra en la Figura 2.10, el cepstrum real se puede calcular usando la transforma discreta de Fourier inversa. El esquema de bloques usado para calcular los MFCC se muestra en la Figura 2.3. La diferencia entre ambos esquemas es que para los MFCC el cepstrum se calcula sobre el espectro obtenido del banco de filtros. Figura 2.10: Diagrama de bloques de obtención del cepstrum real en el análisis de señales. La deconvolución homomórfica expresada en Eq.2.22 puede desvelar importantes propiedades de los MFCC. En primer lugar, nótese que si se aplica a la señal del habla una constante multiplicativa, el logaritmo de dicha constante se añade a todos los coeficientes de log Y t (m) 2. La influencia de esta constante afecta únicamente al coeficiente cero de los MFCC. Entonces, los coeficientes cepstrales no son sensibles al factor de ganancia de la señal, excepto y (m) t (0). Hay que destacar también que la respuesta del tracto vocal y la excitación de la señal se combinan de forma aditiva en el cepstrum como se muestra en Eq El logaritmo del espectro del tracto vocal tiene un efecto suavizante mientras que la excitación tiene un espectro con una gran variación y cuasi-periódico para pronunciacio-

18 42 CAPÍTULO 2. ANÁLISIS DE LA SEÑAL ACÚSTICA nes sonoras. Así, la respuesta del tracto vocal se puede obtener, simplemente, reteniendo los primeros coeficientes cepstrales y (m) t (k). Y por último, nótese que la influencia del ambiente puede modelarse como un filtro lineal. Esta degradación en una tendencia en la estimación del logaritmo del espectro que puede ser evaluada y eliminada. Estos factores se analizan en la siguiente sección Robustez en el Reconocimiento del Habla Un reconocimiento del habla robusto es aquel que se mantiene eficiente ante el elevado número de problemas que aparecen cuando se prueba bajo condiciones operativas diferentes a aquellas existentes en el entorno donde se entrenó el modelo acústico. Se ha demostrado sobradamente que para sistemas diseñados para trabajar con varios hablantes hay un empeoramiento del rendimiento del reconocimiento cuando se dan cambios en algunos parámetros ambientales como el ruido de fondo o del canal de transmisión. Estas fuentes de variación pueden reducirse a cuatro categorías principales: ruido, distorsión, efectos del hablante y variaciones de la pronunciación. De estas cuatro condiciones, las tres primeras están relacionadas con el ambiente y su efecto sobre la pronunciación del hablante, mientras que la última se refiere a la variaciones entre distintos hablantes y dentro de las pronunciaciones de cada uno. El ruido de fondo puede considerarse generalmente aditivo a la señal del habla y puede generarse por el ventilador de un PC, por el timbre de un teléfono o por cualquier otro evento que pueda ocurrir en un entorno real. Como consecuencia del cual y desafortunadamente el espectro del ruido no puede considerarse plano. La señal del habla está inevitablemente sujeta a una serie de distorsiones espectrales antes de grabarse y procesarse para su reconocimiento. Por ejemplo, un micrófono puede provocar distintos niveles de distorsión según su tipo y calidad de fabricación. Ambientes de grabación cerrados pueden generar efectos de distorsión por la reverberación producida por las paredes y sus adornos. En grabaciones telefónicas el canal de transmisión puede degradar la señal debido al ancho de banda limitado y la poca calidad de los componentes como el micrófono de carbón. Los efectos fisiológicos generados en el hablante por el ambiente pueden ser otra fuente de fallos en el reconocimiento. Las variaciones producidas por el efecto Lombard en el mecanismo de articulación es un claro ejemplo. Las técnicas usadas para paliar estos problemas se clasifican en:

19 2.5. ROBUSTEZ EN EL RECONOCIMIENTO DEL HABLA 43 Algoritmos de compensación cepstral, se basan en la adaptación de los parámetros cepstrales al ambiente en que se debe realizar el reconocimiento. Algoritmos de mejora de la señal del habla, diseñados para la equalización de la señal acústica enfatizando aquellos componentes de más interesantes para el reconocimiento automático. Adaptación de los parámetros del modelo, en el que el modelo acústico obtenido previamente en el laboratorio se adapta al contexto en que se deba operar el sistema de reconocimiento. En las siguientes secciones se describen algunas de las técnicas más destacadas para mantener la robustez del sistema frente al ruido Ruido Aditivo y Modelo de Distorsión Lineal Como se ha indicado antes, los dos elementos principales de la degradación de la señal que pueden reducir significativamente la eficiencia del reconocimiento son el ruido aditivo y la distorsión lineal. En la Figura 2.11 se describe el diagrama de bloques de dicha degradación. Figura 2.11: Modelo de ruido aditivo y distorsión lineal. Supóngase que se tiene la señal genérica recibida y(t) corrompida por el ruido aditivo n(t) y afectada por una distorsión lineal producida por el canal de transmisión y con respuesta impulsiva d(t): y(t) = [u(t) + n(t)] d(t) = x(t) d(t), (2.24) donde u(t) es la señal limpia y el símbolo denota convolución. El espectro de potencia de y(t) es: P y (f) = P x (f) D(f) 2 = [P u (f) + P n (f)] D(f) 2, (2.25)

20 44 CAPÍTULO 2. ANÁLISIS DE LA SEÑAL ACÚSTICA donde P u (f) y D(f) son el espectro de potencia de u(t) y la función de transferencia de d(t), respectivamente. Aplicando logaritmos Eq.2.25 puede expresarse como: log[p y (f)] = log[p x (f)] + log D(f) 2 = { [ = log[p u (f)] + log 1 + P ]} n(f) + log D(f) 2 = P u (f) { [ = log[p u (f)] + log SNR(f) ]} + log D(f) 2, (2.26) donde SNR(f) indica la relación entre la señal y el ruido en frecuencia (las siglas provienen del inglés, signal to noise ratio). La Ecuación 2.26 muestra también que cuando el ruido aditivo es estacionario y los efectos de la distorsión pueden ser aproximados por un filtro lineal invariante en el tiempo estos componentes introducen una degradación no lineal en el logaritmo del espectro. Si se considera el cálculo del cepstrum, esta no linealidad puede ser expresada formalmente como: ŷ = û + ˆd + ˆr(û, ˆn), (2.27) con ˆr(û, ˆn) = I 1 {log(1 + 1/SNR(f))} y ˆd = I 1 {log D(f) 2 }. Para señales con valores elevados de SNR, la distorsión se debe casi exclusivamente al canal de transmisión y al transductor del micrófono, mientras que para valores bajos de SNR, se requieren técnicas que mejoren la señal del habla Compensación Cepstral La compensación cepstral es una técnica que se puede aplicar si se dispone de una base de datos estéreo alineada en el tiempo de pronunciaciones grabadas simultáneamente en un entorno de entrenamiento y pruebas. La intención es eliminar las diferencias entre los parámetros acústicos por el cálculo de la diferencia del cepstrum medio calculado en los dos ambientes: ˆv = û ŷ, (2.28) donde ˆv el vector de compensación cepstral que es una función del SNR instantáneo, de una presunta identidad fonética y del ambiente. La aplicación de la compensación permite la estimación û = ŷ + ˆv del vector û de la señal limpia que hay que obtener. El objetivo de la compensación es reducir los efectos del ruido y de la distorsión lineal. Dado que estas perturbaciones actúan de modo diferente sobre los frames de la pronunciación del habla, sería útil separarlos en algunas clases según los parámetros físicos, tales

21 2.5. ROBUSTEZ EN EL RECONOCIMIENTO DEL HABLA 45 como la relación señal ruido o las identidades fonéticas asumidas. Está claro que para valores elevados de SNR la compensación debe actuar principalmente sobe el filtro lineal, ya que en estas circunstancias ˆr(û, ˆn) de Eq.2.27 toma valores despreciables. En cambio, para valores bajos de SNR es necesario compensar los efectos del ruido aditivo. En la normalización cepstral dependiente (Dependent Cepstral Compensation, SDCN) los frames de una base de datos estéreo se dividen en subconjuntos de acuerdo a los niveles de SNR en el entorno de prueba. Los vectores de compensación, en función del rango dado de SNR, se calculan mediante la diferencia entre los vectores medios en los ambientes de prueba y entrenamiento. Cuando se procesa una nueva pronunciación por el sistema de reconocimiento se usa el vector de compensación apropiado de acuerdo con el nivel de SNR del frame actual. La normalización cepstral mixta de palabra codificada-dependiente (Fixed Codeword- Dependent Cepstral Normalization, FCDCN) emplea un algoritmo similar a la anterior. Como en la SDCN la base de datos mixta de entrenamiento y prueba se reparte de acuerdo con los niveles de SNR; después se aplica una cuantización vectorial (VQ, vector quantization) a cada grupo de vectores cepstrales. Finalmente, se calculan vectores de compesación para cada cluster de VQ para cada SNR. Estos algoritmos están estrechamente relacionados con el ambiente en los que se desarrollan, ya que los vectores de compensación se calculan formulando una hipótesis adecuada sobre el entorno de prueba. Se puede obtener cierta independencia respecto al ambiente usando más bases de datos mixtas para el cálculo de los parámetros. La idea es calcular más vectores de compensación en distintos ambientes de fondo y usar el más parecido a las condiciones reales de operación Canales de Ecualización y Mejora de la Señal del Habla Los problemas del canal de comunicación como origen de la degradación de la señal se percibe especialmente en las comunicaciones telefónicas donde se tiene un ancho de banda limitado y ruido espurio. Los problemas del ruido se pueden afrontar modelando el ruido explícitamente en las estructuras de los modelos ocultos de Markov (HMM, Apartado 3.4), y descartándolos cuando se detecten en una pronunciación. Además, las técnicas como el filtrado paso alto y la normalización cepstral tienen gran efectividad con bajo coste computacional. En la normalización cepstral, se estima la media de los vectores de coeficientes cepstrales y se resta a cada uno de los vectores. Para mayor efectividad, es preferible que dichos

22 46 CAPÍTULO 2. ANÁLISIS DE LA SEÑAL ACÚSTICA cálculos se realicen únicamente sobre los frames de habla, excluyendo los silencios al principio y al final de cada pronunciación. Aún así, no hay diferencias sustanciales cuando los silencios se incluyen en el cálculo de la media. La aplicación de la normalización cepstral a los datos de entrenamiento y de prueba contribuye a obtener mejores resultados, aunque se obtiene cierta mejora incluso cuando se aplica sólo durante el reconocimiento. Para una estimación fiable, se consideran adecuados intervalos de habla de entre dos y cinco segundos. Los algoritmos previos son efectivos en la compensación de los efectos de los filtros lineales y en ausencia de ruido aditivo. En dichas circunstancias, el vector de compensación ideal v tiende a ser una constante independiente del SNR y del cluster de cuantización vectorial. El vector de compensación es igual a la diferencia entre la media a largo plazo de los vectores cepstrales de entrenamiento y de prueba. Como consecuencia del filtrado lineal, como el de la normalización cepstral, se cancelan las medias y en consecuencia se obtiene un vector de compensación nulo. El filtrado cepstral paso alto consiste en reducir los primeros coeficientes cepstrales. Esto produce el mismo efecto que se obtendría si todos los vectores de compensación, calculados en condiciones ambientales predefinidas, se agrupasen en un único vector. La sustracción espectral es una de las técnicas de mejora de la señal del habla más usadas. Consiste en estimar las características espectrales del ruido ambiental en intervalos de tiempo en los que la señal del habla no está presente y usar dicha estimación del ruido para limpiar el espectro de la señal reciente a la entrada del reconocedor. Para una correcta aplicación de esta técnica, es necesario la detección de los fragmentos de la señal en los que no se esté pronunciando nada, para determinar que características espectrales de un frame corresponden al silencio. Después de calcular la media de la amplitud y la fase del espectro de corto plazo, la amplitud principal del espectro del ruido se sustrae de cada muestra, para producir un nuevo espectro a corto plazo mientras que la fase no varía. En este desarrollo se ha supuesto que el ruido es estacionario e independiente de la señal limpia. Las líneas de micrófonos también son efectivas en la mejora de la señal del habla. Una línea de micrófonos está compuesta por múltiples sensores, generalmente micrófonos omnidireccionales, espaciados de acuerdo a algún criterio. El objetivo es capturar la señal emitida por una fuente dada evitando la interferencia de señales producidas por fuentes no deseadas. El método más simple es el del conformador de retraso y suma, en el que se compensa el retardo en el tiempo debido a la distancia de cada micrófono a la fuente. También se pueden adoptar aquellos algoritmos capaces de cancelar las direcciones de

23 2.6. MEDIDAS DE LA DISTORSIÓN 47 fuentes de ruido asumiendo la independencia estadística de la señal respecto a las fuentes de degradado. Se mejora entonces el SNR cuando las fuentes de degradado son aditivas e independientes de la fuente de la señal. Estos métodos se muestran menos efectivos en ambientes reverberantes donde la degradación de la señal se debe fundamentalmente a los desfases introducidos en la señal Técnicas de Adaptación del Modelo Se han examinado las posibles soluciones para evitar los efectos del ruido aditivo y del canal de transmisión en la señal acústica mediante su preprocesamiento. La efectividad del reconocimiento puede incrementarse también adaptando el modelo acústico al ambiente. Dando por hecho que el mejor rendimiento se produce cuando el entrenamiento y las pruebas se realizan en las mismas condiciones, las técnicas de adaptación consisten en modificar los modelos de modo que estén más cerca de lo que escuchan en el uso real. Esta adaptación de los parámetros de los modelos de Markov se puede obtener por los siguientes métodos: composición del modelo entrenamiento de Bayes o estimación máximo a posteriori(map) En las técnicas de composición del modelo se construyen dos modelos diferentes uno a partir de señales limpias y otro en un ambiente ruidoso. Los modelos obtenidos se combinan de acuerdo a diferentes técnicas dependiendo de la degradación de la señal, que tienen la desventaja de que requieren un conocimiento detallado de las estadísticas del ruido, del modelo de la señal limpia y de la combinación de ambos. En la estimación máximo a posteriori (MAP), el objetivo es adaptar los modelos a las nuevas condiciones de operación, a través de una densidad de probabilidad a priori, describiendo la distribución de los parámetros del sistema. Estas densidades se usan entonces con la nueva observación para construir un modelo nuevo con estimaciones más cercanas a las condiciones actuales del reconocimiento Medidas de la Distorsión Dados x, y y w en el espacio vectorial de los parámetros, una medida de la distancia satisface las siguientes condiciones:

24 48 CAPÍTULO 2. ANÁLISIS DE LA SEÑAL ACÚSTICA 1. d(x, y) 0 2. d(x, y) = d(y, x) 3. d(x, y) > 0 si y solo si x y 4. d(x, y) = 0 si y solo si x = y 5. d(x, y) d(x, w) + d(w, y) Las funciones de distancia aplicadas al espectro, a la DFT, al cepstrum u otras representaciones de la voz, llamadas medidas de distorsión espectral, generalmente no tienen todas las propiedades que debe satisfacer una función de distancia entre vectores (d). En cualquier caso, representa el coste cuando se elige una representación particular en un sistema de clasificación de los frames de la señal del habla. Por ejemplo, cuando se emplean los coeficientes cepstrales, se considera generalmente la distancia geométrica, aunque los espectros de la misma clase tienden a ser distantes. Para dos vectores x, y con P componentes, la distancia geométrica entre x e y se define como: { P } 1/q d(x, y) = z(k) (x k y k ) q, (2.29) k=1 donde z(k) es el peso aplicado para reducir la influencia de las componentes menos importantes. Si q = 2 la expresión corresponde a la distancia euclídea ponderada. Los pesos z(k) se pueden escoger proporcionales a la inversa de la varianza de la k-ésima componente de los vectores en el espacio de los parámetros. En este caso, la distancia es proporcional al logaritmo de la probabilidad, asumiendo componentes no correladas y una distribución Gaussiana. Se puede definir una distancia espectral del habla como la distancia logarítmicoespectral L p : L p (X, Y ) = 1 π [ log X(e jω ) 2 log Y (e jω ) 2 p ] 1/p dω, (2.30) 2π π donde X e Y son las transformadas de Fourier de las dos vectores de señales x e y. Si se pasa a la representación cepstral las dos componentes de Eq.2.30 se pueden expresar

25 2.6. MEDIDAS DE LA DISTORSIÓN 49 como: log ( X(e jω ) 2) = log ( Y (e jω ) 2) = k= k= ˆx r (k)e jkω ŷ r (k)e jkω, (2.31) con ˆx r (k) y ŷ r (k) secuencias cepstrales. Dado que el logaritmo de una magnitud al cuadrado es una función real, entonces ˆx r ( k) = ˆx r (k) y aplicando el teorema de Parseval a la Eq.2.30 para p = 2 se tiene: L 2 2(X, Y ) = + k= (ˆx r (k) ŷ r (k)) 2 = = (ˆx r (0) ŷ r (0)) k=1 (ˆx r (k) ŷ r (k)) 2 (2.32) Esta ecuación muestra que el cuadrado de la distancia L 2 entre dos envolventes espectrales es igual al error al cuadrado entre las dos secuencias cepstrales correspondientes. Para obtener una medida de la distorsión robusta se tienen en cuenta los efectos del ruido en el vector de coeficientes cepstrales. Se ha mostrado que un ruido blanco aditivo reduce la norma del vector cepstral pero no altera su dirección. Dado que la reducción de la norma es una función del nivel de ruido, se puede usar dicha norma para obtener una ponderación no uniforme en cada frame y formular una nueva medida de la distorsión. La medida de la distorsión cepstral se define como: ( ) d(ˆx, ŷ) = ŷ 1 ˆxH ŷ, (2.33) ˆx ŷ donde ˆx y ŷ son vectores cepstrales y H denota transposición y conjugación compleja. Esta medida de la distorsión cepstral resulta ser válida tanto para señales limpias como para señales ruidosas.

26 50 CAPÍTULO 2. ANÁLISIS DE LA SEÑAL ACÚSTICA

27 Bibliografía [1] Bocchieri E. L., Wilpon J. G., Discriminative feature selection for speech recognition, Computer Speech and Language, 7, (1993) [2] Cerrato L., Falcone M., Paoloni A., Age estimation of telephonic voices, Proceedings of the RLA2C Conference Avignon, pp (1998) [3] Comenford R., Makhoul J., Schwartz R., The Voice of the Computer..., IEEE Spectrum, pp (Diciembre 1997) [4] Cox S. J., Bridle J. S., Unsupervised speaker adaptation by probabilistic fitting, Proc. ICASSP, Glasgow, pp (Mayo 1989) [5] Cox S. J., Speaker adaptation using a predictive model, Proc. EuroSpeech-93, Berlín, 3, pp (Septiembre 1993) [6] Davis S. B., Mermelstein P., Comparison of parametrics representions of monosylabic word recognition in continuosly spoken sentences, IEEE Trans. Acoustion, Speech and Signal Processing, 28, pp (1980) [7] J. R. Deller, J. G. Proakis and J. H. L. Hansen, Discrete-Time Processing of Speech Signals, Mac Millan, N. Y., (1993) [8] J. R. Deller, JR., Tom, Dick and Mary Discover the DFT, IEEE Signal Processing Magazine, pp (Abril 1994) [9] Flanagan J. L., Johnston J. D., Zahn R., Elko G. W., Computer steered microphone arrays for sound transduction in large rooms, J. Acoust. Soc. Amer., 78, pp (1985) [10] Flannery B. P., Teukolsky S. A., Vetterling W. T., Numerical Recipes in C, Cambridge University Press (1990) 51

28 52 BIBLIOGRAFÍA [11] T. Fukada, K. Tokuda, T. Kobayashi and S. Imai, An adaptive algorithm for mel-cepstral analysis of speech, in Proc. ICASSP, pp (1992) [12] Furui S., Cepstral analysis techniques for automatic speaker verification, IEEE Tran. on ASSP, 29, No.2, pp (1981) [13] Gales M. J. F., Young S. J., Cepstral parameter compensation for hmm recognition in noise, Speech Communication, 12, pp (1993) [14] S. Haykin, Adaptive Filter Theory, 2nd Ed., Prentice Hall, Englewood Cliffs, N. J. (1996) [15] H. Hermansky, Perceptual linear predictive (PLP) analysis of speech, Journal of Acoustic Society of America, Vol. 87, N o 4, pp (Abril 1990) [16] H. Hermansky et al., RASTA-PLP speech analysis technique, Proc. of ICASSP 92, San Francisco, EE.UU., 23-26, pp (Marzo 1992) [17] C.R.Jankowski, Hoang-Doan H.Vo y R.Lippmann, A Comparison of Signal Processing Front Ends for Automatic Word Recognition, in IEEE transactions on Speech and Audio Processing, Vol. 3, No.4 (Julio 1995) [18] Jayant N. O. S., Noll P., Digital Coding of Waveforms, Prentice Hall (1984) [19] P. Kraniauskas, A Plain Man s Guide to the FFT, IEEE Signal Processing Magazine, pp (Abril 1994) [20] Laver J., The Phonetic Description of Voice Quality, CUP (1980) [21] Lee K. F., Alleva F., Continous speech recognition, Advances in Speech Signal Processing, Furui S. and M.M. Eds., Marcel Dekker, New York (1991) [22] F.Liu, P.Moreno, R.Stern y A.Acero, Signal Processing for Robust Speech Recognition, School of Computer Science, Carnegie Mellon University, Pittsburgh, EE.UU. [23] F.Liu, R.Stern, X.Huang y A.Acero, Efficient Cepstral Normalization for Robust Speech Recognition, School of Computer Science, Carnegie Mellon University, Pittsburgh, EE.UU. [24] Mallat S., A Wavelet Tour of Signal Processing, Academic Press (1998) [25] Oppenheim A. V., Shafer R. W., Digital Signal Processing, Prentice Hall (1989)

de extracción de características

de extracción de características FUNDAMENTOS DEL RECONOCIMIENTO AUTOMÁTICO DE LA VOZ Algoritmos de extracción de características Agustín Álvarez Marquina Introducción (I). Caracterización acústica de los sonidos Diptongos Semivocales

Más detalles

Sistema Automático de Reconocimiento Fonético

Sistema Automático de Reconocimiento Fonético PROYECTO FIN DE CARRERA para la obtención del título de Ingeniero Industrial Sistema Automático de Reconocimiento Fonético Alumno: Francisco José Cadaval Arrola Tutor: Dr. J. Ramiro Martínez de Dios Departamento

Más detalles

Programa. Introducción 1. Generación y percepción de la señal de voz 2. Técnicas avanzadas

Programa. Introducción 1. Generación y percepción de la señal de voz 2. Técnicas avanzadas Programa Introducción 1. Generación y percepción de la señal de voz 2. Técnicas avanzadas Análisis localizado en tiempo y en frecuencia Predicción lineal Cepstrum Realce 3. Reconocimiento automático del

Más detalles

Coeficientes Cepstrales en Frecuencia Mel y Dynamic Time Warping para Reconocimiento Automatico del Habla

Coeficientes Cepstrales en Frecuencia Mel y Dynamic Time Warping para Reconocimiento Automatico del Habla Coeficientes Cepstrales en Frecuencia Mel y Dynamic Time Warping para Reconocimiento Automatico del Habla Jorge Luis Guevara Diaz Semana ciencia de la Computación Escuela de Informática Universidad Nacional

Más detalles

Podriamos conversar con las maquinas como lo hacemos con los humanos?

Podriamos conversar con las maquinas como lo hacemos con los humanos? Que veremos? 1. Introducción 2. Trabajos Previos 3. Procesamiento de la Señal 4. Coeficientes MFCC 5. Trasformada Wavelet 6. Extracción de características usando wavelets 7. Experimentos y Resultados 8.

Más detalles

INGENIERIA DE TELECOMUNICACIÓN TRATAMIENTO DIGITAL DE LA SEÑAL I CURSO 2005/2006 TEMA 5: ANALISIS ESPECTRAL DE SEÑALES MEDIANTE LA DFT

INGENIERIA DE TELECOMUNICACIÓN TRATAMIENTO DIGITAL DE LA SEÑAL I CURSO 2005/2006 TEMA 5: ANALISIS ESPECTRAL DE SEÑALES MEDIANTE LA DFT Departamento de Ingeniería Electrónica, de Telecomunicación y Automática UNIVERSIDAD DE JAÉN INGENIERIA DE TELECOMUNICACIÓN TRATAMIENTO DIGITAL DE LA SEÑAL I CURSO 2005/2006 TEMA 5: ANALISIS ESPECTRAL

Más detalles

Procesamiento de la señal de voz

Procesamiento de la señal de voz Procesamiento de la señal de voz Leandro Vignolo Procesamiento Digital de Señales Ingeniería Informática FICH-UNL 29 de mayo de 2014 L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de

Más detalles

Reconocimiento Automático de Voz

Reconocimiento Automático de Voz Reconocimiento Automático de Voz Presentación basada en las siguientes Referencias: [1] Rabiner, L. & Juang, B-H.. Fundamentals of Speech Recognition, Prentice Hall, N.J., 1993. [2] Rabiner, L. & Juang,

Más detalles

Fundamentos de producción y tratamiento de audio mediante com

Fundamentos de producción y tratamiento de audio mediante com Fundamentos de producción y tratamiento de audio mediante computador Luis Rodríguez Ruiz UCLM April 8, 2008 1 2 3 4 5 Índice Contenidos 1 2 3 4 5 Contenidos 1 Presentar los fundamentos del procesamiento

Más detalles

Lección 3: Formato y Modulación en Banda Base. Parte I

Lección 3: Formato y Modulación en Banda Base. Parte I Lección 3: Formato y Modulación en Banda Base. Parte I Gianluca Cornetta, Ph.D. Dep. de Ingeniería de Sistemas de Información y Telecomunicación Universidad San Pablo-CEU Contenido Sistemas en Banda Base

Más detalles

Seguimiento de los parámetros del modelo del tracto vocal

Seguimiento de los parámetros del modelo del tracto vocal Algoritmos para el seguimiento de los parámetros del modelo de tracto vocal Monografía de Tratamiento Estadístico de Señales parias@fing.edu.uy Instituto de Ingeniería Eléctrica Facultad de Ingeniería

Más detalles

Aplicaciones del Tratamiento de Señales. Parte 1: Grabación y Reproducción de Señales de Voz

Aplicaciones del Tratamiento de Señales. Parte 1: Grabación y Reproducción de Señales de Voz Aplicaciones del Tratamiento de Señales Curso 2004-2005 Herramientas Básicas de Análisis de Voz y Audio Parte 1: Grabación y Reproducción de Señales de Voz INTRODUCCIÓN Se pretende en esta parte que el

Más detalles

transmisión de señales

transmisión de señales Introducción al análisis y transmisión de señales La transmisión de información La información se puede transmitir por medio físico al variar alguna de sus propiedad, como el voltaje o la corriente. Este

Más detalles

Análisis Espectral mediante DFT PRÁCTICA 4

Análisis Espectral mediante DFT PRÁCTICA 4 Análisis Espectral mediante DFT PRÁCTICA 4 (2 sesiones) Laboratorio de Señales y Comunicaciones 1 PRÁCTICA 4 Análisis Espectral mediante DFT 1. Objetivo Habitualmente, el análisis de señales y sistemas

Más detalles

ANÁLISIS LOCALIZADO. 1. Análisis Localizado en el Dominio Temporal. 2. Análisis Localizado en el Dominio Frecuencial

ANÁLISIS LOCALIZADO. 1. Análisis Localizado en el Dominio Temporal. 2. Análisis Localizado en el Dominio Frecuencial ANÁLISIS LOCALIZADO 1. Análisis Localizado en el Dominio Temporal Energía Localizada. Autocorrelación Localizada. 2. Análisis Localizado en el Dominio Frecuencial Transformada de Fourier Localizada 3.

Más detalles

Realzado de Imagen. 11 de junio de El histograma de una imagen digital con niveles de gris en la amplitud de [0, L 1], es función discreta

Realzado de Imagen. 11 de junio de El histograma de una imagen digital con niveles de gris en la amplitud de [0, L 1], es función discreta Realzado de Imagen 11 de junio de 2001 Una operación clásica en el procesado de imagen es realzar una imagen de entrada de alguna manera para que la imagen de salida sea más fácil de interpretarla. La

Más detalles

IDENTIFICACION DE SISTEMAS IDENTIFICACION NO PARAMETRICA

IDENTIFICACION DE SISTEMAS IDENTIFICACION NO PARAMETRICA IDENTIFICACION DE SISTEMAS IDENTIFICACION NO PARAMETRICA Ing. Fredy Ruiz Ph.D. ruizf@javeriana.edu.co Maestría en Ingeniería Electrónica Pontificia Universidad Javeriana 2013 SISTEMAS LTI En general un

Más detalles

Victrola de La Transformada de Fourier

Victrola de La Transformada de Fourier Victrola de La Transformada de Fourier p. 1/2 Victrola de La Transformada de Fourier Introducción para Músicos Juan I Reyes juanig@maginvent.org artelab Laboratorios de Artes Electrónicas Victrola de La

Más detalles

Introducción a Modelos Espectrales

Introducción a Modelos Espectrales Introducción a Modelos Espectrales Elementos Básicos Juan Reyes juanig@maginvent.org artelab Modelos Espectrales Modelos de Instrumentos Musicales (Modelos Físicos) Modelos del Espectro Modelos Abstractos

Más detalles

Filtros senoc-enventanado Filtros personalizados. clase 11

Filtros senoc-enventanado Filtros personalizados. clase 11 Filtros senoc-enventanado Filtros personalizados clase 11 Temas Introducción a los filtros digitales Clasificación, Caracterización, Parámetros Filtros FIR (Respuesta al impulso finita) Filtros de media

Más detalles

Reconocimiento Automático de Voz basado en Técnicas de Comparación de Patrones

Reconocimiento Automático de Voz basado en Técnicas de Comparación de Patrones Reconocimiento Automático de Voz basado en Técnicas de Comparación de Patrones Presentación basada en las siguientes Referencias: Juan Carlos Gómez [] Rabiner, L. & Juang, B-H.. Fundamentals of Speech

Más detalles

Conversión Analógico/Digital

Conversión Analógico/Digital Capítulo 2 Conversión Analógico/Digital 2.1 Introducción Un Convertidor Analógico-Digital (CA/D) es un circuito electrónico que transforma una señal continua en el tiempo y en amplitud (señal analógica)

Más detalles

Primera parte (2.5 puntos, 20 minutos):

Primera parte (2.5 puntos, 20 minutos): TRATAMIENTO DIGITAL DE SEÑALES EXAMEN FINAL 24/06/2013 APELLIDOS NOMBRE DNI NO DE LA VUELTA A ESTA HOJA HASTA QUE SE LO INDIQUE EL PROFESOR MIENTRAS TANTO, LEA ATENTAMENTE LAS INSTRUCCIONES PARA LA REALIZACIÓN

Más detalles

Primera parte (2.5 puntos, 20 minutos):

Primera parte (2.5 puntos, 20 minutos): TRATAMIENTO DIGITAL DE SEÑALES EXAMEN FINAL 24/06/2013 APELLIDOS NOMBRE DNI NO DE LA VUELTA A ESTA HOJA HASTA QUE SE LO INDIQUE EL PROFESOR MIENTRAS TANTO, LEA ATENTAMENTE LAS INSTRUCCIONES PARA LA REALIZACIÓN

Más detalles

UNIVERSIDAD DE SONORA

UNIVERSIDAD DE SONORA UNIVERSIDAD DE SONORA INTERFERENCIA INTERSIMBÓLICA Responsable: Dra. Milka del Carmen Acosta Enríquez Colaboradores: Dra. María Elena Zayas S. Dr. Santos Jesús Castillo Debido a la distorsión lineal que

Más detalles

Procesamiento digital de voz

Procesamiento digital de voz Procesamiento digital de voz Seminario de Audio 2005 Ernesto López Martín Rocamora Producción del habla Aparato fonador Corte transversal de la laringe Sonidos sonoros y sordos Sonidos sonoros Forma de

Más detalles

Métodos de modelado y clasificación de patrones. clasificación de patrones

Métodos de modelado y clasificación de patrones. clasificación de patrones FUNDAMENTOS DEL RECONOCIMIENTO AUTOMÁTICO DE LA VOZ Métodos de modelado y clasificación de patrones Agustín Álvarez Marquina Introducción. Modelado y clasificación de patrones Objetivos: Agrupar el conjunto

Más detalles

3. Señales. Introducción y outline

3. Señales. Introducción y outline 3. Señales Introducción y outline Outline Señales y Sistemas Discretos: SLIT, Muestreo, análisis tiempo-frecuencia, autocorrelación, espectro, transformada Z, DTFT, DFT, FFT Filtros y Estimación: Filtros

Más detalles

Análisis Espectral mediante DFT PRÁCTICA 4

Análisis Espectral mediante DFT PRÁCTICA 4 Análisis Espectral mediante DFT PRÁCTICA 4 (2 sesiones) Laboratorio de Señales y Comunicaciones 3 er curso, Ingeniería Técnica de Telecomunicación Sistemas de Telecomunicación 1 PRÁCTICA 4 Análisis Espectral

Más detalles

Primera parte (3 puntos, 25 minutos):

Primera parte (3 puntos, 25 minutos): TRATAMIENTO DIGITAL DE SEÑALES EXAMEN FINAL 18/01/2013 APELLIDOS NOMBRE DNI NO DE LA VUELTA A ESTA HOJA HASTA QUE SE LO INDIQUE EL PROFESOR MIENTRAS TANTO, LEA ATENTAMENTE LAS INSTRUCCIONES PARA LA REALIZACIÓN

Más detalles

ELO 385 Laboratorio de Procesamiento Digital de Señales Laboratorio 5: Transformada Discreta de Fourier Parte I

ELO 385 Laboratorio de Procesamiento Digital de Señales Laboratorio 5: Transformada Discreta de Fourier Parte I 1 ELO 385 Laboratorio de Procesamiento Digital de Señales Laboratorio 5: Transformada Discreta de Fourier Parte I Este laboratorio está compuesto por dos sesiones en la cuales se estudiará la transformada

Más detalles

CREDITOS CONCLUSION GLOSARIO INTRODUCCION SEÑALES SISTEMAS SEÑALES C SEÑALES D TIPOS DIFERENCIA

CREDITOS CONCLUSION GLOSARIO INTRODUCCION SEÑALES SISTEMAS SEÑALES C SEÑALES D TIPOS DIFERENCIA CREDITOS CONCLUSION GLOSARIO INTRODUCCION SEÑALES SISTEMAS SEÑALES C SEÑALES D TIPOS DIFERENCIA INTRODUCCION Una señal es cualquier fenómeno que puede ser representado de manera cuantitativa mediante una

Más detalles

UNIVERSIDAD RICARDO PALMA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA ELECTRÓNICA SÍLAB0 PLAN DE ESTUDIOS 2006-II

UNIVERSIDAD RICARDO PALMA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA ELECTRÓNICA SÍLAB0 PLAN DE ESTUDIOS 2006-II UNIVERSIDAD RICARDO PALMA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA ELECTRÓNICA SÍLAB0 PLAN DE ESTUDIOS 2006-II I. DATOS GENERALES Nombre : Procesamiento Digital de Señales Código

Más detalles

Muestreo y Procesamiento Digital

Muestreo y Procesamiento Digital Muestreo y Procesamiento Digital Práctico N+ Problemas surtidos El propósito de este repartido de ejercicios es ayudar en la preparación del examen. Dadas las variadas fuentes de los ejercicios aquí propuestos,

Más detalles

Procesamiento de la voz

Procesamiento de la voz Procesamiento de la voz Diego Milone Leandro Vignolo Muestreo y Procesamiento Digital Ingeniería Informática FICH-UNL 18 de mayo de 2011 Organización de la clase Aparato fonador y oído Generalidades del

Más detalles

Sistemas Lineales. Tema 7. Problemas

Sistemas Lineales. Tema 7. Problemas Sistemas Lineales ema 7. Problemas. Se sabe que una señal de valor real x(t) ha sido determinada sólo por sus muestras cuando la frecuencia de muestreo es s = 0 4 π. Para qué valores de se garantiza que

Más detalles

Muestreo y Procesamiento Digital

Muestreo y Procesamiento Digital Muestreo y Procesamiento Digital Práctico 5 Muestreo de señales de tiempo continuo Cada ejercicio comienza con un símbolo el cual indica su dificultad de acuerdo a la siguiente escala: básico, medio, avanzado,

Más detalles

RESTAURACIÓN DE AUDIO

RESTAURACIÓN DE AUDIO RESTAURACIÓN DE AUDIO Interés en audio degradado Discos (de cera, LP) Cintas magnéticas Audio digital de calidad Degradación de audio Modificación de señal en grabación Micrófono, amplificador, etc Alteración

Más detalles

Vídeo Digital Examen de Junio de 2001

Vídeo Digital Examen de Junio de 2001 UNIVERSIDAD DE CASTILLA LA MANCHA Escuela Universitaria Politécnica de Cuenca Ingeniería Técnica de Telecomunicación (Especialidad de Sonido e Imagen) Vídeo Digital Examen de Junio de 2001 1.- Queremos

Más detalles

Codificación de audio MPEG. Álvaro Pardo

Codificación de audio MPEG. Álvaro Pardo Codificación de audio MPEG Álvaro Pardo Características del sistema auditivo La sensibilidad del oído es logarítmico respecto a la frecuencia Varía con la frecuencia La discriminación en frecuencia es

Más detalles

Redes y Comunicaciones

Redes y Comunicaciones Departamento de Sistemas de Comunicación y Control Redes y Comunicaciones Solucionario Tema 3: Datos y señales Tema 3: Datos y señales Resumen La información se debe transformar en señales electromagnéticas

Más detalles

TEMA 5: ANÁLISIS DE LA CALIDAD EN MODULACIONES ANALÓGICAS

TEMA 5: ANÁLISIS DE LA CALIDAD EN MODULACIONES ANALÓGICAS TEMA 5: ANÁLISIS DE LA CALIDAD EN MODULACIONES ANALÓGICAS Parámetros de calidad: SNR y FOM Análisis del ruido en modulaciones de amplitud Receptores de AM y modelo funcional SNR y FOM para detección coherente

Más detalles

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN TEORÍA DE SEÑALES OBJETIVO GENERAL Estudiar los conceptos fundamentales de representación de

Más detalles

Tema 2: PROCESAMIENTO EN EL DOMINIO ESPACIAL (Parte 2)

Tema 2: PROCESAMIENTO EN EL DOMINIO ESPACIAL (Parte 2) Tema 2: PROCESAMIENTO EN EL DOMINIO ESPACIAL (Parte 2) 1 I N G E N I E R Í A I N F O R M Á T I C A D P T O. M A T E M Á T I C A A P L I C A D A I 2 ÍNDICE: Filtrado espacial Filtros de suavizado Filtros

Más detalles

TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS

TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS UNIVERSIDAD POLITECNICA DE CATALUÑA Departamento de Teoria de la señal y comunicaciones TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS

Más detalles

UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE INGENIERÍA ESCUELA DE INGENIERÍA ELÉCTRICA DEPARTAMENTO DE ELECTRÓNICA

UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE INGENIERÍA ESCUELA DE INGENIERÍA ELÉCTRICA DEPARTAMENTO DE ELECTRÓNICA TIPO DE 207, 255, 0790 SEMANA: PROPÓSITO Esta asignatura ofrece al alumno los conocimientos básicos para el análisis de los sistemas lineales, tanto en el dominio del tiempo continuo como en el dominio

Más detalles

Capítulo 5: CONTROL INVERSO ADAPTATIVO

Capítulo 5: CONTROL INVERSO ADAPTATIVO Capítulo 5: CONTROL INVERSO INTRODUCCIÓN 5.. INTRODUCCIÓN Un sistema de control inverso adaptativo se muestra en la Figura 5. Si el controlador fuese ideal, su función de transferencia sería: C( z) M (

Más detalles

Problemas de Filtros Digitales FIR. VENTANAS

Problemas de Filtros Digitales FIR. VENTANAS Problemas de Filtros Digitales FIR. VENTANAS Síntesis de Filtros Digitales FIR. Ventanas 1.- Se pretende diseñar un filtro FIR de fase lineal tipo II (número de coeficientes par y simetría par en la respuesta

Más detalles

TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS

TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS UNIVERSIDAD POLITECNICA DE CATALUÑA Departamento de Teoria de la señal y comunicaciones TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS

Más detalles

Análisis Espectral mediante DFT PRÁCTICA 4

Análisis Espectral mediante DFT PRÁCTICA 4 Análisis Espectral mediante DFT PRÁCTICA 4 (2 sesiones) Laboratorio de Señales y Comunicaciones PRÁCTICA 4 Análisis Espectral mediante DFT. Objetivo Habitualmente, el análisis de señales y sistemas LTI

Más detalles

Segunda parte (2h 30 ):

Segunda parte (2h 30 ): TRATAMIENTO DIGITAL DE SEÑALES EXAMEN FINAL SEPTIEMBRE 2008 05/09/2008 APELLIDOS NOMBRE DNI NO DE LA VUELTA A ESTA HOJA HASTA QUE SE LO INDIQUE EL PROFESOR MIENTRAS TANTO, LEA ATENTAMENTE LAS INSTRUCCIONES

Más detalles

ELO 385 Laboratorio de Procesamiento Digital de Señales Laboratorio 4: Filtros digitales Parte I

ELO 385 Laboratorio de Procesamiento Digital de Señales Laboratorio 4: Filtros digitales Parte I 1 ELO 385 Laboratorio de Procesamiento Digital de Señales Laboratorio 4: Filtros digitales Parte I 0. Introducción Este laboratorio está compuesto por dos sesiones en la cuales se estudiarán filtros digitales.

Más detalles

Sistemas Lineales. Examen de Junio SOluciones

Sistemas Lineales. Examen de Junio SOluciones . Considere la señal xt) sinπt) Sistemas Lineales Examen de Junio 22. SOluciones a) Obtenga su transformada de Fourier, X), y represéntela para 7π. b) Calcule la potencia y la energía de xt). c) Considere

Más detalles

AUDIO DIGITAL. Diego Cabello Ferrer Dpto. Electrónica y Computación Universidad de Santiago de Compostela

AUDIO DIGITAL. Diego Cabello Ferrer Dpto. Electrónica y Computación Universidad de Santiago de Compostela AUDIO DIGITAL Diego Cabello Ferrer Dpto. Electrónica y Computación Universidad de Santiago de Compostela 1. Introducción Señal de audio: onda mecánica Transductor: señal eléctrica Las variables físicas

Más detalles

Comunicaciones Digitales

Comunicaciones Digitales Trabajo Práctico Codificación de Fuente Comunicaciones Digitales E.1 Una fuente tiene un alfabeto {a1,a, a3, a4, a5, a6} con sus correspondientes probabilidades {0.1,0.,0.3,0.05,0.15,0.}. Encontrar la

Más detalles

Comunicaciones Digitales - Capítulo 3 - Ejercicios

Comunicaciones Digitales - Capítulo 3 - Ejercicios CAPÍTULO 4. COMUNICACIONES DIGITALES. PROBLEMAS 1 Comunicaciones Digitales - Capítulo 3 - Ejercicios 1. Ejercicio 6.9 del libro: A. Artés, et al.: Comunicaciones Digitales. Pearson Educación, 007.. Ejercicio

Más detalles

TECNOLOGIAS DE LA VOZ

TECNOLOGIAS DE LA VOZ DEPARTAMENTO DE INGENIERÍA ELECTRÓNICA Y COMUNICACIONES CENTRO POLITÉCNICO SUPERIOR UNIVERSIDAD DE ZARAGOZA TECNOLOGIAS DE LA VOZ 5000 0-5000 señal original 200 250 300 350 Señal sintetizada 10000 5000

Más detalles

Unidad Temática 4: Comunicación en Banda Base Analógica

Unidad Temática 4: Comunicación en Banda Base Analógica Unidad Temática 4: Comunicación en Banda Base Analógica 1) Qué significa transmitir una señal en banda base? Los sistemas de comunicaciones en los cuales las señales transmitidas no sufren procesos de

Más detalles

Teoría de la Comunicación. a) Si X es una variable aleatoria con una distribución uniforme en el intervalo [ 2, 2], calcule las probabilidades

Teoría de la Comunicación. a) Si X es una variable aleatoria con una distribución uniforme en el intervalo [ 2, 2], calcule las probabilidades .6. Ejercicios Ejercicio.1 Se tiene una variable aleatoria X. a) Si X es una variable aleatoria con una distribución uniforme en el intervalo [, ], calcule las probabilidades i) P (X >1) ii) P (X > 1)

Más detalles

Figura 1. Espectro de la señal x(t) FPBanda π/3 -- 2π/3 (ideal) T Figura 2. Diagrama de bloques del sistema discreto

Figura 1. Espectro de la señal x(t) FPBanda π/3 -- 2π/3 (ideal) T Figura 2. Diagrama de bloques del sistema discreto EXAMEN DE PROCESADO DIGITAL DE LA SEÑAL EXAMEN DE PROCESADO DE LA SEÑAL AUDIOVISUAL Universidad Politécnica de Madrid. E.U.I.T. Telecomunicación Departamento de Ingeniería Audiovisual y Comunicaciones

Más detalles

INDICE 1. Panorama 2. Señales Analógicas 3. Señales Discretas 4. Sistemas Analógicos 5. Sistemas en Tiempo Discreto

INDICE 1. Panorama 2. Señales Analógicas 3. Señales Discretas 4. Sistemas Analógicos 5. Sistemas en Tiempo Discreto INDICE Prefacio XI Del Prefacio a la Primera Edición XIII 1. Panorama 1.0. Introducción 1 1.1. Señales 1 1.2. Sistemas 3 1.3. El dominio de la frecuencia 4 1.4. Del concepto a la aplicación 7 2. Señales

Más detalles

Maestría en Electrónica y Telecomunicaciones II-2011

Maestría en Electrónica y Telecomunicaciones II-2011 Comunicaciones Inalámbricas Capitulo 5: Multiplexación y acceso por división Sistemas OFDM Víctor Manuel Quintero Flórez Claudia Milena Hernández Bonilla Maestría en Electrónica y Telecomunicaciones II-2011

Más detalles

Transformadas de la imagen

Transformadas de la imagen Transformadas de la imagen Digital Image Processing, Gonzalez, Woods, Addison Wesley, ch 3 Transformadas de la imagen 1 Transformada de Fourier en el caso continuo Transformada de Fourier de una funcion

Más detalles

banda, mayor es la distorsión, y mayor es la probabilidad de que se cometan errores en el receptor.

banda, mayor es la distorsión, y mayor es la probabilidad de que se cometan errores en el receptor. banda, mayor es la distorsión, y mayor es la probabilidad de que se cometan errores en el receptor. Figura 1.10 Componentes en frecuencia de una onda cuadrada (T = 1/f). En la figura 1.11 se muestra una

Más detalles

3. ANÁLISIS DE SEÑALES

3. ANÁLISIS DE SEÑALES 3. ANÁLISIS DE SEÑALES 3.1 REGISTRO Y TRATAMIENTO DE SEÑALES Una señal se define como la historia de los valores de aceleración que mide un acelerómetro en determinado tiempo para un punto específico.

Más detalles

Identificación mediante el método de los mínimos cuadrados

Identificación mediante el método de los mínimos cuadrados Ingeniería de Control Identificación mediante el método de los mínimos cuadrados Daniel Rodríguez Ramírez Teodoro Alamo Cantarero Contextualización del tema Conocimientos relevantes aprendidos previamente:

Más detalles

Podemos distinguir dos técnicas fundamentales. Ambas se utilizan en estándar MPEG-2.

Podemos distinguir dos técnicas fundamentales. Ambas se utilizan en estándar MPEG-2. 5 CAPA DE AUDIO Aunque en este proyecto no se desarrolla el decodificador del audio MPEG-2 considero de interés introducir algunos conceptos. La parte de la norma que recoge estas ideas es la ISO/IEC 13818-3.

Más detalles

Instrumentación Electrónica

Instrumentación Electrónica Instrumentación Electrónica Tema 2: Sistemas de adquisición de datos Índice Objetivos Estructuras y dispositivos utilizados Fundamentos del muestreo de señales y discretización de amplitudes Muestreo de

Más detalles

Sistemas Lineales. Problemas de Muestreo (V2.0)

Sistemas Lineales. Problemas de Muestreo (V2.0) Sistemas Lineales Problemas de Muestreo (V2.0). Una señal continua x(t) se obtiene a la salida de un filtro pasobajo ideal con frecuencia de corte c = 000π. Si el muestreo con tren de impulsos se realiza

Más detalles

ANX-PR/CL/ GUÍA DE APRENDIZAJE. ASIGNATURA Procesado digital de la señal. CURSO ACADÉMICO - SEMESTRE Segundo semestre

ANX-PR/CL/ GUÍA DE APRENDIZAJE. ASIGNATURA Procesado digital de la señal. CURSO ACADÉMICO - SEMESTRE Segundo semestre ANX-PR/CL/001-01 GUÍA DE APRENDIZAJE ASIGNATURA Procesado digital de la señal CURSO ACADÉMICO - SEMESTRE 2016-17 - Segundo semestre GA_59EC_595000025_2S_2016-17 Datos Descriptivos Nombre de la Asignatura

Más detalles

Dar una breve semblanza sobre los Filtros Digitales, sus fundamentos y su principales características.

Dar una breve semblanza sobre los Filtros Digitales, sus fundamentos y su principales características. Filtros Digitales Objetivo Dar una breve semblanza sobre los Filtros Digitales, sus fundamentos y su principales características. Revisar la convolución como fundamentos de los filtros digitales junto

Más detalles

Seminario de Audio Ernesto López Martín Rocamora

Seminario de Audio Ernesto López Martín Rocamora Seminario de Audio 2005 Ernesto López Martín Rocamora Análisis espectral Representación temporal: Representación espectral: Motivación La respuesta de un sistema LTI a una sinusoide es una sinusoide de

Más detalles

Tratamiento de imágenes Adquisición y Digitalización

Tratamiento de imágenes Adquisición y Digitalización Tratamiento de imágenes Adquisición y Digitalización hamontesv@uaemex.mx http://scfi.uaemex.mx/hamontes Advertencia No use estas diapositivas como referencia única de estudio durante este curso. La información

Más detalles

Comunicaciones Digitales: Proceso de Conversión A/D

Comunicaciones Digitales: Proceso de Conversión A/D Comunicaciones Digitales: Proceso de Conversión A/D Señales Representación de fenómenos físicos CLIMA (Temperatura, Humedad, etc.) Sonido (Presión en un punto 3D) Grabación de Audio (Flujo Magnético) Fotografía

Más detalles

Modelos de producción de voz. Curso de doctorado 2001/2002 Inmaculada Hernáez

Modelos de producción de voz. Curso de doctorado 2001/2002 Inmaculada Hernáez Modelos de producción de voz Curso de doctorado 2001/2002 Inmaculada Hernáez inma@bips.bi.ehu.es Modelos de producción de voz Teoría de la producción del habla El sintetizador de formantes Teoría de la

Más detalles

Tema 5. Modulación por Código de Pulso (PCM) Materia: Comunicaciones Digitales Semestre: 6to. Carrera: ICE Febrero-Julio 2017

Tema 5. Modulación por Código de Pulso (PCM) Materia: Comunicaciones Digitales Semestre: 6to. Carrera: ICE Febrero-Julio 2017 Profa. Gabriela Leija Hernández Tema 5 Modulación por Código de Pulso (PCM) Materia: Comunicaciones Digitales Semestre: 6to. Carrera: ICE Febrero-Julio 2017 ESIME Unidad Zacatenco DEFINICIÓN DE PCM La

Más detalles

3.6. Soluciones de los ejercicios

3.6. Soluciones de los ejercicios 3 oluciones de los ejercicios Ejercicio 31 olución a) Las modulaciones y frecuencia de portadora son Figura (a): modulación AM convencional, con frecuencia de portadora f c = 100 khz Figura (b): modulación

Más detalles

1. Muestreo de Sistemas Continuos. 1. Muestreo de Sistemas Continuos 1

1. Muestreo de Sistemas Continuos. 1. Muestreo de Sistemas Continuos 1 . Muestreo de Sistemas Continuos. Muestreo de Sistemas Continuos.. Secuencias 4.2. Sistema Discreto 5.3. Ecuaciones en Diferencias 6.4. Secuencia de Ponderación de un Sistema. 7.5. Estabilidad 9.6. Respuesta

Más detalles

Modelo de producción de la voz

Modelo de producción de la voz Modelo de producción de la voz Fonética y fonémica Fonema: Unidad teórica básica para describir cómo la voz transporta un significado lingüístico. Sonido: Realización práctica de un fonema Fonémica: Estudio

Más detalles

Movimiento Ondulatorio

Movimiento Ondulatorio Movimiento Ondulatorio 1. El sonido emitido por un altavoz tiene un nivel de intensidad de 60 db a una distancia de 2 m de él. Si el altavoz se considera como una fuente puntual, determine: a) La potencia

Más detalles

Unidad 3. Técnicas de Modulación

Unidad 3. Técnicas de Modulación Unidad 3. Técnicas de Modulación 3.3 Modulación PCM. 3.4 Modulación DPCM y ADPCM. 3.5 Modulación Delta. 3.6 Multiplexado. 1 Modulación Digital En los sistemas de modulación por pulsos analógicos, la amplitud,

Más detalles

Tecnologías del habla

Tecnologías del habla Tecnologías del habla Inmaculada Hernaez Eduardo Lleida Eva Navas Alfonso Ortega Curso 2006/2007 Programa Introducción 1. Generación y percepción de la señal de voz Producción Modelos digitales Percepción

Más detalles

En general, el diseño de cualquier filtro digital es llevado a cabo en 3 pasos:

En general, el diseño de cualquier filtro digital es llevado a cabo en 3 pasos: En general, el diseño de cualquier filtro digital es llevado a cabo en 3 pasos: 1. Especificaciones: Antes de poder diseñar un filtro debemos tener algunas especificaciones, las cuales son determinadas

Más detalles

Pontificia Universidad Católica Argentina

Pontificia Universidad Católica Argentina CARRERA: Ingeniería Electrónica Pontificia Universidad Católica Argentina PROGRAMA DE SEÑALES Y SISTEMAS 330 PLAN DE ESTUDIOS 2006 - AÑO 2010 UBICACIÓN EN EL PLAN DE ESTUDIOS: 3 Año 1 Cuatrimestre CARGA

Más detalles

SEÑALES, SISTEMAS Y CONVOLUCION SEÑALES

SEÑALES, SISTEMAS Y CONVOLUCION SEÑALES SEÑALES, SISTEMAS Y CONVOLUCION SEÑALES Las señales se procesan para extraer información útil (Procesamiento de Señales) En este curso trataremos señales unidimensionales que poseen como variable independiente

Más detalles

Juegos Interactivos para la Rehabilitación Fonatoria

Juegos Interactivos para la Rehabilitación Fonatoria Juegos Interactivos para la Rehabilitación Fonatoria Autores: Ing. Eduardo González Moreira MSc.. Carlos Ariel Ferrer Riesgo Dra. María E. Hernández Díaz-Huici Ing. Eric Lisandro Acao Centro de Estudios

Más detalles

EJERCICIOS ONDAS PAU

EJERCICIOS ONDAS PAU EJERCICIOS ONDAS PAU 1 Una masa m oscila en el extremo de un resorte vertical con una frecuencia de 1 Hz y una amplitud de 5 cm. Cuando se añade otra masa, de 300 g, la frecuencia de oscilación es de 0,5

Más detalles

INDICE Capitulo 1. Introducción Capitulo 2. Descripción matemática de señales 2.1. Introducción y objetivos

INDICE Capitulo 1. Introducción Capitulo 2. Descripción matemática de señales 2.1. Introducción y objetivos INDICE Prefacio XIII Capitulo 1. Introducción 1 1.1. Definición de señales y sistemas 1 1.2. Tipos de señales 1 1.3. Ejemplo de una señal y un sistema 8 1.4. Uso de MATLAB 13 Capitulo 2. Descripción matemática

Más detalles

Figura 1: Propiedades de textura: (a) Suavidad, (b) Rugosidad y (c) Regularidad

Figura 1: Propiedades de textura: (a) Suavidad, (b) Rugosidad y (c) Regularidad 3 TEXTURA 3.1 CONCEPTO DE LA TEXTURA La textura es una característica importante utilizada en segmentación, identificación de objetos o regiones de interés en una imagen y obtención de forma. El uso de

Más detalles

Tema 4. Aplicaciones de La Transformada de Fourier. Indice:

Tema 4. Aplicaciones de La Transformada de Fourier. Indice: Indice: Aplicaciones de la Transformada de Fourier (Eléctricos) Modulación Modulación en Amplitud (AM) Modulación en Amplitud DSB-SC Multiplexación Teorema de Muestreo Modulación Amplitud de Pulso (PAM)

Más detalles

Sistemas Lineales e Invariantes a la Traslación

Sistemas Lineales e Invariantes a la Traslación 1. Sistemas Lineales e Invariantes a la Traslación 1.1 Motivación de las imágenes digitales Qué es una imagen digital? Es un arreglo de píxeles? 1.2 Las funciones sinusoidales Onda plana (viajera) que

Más detalles

Experimentos Introducción

Experimentos Introducción Capítulo 5 Experimentos 5.1. Introducción En este capítulo se describirán los desarrollos y resultados de los experimentos realizados con el sistema de reconocimiento de voz presentado en este proyecto.

Más detalles

Seminario de Procesamiento Digital de Señales

Seminario de Procesamiento Digital de Señales Seminario de Procesamiento Digital de Señales Unidad 5: Diseño de Filtros Digitales - Parte I Marcelo A. Pérez Departamento Electrónica Universidad Técnica Federico Santa María Contenidos 1 Conceptos Básicos

Más detalles

Desarrollo de una interfase para el diseño de filtros FIR a través del Método de Remez integrado a MFilters CAPITULO II FILTROS.

Desarrollo de una interfase para el diseño de filtros FIR a través del Método de Remez integrado a MFilters CAPITULO II FILTROS. CAPITULO II FILTROS 6 2.1 Introducción. La palabra filtro significa: material encargado de separar una cosa de otra. En otras palabras, un filtro tiene la capacidad de rechazar partes indeseables de la

Más detalles

CAPITULO 6. Sistemas de comunicación. Continuar

CAPITULO 6. Sistemas de comunicación. Continuar CAPITULO 6 Sistemas de comunicación Continuar Introducción Una señal en su frecuencia original no puede transmitirse por un medio de comunicación y por ello requiere ser trasladada a una nueva frecuencia,

Más detalles