INSTITUTO POLITÉCNICO NACIONAL

Tamaño: px
Comenzar la demostración a partir de la página:

Download "INSTITUTO POLITÉCNICO NACIONAL"

Transcripción

1 INSTITUTO POLITÉCNICO NACIONAL ESCUELA SUPERIOR DE INGENIERÍA MECÁNICA Y ELÉCTRICA UNIDAD PROFESIONAL ADOLFO LÓPEZ MATEOS INGENIERÍA EN COMUNICACIONES Y ELECTRÓNICA SÍNTESIS DE VOZ POR MEDIO DE UN FILTRO DE AUTOCORRELACIÓN LINEAL PROYECTO TERMINAL QUE PARA OBTENER EL TÍTULO DE: INGENIERO EN COMUNICACIONES Y ELECTRÓNICA PRESENTAN: ROSA EDITH CABRERA CORONA JORGE LUIS ORGAZ RODRÍGUEZ ASESORES: M. EN I. CARLOS MIRA GONZALEZ DR. RABINDRANATH RESÉNDIZ VÁZQUEZ MEXICO, D.F. 2015

2

3 Síntesis de Voz

4 CONTENIDO OBJETIVO GENERAL... 1 OBJETIVOS PARTICULARES... 1 JUSTIFICACIÓN... 2 PLANTEAMIENTO DEL PROBLEMA... 2 INTRODUCCIÓN... 3 CAPITULO 1. MARCO TEÓRICO Definición de Síntesis Servicios Basados en Síntesis de Voz Función de Transferencia del Tracto Vocal Modelo LPC (Codificación de Predicción Lineal) Método de Autocorrelación Ventanas de Hamming Analizador F.F.T CELP (codificador de predicción lineal con excitación por código) CAPÍTULO 2. ESTADO DEL ARTE Antecedentes Aplicaciones existentes con síntesis de voz CAPITULO 3. ANÁLISIS DEL SISTEMA Requerimientos funcionales del Sistema Estimación Parámetros LPC Coeficientes de Autocorrelación Algoritmo De Levinson-Durbin Enventanado de la señal de entrada Filtro FIR CELP (Predicción Lineal con Excitación por Codificación) Selección de Herramientas Página I

5 CAPITULO 4. PRUEBAS Obtención de señal original Espectrograma de la señal Síntesis de predicción lineal de voz sonora Síntesis de Predicción Lineal de Voz No sonora Síntesis de Predicción Lineal de un Archivo de Voz, con F0 Fija Síntesis de Predicción Lineal de un Archivo de Voz no sonoro Síntesis de Predicción Lineal de un Archivo de Voz, con F0 originales Análisis de Síntesis de un Archivo de Voz, CELP CONCLUSIONES LISTA DE ACRÓNIMOS REFERENCIAS ÍNDICE DE FIGURAS Figura1. 1 Modelo de predicción lineal para la voz... 9 Figura1. 2 Propiedades Ventana Hamming Figura1. 3 Interpretación Periodograma Figura1. 4 Ejemplo de imagen de espectrograma Figura 3. 1 Señal de Voz. "ESCUELA SUPERIOR DE INGENIERÍA MECÁNICA Y ELÉCTRICA" Figura 3. 2 Diagrama a Bloques de un LPC Figura 3. 3 Ejemplo de un procesamiento basado en el ventaneo del speech (longitud de trama de 30ms y un desplazamiento de 10 ms) Figura 3. 4 Filtro residual de predicción Figura 4. 1 Discurso de entrada el archivo: Señal de voz original. wav (forma de onda) Figura 4. 2 Espectrograma Página II

6 Figura 4. 3 Longitud de una trama de voz de 30 ms, tomada de una vocal (forma de onda) Figura 4. 4 Longitud de una trama de voz de 30 ms, tomada de una vocal (Periodograma) Figura 4. 5 Respuestas en frecuencia de los filtros inversos y síntesis Figura 4. 6 Respuesta de frecuencia del filtro de síntesis, superpuesta con el Periodograma de la trama Figura 4. 7 La predicción residual forma de onda Figura 4. 8 La predicción residual Figura 4. 9 La excitación LPC Figura La señal de excitación LPC (Periodograma) Figura i Artificial (izquierda forma de onda) Figura i Artificial (Periodograma) Figura Forma de Onda de una trama de voz no sonora de 30 ms de largo. 40 Figura Densidad espectral de potencia de una trama de 30 ms largo Figura 4 15 Forma de Onda de un LPC no sonoro Figura Forma de onda de un LPC no sonoro Figura No sonoro LPC habla sintética Figura Voz LPC Figura Zoom de 30 ms de voz LPC con la variable interna fija Figura Zoom en 30 ms de voz LPC con reajuste de variable interna Figura Voz LPC, con reajuste de variable interna Figura Discurso original con LPC Figura Espectrograma del discurso Figura CELP análisis síntesis de ventaneo. CELP excitación, comparación a predicción lineal residual. Abajo: voz sintética CELP comparación con discurso original Página III

7 Objetivo

8 OBJETIVO GENERAL Analizar los sistemas de síntesis de voz de tal manera que con el software implementado, la síntesis resultante mantenga suficientes grados de libertad para copiar la envolvente espectral de la señal de voz de entrada OBJETIVOS PARTICULARES Aplicar un algoritmo que trabaje con el modelo de Autocorrelación, para analizar la envolvente espectral, y tener como resultado una señal digitalizada que sea similar a la señal original. Página 1

9 Justificación

10 JUSTIFICACIÓN Debido a los temas tecnológicos de la actualidad como el mejoramiento de voz digitalizada, la codificación de voz para tecnología fija y celular, la sintetización y el reconocimiento de voz, se desarrolla un algoritmo de síntesis de voz con la finalidad de similar la naturalidad de la voz. PLANTEAMIENTO DEL PROBLEMA Debido a que la reproducción de la voz no se hace de forma natural, se debe conocer en que es basado la producción del habla, de que la glotis y el tracto vocal son totalmente desacoplados se propone un modelo denominado como el modelo de fuente - filtro, bien conocido como un sistema de predicción lineal o LP, es un procedimiento que, dada una señal del habla, permite definir la función de transferencia del filtro que la ha generado. Debido a la redundancia de las señales del habla como son la periodicidad y la variación relativamente lenta que permite la predicción de una señal muestreada a partir de muestras anteriores. Así como la separación de la estructura final del espectro que es el resultado de la fuente y del envolvente espectral, resultado del filtro. Construyendo una señal de audio la cual se encamina a través de la interfaz de Soundflower, un software sintetizador, el cual se conecta en la entrada de audio de Audacity. Generalizando este enfoque, se analizara el contenido del archivo de voz grabado, al cual se le realiza un Análisis LP y un Enventanado de V/UV. Donde finalmente se da a conocer el discurso sintético resultante. Página 2

11 Introducción

12 INTRODUCCIÓN La voz es el principal modo de comunicación entre los hombres y consecuentemente se han estudiado los mecanismos de producción de voz humana y se han creado sistemas capaces de simular y reconocer voz electrónicamente. Uno de los mayores problemas encontrados en los estudios sobre el habla ha sido el de la variabilidad en ésta. En un gran número de estudios se ha demostrado que varios aspectos del locutor, incluyendo edad, sexo, y personalidad pueden identificarse solamente por la voz. Todos estos factores, que son diferentes para cada interlocutor contribuyen a la variabilidad del habla. Los métodos para sintetizar voz han cambiado mucho a lo largo de los años, desde los primeros sistemas que utilizaban dispositivos eléctricos y resonantes mecánicos hasta los sintetizadores modernos que emplean ordenadores o circuitos digitales de diseño específico. Los sistemas de síntesis de voz atienden a las reglas que se utilizan para la reconstrucción de la voz, en el modelado matemático de generar voz, en la programación estructurada y en el diseño hardware de los ordenadores. El progreso en esta área se debe al auge de la tecnología, por lo que a lo largo del tiempo la síntesis de voz se ha desarrollado hasta convertirse en una de las herramientas vitales de la tecnología, su aplicación en esta área es significante y de gran uso. La síntesis de voz es frecuentemente empleada para ayudar a aquellas personas con discapacidades comunicativas, usualmente a través de una voz de ayuda, significando así que la persona mediante la voz pueda manejar el ordenador, y a su vez el ordenador pueda comunicarse con la persona emitiendo sonidos inteligibles. La síntesis de voz, combinada con el reconocimiento de voz, permite la interacción con dispositivos móviles a través de interfaces de procesamiento de lenguajes naturales. Página 3

13 Muchos sistemas y dispositivos utilizan la voz sintetizada. El progreso en esta área ha sido posible debido a los avances de las pruebas lingüísticas, esto es debido al modelo de caracterización acústica-fonética de los sonidos. Los sintetizadores derivados de las técnicas de predicción lineal (LP): Son sintetizadores de análisis-síntesis, en los que los parámetros que controlan la función de transferencia del filtro que simula el tracto vocal son parámetros LPC. Estos sintetizadores se basan en la teoría acústica de producción de voz, que en su forma más sencilla, dice que es posible ver la voz como el resultado de la excitación de un filtro lineal por una o más fuentes sonoras. Hoy en día se puede ver cómo diversos sistemas operativos incorporan en sus aplicaciones la posibilidad de ejecutar el reconocimiento y síntesis de voz con la que se pueden manejar todas las opciones de un sistema, desde redactar un documento hasta leer un y por supuesto ejecutar casi cualquier orden. [1] A esta interacción que se realiza se la conoce como comunicación hombremáquina mediante la voz y son muchas las empresas que se dedican a mejorarla ya que se busca un sonido más natural de esta manera, se consigue eliminar el escalón psicológico al que se enfrenta un ser humano a la hora de interactuar con una máquina. Página 4

14 CAPÍTULO 1 Marco Teórico

15 CAPITULO 1. MARCO TEÓRICO En este apartado se dan a conocer todos los principios necesarios para entender el funcionamiento del presente trabajo. 1.1 Definición de Síntesis La síntesis de voz deriva del latín synthĕsis, significa composición de un todo por la unión de sus partes, sus componentes léxicos son el prefijo syn que quiere decir conjunto, a la vez y thesis indica que es posición y conclusión pero además se encuentra en el vocablo griego σύνθεσις. 1.2 Servicios Basados en Síntesis de Voz Está orientado principalmente para trabajar en un entorno telefónico aunque tiene una amplia compatibilidad y una previa adaptación, en otros recursos o modelos acústicos, con distintos entornos de trabajo que van desde los sectores de call centers, domótica, seguridad, aplicaciones de PC, aplicaciones industriales, móviles, PDA y, en general, cualquier entorno que requiera o disponga de un sistema de manos libres. [2] 1.3 Función de Transferencia del Tracto Vocal. El filtro lineal simula los efectos resonantes del tubo acústico formado por la faringe, la cavidad bucal y los labios. La función de transferencia de este tracto vocal puede modelarse como un conjunto de polos (cada par de polos complejos conjugados produce un pico local en el espectro, conocido como formante). A veces, la representación de la función de transferencia del tracto vocal en términos de polos se ha completado con ceros (anti resonadores) para modelar las Página 5

16 propiedades absorbentes del sonido que tienen los tubos secundarios en articulaciones complejas como las nasales, las vocales nasalizadas y las fricativas. [3] Si se considera que el efecto de los ceros es poco perceptible acústicamente, se llega a un modelo, para modelar la función de transferencia del tracto vocal Fuente sonora Mediante un micrófono es posible captar la onda de presión sonora emitida por un orador y convertirla en una señal eléctrica, existen sonidos en los cuales nuestras cuerdas vocales, vibran y otros entran en reposo. Esto nos permite realizar una clasificación en dos tipos de sonidos: Sonidos sonoros: en ellos las cuerdas vocales vibran y el aire pasa a través del tracto vocal sin impedimentos importantes. Sonidos no sonoros: en ellos las cuerdas vocales no vibran y existen restricciones importantes al paso del aire que proviene de los pulmones, por lo que son la amplitud menor y normalmente de naturaleza más ruidosa que los sonoros [4] Formantes de Vocales El término formante se refiere a los picos del espectro de armónicos de un sonido complejo. Están usualmente asociados pero no necesariamente, con algún tipo de resonancia de la fuente. Debido a su origen resonante, cuando cambia la frecuencia de la F 0 tienden a permanecer esencialmente igual. Los formantes del sonido de la voz humana son particularmente importantes porque son componentes esenciales en la inteligibilidad del habla. Página 6

17 La distinguibilidad de los sonidos vocales se puede atribuir a las diferencias en sus tres primeras frecuencias formantes. La producción de diferentes sonidos de vocales, consiste en sintonizar estos formantes dentro de un rango general de frecuencias [5] Señal de Excitación En los segmentos sonoros se obtiene el valor de la frecuencia fundamental de vibración de las cuerdas vocales, o valor de pitch. Dado que la fisiología del aparato fonador humano establece límites superior e inferior del valor de pitch que varían entre 50 y 800 HZ, se asigna un valor de pitch nulo a las tramas etiquetadas como no sonoras. De este modo se establece un parámetro que debe ser transmitido al sistema receptor. [6] Duración. La duración es la componente de la prosodia descrita por la velocidad del habla y la situación de los acentos, y cuyos efectos son el ritmo y la velocidad. El ritmo en el habla deriva de la situación de los acentos y de la combinación de las duraciones de las pausas y de los fonemas. El número de pausas y su duración dependerá del locutor ya que si este se encuentra exaltado tenderá a hablar rápidamente con menos pausas y más cortas [7] 1.4 Modelo LPC (Codificación de Predicción Lineal) La idea básica detrás del modelo LPC es que dada una muestra de voz en un tiempo n, s(n) puede ser aproximada como una combinación lineal de las p muestras de voz pasadas, de forma que: Página 7

18 s( n) a1s( n 1) a21s( n 2) ap 1s( n p) (1) Donde los coeficientes a1, a2,, ap. se asumen constantes sobre la trama de voz analizada. Se convierte la ecuación (1) en una igualdad incluyendo el término de excitación G u(n), dando: p s( n) a k 1 k s( n k) Gu( n) (2) Donde u(n) es una excitación normalizada y G es la ganancia de la excitación. Expresando a (2) en el dominio de z, se tiene: p S( z) ak z k 1 k S( z) GU( z) (3) Que conduce a la función de transferencia: S( z) H( z) GU( z) 1 p 1 k 1 a k z k 1 A( z) (4) La interpretación de la ecuación (4) se proporciona en la figura 1, que muestra una fuente de excitación normalizada, u(n), escalada por una ganancia G, y que actúa como entrada del sistema todo-polos 1 H ( z) para producir una señal A( z) de voz, s(n). Página 8

19 U (n) A (z) S (n) G Figura1. 1 Modelo de predicción lineal para la voz Basado en el conocimiento de que la función de excitación para la voz es esencialmente: un tren de impulsos cuasi-periódicos (para sonidos de voz sonoros) o una fuente de ruido aleatorio (para sonidos no sonoros) Predicción Lineal La síntesis por predicción lineal es un método diseñado originalmente para sistemas de codificación del habla. Sin embargo también se utiliza en sistemas de síntesis de voz por concatenación y en la síntesis estadística por su utilidad para realizar manipulaciones de la frecuencia fundamental y la duración de los fonemas. Esta técnica se basa en los mismos principios que la síntesis por formantes, donde una señal de excitación se pasa por un filtro para obtener la voz sintética. En este caso, el filtro solamente está constituido de polos, y se modela como una secuencia de coeficientes que minimizan el error de predicción lineal de la señal: e (n) = y(n) X p k=1 a(k)y(n k) = y(n) yˆ(n) (5) El principio básico de la predicción lineal se basa en el hecho que la muestra y(n) puede ser predicha usando un conjunto p muestras y(n 1) a y(n p) a través de una combinación lineal, y que presentará un error e(n) llamado señal de residuo. Página 9

20 En la fase de síntesis la señal de excitación se puede aproximar por un tren de impulsos para los sonidos sonoros y por ruido aleatorio, para sonidos no sonoros. Dicha señal de excitación es amplificada y filtrada por el filtro digital cuyos coeficientes son a(k). La principal deficiencia del algoritmo original de predicción lineal es la representación del tracto vocal como un modelo que tiene solamente polos, lo cual es una modelización pobre para aquellos sonidos que poseen anti formantes, como es el caso de las consonantes nasales y las vocales nasalizadas. Otro aspecto a tener en cuenta es que el modelado de la señal en base a un conjunto de predictores lineales implica que el filtro todos-polos también modelará el filtro glotal. En consecuencia, el filtro modela tanto el tracto vocal como el filtro glotal. Esto es una gran diferencia con respecto al sintetizador basado en formantes que posee un filtro glotal para producir una forma más precisa y realista la señal glotal de volumen-velocidad. La simplicidad de la señal de excitación en la síntesis por predicción lineal (mediante impulsos) produce un sonido resultante metálico, semejante a un zumbido, que degrada la calidad y la naturalidad de la voz resultante. La calidad de la síntesis por predicción lineal se considera en general pobre. Sin embargo, algunas modificaciones y extensiones del modelo básico mejoran la calidad obtenida. Página 10

21 1.5 Método de Autocorrelación Una manera bastante simple y directa de definir los límites para m en las sumatorias es asumir que el segmento de voz, S n (m), es igual a cero fuera del intervalo 0 m N 1. Esto es equivalente a asumir que la señal de voz, s(m + n), es multiplicada por una ventana de longitud finita, w(m), que es idéntica a cero fuera del rango 0 m N 1. Por tanto la muestra de voz para la minimización puede ser expresada como: s n s( m n) w( m), ( m) 0, 0 m N c. c. 1 (6) Basándose en la ecuación 6, para m < 0, la señal de error en (m) es exactamente cero ya que S n (m) = 0 para toda m < 0 y por tanto no existe error de predicción. Además, para m > N 1 + p no existe tampoco error de predicción porque S n (m) = 0 para toda m > N 1. Sin embargo, en la región en que m = 0 (es decir, de m = 0 a m = p 1) la señal de voz a la que se aplicó la ventana S n (m) está siendo predicha a partir de las muestras anteriores, algunas de las cuales son arbitrariamente cero. Por lo tanto existe la posibilidad de errores de predicción relativamente grandes en esta región. Además, en la región de m = N 1 (es decir, de m = N 1 a m = N 1 + p) también existe la posibilidad de errores grandes de predicción porque la señal de voz a la que se dio un peso cero está siendo predicha a partir de al menos algunas muestras anteriores diferentes de cero. Página 11

22 Estos dos efectos son especialmente prominentes para voz sonora cuando el inicio del periodo del tono ocurre muy cerca de los puntos de la muestra m = 0 o m = N 1. Para voz no sonora, estos problemas son esencialmente eliminados porque la señal no posee partes sensibles a la posición. El propósito del ventaneo descrito en la ecuación (6) es disminuir la amplitud de la señal cerca de m = 0 y cerca de m = N 1 para minimizar los errores en los límites de la sección. 1.6 Ventanas de Hamming. Richard Wesley Hamming fue un matemático estadounidense que trabajó en temas relacionados con la informática y las telecomunicaciones. Sus principales contribuciones a la ciencia han sido el código Hamming, la ventana Hamming y la distancia Hamming Descripción Ventanas Hamming. Se utiliza con el fin de evitar que las discontinuidades introducidas al analizar solo una fracción de la señal o al introducir muestras con valor de cero introduzcan componentes de alta frecuencia en el espectro, que son más bien las discontinuidades introducidas. Ya que la transformada rápida de Fourier asume que la señal es periódica, es conveniente siempre hacerle un procedimiento de ventaneo a la señal con la que se quiere trabajar. La ventana de Hamming se define a través de la función: w(k + 1) = cos (2π ( k )), k = 0,, n 1 (7) n 1 Página 12

23 1.6.2 Propiedades de la ventana Hamming Discontinuidades golpean a cero en los extremos. Lóbulo principal es 4MΩ de ancho. Lóbulos laterales decaen a una tasa de 6 db / octava.[8] Figura1. 2 Propiedades Ventana Hamming 1.7 Analizador F.F.T. de Fourier. La F.F.T. son las siglas de "Fast Fourier Transform", Transformada Rápida Los analizadores F.F.T. están basados en la obtención del espectro de una señal mediante un algoritmo de cálculo denominado Transformada Rápida de Fourier (F.F.T.). Página 13

24 Este algoritmo permite calcular la transformada discreta de Fourier de cualquier señal con una reducción muy notable de operaciones aritméticas, y el consiguiente ahorro de tiempo de cálculo. [9]. Cabe señalar que la aparición de esta técnica de obtener espectros de señales revolucionó todos los conceptos del análisis frecuencial. El funcionamiento consiste en tomar muestras (valores discretos) de la señal continua y, con estas muestras y aplicando una expresión matemática descubierta por el matemático Fourier, se obtiene el espectro correspondiente a la señal que se ha medido. Por lo tanto, todo el proceso se reduce a digitalizar la señal continua a analizar y efectuar un cálculo numérico. La precisión de los analizadores de Fourier se evalúa a través del número de líneas que pueden representar, siendo los valores más habituales los de 256, 400 y 800 líneas. Cada línea corresponde a una banda de frecuencia de ancho constante y el valor de la frecuencia más alta analizada dividida por el número de líneas calculadas. Una de las grandes ventajas del análisis F.F.T. es la posibilidad de efectuar un zoom de una zona concreta del espectro obtenido, donde el sentido de zoom es el mismo que en fotografía. Los analizadores F.F.T. extraen muestras de la señal temporal. Este depende de la frecuencia superior que se va a analizar. El primer inconveniente surge del método de cálculo del espectro, ya se considera las muestras de tiempo se repiten indefinidamente, de aquí que las señales continuas ocurren a veces con irregularidades, pues la señal queda como cortada o distinta a como es en realidad, con la distorsión que esto produce en el análisis. Como características importantes que se le debe pedir a un F.F.T. están: Página 14

25 Analizador Tiempo Real hasta frecuencia alta. Salida de Interface. Zoom, si es posible, que sea no destructivo Cuantización La representación de las ondas análogas producidas por la señal de la voz, puede tomar infinidad de valores posibles, así que para poder llevar a cabo el proceso de digitación es necesario que estos valores infinitos sean mapeados a intervalos de valores finitos posibles para su representación. A este proceso de mapeo se le conoce como cuantización. [10] Muestreo La mayor parte de la energía de la voz se encuentra entre 80 y 8000 Hz, pero los test realizados mediante filtrado paso banda, revelan que la inteligibilidad del habla no varía si el componente energético por encima de los 5000 Hz se elimina, no viéndose decrementada tampoco en gran medida la naturalidad del habla. [10] Periodograma Es empleado para detectar estacionalidad en una serie y determinar su periodo. Puede descomponerse como suma de un número finito o infinito de frecuencias. Del mismo modo, a partir de la representación frecuencial puede recuperarse la serie original a través de la Transformada Inversa de Fourier. El Periodograma mide aportaciones a la varianza total de la serie de componentes periódicos de una frecuencia determinada (w).si el Periodograma presenta un Página 15

26 pico en una frecuencia, indica que dicha frecuencia tiene mayor importancia en la serie que el resto [11] Figura1. 3 Interpretación Periodograma Espectrograma El espectrograma (también llamado sonograma) consiste en la representación gráfica del espectro de frecuencias de la emisión sonora. El espectrograma puede revelar rasgos -como altas frecuencias o modulaciones de amplitud- que no pueden apreciarse incluso aunque estén dentro de los límites de frecuencia del oído humano. Para la obtención del espectrograma se aplica una transformada de Fourier inicialmente a la señal. Dependiendo del tamaño de la ventana que se ha utilizado para el análisis de Fourier se obtienen diferentes niveles del espectrograma. Si se aplica una ventana muy grande obtendrá un espectrograma muy detallado Página 16

27 pero a costo de incrementar el tiempo de cálculo necesario para esta operación. Para el caso de una ventana demasiado pequeña el efecto es el inverso y no se El espectrograma sirve para analizar la sonoridad, la duración, la estructura de los formantes (timbre), la intensidad, las pausas, y el ritmo Normalmente, un espectrograma representa el tiempo sobre el eje horizontal, la frecuencia sobre el eje vertical y la amplitud de las señales mediante una escala de grises o de colores. Como se muestra en la figura 1.4. Figura1. 4 Ejemplo de imagen de espectrograma. Página 17

28 1.8 CELP (codificador de predicción lineal con excitación por código) CELP dado a conocer por los científicos Schroeder y Atal en el año de 1985, permite que se extienda aún más la idea de la codificación de voz de análisis por síntesis, utilizando el concepto de cuantificación vectorial (VQ) para la secuencia de excitación. En este enfoque, el codificador selecciona una secuencia de excitación de un predefinido libro de códigos estocásticos de posibles secuencias y sólo envía el índice de la secuencia seleccionada al decodificador, que tiene un libro de códigos similares. El algoritmo CELP se basa en cuatro ideas principales, usando el modelo de Predicción Lineal (LP), el uso de un libro de códigos, realiza una búsqueda de bucle cerrado y la aplicación de la cuantificación vectorial (VQ). Página 18

29 CAPÍTULO 2 Estado del Arte

30 CAPÍTULO 2. ESTADO DEL ARTE. 2.1 Antecedentes En el año de 1779, Christian Gottlieb Kratzenstein, científico danés, que trabajaba en esa época en la Academia Rusa de las Ciencias, construyó modelos del tracto vocal que podría producir las cinco vocales largas (a, e, i, o y u). Wolfgang von Kempelen de Vienna, Austria, describió en su obra Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("mecanismo del habla humana con descripción de su máquina parlante.j.b. Degen, Wien) una máquina accionada con un fuelle. Esta máquina tenía, además, modelos de la lengua y los labios, para producir consonantes, así como vocales. En el año de 1930, los laboratorios Bell Labs desarrollaron el VOCODER, un analizador y sintetizador del habla operado por teclado que era claramente inteligible. Homer Dudley refinó este dispositivo y creo VODER, que exhibió en la Exposición Universal de Nueva York de Los primeros sintetizadores de voz sonaban muy robóticos y eran a menudo inteligibles. El primer sistema de síntesis computarizado fue creado a final de la década de 1950, durante una investigación realizada por AT&T. este sistema tuvo que ser entrenado para reconocer el discurso de cada locutor individuamente. Más tarde en esa misma época, se creó un sistema que reconocía consonantes y vocales. En los años 60 s se trabajó en el área de reconocimiento de voz y a comprender la complejidad del desarrollo de una verdadera aplicación dentro de la síntesis de voz. El impacto de esta investigación se reflejó más adelante durante los años 70 s donde se desarrollaría el primer sistema de reconocimiento comercial. Por otra parte la ARPA (Defense Advanced Research Projects Agency) de la sección americana de defensa se mostró interesada en la investigación de reconcomiendo Página 19

31 de voz enfocados en el habla continua y usando palabras aisladas. En esta misma época se desarrollaron técnicas basadas en el modelado probabilístico y algoritmos de retro propagación. Durante los años 80 s hubo grandes avances tecnológicos se desarrollarían modelos basados en patrones a métodos de modelado probabilístico como los modelos de Markov (HMM), estos mismos modelos fueron utilizados para los años 90 s donde la calidad del habla sintetizada ha mejorado en gran medida. En la actualidad y a pesar del éxito de los sintetizadores puramente electrónicos, sigue investigándose en sintetizadores ya que se busca obtener las cualidades más importantes de los sistemas de síntesis de voz que son la "naturalidad" y la "inteligibilidad". [12] 2.2 Aplicaciones existentes con síntesis de voz. Las mejores aplicaciones para sistemas operativos Android 1.6 y versiones superiores. IVONA TTS HQ Una de las aplicaciones más conocidas de sintonización de voz, su voz está diseñada para el idioma castellano. Esta aplicación reconoce textos escritos y leerlos en voz alta y clara. De momento esta app se encuentra en fase de desarrollo. Debido a la falta de claridad que brinda la voz y el texto. SVOX Classic TTS Esta aplicación dispone de elegir entre cuarenta voces diferentes (en función del idioma), tanto masculinas como femeninas, para leer en voz alta los textos. Puede ser combinada con otras aplicaciones, de forma que por medio de voz menciona Página 20

32 recordatorios, direcciones, alarmas o notificaciones o mostrar la pronunciación correcta de una palabra en otro idioma. Type and Speak La escritura la dirá en voz alta, y es capaz de guardar los sonidos como tonos de llamada o de aviso. Permite leer el contenido de una página web o de una aplicación en Voz alta mientras se realiza otra tarea. Aplicación desarrollada especialmente para sistema operativo ios 5. SIRI Los usuarios pueden pedir a Siri para crear listas o elementos en la aplicación Recuerda, jugar géneros específicos, artistas o canciones en el ipod, buscar o escribir correos electrónicos y mensajes de texto ; comprobar el tiempo según el lugar y fecha de caducidad; o buscar indicaciones para llegar a un ubicación específica usando la aplicación Mapas. Siri responde a todas las consultas con un mensaje multimedia que aparece en el texto y hablado en voz alta utilizando la síntesis de voz. La respuesta inicial sintetizado pide al usuario verificar que Siri ha reconocido la tarea correcta para llevar a cabo. Tras recibir el visto bueno por parte del usuario, Siri responde de nuevo y realiza la tarea. La aplicación de síntesis de voz para Windows y Linux. Espeak Espeak es un sintetizador de voz de código abierto creado. Es compatible con 43 idiomas. Google ha integrado aspectos de la misma en sus Google Voice y Google Translate. [13] Página 21

33 CAPÍTULO 3 Análisis del Sistema

34 CAPITULO 3. ANÁLISIS DEL SISTEMA En este apartado se narran las acciones que nos llevan al funcionamiento del sistema de síntesis de voz. 3.1 Requerimientos funcionales del Sistema Las ondas sonoras mantienen límites de frecuencias los cuales se extienden de aproximadamente 20 Hz a cerca 20 KHz, dichos límites son capaces de estimular el oído humano para ser percibidas en el cerebro como una sensación acústica. Y son más conocidos como límites de audición. En base a esto nuestra señal de audio se trabajara a una frecuencia de muestreo de 8kHz a 16 bits, como parte del requerimiento del sistema Señal de audio Por medio del programa Audacity se grabó una señal de audio con la frase Escuela Superior de Ingeniería Mecánica y Eléctrica, con formato WAV. La cual llamaremos Señal de Audio Original.WAV. Características del audio Audio con frecuencia de muestreo de 8000Hz a 16 bits. Audio con duración de 4.5 Segundos. Página 22

35 Figura 3. 1 Señal de Voz. "ESCUELA SUPERIOR DE INGENIERÍA MECÁNICA Y ELÉCTRICA" Análisis de Voz Lo que se busca es minimizar las diferencias acústicas entre la señal original y la que es producida por el modelo de la figura 3.2, utilizando de manera practica un conjunto de predicción de coeficientes lo cual implica estimar los valores de los parámetros LPC. Figura 3. 2 Diagrama a Bloques de un LPC Página 23

36 3.2 Estimación Parámetros LPC Desde la excitación del modelo LPC (pulsos o ruido blanco) se tiene una envolvente espectral, esto significa que la respuesta de frecuencia del filtro de la síntesis coinciden aproximadamente con la envolvente espectral de s (n), y la envolvente espectral de la residual LP será a próximamente plana. El desarrollo de este criterio nos lleva al filtro lineal Levinson-Durbin, cabe hacer notar que este filtro sólo se basa en la Autocorrelación, esto la idea de que nuestro oído es más sensible al espectro de amplitud que al espectro de fase). Como las señales de voz no son estacionarias, el modelo LPC se aplica sobre tramas de voz (típicamente 30 ms de largo, con una superposición de 20 ms), en la que la señal se supone que es estacionaria dada la inercia de las muestras. 3.3 Parámetro LPC10 Describe un codificador de Voz, el cual presenta la voz en un conjunto de parámetros. Por otra parte, el codificador LPC10 es muy sensible a la eficiencia de su algoritmo de detección de voz sonora y voz no sonora, también con la estimación de f 0. Este código es utilizado ya que tiene mejores propiedades de cuantificación. 3.3 Coeficientes de Autocorrelación Dichos coeficientes de Autocorrelación se estiman en un número limitado de muestras (digamos 240 muestras, por 30 ms de discurso con una frecuencia de muestreo de 8 khz). El orden de predicción que es también el número de polos tiene como resultante los suficientes grados de libertad para poder copiar la envolvente espectral de la señal de voz de entrada. Página 24

37 Puesto que no es de aproximadamente uno por cada formante khz de ancho de banda de la palabra, se requieren al menos 2 polos * B (Donde B es el ancho de banda de la señal en khz, es decir, la mitad de la frecuencia de muestreo). 3.4 Algoritmo De Levinson-Durbin Aunque se puede utilizar otro tipo de algoritmo de inversión de la matriz clásica, se prefiere el llamado algoritmo de Levinson-Durbin por su velocidad, ya que tiene en cuenta la estructura especial de la matriz. Los coeficientes de predicción se calculan para cada ventana (es decir, por lo general cada 10 a 20 ms). Figura 3. 3 Ejemplo de un procesamiento basado en el ventaneo del speech (longitud de trama de 30ms y un desplazamiento de 10 ms) 3.5 Enventanado de la señal de entrada. Las muestras de voz se ponderan utilizando una ventana de ponderación (típicamente una ventana de Hamming 30 ms de longitud). Esto evita que las primeras muestras de cada ventana, no se puedan predecir correctamente, y tengan demasiado peso mediante la producción de valores altos. Página 25

38 La S.T.F.T. impone una secuencia de ventanas temporales de la señal de entrada, es decir, divide la señal en fragmentos cortos (short time) delimitados en el tiempo por una función ventana. Una ventana no es nada más que un tipo específico de envolvente que se aplica para un análisis espectral. La duración de la ventana está normalmente comprendida entre 1 ms y 1 s, y los segmentos a veces se superponen. A través del análisis espectral individual de cada segmento enventanado, se obtiene una secuencia de medidas (de espectros) que constituyen el espectro variable a lo largo del tiempo donde el sonograma muestra un enventanado del sonido. El enventanado por medio de la S.T.F.T. desafortunadamente, tiene la desventaja de producir distorsiones en la medida del espectro, ya que el analizador de espectro no mide sólo la señal de entrada sino el producto de la misma por la ventana. El espectro que resulta es la convolución del espectro de la señal de entrada y el espectro de la ventana. Se observara más adelante las implicaciones de este hecho. 3.6 Filtro FIR Una forma de mejorar la calidad de la voz por medio de los parámetros LPC es reducir las restricciones a la excitación al LPC, a fin de permitir un mejor modelado de la predicción residual, pasando este residuo a través del filtro de síntesis 1 / A ( z ) fig. 3.4 el cual produce el discurso original. Página 26

39 Figura 3. 4 Filtro residual de predicción 3.7 CELP (Predicción Lineal con Excitación por Codificación) CELP se conecta en cascada con el filtro de síntesis, aprovechando la periodicidad de sonidos sonoros para mejorar la eficiencia del libro de códigos. La idea de CELP es precisamente realizar la cuantificación vectorial en LP secuencias residuales. Dada la alta variabilidad de tramas de voz, sin embargo, (debido a cambios en la excitación glotal y vocal tracto), tramas de voz vector cuantificado sólo sería posible con un muy gran libro de códigos. La gran idea de CELP es precisamente para realizar VQ en LP secuencias residuales. El residuo LP tiene una envolvente espectral plana, lo que hace que sea más fácil de producir una pequeña pero de alguna manera libro de códigos exhaustiva de LP secuencias residuales Selección de Herramientas Matlab, abreviatura de MATrix LABoratory, ("Laboratorio de Matrices") es una herramienta de software matemático que ofrece un entorno de desarrollo integrado con un lenguaje de programación propio. Página 27

40 Este lenguaje es interpretado, y puede ejecutarse tanto en el entorno interactivo, como a través de un archivo de script (archivos *.m). MATLAB provee funciones para visualizar datos en 2D y 3D. Audacity, es un editor de audio gratuito. Con este software es posible grabar sonidos, reproducir, importar y exportar archivos WAV, AIFF, y MP3. También es utilizado para editar sonidos usando Cortar, Copiar y Pegar, mezclar pistas, o aplicar efectos a las grabaciones. Posee un editor de envolvente de amplitud propio, un modo espectrograma ajustable a medida y una ventana de análisis de frecuencia para aplicaciones de análisis de audio. Página 28

41 CAPÍTULO 4 Pruebas

42 CAPITULO 4. PRUEBAS 4.1 Obtención de señal original Se inicia cargando un archivo tipo wav con nombre " Señal de voz original.wav, escuchando, y trazando sus muestras. Este archivo contiene la frase ("Escuela Superior de Ingeniería Mecánica y Eléctrica ") muestreados a 8kHz, con 16 bits. Figura 4. 1 Discurso de entrada el archivo: Señal de voz original. wav (forma de onda). Página 29

43 4.2 Espectrograma de la señal Figura 4. 2 Espectrograma. En esta imagen, los periodos de tono aparecen como líneas verticales, ya que la longitud de tramas de análisis es muy pequeña, algunos marcos caen sobre los picos de periodos de tono, y por lo tanto aparecen como más oscuro (respuesta, más ligeros) líneas verticales. En contraste, los formantes (frecuencias resonantes del tracto vocal) aparecen como trazas horizontales más oscuras (y bastante anchas). Aunque su frecuencia no es fácil de medir con precisión, los expertos buscan en un espectrograma la forma de leerlo (es decir adivinar las palabras correspondientes). Esto muestra claramente que los formantes Página 30

44 (frecuencias resonantes del tracto vocal) son un buen indicador de los sonidos del habla subyacentes. Sin embargo, la forma de onda del habla no es entendible, incluso por un Fonetista experto. La información (fonética) está oculta. Para aclarar, la interpretación, se traza un espectrograma de la señal (Fig.4.2). Para un mejor resultado gráfico, se elige un espectrograma de banda an El discurso sintético resultante es inteligible. Se muestran los mismos formantes de la voz original. Por tanto, es acústicamente similar ésta, excepto por el bus adicional que se ha añadido por el modelo LP. cha, eligiendo la longitud de cada ventana de aproximadamente 5 ms de largo (40 De las muestras) y una ventana de ponderación Hamming. 4.3 Síntesis de predicción lineal de voz sonora Se extraerá una ventana de 30 ms de una parte sonora (es decir, 240 muestras) del archivo utilizado, y la trama de sus muestras (Fig.4.3). Figura 4. 3 Longitud de una trama de voz de 30 ms, tomada de una vocal (forma de onda). Página 31

45 Ahora se observa representada por su periodograma (Fig.4.4). el contenido espectral de esta misma trama de voz, Figura 4. 4 Longitud de una trama de voz de 30 ms, tomada de una vocal (Periodograma) El espectro de potencia de un proceso aleatorio estacionario en sentido amplio es la transformada de Fourier de la secuencia de autocorrelación. El algoritmo de estimación LPC se llama Levinson-Durbin donde se eligen a los coeficientes de un filtro FIR. De modo que al pasar la trama de entrada en A(z), la salida, conocida como predicción residual, tiene energía mínima. Se puede demostrar que esto conduce a un filtro que tiene anti-resonancia donde la trama de entrada contiene un formante. Por esta razón, el filtro A(z) se denomina como Página 32

46 filtro "inverso. Trazando su respuesta en frecuencia (de 512 puntos), y 1 superponiéndola a la del filtro de "síntesis" A(z) (Fig.4.5) Figura 4. 5 Respuestas en frecuencia de los filtros inversos y síntesis. Se puede observar, la respuesta en frecuencia del filtro que coincide con la envolvente de la amplitud espectral de la trama. Página 33

47 Al aplicar la respuesta inversa de este filtro para la trama de entrada, se obtiene la predicción residual. Se superpone esta respuesta en frecuencia para el periodograma de la vocal (Fig.4.6). Figura 4. 6 Respuesta de frecuencia del filtro de síntesis, superpuesta con el Periodograma de la trama La respuesta de frecuencia del filtro coincide con la envolvente de amplitud espectral de la trama. (Fig.4.4). Página 34

48 Al aplicar la inversa de este filtro para la trama de entrada, se obtiene la predicción residual (Fig.4.7). Figura 4. 7 La predicción residual forma de onda. Se comparara este residuo con la señal original, el nuevo espectro es aproximadamente plano, sin embargo sus detalles espectrales, son los mismos que los de la trama de análisis, su tono y sus armónicos se conservan. Página 35

49 Aplicando el filtro de síntesis para esta predicción residual da como resultado la trama de análisis (ya que el filtro de síntesis es el inverso del filtro inverso) (Fig.4.8). Figura 4. 8 La predicción residual. El LPC realmente modela la predicción residual de la parte sonora del mensaje como un tren de impulsos con amplitud y periodo de tono variables. Para las muestras consideradas en el ejemplo, la situación ideal del LPC es una secuencia de pulsos separador por 64 ceros (de tal manera que tenemos un periodo de 65 muestras) Fig.4.9. Página 36

50 Es importante resaltar que se multiplica la excitación por una ganancia para que su varianza coincida con la de la señal residual. Figura 4. 9 La excitación LPC. Esta señal de excitación tiene las mismas características generales de la señal residual: tiene contenido Harmónico correspondiente a F 0. La principal diferencia es que el espectro de la señal de excitación tiene "sobre armónicos " en comparación con el espectro de la señal residual. Página 37

51 En la siguiente figura se muestra el periodograma, de la señal de excitación LPC. Figura La señal de excitación LPC (Periodograma) Ahora podemos utilizar el filtro de síntesis para producir una "i" artificial. Figura i Artificial (izquierda forma de onda) Página 38

52 En la anterior muestra se puede observar la forma de onda de la letra producida artificial, con 240 muestras. Figura i Artificial (Periodograma). El comportamiento de su periodograma, de la señal de la letra producida por el filtro de síntesis. Página 39

53 4.4 Síntesis de Predicción Lineal de Voz No sonora Se puede aplicar el mismo proceso para una trama con voz no sonora, y para comparar los espectros nuevamente. Primero se extrae una porción de voz no sonora Fig Figura Forma de Onda de una trama de voz no sonora de 30 ms de largo. Página 40

54 Ahora se observara el contenido espectral de esta trama de voz. Hay que tener en cuenta que, dado que se podrían tener señales ruidosas, se utiliza el periodograma promedio para estimar las densidades espectrales de potencia, aunque con menos resolución de frecuencia que la del periodograma antes usado. La función welch de Matlab hace esto, con 8 sub tramas y 50% de superposición con el siguiente código. pwelch(input_frame); Figura Densidad espectral de potencia de una trama de 30 ms largo. Al observar esta prueba, no aparece ninguna periodicidad clara. Página 41

55 Aplicando ahora un modelo lineal de orden 10 y sintetizando un nuevo grupo de muestras. La síntesis se lleva a cabo filtrando una trama que contiene ruido blanco gaussiano con una desviación estándar establecida para la predicción de la señal residual. Figura 4 15 Forma de Onda de un LPC no sonoro. Página 42

56 La envolvente espectral de esta trama, ahora aplicando un modelo lineal de orden 10. Figura Forma de onda de un LPC no sonoro. La forma de onda sintética fig no tiene ninguna muestra en común con la forma de onda original. Página 43

57 La envolvente espectral de esta trama, sin embargo, es muy similar a la señal original fig Figura No sonoro LPC habla sintética. Con los filtros añadidos, la voz no sonora sintética alcanza a lograr que se escuche como la original, al menos se acerca lo más posible en esta prueba recordando que estas graficas son los resultados, del código LPC. Página 44

58 4.5 Síntesis de Predicción Lineal de un Archivo de Voz, con F 0 Fija Ahora ligaremos las operaciones previas para completar el archivo de voz, se utilizan tramas de 30ms traslapándose 20ms. Las tramas se conforman por medio de una ventana de hamming. Para los tiempos de síntesis se utilizan 10ms de la señal y se concatenan las tramas sintéticas resultantes para obtener el archivo de voz a la salida, se selecciona una F 0 = 200HZ. La forma de onda de la salida básicamente contiene una secuencia de respuestas al impulso del filtro LP. Figura Voz LPC. Página 45

59 En la fig. 4.19, se pueden analizar 30ms de voz LP: Figura Zoom de 30 ms de voz LPC con la variable interna fija. Si queremos sintetizar una señal con periodo de tono constante y de longitud diferente distinto a 80 muestras (Digamos unas 65 muestras) necesitamos tener cuidado con un posible corrimiento del periodo del tono en la señal de excitación. Página 46

60 Después de inicializar este corrimiento a cero tendríamos. Figura Zoom en 30 ms de voz LPC con reajuste de variable interna. Página 47

61 Esta vez al final de cada respuesta al impulso se añade correctamente al comienzo de la siguiente, lo que resulta en períodos adecuados. Figura Voz LPC, con reajuste de variable interna. 4.6 Síntesis de Predicción Lineal de un Archivo de Voz No sonoro Sintetizando el archivo del discurso completo como voz no sonora LPC, pulsos Periódicos son simplemente reemplazados por ruido blanco gaussiano. % Generación de 10 ms de excitación excitation=randn(80,1); % Ruido blanco gaussiano gain=sigma; Página 48

62 Figura 4.22 Síntesis de predicción lineal de un archivo de voz No sonoro. Al reproducir, el código, apreciaremos que, la voz resultante suena como susurro. 4.7 Síntesis de Predicción Lineal de un Archivo de Voz, con F0 originales Ahora vamos a sintetizar el mismo ejemplo, utilizando la F 0 original. Por lo tanto vamos a tener que lidiar con los problemas adicionales de estimación de tono (sobre una base trama a trama), incluyendo la toma sonora y no sonora. Este Página 49

63 enfoque es similar a la LPC 10 (excepto que aquí utilizamos coeficientes no cuantificados). * La función de MATLAB involucradas son: * * T0 = pitch (speech_frame) : devuelve el periodo de tono T0 (en muestras) de una trama de voz (T0 se ajusta a cero cuando se detecta el ventaneo como voz no sonora). T0 se obtiene a partir del máximo de la (estimación) de autocorrelación de la señal residual LPC. La decisión de tener una señal sonora/ no sonora se basa en la relación de este máximo con la varianza de la señal residual. Este sencillo algoritmo no es óptimo, pero hará el trabajo para esta prueba conceptual. Figura Discurso original con LPC10. Página 50

64 El discurso sintético resultante es inteligible. Se muestran los mismos formantes de la voz original. Por tanto, es acústicamente similar ésta, excepto por el bus adicional que se ha añadido por el modelo LP. Figura Espectrograma del discurso. 4.8 Análisis de Síntesis de un Archivo de Voz, CELP El último paso será reemplazar las señal de excitación del LPC10 por una señal más realista conocida como predicción lineal excitada por código, la cual se obtiene seleccionando la mejor combinación lineal de las componentes de excitación provenientes de una lista de códigos, la selección se lleva a cabo en un lazo cerrado para minimizar las diferencias entre la señal original y la sintética Página 51

65 * La función de MATLAB involucradas: * * [gains, índices] = find_nbest_components (signal, codebook_vectors, codebook_norms, N) Esta función encuentra las mejores N componentes de la señal de los vectores en codebook_vectors, por lo que el error residual: error = signal-codebook_vectors (índices) * gains Se reduce al mínimo los errores. Los componentes se encuentran uno por uno utilizando un algoritmo codicioso. Cuando los componentes en codebook_vectors no son ortogonales, la búsqueda es, por lo tanto subóptima. Esto se hace pasando todo el libro de códigos a través del filtro de síntesis, para cada nueva trama, y la búsqueda de la mejor descomposición lineal de la trama de voz en términos de secuencias de libro de códigos filtrados. Página 52

66 Figura CELP análisis síntesis de ventaneo. CELP excitación, comparación a predicción lineal residual. Abajo: voz sintética CELP comparación con discurso original. El discurso sintético resultante es similar a su contraparte original, los sonidos ya no suena tan mal aunque un poco ruidosos. Uno puede ver que la optimización de lazo cerrado conduce a que la voz sintética resultante sea más similar a su contraparte original. Al final obtenemos el procesamiento de audio basado en MATLAB. Página 53

67 Conclusiones

68 CONCLUSIONES Las características del sistema desarrollado son apropiadas para implementar el sistema de autocorrelación. Sin embargo, debe notarse que el procedimiento descrito es un sistema básico. En general un algoritmo de voz es complejo, así que se requiere un sistema de gran capacidad. Sin embargo esto ya es posible debido a la aparición de abundantes implementaciones de funciones especializadas de procesado digital de señales. Se analizó el proceso digital de las señales por medio de la autocorrelación, este método nos lleva a utilizarlo a diferentes áreas especializadas. Página 54

TECNOLOGIAS DE LA VOZ

TECNOLOGIAS DE LA VOZ DEPARTAMENTO DE INGENIERÍA ELECTRÓNICA Y COMUNICACIONES CENTRO POLITÉCNICO SUPERIOR UNIVERSIDAD DE ZARAGOZA TECNOLOGIAS DE LA VOZ 5000 0-5000 señal original 200 250 300 350 Señal sintetizada 10000 5000

Más detalles

Aplicaciones del Tratamiento de Señales. Parte 1: Grabación y Reproducción de Señales de Voz

Aplicaciones del Tratamiento de Señales. Parte 1: Grabación y Reproducción de Señales de Voz Aplicaciones del Tratamiento de Señales Curso 2004-2005 Herramientas Básicas de Análisis de Voz y Audio Parte 1: Grabación y Reproducción de Señales de Voz INTRODUCCIÓN Se pretende en esta parte que el

Más detalles

Seguimiento de los parámetros del modelo del tracto vocal

Seguimiento de los parámetros del modelo del tracto vocal Algoritmos para el seguimiento de los parámetros del modelo de tracto vocal Monografía de Tratamiento Estadístico de Señales parias@fing.edu.uy Instituto de Ingeniería Eléctrica Facultad de Ingeniería

Más detalles

Modelo de producción de la voz

Modelo de producción de la voz Modelo de producción de la voz Fonética y fonémica Fonema: Unidad teórica básica para describir cómo la voz transporta un significado lingüístico. Sonido: Realización práctica de un fonema Fonémica: Estudio

Más detalles

I. LA SÍNTESIS DE VOZ

I. LA SÍNTESIS DE VOZ I. LA SÍNTESIS DE VOZ I.1 Introducción. Muchos sistemas de laboratorio y dispositivos comerciales realizan la conversión automática de un texto a voz sintetizada. El progreso en este área ha sido posible

Más detalles

INGENIERIA DE TELECOMUNICACIÓN TRATAMIENTO DIGITAL DE LA SEÑAL I CURSO 2005/2006 TEMA 5: ANALISIS ESPECTRAL DE SEÑALES MEDIANTE LA DFT

INGENIERIA DE TELECOMUNICACIÓN TRATAMIENTO DIGITAL DE LA SEÑAL I CURSO 2005/2006 TEMA 5: ANALISIS ESPECTRAL DE SEÑALES MEDIANTE LA DFT Departamento de Ingeniería Electrónica, de Telecomunicación y Automática UNIVERSIDAD DE JAÉN INGENIERIA DE TELECOMUNICACIÓN TRATAMIENTO DIGITAL DE LA SEÑAL I CURSO 2005/2006 TEMA 5: ANALISIS ESPECTRAL

Más detalles

Modelos de producción de voz. Curso de doctorado 2001/2002 Inmaculada Hernáez

Modelos de producción de voz. Curso de doctorado 2001/2002 Inmaculada Hernáez Modelos de producción de voz Curso de doctorado 2001/2002 Inmaculada Hernáez inma@bips.bi.ehu.es Modelos de producción de voz Teoría de la producción del habla El sintetizador de formantes Teoría de la

Más detalles

Tema 1. Producción de Voz y Fonética

Tema 1. Producción de Voz y Fonética Tema 1. Producción de Voz y Fonética 1.1.- La señal de voz 1.2.- Características temporales de la señal de voz 1.3.- Naturaleza de las señales habladas 1.4.- Características estadísticas de la señal hablada

Más detalles

Reconocimiento y Síntesis de voz. Escrito por Cristina Villoria Martes, 31 de Marzo de :11

Reconocimiento y Síntesis de voz. Escrito por Cristina Villoria Martes, 31 de Marzo de :11 La accesibilidad en el mundo de la informática es la tarea prioritaria a la hora de desarrollar nuevos programas y componentes para nuestros ordenadores... INTRODUCCIÓN La accesibilidad en el mundo de

Más detalles

Capítulo 2: Sistemas de síntesis de voz.

Capítulo 2: Sistemas de síntesis de voz. Capítulo 2:. 2.1. Introducción. Si bien existen varias clasificaciones posibles de los sistemas de síntesis de voz, la más común de todas ellas es aquella que se refiere al tipo de codificación de la señal

Más detalles

Reconocimiento Automático de Voz

Reconocimiento Automático de Voz Reconocimiento Automático de Voz Presentación basada en las siguientes Referencias: [1] Rabiner, L. & Juang, B-H.. Fundamentals of Speech Recognition, Prentice Hall, N.J., 1993. [2] Rabiner, L. & Juang,

Más detalles

COMUNICACIONES MÓVILES

COMUNICACIONES MÓVILES Codificación de Voz en el Sistema GSM Carlos Crespo Cadenas Profesor Titular Universidad de Sevilla CODIFICADOR DE VOZ RPE-LTP Objetivo principal: Eficiencia espectral. Voz: 8 kbps ==> 104 kbps ==> 13

Más detalles

Fundamentos de producción y tratamiento de audio mediante com

Fundamentos de producción y tratamiento de audio mediante com Fundamentos de producción y tratamiento de audio mediante computador Luis Rodríguez Ruiz UCLM April 8, 2008 1 2 3 4 5 Índice Contenidos 1 2 3 4 5 Contenidos 1 Presentar los fundamentos del procesamiento

Más detalles

PCM MODULACION ANALOGA CON PORTADORA DIGITAL

PCM MODULACION ANALOGA CON PORTADORA DIGITAL PCM MODULACION ANALOGA CON PORTADORA DIGITAL o Es la representación de la información analógica en una señal digital o Al proceso de conversión de señales análoga en digitales se le denomina digitalización

Más detalles

Vídeo Digital Examen de Junio de 2003

Vídeo Digital Examen de Junio de 2003 UNIVERSIDAD DE CASTILLA LA MANCHA Escuela Universitaria Politécnica de Cuenca Ingeniería Técnica de Telecomunicación (Especialidad de Sonido e Imagen) Vídeo Digital Examen de Junio de 2003 PRACTICAS: Del

Más detalles

Programa. Introducción 1. Generación y percepción de la señal de voz 2. Técnicas avanzadas

Programa. Introducción 1. Generación y percepción de la señal de voz 2. Técnicas avanzadas Programa Introducción 1. Generación y percepción de la señal de voz 2. Técnicas avanzadas Análisis localizado en tiempo y en frecuencia Predicción lineal Cepstrum Realce 3. Reconocimiento automático del

Más detalles

Proyecto Especial Señales y Sistemas

Proyecto Especial Señales y Sistemas Proyecto Especial Señales y Sistemas Análisis y síntesis de sonidos vocálicos Objetivo El objetivo del presente proyecto es la utilización de algunas de las técnicas de análisis y procesamiento de señales

Más detalles

transmisión de señales

transmisión de señales Introducción al análisis y transmisión de señales La transmisión de información La información se puede transmitir por medio físico al variar alguna de sus propiedad, como el voltaje o la corriente. Este

Más detalles

Acústica del Habla. Introducción a las Tecnologías del Habla 2 o cuatrimestre 2014 Agustín Gravano

Acústica del Habla. Introducción a las Tecnologías del Habla 2 o cuatrimestre 2014 Agustín Gravano Acústica del Habla Introducción a las Tecnologías del Habla 2 o cuatrimestre 2014 Agustín Gravano Repaso clase anterior Procesamiento del Habla Construir sistemas informáticos capaces de manipular efectivamente

Más detalles

Maestría en Electrónica y Telecomunicaciones II-2011

Maestría en Electrónica y Telecomunicaciones II-2011 Comunicaciones Inalámbricas Capitulo 5: Multiplexación y acceso por división Sistemas OFDM Víctor Manuel Quintero Flórez Claudia Milena Hernández Bonilla Maestría en Electrónica y Telecomunicaciones II-2011

Más detalles

ELO 385 Laboratorio de Procesamiento Digital de Señales Laboratorio 5: Transformada Discreta de Fourier Parte I

ELO 385 Laboratorio de Procesamiento Digital de Señales Laboratorio 5: Transformada Discreta de Fourier Parte I 1 ELO 385 Laboratorio de Procesamiento Digital de Señales Laboratorio 5: Transformada Discreta de Fourier Parte I Este laboratorio está compuesto por dos sesiones en la cuales se estudiará la transformada

Más detalles

TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS

TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS UNIVERSIDAD POLITECNICA DE CATALUÑA Departamento de Teoria de la señal y comunicaciones TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS

Más detalles

Victrola de La Transformada de Fourier

Victrola de La Transformada de Fourier Victrola de La Transformada de Fourier p. 1/2 Victrola de La Transformada de Fourier Introducción para Músicos Juan I Reyes juanig@maginvent.org artelab Laboratorios de Artes Electrónicas Victrola de La

Más detalles

Juegos Interactivos para la Rehabilitación Fonatoria

Juegos Interactivos para la Rehabilitación Fonatoria Juegos Interactivos para la Rehabilitación Fonatoria Autores: Ing. Eduardo González Moreira MSc.. Carlos Ariel Ferrer Riesgo Dra. María E. Hernández Díaz-Huici Ing. Eric Lisandro Acao Centro de Estudios

Más detalles

Tecnologías del habla

Tecnologías del habla Tecnologías del habla Inmaculada Hernaez Eduardo Lleida Eva Navas Alfonso Ortega Curso 2006/2007 Programa Introducción 1. Generación y percepción de la señal de voz Producción Modelos digitales Percepción

Más detalles

Primera parte (2.5 puntos, 20 minutos):

Primera parte (2.5 puntos, 20 minutos): TRATAMIENTO DIGITAL DE SEÑALES EXAMEN FINAL 24/06/2013 APELLIDOS NOMBRE DNI NO DE LA VUELTA A ESTA HOJA HASTA QUE SE LO INDIQUE EL PROFESOR MIENTRAS TANTO, LEA ATENTAMENTE LAS INSTRUCCIONES PARA LA REALIZACIÓN

Más detalles

Primera parte (2.5 puntos, 20 minutos):

Primera parte (2.5 puntos, 20 minutos): TRATAMIENTO DIGITAL DE SEÑALES EXAMEN FINAL 24/06/2013 APELLIDOS NOMBRE DNI NO DE LA VUELTA A ESTA HOJA HASTA QUE SE LO INDIQUE EL PROFESOR MIENTRAS TANTO, LEA ATENTAMENTE LAS INSTRUCCIONES PARA LA REALIZACIÓN

Más detalles

Procesamiento digital de voz

Procesamiento digital de voz Procesamiento digital de voz Seminario de Audio 2005 Ernesto López Martín Rocamora Producción del habla Aparato fonador Corte transversal de la laringe Sonidos sonoros y sordos Sonidos sonoros Forma de

Más detalles

TEMA 5: ANÁLISIS DE LA CALIDAD EN MODULACIONES ANALÓGICAS

TEMA 5: ANÁLISIS DE LA CALIDAD EN MODULACIONES ANALÓGICAS TEMA 5: ANÁLISIS DE LA CALIDAD EN MODULACIONES ANALÓGICAS Parámetros de calidad: SNR y FOM Análisis del ruido en modulaciones de amplitud Receptores de AM y modelo funcional SNR y FOM para detección coherente

Más detalles

Tema 5. Modulación por Código de Pulso (PCM) Materia: Comunicaciones Digitales Semestre: 6to. Carrera: ICE Febrero-Julio 2017

Tema 5. Modulación por Código de Pulso (PCM) Materia: Comunicaciones Digitales Semestre: 6to. Carrera: ICE Febrero-Julio 2017 Profa. Gabriela Leija Hernández Tema 5 Modulación por Código de Pulso (PCM) Materia: Comunicaciones Digitales Semestre: 6to. Carrera: ICE Febrero-Julio 2017 ESIME Unidad Zacatenco DEFINICIÓN DE PCM La

Más detalles

Lección 3: Formato y Modulación en Banda Base. Parte I

Lección 3: Formato y Modulación en Banda Base. Parte I Lección 3: Formato y Modulación en Banda Base. Parte I Gianluca Cornetta, Ph.D. Dep. de Ingeniería de Sistemas de Información y Telecomunicación Universidad San Pablo-CEU Contenido Sistemas en Banda Base

Más detalles

UNIVERSIDAD DE GRANADA PROCESAMIENTO DE VOZ

UNIVERSIDAD DE GRANADA PROCESAMIENTO DE VOZ UNIVERSIDAD DE GRANADA PLAN DE ESTUDIOS: DIPLOMADO EN LOGOPEDIA PROCESAMIENTO DE VOZ Ángel de la Torre Vega Dpto. Teoría de la Señal, Telemática y Comunicaciones Procesamiento de Voz ATV Dpto. Teoría de

Más detalles

Vídeo Digital Examen de Junio de 2001

Vídeo Digital Examen de Junio de 2001 UNIVERSIDAD DE CASTILLA LA MANCHA Escuela Universitaria Politécnica de Cuenca Ingeniería Técnica de Telecomunicación (Especialidad de Sonido e Imagen) Vídeo Digital Examen de Junio de 2001 1.- Queremos

Más detalles

Análisis Espectral mediante DFT PRÁCTICA 4

Análisis Espectral mediante DFT PRÁCTICA 4 Análisis Espectral mediante DFT PRÁCTICA 4 (2 sesiones) Laboratorio de Señales y Comunicaciones 3 er curso, Ingeniería Técnica de Telecomunicación Sistemas de Telecomunicación 1 PRÁCTICA 4 Análisis Espectral

Más detalles

Software Desarrollado: la aplicación HAdDA

Software Desarrollado: la aplicación HAdDA Capítulo 3 Software Desarrollado: la aplicación HAdDA En este proyecto se ha desarrollado una herramienta de ayuda al diagnóstico y al análisis de las BOC de pacientes de EM. Al estar diseñado para su

Más detalles

ELO 385 Laboratorio de Procesamiento Digital de Señales Laboratorio 4: Filtros digitales Parte I

ELO 385 Laboratorio de Procesamiento Digital de Señales Laboratorio 4: Filtros digitales Parte I 1 ELO 385 Laboratorio de Procesamiento Digital de Señales Laboratorio 4: Filtros digitales Parte I 0. Introducción Este laboratorio está compuesto por dos sesiones en la cuales se estudiarán filtros digitales.

Más detalles

Codificación de audio MPEG. Álvaro Pardo

Codificación de audio MPEG. Álvaro Pardo Codificación de audio MPEG Álvaro Pardo Características del sistema auditivo La sensibilidad del oído es logarítmico respecto a la frecuencia Varía con la frecuencia La discriminación en frecuencia es

Más detalles

Participantes. Comité para el Diseño de Especialidad DIET. Academia de Comunicaciones DIET. Comité de Investigación DIET

Participantes. Comité para el Diseño de Especialidad DIET. Academia de Comunicaciones DIET. Comité de Investigación DIET .- DATOS DE LA ASIGNATURA. Nombre de la asignatura: Carrera: Teoría de las Comunicaciones. Ingeniería Electrónica Clave de la asignatura: TEB 080 Horas teoría-horas práctica-créditos: 4 0 8.- HISTORIA

Más detalles

El Sistema de Producción de Voz

El Sistema de Producción de Voz El Sistema de Producción de Voz Rafael Martínez Olalla Grupo de Informática Aplicada al Procesamiento de Señal e Imagen (GIAPSI) Universidad Politécnica de Madrid, Campus de Montegancedo, s/n, 28660 Boadilla

Más detalles

3. Señales. Introducción y outline

3. Señales. Introducción y outline 3. Señales Introducción y outline Outline Señales y Sistemas Discretos: SLIT, Muestreo, análisis tiempo-frecuencia, autocorrelación, espectro, transformada Z, DTFT, DFT, FFT Filtros y Estimación: Filtros

Más detalles

GUÍA DE LABORATORIO 2 FILTROS DIGITALES FILTROS FIR E IIR

GUÍA DE LABORATORIO 2 FILTROS DIGITALES FILTROS FIR E IIR UNIVERSIDAD TÉCNICA FEDERICO SANTA MARÍA Departamento de Electrónica GUÍA DE LABORATORIO 2 FILTROS DIGITALES FILTROS FIR E IIR CURSO LABORATORIO DE PROCESAMIENTO DIGITAL DE SEÑALES SIGLA ELO 385 PROFESOR

Más detalles

A. LA GENERACIÓN DEL SONIDO

A. LA GENERACIÓN DEL SONIDO A. LA GENERACIÓN DEL SONIDO Objetivos Mostrar las principales características de un tono puro al ser representado en un diagrama de intensidad contra tiempo. Introducción Evidenciar las relaciones entre

Más detalles

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN TEORÍA DE SEÑALES OBJETIVO GENERAL Estudiar los conceptos fundamentales de representación de

Más detalles

Primera parte (3 puntos, 25 minutos):

Primera parte (3 puntos, 25 minutos): TRATAMIENTO DIGITAL DE SEÑALES EXAMEN FINAL 18/01/2013 APELLIDOS NOMBRE DNI NO DE LA VUELTA A ESTA HOJA HASTA QUE SE LO INDIQUE EL PROFESOR MIENTRAS TANTO, LEA ATENTAMENTE LAS INSTRUCCIONES PARA LA REALIZACIÓN

Más detalles

Análisis Espectral mediante DFT PRÁCTICA 4

Análisis Espectral mediante DFT PRÁCTICA 4 Análisis Espectral mediante DFT PRÁCTICA 4 (2 sesiones) Laboratorio de Señales y Comunicaciones 1 PRÁCTICA 4 Análisis Espectral mediante DFT 1. Objetivo Habitualmente, el análisis de señales y sistemas

Más detalles

Procesamiento del Audio. Eduardo Morales Vargas

Procesamiento del Audio. Eduardo Morales Vargas Procesamiento del Audio Eduardo Morales Vargas 1 Contenido Calidad de sonido contra razón de muestreo Síntesis y reconocimiento de voz 22/11/2015 2 Calidad de sonido contra razón de muestreo 22/11/2015

Más detalles

SECCIÓN I CONOCIMIENTOS PREVIOS DE FÍSICA

SECCIÓN I CONOCIMIENTOS PREVIOS DE FÍSICA ÍNDICE PRÓLOGO... 9 SECCIÓN I CONOCIMIENTOS PREVIOS DE FÍSICA... 15 I MECANICA... 17 1.1 Posición, velocidad y aceleración... 17 1.2 El movimiento vibratorio armónico... 20 1.3 Fuerza. principios de Newton...

Más detalles

Podemos distinguir dos técnicas fundamentales. Ambas se utilizan en estándar MPEG-2.

Podemos distinguir dos técnicas fundamentales. Ambas se utilizan en estándar MPEG-2. 5 CAPA DE AUDIO Aunque en este proyecto no se desarrolla el decodificador del audio MPEG-2 considero de interés introducir algunos conceptos. La parte de la norma que recoge estas ideas es la ISO/IEC 13818-3.

Más detalles

2. SÍNTESIS DE VOZ Y SEGMENTACIÓN AUTOMÁTICA DE UNIDADES

2. SÍNTESIS DE VOZ Y SEGMENTACIÓN AUTOMÁTICA DE UNIDADES 2. SÍNTESIS DE VOZ Y SEGMENTACIÓN AUTOMÁTICA DE UNIDADES Continuando con el panorama general en el que se enmarca nuestro proyecto, en este capítulo hablaremos brevemente de la síntesis de voz, particularizaremos

Más detalles

DISEÑO DE FILTROS IIR

DISEÑO DE FILTROS IIR Los filtros digitales se pueden clasificar en dos grandes grupos: aquellos que presentan una respuesta al impulso de duración infinita (IIR) y, por el contrario, los sistemas FIR o de respuesta al impulso

Más detalles

INDICE 1. Panorama 2. Señales Analógicas 3. Señales Discretas 4. Sistemas Analógicos 5. Sistemas en Tiempo Discreto

INDICE 1. Panorama 2. Señales Analógicas 3. Señales Discretas 4. Sistemas Analógicos 5. Sistemas en Tiempo Discreto INDICE Prefacio XI Del Prefacio a la Primera Edición XIII 1. Panorama 1.0. Introducción 1 1.1. Señales 1 1.2. Sistemas 3 1.3. El dominio de la frecuencia 4 1.4. Del concepto a la aplicación 7 2. Señales

Más detalles

Procesamiento de la señal de voz

Procesamiento de la señal de voz Procesamiento de la señal de voz Leandro Vignolo Procesamiento Digital de Señales Ingeniería Informática FICH-UNL 29 de mayo de 2014 L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de

Más detalles

Tema: Uso del analizador espectral.

Tema: Uso del analizador espectral. Sistemas de Comunicación I. Guía 1 1 I Facultad: Ingeniería Escuela: Electrónica Asignatura: Sistemas de comunicación Tema: Uso del analizador espectral. Objetivos Conocer el funcionamiento de un Analizador

Más detalles

3. ANÁLISIS DE SEÑALES

3. ANÁLISIS DE SEÑALES 3. ANÁLISIS DE SEÑALES 3.1 REGISTRO Y TRATAMIENTO DE SEÑALES Una señal se define como la historia de los valores de aceleración que mide un acelerómetro en determinado tiempo para un punto específico.

Más detalles

8. ANÁLISIS Y SÍNTESIS DE SONIDOS DE PIANO

8. ANÁLISIS Y SÍNTESIS DE SONIDOS DE PIANO 124 8. ANÁLISIS Y SÍNTESIS DE SONIDOS DE PIANO 8.1. Análisis de sonidos PCM El siguiente sonido es una muestra del Do central C4 de un piano comercial Roland HP 237que implementa síntesis PCM Figura 8.1.

Más detalles

Sonido y Resonancia 1/28. Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sonido y Resonancia

Sonido y Resonancia 1/28. Tratamiento Digital de la Señal de Voz, Curso 2010/2011. Sonido y Resonancia Sonido y Resonancia Rafael Martínez Olalla Grupo de Informática Aplicada al Procesamiento de Señal e Imagen (GIAPSI) Universidad Politécnica de Madrid, Campus de Montegancedo, s/n, 28660 Boadilla del Monte,

Más detalles

Unidad Temática 4: Comunicación en Banda Base Analógica

Unidad Temática 4: Comunicación en Banda Base Analógica Unidad Temática 4: Comunicación en Banda Base Analógica 1) Qué significa transmitir una señal en banda base? Los sistemas de comunicaciones en los cuales las señales transmitidas no sufren procesos de

Más detalles

Técnicas de Compresión de Datos:

Técnicas de Compresión de Datos: Técnicas de Compresión de Datos: La técnica más simple de codificar es PCM. Con ella se logra transmitir voz digital a una velocidad de 64Kbps (8bits/muestra, 8000 muestras/segundo). En algunas aplicaciones,

Más detalles

Seminario de Procesamiento Digital de Señales

Seminario de Procesamiento Digital de Señales Seminario de Procesamiento Digital de Señales Unidad 5: Diseño de Filtros Digitales - Parte I Marcelo A. Pérez Departamento Electrónica Universidad Técnica Federico Santa María Contenidos 1 Conceptos Básicos

Más detalles

3 SISTEMAS DE PROCESAMIENTO DIGITAL DE SEÑALES. ha desarrollado durante los últimos 30 años gracias a los avances tecnológicos de

3 SISTEMAS DE PROCESAMIENTO DIGITAL DE SEÑALES. ha desarrollado durante los últimos 30 años gracias a los avances tecnológicos de 3 SISTEMAS DE PROCESAMIENTO DIGITAL DE SEÑALES 3.1 Introducción al procesamiento digital de señales Una alternativa para el procesado analógico de señales es el procesado digital. Esta área se ha desarrollado

Más detalles

Capacitacion Innovaciones

Capacitacion Innovaciones Capacitacion Innovaciones Para: Asunto: capacitacion@innovacionessoftware.com Analizador Digital de la Voz ANALISIS DIGITAL VOCAL El laboratorio de voz es un estudio objetivo de la voz - no invasivo -

Más detalles

Filtros senoc-enventanado Filtros personalizados. clase 11

Filtros senoc-enventanado Filtros personalizados. clase 11 Filtros senoc-enventanado Filtros personalizados clase 11 Temas Introducción a los filtros digitales Clasificación, Caracterización, Parámetros Filtros FIR (Respuesta al impulso finita) Filtros de media

Más detalles

Síntesis sustractiva

Síntesis sustractiva Síntesis sustractiva Emilia Gómez Gutiérrez Anàlisi, Síntesi i Processament del So I Departament de Sonologia Escola Superior de Musica de Catalunya emilia.gomez@esmuc.cat 4 de mayo de 2012 Índice 1. Introducción

Más detalles

Eclipse SDK 3.3: Utilizado para el desarrollo del software de la aplicación web.

Eclipse SDK 3.3: Utilizado para el desarrollo del software de la aplicación web. 0. Datos de interés La totalidad del proyecto de título Aplicación web y análisis de señales acústicas provenientes del llanto de los infantes (A web-based application and acoustic signal analysis of the

Más detalles

EL GÉNERO DE LAS VOCES

EL GÉNERO DE LAS VOCES Castro, Sabrina; López Sabrina EL GÉNERO DE LAS VOCES El propósito de este trabajo fue determinar si la información que utiliza el cerebro para distinguir las vocales, depende del sexo del emisor. INTRODUCCIÓN

Más detalles

DCT(x[n]) C[u] α(u) x[n] cos (2n 1) π u 2N

DCT(x[n]) C[u] α(u) x[n] cos (2n 1) π u 2N UNIVERSIDAD DE CASTILLA LA MANCHA Escuela Universitaria Politécnica de Cuenca Ingeniería Técnica de Telecomunicación (Especialidad de Sonido e Imagen) Vídeo Digital Examen de Junio de 2005 PRACTICAS: Del

Más detalles

REPRESENTACION DE SEÑALES Y SISTEMAS

REPRESENTACION DE SEÑALES Y SISTEMAS REPRESENTACION DE SEÑALES Y SISTEMAS TRANSFORMADA DE FOURIER La serie de Fourier nos permite obtener una representación en el dominio de la frecuencia de funciones periódicas f(t). La transformada de Fourier

Más detalles

Análisis Estadístico de Datos Climáticos. Análisis de espectro singular. Facultad de Ciencias Facultad de Ingeniería 2013

Análisis Estadístico de Datos Climáticos. Análisis de espectro singular. Facultad de Ciencias Facultad de Ingeniería 2013 Análisis Estadístico de Datos Climáticos Análisis de espectro singular Facultad de Ciencias Facultad de Ingeniería 2013 Análisis de Espectro Singular Motivación El análisis de espectro singular (SSA en

Más detalles

Universidad Carlos III de Madrid Detección de fisuras en placas de Aluminio mediante ultrasonidos utilizando ondas Lamb.

Universidad Carlos III de Madrid Detección de fisuras en placas de Aluminio mediante ultrasonidos utilizando ondas Lamb. Universidad Carlos III de Madrid Detección de fisuras en placas de Aluminio mediante ultrasonidos utilizando ondas Lamb. Eva María Muñoz Marcos INTRODUCCIÓN Y OBJETIVO PRINCIPAL DEL PROYECTO Debido al

Más detalles

Análisis de Fourier: efectos de un medio físico ideal en la transmisión de una señal digital

Análisis de Fourier: efectos de un medio físico ideal en la transmisión de una señal digital Análisis de Fourier: efectos de un medio físico ideal en la transmisión de una señal digital Pedro Manuel Díaz Varela Estudiante de Ingeniería en Computación Universidad Nacional del Sur Avda. Alem 153

Más detalles

Práctica 1: Perturbaciones: distorsión y ruido

Práctica 1: Perturbaciones: distorsión y ruido Apellidos, nombre Apellidos, nombre TEORÍA DE LA COMUNICACIÓN 009/010 Práctica 1: Perturbaciones: distorsión y ruido Grupo Puesto Fecha El objetivo de esta práctica es familiarizar al alumno con los efectos

Más detalles

INDICE Capitulo 1. Introducción Capitulo 2. Descripción matemática de señales 2.1. Introducción y objetivos

INDICE Capitulo 1. Introducción Capitulo 2. Descripción matemática de señales 2.1. Introducción y objetivos INDICE Prefacio XIII Capitulo 1. Introducción 1 1.1. Definición de señales y sistemas 1 1.2. Tipos de señales 1 1.3. Ejemplo de una señal y un sistema 8 1.4. Uso de MATLAB 13 Capitulo 2. Descripción matemática

Más detalles

CREDITOS CONCLUSION GLOSARIO INTRODUCCION SEÑALES SISTEMAS SEÑALES C SEÑALES D TIPOS DIFERENCIA

CREDITOS CONCLUSION GLOSARIO INTRODUCCION SEÑALES SISTEMAS SEÑALES C SEÑALES D TIPOS DIFERENCIA CREDITOS CONCLUSION GLOSARIO INTRODUCCION SEÑALES SISTEMAS SEÑALES C SEÑALES D TIPOS DIFERENCIA INTRODUCCION Una señal es cualquier fenómeno que puede ser representado de manera cuantitativa mediante una

Más detalles

Facultad de Ingeniería en Electrónica y Comunicaciones. Nombre del alumno: Erik Alan Fuentes Pérez. Experiencia educativa:

Facultad de Ingeniería en Electrónica y Comunicaciones. Nombre del alumno: Erik Alan Fuentes Pérez. Experiencia educativa: UV Facultad de Ingeniería en Electrónica y Comunicaciones Nombre del alumno: Erik Alan Fuentes Pérez Experiencia educativa: Procesamiento Analógico de Señales (PAS) Numero de laboratorio: Tarea 09 Nombre

Más detalles

1. Implementación de filtros IIR: Formas Directas I y II

1. Implementación de filtros IIR: Formas Directas I y II 1 ELO 385 Laboratorio de Procesamiento Digital de Señales Laboratorio 4: Filtros digitales Parte II 1. Implementación de filtros IIR: Formas Directas I y II Existen varios tipos de estructuras para la

Más detalles

Medios de Transmisión Práctica Final Simulación de un Sistema de Transmisión Digital Banda Base

Medios de Transmisión Práctica Final Simulación de un Sistema de Transmisión Digital Banda Base Medios de Transmisión Práctica Final Simulación de un Sistema de Transmisión Digital Banda Base Curso 28-29. Introducción El objetivo de esta práctica es realizar un programa en Matlab que simule el funcionamiento

Más detalles

Reconocimiento de comandos de voz utilizando técnicas de PDS aplicadas a robótica

Reconocimiento de comandos de voz utilizando técnicas de PDS aplicadas a robótica Reconocimiento de comandos de voz utilizando técnicas de PDS aplicadas a robótica Villarreal Robles, G. Olivera Reyna, R. Unidad Académica de Ingeniería Eléctrica Universidad Autónoma de Zacatecas Campus

Más detalles

CAPITULO IV DESARROLLO DE UNA INTERFASE PARA EL DISEÑO DE FILTROS FIR MEDIANTE EL METODO DE REMEZ INTEGRADO A MFILTERS.

CAPITULO IV DESARROLLO DE UNA INTERFASE PARA EL DISEÑO DE FILTROS FIR MEDIANTE EL METODO DE REMEZ INTEGRADO A MFILTERS. CAPITULO IV DESARROLLO DE UNA INTERFASE PARA EL DISEÑO DE FILTROS FIR MEDIANTE EL METODO DE REMEZ INTEGRADO A MFILTERS. 29 4.1 Propiedades y Funcionamiento de MFilters MFilters fue creado mediante archivos.m

Más detalles

Figura 1: Propiedades de textura: (a) Suavidad, (b) Rugosidad y (c) Regularidad

Figura 1: Propiedades de textura: (a) Suavidad, (b) Rugosidad y (c) Regularidad 3 TEXTURA 3.1 CONCEPTO DE LA TEXTURA La textura es una característica importante utilizada en segmentación, identificación de objetos o regiones de interés en una imagen y obtención de forma. El uso de

Más detalles

SEÑALES, SISTEMAS Y CONVOLUCION SEÑALES

SEÑALES, SISTEMAS Y CONVOLUCION SEÑALES SEÑALES, SISTEMAS Y CONVOLUCION SEÑALES Las señales se procesan para extraer información útil (Procesamiento de Señales) En este curso trataremos señales unidimensionales que poseen como variable independiente

Más detalles

TEMA 2: MOCULACION PCM. Dado un sistema PCM de 24 canales vocales telefónicos, como el indicado en la figura 6.1, se pide:

TEMA 2: MOCULACION PCM. Dado un sistema PCM de 24 canales vocales telefónicos, como el indicado en la figura 6.1, se pide: TEMA 2: MOCULACION PCM PROBLEMA 1 Dado un sistema PCM de 24 canales vocales telefónicos, como el indicado en la figura 6.1, se pide: Figura 6.1 a. Frecuencia de corte del filtro paso bajo, previo al muestreador,

Más detalles

UDES MÉTODO PARA DETERMINAR PATRONES DE FALLO EN LA MAQUINARIA ING. RICARDO GUERRERO RMS LTDA

UDES MÉTODO PARA DETERMINAR PATRONES DE FALLO EN LA MAQUINARIA ING. RICARDO GUERRERO RMS LTDA MÉTODO PARA DETERMINAR PATRONES DE FALLO EN LA MAQUINARIA ING. RICARDO GUERRERO RMS LTDA INTRODUCCION Las nuevas técnicas de mantenimiento en las empresas se han enfocado en identificar métodos que permitan

Más detalles

Unidad 3. Técnicas de Modulación

Unidad 3. Técnicas de Modulación Unidad 3. Técnicas de Modulación 3.3 Modulación PCM. 3.4 Modulación DPCM y ADPCM. 3.5 Modulación Delta. 3.6 Multiplexado. 1 Modulación Digital En los sistemas de modulación por pulsos analógicos, la amplitud,

Más detalles

Capítulo 5: CONTROL INVERSO ADAPTATIVO

Capítulo 5: CONTROL INVERSO ADAPTATIVO Capítulo 5: CONTROL INVERSO INTRODUCCIÓN 5.. INTRODUCCIÓN Un sistema de control inverso adaptativo se muestra en la Figura 5. Si el controlador fuese ideal, su función de transferencia sería: C( z) M (

Más detalles

Sistemas de medicion

Sistemas de medicion Sistemas de medicion Oscar Dominguez Sonido Profesional. Diseño, instalacion y optimizacion de sistemas de sonido 0223-491 - 7122 Mar del Plata - Argentina Sistemas de medición. Sea lo que sea que se haga,

Más detalles

Contenido. XVII Introducción. Prefacio

Contenido. XVII Introducción. Prefacio Contenido Prefacio XVII Introducción XIX Capítulo 1. Introducción a MATLAB 1.1. Introducción................................. 2 1.2. Instrucciones for, while, if......................... 3 1.2.1. For..................................

Más detalles

La Modulación. Ing. Carlos Eduardo Molina C.

La Modulación. Ing. Carlos Eduardo Molina C. La Modulación La amplia naturaleza de las señales analógicas es evidente, cualquier forma de onda está disponible con toda seguridad en el ámbito analógico, nos encontramos con una onda original y una

Más detalles

Redes y Comunicaciones

Redes y Comunicaciones Departamento de Sistemas de Comunicación y Control Redes y Comunicaciones Solucionario Tema 3: Datos y señales Tema 3: Datos y señales Resumen La información se debe transformar en señales electromagnéticas

Más detalles

EL4005 Principios de Comunicaciones Clase No.21: Pulsos de Nyquist

EL4005 Principios de Comunicaciones Clase No.21: Pulsos de Nyquist EL4005 Principios de Comunicaciones Clase No.21: Pulsos de Nyquist Patricio Parada Departamento de Ingeniería Eléctrica Universidad de Chile 27 de Octubre de 2010 1 of 39 Contenidos de la Clase (1) Pulsos

Más detalles

3.1 Interferencia óptica

3.1 Interferencia óptica CAPÍTULO III 3. Interferencia óptica La interferencia es un fenómeno óptico que ocurre entre dos o más ondas ópticas que se encuentran en el espacio. Si estás ondas tienen la misma longitud de onda y se

Más detalles

Tipos de Modulación. PCM Convencional

Tipos de Modulación. PCM Convencional Tipos de Modulación PCM Convencional Con PCM convencional, cada código es una representación binaria de signo y magnitud de una muestra en particular. Por lo tanto, los códigos de bit múltiple se requieren

Más detalles

ANÁLISIS LOCALIZADO. 1. Análisis Localizado en el Dominio Temporal. 2. Análisis Localizado en el Dominio Frecuencial

ANÁLISIS LOCALIZADO. 1. Análisis Localizado en el Dominio Temporal. 2. Análisis Localizado en el Dominio Frecuencial ANÁLISIS LOCALIZADO 1. Análisis Localizado en el Dominio Temporal Energía Localizada. Autocorrelación Localizada. 2. Análisis Localizado en el Dominio Frecuencial Transformada de Fourier Localizada 3.

Más detalles

CONCEPTOS BASICOS DE ACUSTICA. EL SONIDO III PARTE

CONCEPTOS BASICOS DE ACUSTICA. EL SONIDO III PARTE DIVISION: ARQUITECTURA Julio de 1999 CONCEPTOS BASICOS DE ACUSTICA. EL SONIDO III PARTE Esta tercera parte de las Notas Técnicas sobre conceptos Básicos de Acústica, nos permitirá cerrar la información

Más detalles

Procesamiento Digital de Imágenes

Procesamiento Digital de Imágenes Unidad VI: Compresión de imágenes II p. 1/24 Procesamiento Digital de Imágenes Unidad VI (b): Compresión de imágenes con pérdidas Departamento de Informática - FICH Universidad Nacional del Litoral 20

Más detalles

TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS

TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS UNIVERSIDAD POLITECNICA DE CATALUÑA Departamento de Teoria de la señal y comunicaciones TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS

Más detalles

La aplicación de separación de voz separalab

La aplicación de separación de voz separalab Capítulo 4 La aplicación de separación de voz separalab 4.1 Introducción Este capítulo del proyecto está dedicado exclusivamente al aspecto práctico de la realización del mismo. Presentaremos varias simulaciones

Más detalles

IDENTIFICACION DE SISTEMAS IDENTIFICACION NO PARAMETRICA

IDENTIFICACION DE SISTEMAS IDENTIFICACION NO PARAMETRICA IDENTIFICACION DE SISTEMAS IDENTIFICACION NO PARAMETRICA Ing. Fredy Ruiz Ph.D. ruizf@javeriana.edu.co Maestría en Ingeniería Electrónica Pontificia Universidad Javeriana 2013 SISTEMAS LTI En general un

Más detalles

Capítulo 6 Análisis Espectral basado en FFT

Capítulo 6 Análisis Espectral basado en FFT Capítulo 6 Análisis Espectral basado en FFT En este capítulo se detalla el formato de la señal adquirida en una máquina de RMN y el procesado que se le aplica a fin de poder interpretar resultados. La

Más detalles