Tema 4. Codificación de la voz

Documentos relacionados
TICRM - Tecnologías del Habla Codificación de Voz. 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridos

Técnicas de Compresión de Datos:

Prof. Néstor Becerra r Yo Y ma, Ph.D ma, Ph.D Laboratorio de Pr ocesamiento y Tr y T ansmisión de Vo de V z

Departamento de Teoría de la Señal y Comunicaciones Universidad Carlos III de Madrid

TECNOLOGIAS DE LA VOZ

Modelo de producción de la voz

Tema 4. Codificación de Señales de Voz

Procesamiento digital de voz

Estudio y simulación de un codificador de voz basado en la recomendación G.729 de la ITU-T. Proyecto Fin de Carrera. Ingeniería de Telecomunicaciones

Podemos distinguir dos técnicas fundamentales. Ambas se utilizan en estándar MPEG-2.

Clase 4: Cuantificación. Eytan Modiano Departamento de astronáutica y aeronáutica. Eytan Modiano Slide 1

Desventajas. I = capacidad de información (bps)

Representación y Codificación de Señales Audiovisuales en Televisión Digital MPEG-2 Audio

Codificación de audio MPEG. Álvaro Pardo

Seguimiento de los parámetros del modelo del tracto vocal

Técnicas de codificación en forma de onda

2. VOZ SOBRE IP: PROTOCOLOS Y

4. Codificación y compresión de audio.

Tema 2: Codificación y compresión de audio.

transmisión de señales

PCM MODULACION ANALOGA CON PORTADORA DIGITAL

Redes de Computadores

Comunicaciones I. Capítulo 4 CODIFICACIÓN Y MODULACIÓN

Redes y Comunicaciones

banda, mayor es la distorsión, y mayor es la probabilidad de que se cometan errores en el receptor.

EJERCICIOS ANALITICOS. a a f ( ) R τ de x ( t ) y x ( t ) mostrados en la Figura. Figura 2. Densidad Espectral de Energía de g(t) - ( t)

Seminario de Procesamiento Digital de Señales

8. ANÁLISIS Y SÍNTESIS DE SONIDOS DE PIANO

Aplicaciones del Tratamiento de Señales. Parte 1: Grabación y Reproducción de Señales de Voz

TEMA 2: MOCULACION PCM. Dado un sistema PCM de 24 canales vocales telefónicos, como el indicado en la figura 6.1, se pide:

Conceptos básicos de comunicaciones (1)

Transmisión Digital (60123) Fredy Castellanos - UNET -

COMPRESION DE AUDIO Y RADIO DIGITAL

AUDIO DIGITAL. Diego Cabello Ferrer Dpto. Electrónica y Computación Universidad de Santiago de Compostela

3. Señales. Introducción y outline

Sistemas de comunicación

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO PROGRAMA DE MAESTRÍA Y DOCTORADO EN INGENIERÍA INGENIERÍA ELÉCTRICA - TELECOMUNICACIONES

Compresión de Datos Multimedia

ESOA Sistemas de Transmisión de Datos

Comunicaciones Digitales

Transmisión. Transmision de Datos

COMPRESION DE VOZ PARA SU TRANSMISION EN REDES DE DATOS POR LAURA ESPINOSA CAMACHO TESIS

Sistemas de Comunicaciones

Tema 3. Multiplexación. Materia: Comunicaciones Digitales Semestre: 6to. Carrera: ICE Febrero-Julio Profa. Gabriela Leija Hernández

DCT(x[n]) C[u] α(u) x[n] cos (2n 1) π u 2N

TECNICAS DE PROCESADO Y REPRESENTACION DE LA SEÑAL DE VOZ PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES RUIDOSOS

Técnicas de codificación en forma de onda

ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN

Medios de Transmisión Práctica Final Simulación de un Sistema de Transmisión Digital Banda Base

Teoría de Telecomunicaciones

SISTEMAS DE MODULACION

Procesamiento de la señal de voz

Redes y Comunicaciones

5. PLL Y SINTETIZADORES

Fundamentos de audio digital

f(t) = A * sen (w*t + θ)

Profesora Maria Elena Villapol. Comunicación de Datos

5. PLL Y SINTETIZADORES

Modulación por codificación de pulsos

CAPITULO 6. Sistemas de comunicación. Continuar

Última modificación: 1 de julio de

Muestreo y Procesamiento Digital

MULTIPLEX PCM DE 4 CANALES CON CODIFICACION DE LINEA AMI/HDB3/CMI Módulo T20F-E/EV

TRATAMIENTO Y TRANSMISIÓN

TRANSMISIÓN DIGITAL (Curso 2008/9)

TV: TeleVisión Plan 2010 Codificación de subbandas

Análisis de Señales Digitales

y emociones. En un principio, se comunicó a través de la voz, ademanes y símbolos

Teoría de la Comunicación

Laboratorio de Procesamiento Digital de Voz Practica 4 CUANTIZACION ESCALAR, LOGARITMICA, (A)DM y (A)DPCM

Laboratorio de Señales y Comunicaciones (LSC) 3 er curso, Ingeniería de Telecomunicación. Curso (1 sesión)

Digitalización y compresión de vídeo

Victrola de La Transformada de Fourier

Modulación y Detección en Canales Gaussianos

Práctica 3. Nombre del curso: Teoría Moderna de la Detección y Estimación. Autores: Emilio Parrado Hernández

Teoría de la Comunicación

Síntesis sustractiva

Descripción de la técnica de compresión MP3 para audio

VQ. Algorítmica de reconocimiento de voz VQ.1. Reconocimiento de patrones

Proyecto Especial Señales y Sistemas

Laboratorio de Señales y Comunicaciones 3 er curso, Ingeniería Técnica de Telecomunicación Especialidad Sistemas de Telecomunicación

Unidad Temática 4: Comunicación en Banda Base Analógica

10-UMBRALES AUDITIVOS. NIVEL DE SONORIDAD Y SONORIDAD.

Maestría en Electrónica y Telecomunicaciones II-2011

TEMA 2: MODULACIONES LINEALES

Que es un modem? MODEMS. Componentes básicos de la transmisión. Que es un modem?

Clasificación de los Convertidores DAC

GUÍA DE EJERCICIOS No. 3. Las tres emisoras se encuentran a igual distancia del receptor (igual atenuación de señal recibida).

Cómo Elegir su Digitalizador o Dispositivo de Adquisición de Datos Correcto

Procesamiento del Audio. Eduardo Morales Vargas

Podriamos conversar con las maquinas como lo hacemos con los humanos?

T3 Parámetros y Medidas en Líneas de Transmisión. José Gorjón

Capítulo 7 Modulación de Pulsos

Índice 1. Introducción Imagen digital. Formación imagen Histograma de una imagen digital 2. Transformaciones puntuales. Introducción.

SEÑALES Y SISTEMAS CAPÍTULO UNO. 1.1 Introducción Señales y Clasificación de Señales Señales Periódicas y No Periódicas 6

Modelos de producción de voz. Curso de doctorado 2001/2002 Inmaculada Hernáez

Parámetros de Sistemas de Comunicaciones Banda Base

PRÁCTICA 1 MODULACIONES LINEALES Modulación en doble banda Lateral: DBL Modulación en banda Lateral Única: BLU

Estudio de Sistemas de compresión de voz digital orientado a telefonía celular JAVI... Página 1 de 14

1.7 Perturbaciones. Otras perturbaciones. La atenuación Distorsión de amplitud. El retardo Distorsión de fase. El ruido

Transcripción:

Tema 4. Codificación de la voz 4.1.- Historia de los codificadores de voz 4.2.- Muestreo y cuantificación 4.3.- Clasificación de los codificadores de voz 4.4.- Introducción a los codificadores de forma de onda 4.5.- Introducción a los vocoders 4.6.- Introducción a los codificadores híbridos 4.7.- Medidas de calidad

4.1.- Historia de los codificadores de voz Primera reseña histórica, 1779: C. G. Kratzenstein. Profesor de la Universidad de Copenhague. Fue capaz de producir vocales uniendo cavidades de resonancia a los tubos de un órgano.

4.1.- Historia de los codificadores de voz Wolfgang von Kempelen, 1791: Primer sintetizador de voz Máquina que reproducía fielmente la anatomía del aparato fonador humano

4.1.- Historia de los codificadores de voz Joseph Faber, 1835: Euphonia, permite (además) generar voz cantada. En el siguiente enlace se puede ver un dibujo de la máquina en cuestión. http://www.ling.su.se/staff/hartmut/kemplne.htm

4.1.- Historia de los codificadores de voz Homer Dudley, 1939: Voder Primer sintetizador electrónico Bell telephone Emplea: Oscilador Generador de ruido blanco Banco de filtros paso banda Teclas para consonantes Páginas web con información sobre el Voder: http://www.bell-labs.com/org/1133/heritage/vocoder/ http://www.davidszondy.com/future/robot/voder.htm

4.1.- Historia de los codificadores de voz En la década de los 40 se empezó a trabajar intensamente el los codificadores de voz Codificador de voz: Vocoder (Voice Coder) Un vocoder analiza la voz y la convierte en una serie de parámetros característicos que posteriormente se vuelven a convertir en voz audible en el receptor. Su principal ventaja es la reducción del ancho de banda necesario. Muy útil en telefonía móvil

4.2.- Muestreo y cuantificación Muestreo: Nyquist: f s 2 W Si no se cumple este requisito se produce aliasing.

4.2.1- Cuantificación uniforme Cuantificación: Expresar una cantidad que representa una variación continua dentro de un rango limitado de valores. Cuantificación uniforme (PCM): Vout Vin

4.2.1- Cuantificación uniforme La señal de voz y la cuantificación PCM: La voz no es estacionaria. La amplitud de la señal de voz tiene una distribución Gamma, se aproxima por una Laplaciana. Las muestras de voz están correladas. El cuantificador uniforme está adaptado para funciones de densidad de probabilidad uniformes. Es posible cuantificar la señal de forma más eficiente.

4.2.2- Cuantificación no uniforme Si la FDP no es uniforme podemos aplicarle una transformación para minimizar el error de cuantificación. Equivalente a modificar el tamaño de los escalones: Escalones pequeños para niveles bajos de señal. Escalones grandes para niveles altos.

4.2.2- Cuantificación no uniforme Sistemas Compresores / Expansores: También conocidos como cuantificadores logarítmicos (LogPCM) Ley µ: Y ( + µ x) log 1 = x log 1 ( + µ ) 0 µ: 255 Ley A: Y = Ax 1+ log A ( Ax) 1+ log 1+ log A 1 0 x A 1 A x 1 A: 87.56

4.2.2- Cuantificación no uniforme Sistemas Compresores / Expansores: x(n) y(n) Cuantificador y q (n) x q (n) Compresor Expansor n-bits Transmisor Receptor Estándar G.711 64 Kbps (4KHz, 8000 muestras/seg) Ley-µ 14-bit linear PCM a 8-bit log. Ley-A 13-bit linear PCM a 8-bit log. Equivalente a PCM 11 bits * 8000 m/seg, 88 Kbps

4.2.3- Cuantificación vectorial Vector Quantization, VQ La cuantificación se realiza por grupos de muestras o parámetros Un grupo de N muestras se trata como un vector N dimensional Representamos los vectores por un conjunto pequeño de representantes (codebook) Posteriormente se debe buscar el mejor representante para un vector (codevector)

4.2.3- Cuantificación vectorial Tiene múltiples aplicaciones, entre ellas: Clasificador Reducción de datos (compresión) Cálculo del codebook: Algoritmo LBG o de las k-medias Se calculan iterativamente: ci: centroide de cada región S i : particiones de los vecinos más cercanos a cada centroide D: distancia media. Si no se modifica sustancialmente ( < ε ), desdoblar el número de centroides ( +ε, ε ).

4.2.- Muestreo y cuantificación La cuantificación vectorial es eficiente porque: El codebook se adapta a la distribución estadística de la señal, sea esta cual sea. Se tiene en cuenta la correlación entre muestras y las posibles no linealidades. La búsqueda en el codebook debe hacerse de forma eficiente: Árboles de búsqueda En voz se suelen emplear los parámetros LPC, PARCOR, LSP, etc y se representan por un código.

4.2.- Muestreo y cuantificación Creación del codebook: (con N codevectors) Dada una secuencia de entrenamiento (siendo cada muestra xi k-dimensional): Sea el codebook: { x x } T =,..., 1, 2 x M

4.3.- Codificadores de voz: clasificación Los codificadores de voz pueden dividirse en 3 grupos: Codificadores de forma de onda Conservan la forma de onda de la señal Calidad alta: 16 64 kbps Vocoders (codificadores paramétricos) Explotan la naturaleza de la señal de voz para reducir el bitrate Calidad baja/media: 1.2 4.8 kbps Codificadores híbridos Mezcla de los dos anteriores Calidad media/alta: 2.4 16 kbps

4.4.- Codificadores de forma de onda Estos codificadores pueden clasificarse en dos grupos según el dominio en el que trabajan: En el dominio del tiempo: PCM, LogPCM, DPCM, ADPCM, etc En el dominio de la frecuencia: Codificación por subbandas Codificación por transformada

4.4.1.- Codificadores: dominio del tiempo PCM: Cuantificador uniforme No aprovecha la FDP de la señal Óptimo solo si FDP es uniforme Muestreo Q Codificación

4.4.1.- Codificadores: dominio del tiempo DPCM, PCM diferencial: La potencia del error de cuantificación es proporcional a la potencia de la señal Reducir pot. de la señal reducir pot. ruido Emplearemos un predictor: Cuantificamos la señal de error x[n] e[n] ê[n] + Q Codificador c[n] x[n] ~ P ^x[n] + Codificador

4.4.1.- Codificadores: dominio del tiempo DPCM: PCM Diferencial c[n] Decodificador ~ e[n] + x[n] ^ Decodificador x[n] ~ P

4.4.1.- Codificadores: dominio del tiempo ADPCM: PCM Diferencial Adaptativo DPCM + adaptación del tamaño de los niveles del cuantificador Codificador Ajuste tamaño escalón Decodificador x[n] + Q Q Inverso + P Adaptativo + Ajuste tamaño escalón P Adaptativo Estándar G.721 ADPCM 32 kbps

4.4.2.- Codificadores: en frecuencia Hay dos tipos dependiendo de la forma de obtener el espectro: Codificación por subbandas Dividen la señal en N bandas de frecuencia por medio de un banco de filtros paso banda Codificación por transformada Calculan el espectro mediante una transformada (Fourier, coseno, etc )

Codificar Decodificar x[n] 4.4.2.- Codificadores: en frecuencia Codificación por subbandas: Banco de filtros QMF (generalmente de 4 a 8) Cada banda puede emplear más o menos bits Ruido de cuantificación: confinado en cada banda FPB1 FPBn Diezmado n:1 n:1 PCM, DPCM, ADPCM, x 1 [n] x n [n] Interp. 1:n 1:n FPB1 FPBn + y[n]

4.4.2.- Codificadores: en frecuencia Codificación por transformada: Es necesario trabajar por bloques Ventanas Se calcula el espectro de cada bloque y se cuantifica el espectro, no la señal temporal El decodificador reconstruye el espectro y calcula la transformada inversa Generalmente se emplea la transformada discreta de coseno ya que condensa mejor los coeficientes

4.5.- Vocoders Se basan en el modelo simplificado de producción de voz Explotan las características de la voz Codificador: Calcula los parámetros del modelo Transmite los parámetros al decodificador Decodificador: Reconstruye la señal de voz a partir de los parámetros Permiten tasas binarias muy bajas Consiguen inteligibilidad pero no naturalidad. Voz Análisis Parámetros Síntesis Voz

4.5.- Vocoders Modelo de producción: Pitch Excitación Periódica Parámetros Espectrales Ruido Aleatorio G Envolvente espectral Voz Un único modelo Varios vocoders

4.5.1.- Vocoder LPC Vocoder de predicción lineal El codificador trabaja por segmentos: Frecuencia fundamental (F0 o pitch) Decisión sonoro/sordo (incluido en pitch) Coeficientes LPC Factor de ganancia El decodificador sintetiza la voz empleando los parámetros

4.5.1.- Vocoder LPC Vocoder LPC vs DPCM Ambos emplean predicción lineal DPCM envía el error muestra a muestra El vocoder solo envía los parámetros del modelo Para obtener la señal de error emplea el pitch o un ruido blanco (sonoro/sordo) La calidad de la voz sintética del vocoder es muy inferior El vocoder tiene una tasa binaria mucho menor

4.5.1.- LPC-10 Diseñado por el DOD estadounidense (1976) Permite la codificación de la señal de voz a 2400 bps Voz Análisis LPC RC s y RMS FPB Filtro Inverso LPC 2º Orden AMDF Pitch Emisor Detector Sonoridad Corrector Pitch Codificación

4.5.1.- LPC-10 Receptor Pitch RMS RC s Excitación Periódica G LPC Voz Generador Ruido

4.6.- Codificadores híbridos Combinan las técnicas de los codificadores de forma de onda con las de los vocoders Intención: mejorar la calidad empleando bitrates bajos Forma de mejorar la calidad: Mejorar el modelo de la fuente Sustituir el modelo de la fuente Enviando el residuo (o parte de el) de alguna forma A algunos de ellos se les conoce como codificadores de Análisis por síntesis

4.6.1.- RELP Residual-Excited LPC Vocoder El filtro LPC quita la correlación entre muestras, pero no elimina toda la información útil Esta información permanece en el error de predicción 0.08 0.08 0.08 Amplitud 0.06 0.04 0.02 0-0.02-0.04-0.06 Filtro Inverso LPC Amplitud 0.06 0.04 0.02 0-0.02-0.04-0.06 Residuo Filtro LPC Amplitud 0.06 0.04 0.02 0-0.02-0.04-0.06-0.08 0 50 100 150 200 250 300 350 400 450 Muestras -0.08 0 50 100 150 200 250 300 350 400 450 Muestras -0.08 0 50 100 150 200 250 300 350 400 450 Muestras Voz 0-10 -20 20 10 0 Voz Amplitud (db) -30-40 Amplitud (db) -10-20 -50-30 -60-40 -70 0 500 1000 1500 2000 2500 3000 3500 4000 Frecuencia (Hz) -50 0 500 1000 1500 2000 2500 3000 3500 4000 Frecuencia (Hz) Transmitiremos parte del residuo e intentaremos reconstruirlo por completo

4.6.1.- RELP Información a transmitir: Coeficientes del filtro LPC Parte del residuo Solamente se envía baja frecuencia Se aplica un diezmado (~800 Hz) Así se quitan muestras y se reduce el bitrate Las altas frecuencias del residuo se reconstruyen en el decodificador generalmente aplicando un proceso no lineal: Saturación Énfasis en alta frecuencia Adición de ruido Etc

4.6.1.- RELP Diagrama de bloques del codificador: s[n] Análisis LPC LPC coefs Filtro Inverso e[n] Diezmado e [n] Mux

4.6.1.- RELP Diagrama de bloques del decodificador: LPC coefs De- Mux Interpolación + e[n] Síntesis LPC e [n] Generación HF Filtro PA

4.6.2.- MELP Mixed Excitation LPC La señal de excitación se genera como una mezcla de dos señales: Ruido gausiano Trenes de impulsos Esta operación se realiza en varias bandas de frecuencia (entre 4 y 10 bandas distintas) Se debe determinar el grado de sonoridad de la señal Además se le aplica cierto Jitter a la señal para generar naturalidad.

4.6.3.- Codificación multipulso, MPC Alimenta al filtro LPC con una serie pulsos sin tener en cuenta si la señal es sonora o sorda. No aplica el modelo de fuente sonora. Amplitudes y posiciones Residuo reconstruido Generador multipulsos v[n] Síntesis LPC s[n] ^ FPB LPC coefs

4.6.3.- Codificación multipulso, MPC Ejemplo de señal multipulso: Residuo LPC Original Excitación multipulso

4.6.3.- Codificación multipulso, MPC Al no emplear el modelo de fuente sonora está libre de errores debido a: El propio modelo de la fuente Ej: Tramos mezcla sonoro/sordo La estimación de los parámetros del modelo Ej: Errores en la estimación del pitch Mayor inconveniente: Calcular las amplitudes y posiciones óptimas de la señal multipulso en cada caso Dos opciones: bucle abierto y bucle cerrado

4.6.3.- Codificación multipulso, MPC Cálculo de la señal multipulso: Bucle abierto Relativamente sencillo Amplitudes y posiciones Voz Filtro Inverso LPC Residuo Selección de pulsos Análisis LPC Coefs. LPC Codificación y empaquetado

4.6.3.- Codificación multipulso, MPC Cálculo de la señal multipulso: Bucle cerrado Más complejo pero mejor resultado (Análisis por Síntesis) Voz Error + Voz sintética - Análisis LPC Filtro LPC Minimizació n del error LPC Generador excitación Amplitudes y posiciones Codificación y empaquetado

4.6.3.- Codificación multipulso, MPC Mejoras que podemos realizar: Implementar un predictor de retardo largo para blanquear aún más la señal de excitación Solo tener en cuenta el error perceptible por el oído: Añadir un filtro de ponderación perceptual

Predictor a largo plazo El pitch genera una correlación de retardo largo que no elimina el filtro LPC Soluciones: Aumentar el orden de la LPC (50 o más) Aplicar otro predictor específico Preferible: otro predictor B( z) = bz T T: Periodo del pitch b: coef. LPC de largo plazo Necesitamos calcular el periodo del pitch y el valor del coeficiente del filtro

Predictor a largo plazo La señal estimada es: Por tanto el error (cuadrático) cometido será: Minimizando el error ] [ ] [ ˆ T n be n e = ( ) ( ) + = = n n T n be n e n e n e J 2 2 ] [ ] [ ] ˆ[ ] [ [Ec. 1] = n n T n e T n e n e b ] [ ] [ ] [ 2 [Ec. 2] Autocorrelación

Predictor a largo plazo Algoritmo iterativo para calcular b y T simultáneamente: J_min = inf Para T = T_min hasta T_max Calcular b con [Ec. 2] Calcular J con [Ec. 1] Si J < J_min J_min = J b_opt = b T_opt = T FinSi FinPara Devolver (b_opt, T_opt)

Predictor a largo plazo Representación del residuo obtenido: Señal original 1 0-1 0.34 0.35 0.36 0.37 0.38 0.39 Tiempo(seg.) Pulsos glotales Residuo filtro LPC 0.6 0.4 0.2 0-0.2-0.4 1.29 1.295 1.3 1.305 1.31 1.315 1.32 1.325 Muestras Pulsos glotales 0.6 Residuo filtros LPC + Pitch 0.4 0.2 0-0.2-0.4 1.29 1.295 1.3 1.305 1.31 1.315 1.32 1.325 Muestras

Predictor a largo plazo La ventana de análisis de 20ms no es apropiada Está pensada para retardos cortos (LPC) La efectividad del predictor de largo plazo mejora notablemente si dividimos la ventana en 4 segmentos y calculamos 4 predictores distintos (subsegmentación) Frame (segmento o ventana) Subframe 1 Subframe 2 Subframe 3 Subframe 4 Otras formas de nombrar a los predictores: LPC: STP (Short Term Prediction) Pitch: LTP (Long Term Prediction)

Predictor a largo plazo Espectros obtenidos con los dos predictores: STP LTP LTP + STP

Filtro de ponderación perceptual Filtro de ponderación perceptual: Siendo, generalmente [0.7-0.9] ( ) ( ) ( ) ( ) ( ) c z A z A z H c z H z W / / = = 0 1 < c ( ) M M c z a c z a c z a c z A =... 1 / 2 2 1 1 M M M z c a z c a z a c = ) (... ) ( ) ( 1 2 2 2 1 1

Filtro de ponderación perceptual Filtro de ponderación perceptual: Filtro LPC Filtro de ponderación perceptual Cerca de los formantes el error queda enmascarado.

Análisis por Síntesis Codificador Voz Generador de excitación Filtro LTP Filtro STP Voz - + + Filtro de ponderación perceptual Medir el error Decodificador Generador de excitación Filtro LTP Filtro STP Voz

4.6.3.- Codificación multipulso, MPC Módulo de análisis completo (bucle cerrado): Voz original Generador de excitación Multipulso Filtro LTP Filtro STP Voz sintética - + + Error objetivo Error perceptual Promedio Cuadrado Filtro de ponderación perceptual

4.6.4.- Codificación RPE-LTP Regular Pulse Excitation Long Term Prediction Es una versión simplificada del MPC Los pulsos están regularmente espaciados Se transmite una de cada M muestras Espaciado típico 3 o 4 muestras 3 2 Multipulso 1 0-1 -2 0 2 4 6 8 10 12 14 16 18 20 3 2 Pulsos Regulares 1 0-1 -2 0 2 4 6 8 10 12 14 16 18 20

4.6.4.- Codificación RPE-LTP Residuo original 0.5 0-0.5 0 2 4 6 8 10 12 14 16 18 20 0.5 0-0.5 0 2 4 6 8 10 12 14 16 18 20 0.5 0 Opciones -0.5 0 2 4 6 8 10 12 14 16 18 20 0.5 0-0.5 0 2 4 6 8 10 12 14 16 18 20 0.5 0-0.5 0 2 4 6 8 10 12 14 16 18 20 De todas las opciones se elige la de mayor energía

4.6.4.- Codificación RPE-LTP Además de la señal elegida es necesario indicar el desplazamiento inicial Codificación empleada en los móviles GSM de Europa Tasa binaria: 13 kbps

4.6.5.- Codificación CELP Code Excited Linear Prediction En este codificador el residuo se cuantifica vectorialmente por una secuencia aleatoria o estocástica de pulsos. Emplea ambos predictores: STP y LTP. Puede verse como una modificación del MPC: En vez de generar una secuencia de pulsos se selecciona la más adecuada de un conjunto de secuencias con ruido gausiano Únicamente se transmite el índice de la secuencia a utilizar El pitch lo genera el LTP

4.6.5.- Codificación CELP Determinación del código de excitación óptimo: Codebook Palabra 1 Palabra 2 Palabra 1024 G Filtro LTP Filtro STP Voz sintética Voz original - + + Error objetivo Error perceptual Promedio Cuadrado Filtro de ponderación perceptual

4.7.- Medidas de calidad Medidas Objetivas: Miden el parecido de la forma de onda original y la resultante Medidas Subjetivas: Se basan en la inteligibilidad y calidad perceptual de la señal resultante

4.7.1.- Medidas objetivas de calidad Permiten evaluar la calidad del codificador diseñado Tipos de medidas empleadas: Relación señal a ruido (SNR) Relación señal a ruido segmental (SNRseg) Relación señal a ruido segmental ponderada en frecuencia (FWSNRseg)

4.7.1.- Medidas objetivas de calidad SNR: relación señal a ruido 2 s[ n] n SNR = 10log10 2 s[ n] sˆ[ n] n ( ) SNRseg: Relación señal a ruido segmental 1 SNRseg = M M i= 1 SNR i M: nº tramas

4.7.1.- Medidas objetivas de calidad FWSNRseg: Relación señal a ruido segmental ponderada en frecuencia Además de calcular la SNR por tramas se dividirá en bandas de frecuencia y a cada banda se le asignará un peso dependiendo de su importancia. Estas tres medidas son válidas únicamente para los codificadores de forma de onda. El resto solamente suenan como la señal original por lo que habrá que emplear medidas subjetivas

4.7.2.- Medidas subjetivas de calidad Se basan en la opinión de un conjunto de oyentes Para obtener resultados válidos: Los oyentes deben estar entrenados Deben hacerse multitud de tests Las diferencias de calidad deben ser apreciables por los oyentes Tipos de tests: MOS, DRT,

4.7.2.- Medidas subjetivas de calidad MOS: Mean Opinion Score Es un test de calidad Puntuación Calidad Nivel distorsión 5 Excelente Imperceptible 4 Buena Perceptible, pero no molesto 3 Aceptable Perceptible y ligeramente molesto 2 Pobre Molesto 1 Insatisfactoria Muy molesto

4.7.2.- Medidas subjetivas de calidad MOS: Codificación de Excelente Codificadores Híbridos Forma de Onda PCM G711 (a / u) Calidad Buena Aceptable CELP GSM ADPCM G721, G726 Baja Vocoder LPC Codificación Paramétrica (VOCODERS) 2.4 4 8 16 32 64 kbps Tasa binaria

4.7.2.- Medidas subjetivas de calidad DRT: Diagnostic Rhyme Test Es un test de inteligibilidad El oyente tiene que elegir una palabra entre dos posibilidades. Las palabras difieren sólo en la consonante inicial. Ejemplos: sal, cal, tal, chal.

4.8.- Estándares Organismos de estandarización: ISO: International Standards Organization ITU: International Telecommunication Union ETSI: European Telecommunication Standards Institute

4.8.- Estándares G.711a y G.711u: LogPCM a 64kbps G.721: ADPCM 32 kbps G.722: Subband ADPCM a 48, 56 y 64 kbps G.723.1: CELP a 5.3 y 6.3 kbps G.726: ADPCM a 16, 24, 32 y 40 kbps G.728: LD-CELP (Low Delay) a 16 kbps G.729: CS-ACELP a 8 kbps GSM 6.10: RPE-LTP a 13 kbps