$63(&7267e&1,&26'(/,03/$17(&2&/($5 )81&,21$0,(172326,%,/,'$'(6< /,0,7$&,21(6 Ángel de la Torre Vega Dpto. Electrónica y Tecnología de Computadores Universidad Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 1
FDGHQDGHKXHVHFLOORV QHUYLRDXGLWLYR FyFOHD YHQWDQD UHGRQGD WtPSDQR YHQWDQDRYDO Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 2
Laberinto óseo anterior (cóclea) Hueso compacto Formado en el 5º mes de vida embrionaria Tubo cónico, enrollado sobre cono que describe 2 vueltas y media 5-6 mm 1-2 mm 32-35 mm 9 mm Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 3
Laberinto membranoso (rampas cocleares) Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 4
El órgano de Corti Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 5
Percepción auditiva FyFOHD FyFOHDGHVHQUROODGD HVWULER YRYDO &HOFLOLDGDV 0HPEGH 5HLVVQHU SDUHG FRFOHDU YLEUDFLyQ YUHGRQGD 0HPEEDVLODU SHULOLQID,PSXOVRVHOpFWULFRV 3RWHQFLDOHVGHDFFLyQ QHUYLR DXGLWLYR Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 6
Teorías de la percepción sonora Tonotópica Patrón temporal de estimulación Frecuencia máxima de disparo en células ciliadas y fibras del nervio coclear: 400 800 descargas por segundo Patrón temporal: depende de la sincronización Combinación de ambos mecanismos: A bajas frecuencias predomina el patrón temporal de estimulación A altas frecuencias predomina tonotopia Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 7
Punto de máxima estimulación N+] N+] N+] N+] N+] N+] +] +] +] +] +] +] +] +] +] +] N+] +] +] +] N+] Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 8
Reconocimiento automático de voz Adquisición de la voz Representación de la voz Secuencia de palabras respuesta Extracción de características Reconocimiento de voz Sistema de diálogo Voz sintetizada Modelo acústico (fonemas) Modelo lenguaje (voc+gram) Base de datos Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 9
Percepción de la voz Adquisición de la voz Representación de la voz en el nervio auditivo respuesta Aparato auditivo Interpretación del mensaje Producción de voz Aparato fonador Modelo acústico (fonemas) Modelo lenguaje (voc+gram) Información contextual Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 10
Percepción de la voz con I.C. Adquisición de la voz Representación de la voz en el nervio auditivo respuesta Implante Coclear Interpretación del mensaje Producción de voz Aparato fonador Modelo acústico (fonemas) Modelo lenguaje (voc+gram) Información contextual Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 11
Analogía entre: Implante coclear Reconocimiento automático de voz (bloque de extracción de características) Objetivos comunes: Representar la información de la señal de voz que permite identificar, discriminar y reconocer las distintas unidades de la voz: fonemas sílabas palabras Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 12
WUDQVPLVRU5) UHFHSWRU5)\ HPLVRUGHHVWtPXORV HOHFWURGRGHUHIHUHQFLD PLFUyIRQR\ SURFHVDGRU HOHFWURGRV DFWLYRV JXtDGHHOHFWURGRV Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 13
Imagen Rx de un implante Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 14
Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 15
Objetivos y limitaciones del I.C. Objetivos: Percepción de los sonidos Percepción de la voz con calidad: Identificación, discriminación y reconocimiento de unidades Fonemas, sílabas, palabras Limitaciones: Técnicas Aprendizaje Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 16
Características del oído humano Configuración de la cóclea: 6.000 células ciliadas internas 40.000 terminaciones nerviosas Repolarización: 2 ms (400-500 disparos/seg) Conexión sináptica: sin interación entre canales Capacidad de un oído entrenado: Resolución espectral: 1/9 tono Resolución temporal: 400-500 Hz Resolución de intensidad: 1 db Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 17
Limitaciones del implante coclear No hay conexión sináptica: Un electrodo estimula muchas fibras Si se estimulan simultáneamente varios electrodos hay interferencia entre canales Consecuencias: Pocos electrodos (se representa sólo la envolvente espectral) Alta tasa de estimulación En cada instante sólo se estimula un canal Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 18
Limitaciones del implante coclear Resolución espectral: pobre (pocos electrodos) Resolución temporal: aceptable (en implantes con alta tasa de estimulación) (depende del estado del nervio auditivo) Resolución en intensidad: aceptable (depende del estado del nervio auditivo) Qúe consecuencias tienen las limitaciones sobre la percepción de la voz? Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 19
La señal de voz /sal/ Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 20
La señal de voz /s/ /a/ /l/ Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 21
Espectro de las vocales L D R D cerrada X H Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 22
Espectro de las vocales L D R D cerrada X H Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 23
Formantes 1º y 2º en vocales 3000 2500 freq. 2o formante (Hz) 2000 1500 1000 /i/ /u/ /e/ /o/ /a/ 500 200 300 400 500 600 700 800 900 1000 freq. 1er formante (Hz) Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 24
Espectro de consonantes sonoras P O Q \ x 5 Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 25
Espectro de consonantes fricativas V ] VK I VV M Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 26
Fonemas no estacionarios Fonemas estacionarios: vocales: /a/ /e/ /i/ /o/ /u/ consonantes sonoras: /l/ /y/ /R/ /m/ /n/ /ñ/ consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/ Fonemas no estacionarios: Plosivas sordas: /p/ /t/ /k/ Plosivas sonoras: /b/ /d/ /g/ Otras consonantes: /ch/ /r/ Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 27
Espectrograma (representación tiempo - frecuencia) Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 28
Espectrograma (representación tiempo - frecuencia) PERLD NRP SUD5SDQ Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 29
Información relevante de la señal de voz: Para reconocimiento de voz: Envolvente espectral (formantes) Evolución temporal de los formantes Información espectral de tiempo corto Información complementaria: Tono fundamental Estructura fina del espectro Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 30
Estrategias de estimulación Separación de señal de audio en bandas de frecuencia Asignación de bandas a electrodos (tonotópica) Estimulación de los electrodos de acuerdo con la energía en cada banda de frecuencia en cada instante de tiempo (patrón temporal) Las limitaciones - compromisos y soluciones dan lugar a las estrategias de estimulación Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 31
Estrategias de codificación Analógicas: Compressed Analog Pulsátiles: Extracción de características F0/F1/F2 MPEAK Híbridas: SMSP / SPEAK N-of-M Forma de onda: ACE / CIS / CIS+ Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 32
Compressed Analog compresion Estim. elec 1 compresion Estim. elec 2 compresion Estim. elec 3 compresion Estim. elec 4 compresion Estim. elec 5 Adquisición de la señal Banco de filtros Ajuste de niveles Estimulación Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 33
Compressed analog Estimulación analógica (no pulsátil) Estimulación simultánea de todos los electrodos (interacción entre canales) Estimulación bipolar Campo eléctrico de cercanía Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 34
F0 / F1 / F2 Estima parámetros: F0: tono fundamental (frecuencia) F1: primer formante (frecuencia y amplitud) F2: segundo formante (frecuencia y amplitud) Estimula dos electrodos en cada ciclo: los correspondientes a las frecuencias F1 y F2 con las amplitudes estimadas para F1 y F2 con la tasa de estimulación asociada a F0 Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 35
F0 / F1 / F2 F2 1 k - 3 k F1 300-1 k F2 A2 F1 A1 Generador de estímulos Generador de estímulos Ajuste de niveles F0 0-270 Generador de pulsos Adquisición de la señal Extracción de características Selección de electrodos Estimulación Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 36
F0 / F1 / F2 F2 1 k - 3 k F1 300-1 k F2 A2 F1 A1 Generador de estímulos Selecciona uno entre canales 6-20 Generador de estímulos Selecciona uno entre canales 1-5 Ajuste de niveles F0 0-270 Generador de pulsos Adquisición de la señal Extracción de características Selección de electrodos Estimulación Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 37
MPEAK (Multi Peak) 4 k - 6 k Electrodo 20 2.8 k - 4 k Electrodo 17 2 k - 2.8 k F2 800-4 k F2 A2 Electrodo 14 Generador de estímulos Ajuste de niveles F1 300-1 k F1 A1 Generador de estímulos F0 0-270 Generador de pulsos Adquisición de la señal Extracción de características Selección de electrodos Estimulación Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 38
Extracción de características Presentan la información esencial para percibir la voz: Tono fundamental (F0) Primer y segundo formante Representación pobre de la voz Sensibilidad a estimación de F0, F1 y F2: Respuesta pobre en condiciones de ruido Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 39
SMSP, SPEAK y N-of-M Selección de los N canales con mayor intensidad Ajuste de niveles Adquisición de la señal Banco de filtros y detecc. envolvente Selección de electrodos Estimulación Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 40
Implementaciones (alta tasa de estimulación): SMSP: en cada ciclo, 6-de-16 canales SPEAK: en cada ciclo, 6-de-20 canales N-of-M: en cada ciclo, 2-de-12 a 11-de-12 Ventajas: Mejor representación que extracción de caract. Menos sensible a ruido de fondo Inconvenientes: Se pierde información (canales con menos energía) Compromiso: Número de canales - tasa de estimulación Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 41
CIS: Continuous Interlived Sampling Adquisición de la señal Banco de filtros y detecc. envolvente Ajuste niveles Generación estímulos Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 42
Implementaciones (alta tasa de estimulación): ACE (Nucleus24): hasta 22 canales CIS (Clarion): hasta 8 canales CIS+ (Medel): hasta 12 canales Ventajas: Todos los electrodos estimulados en cada ciclo con alta tasa de estimulación Mejor representación de la señal de audio Mejor resolución en intensidad Mayor sensibilidad Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 43
Tendencias en las estrategias Estimulación monopolar Estimulación pulsátil con pulsos bifásicos Estrategias de forma de onda Algoritmos de respuesta rápida en la detección de envolvente Pulsos no solapados Alta tasa de estimulación Objetivos: Resolución frecuencial Resolución temporal Resolución en intensidad Sensibilidad Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 44
Percepción con Implante Coclear Limitaciones Resolución espectral: Pocos electrodos (muchos menos de 6.000) Por qué no más electrodos? Intervalo de frecuencia 200 Hz 10.000 Hz Resolución temporal: 300... 3000 disparos/seg Respuesta a los distintos niveles de intensidad Limitaciones fisiológicas y ausencia de mecanismos de adaptación Limitaciones relacionadas con las habilidades Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 45
Cómo oye un implantado? No se puede saber Sólo unos pocos pacientes están en condiciones de hacer comparaciones Observación indirecta (qué son capaces de hacer) Teniendo en cuenta todo el proceso de estimulación se puede sintetizar la señal tal y como la oiría un implantado Ejemplos en: http://www.ugr.es/~atv Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 46
Aportaciones del Implante Coclear Percepción auditiva con calidad suficiente para comprensión del habla (sin ruido) Para ello, antes hay que desarrollar... habilidades perceptuales habilidades lingüísticas Comprensión de la voz en ruido: difícil Percepción de los distintos sonidos, música proporciona toda la información temporal que un oído normal puede percibir (poca resolución espectral) Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 47
Conclusiones Tendencias en estrategias de codificación: Reducir extracción de características Alta tasa de estimulación Todas las estrategias actuales (CA, SPEAK, CIS) proporcionan resultados satisfactorios: Envolvente espectral Resolución temporal Resolución en intensidad Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 48
Prestaciones: Representación de la señal de audio suficiente para comprender la voz Limitaciones: Aprendizaje Percepción de la música Comprensión de la voz en condiciones de ruido Los implantes en el futuro Ángel de la Torre Vega G.I. Procesamiento de Señales y Comunicaciones DETC UGR 49