Representaciones corticales auditivas aproximadas

Transcripción

1 Representaciones corticales auditivas aproximadas Hugo Leonardo Rufiner UNL-UNER-CONICET, SINC - Lab. Cibernética, Argentina

2 Organización 1. Introducción y Motivación 1. Nociones preliminares 2. Representaciones ralas y/o independientes 3. Representación cortical auditiva aproximada: 1. Inferencia 2. Aprendizaje 4. Experimentos y resultados 5. Conclusiones y trabajos futuros 6. Bibliografía 2

3 Introducción y Motivaciones

4 Motivación Formulación del mensaje Codificación Acciones neuromusculares IDEA IDEA Comprensión del mensaje Decodificación Transducción neuronal Tracto vocal Fuente del sonido Onda acústica Ruido ambiente Movimiento membrana basilar Hablante Aire Oyente 4

5 Motivación Figura: Tasa de errores (WER) en diferentes pruebas de DARPA 5

6 Motivación Tabla: Comparación del WER entre humanos y máquinas 6

7 A m p l i t u d F r e c u e n c i a ( K H z ) A m p l i t u d A m p l i t u d F r e c u e n c i a ( K H z ) F r e c u e n c i a ( K H z ) 4 k o m o s e L a m a e l m a R 4 k o m o s e L a m a e l m a R A m p l i t u d F r e c u e n c i a ( K H z ) x x x x 10 4 k o m o s e L a m a e l m a R Tiempo (mseg.) k o m o s e L a m a e l m a R Tiempo (mseg.) 7

8 RP (%) Motivación "DIME EL CAUDAL DE TODOS LOS RIOS QUE DESEMBOCAN EN EL MAR MEDITE- RRANEO. "DIME EL CAUDAL DE TODOS LOS RIOS QUE DESEMBOQUEN EN EL MAR MEDITE- RRANEO "DIME EL CAUDAL EL NOMBRE DE MENOR EN EL MAR MENOR" Humanos (ambos ruidos) Maq. ruido murmullo Maq. ruido blanco acgp SNR (db) 8

9 A m p l i t u d C u e f r e n c i a t ( m s e g ) F r e c u e n c i a ( K H z ) C o e f i c i e n t e s F r e c u e n c i a ( K H z ) F r e c u e n c i a ( K H z ) F r e c u e n c i a ( K H z ) E s c a l a 4 k o m o s e L a m a e l m a R 5 k o m o s e L a m a e l m a R x k o m o s e L a m a e l m a R Tiempo (mseg.) k o m o s e L a m a e l m a R Tiempo (mseg.)

10 Motivación Cuál es la representación o análisis óptimo de una señal?: Evidencie claramente los rasgos o pistas significativas (depende del problema). Preserve esta información en condiciones adversas (depende del ruido o distorsión). 10

11 Motivación Cuál es la representación o análisis óptimo de una señal?: Posibles problemas ( señales): Clasificación Filtrado o limpieza Compresión Más de uno a la vez? Pregunta abierta: cuando la respondamos solucionamos el problema! 11

12 Motivación Las técnicas clásicas funcionan muy bien pero generalmente bajo hipótesis poco realistas: Linealidad. Estacionariedad. Estadística significativa de hasta 2 do orden. Muchas veces se imponen restricciones artificiales por razones de simplicidad: Ortogonalidad. Pequeña cantidad de dimensiones. 12

13 Motivación Hacen falta nuevas ideas en el campo (o repensar las abandonadas prematuramente). Es necesario fijarse en como los humanos solucionamos estos problemas. Se requiere un nuevo enfoque basado en técnicas no convencionales. 13

14 Motivación Las técnicas no convencionales suelen ser más complejas que el enfoque clásico. Por lo tanto esto no significa desechar el enfoque clásico, sino plantear alternativas para aquellos casos más allá de sus límites de aplicación. 14

15 Representación cortical auditiva aproximada (AACR)

16 Vía auditiva Ápex cóclea Corteza auditiva primaria (A1) Corteza auditiva secundaria (A2) Fisura de Silvio Tonotopía A1 Base cóclea 5 cm Área de asociación auditiva Corteza auditiva Núcleo geniculado medio Corteza auditiva Núcleo geniculado medio Área de asociación auditiva 100 millones de neuronas Colículo inferior Colículo inferior cóclea Núcleo olivar superior Núcleo olivar superior cóclea fibras nervio auditivo Núcleo coclear Núcleo coclear nervio auditivo 16

17 Frecuencia (KHz) Frecuencia (KHz) Pistas acústicas /f/ /m/ /l/ El ruido enmascara las pistas acústicas /s/ /n/ /r/ Tiempo 17

18 k o m o s e L a m a e l m a R 4 A m p l i t u d F r e c u e n c i a ( K H z ) x El ruido enmascara las pistas acústicas k o m o s e L a m a e l m a R Tiempo (mseg.) 18

19 Representación cortical La caracterización de la respuesta a nivel cortical basada en la utilización de tonos puros es inaplicable para un sistema no-lineal y variante en el tiempo como este. La no-linealidad intrínseca no es un accidente de la implementación biológica, sino que constituye un aspecto fundamental que le otorga características funcionales especiales. Por ello la respuesta frente a tonos puros constituye solo una primera aproximación al problema (tonotopías). 19 / 86

20 Campos receptivos espectro-temporales La caracterización completa de la respuesta neuronal cortical constituye un desafío importante aún sin resolver. Estudios recientes utilizando estímulos complejos combinados con análisis lineal y no-lineal han provisto una nueva visión acerca del problema. Se estima el estímulo óptimo (STRF) para una neurona mediante la exposición de la misma a una batería de entradas complejas. La mayoría de estos estudios utilizan para ello el denominado método de la correlación inversa. 20

21 Frecuencia (KHz) Octavas por encima 110 Hz Campos receptivos mamíferos Tiempo (mseg.) Tiempo (mseg.) Tiempo (mseg.) Tiempo (mseg.) Tiempo (mseg.) Tiempo (mseg.)

22 Representación cortical El sistema auditivo aplica principios de codificación eficiente para procesar a los sonidos naturales, especialmente el habla. Esto parece razonable si se piensa que son los sonidos más importantes de nuestro entorno. 22

23 Representación cortical Hipótesis: El rol de los sistemas sensoriales tempranos es remover la redundancia estadística. Tienden a crear representaciones internas sumamente ralas. El cerebro crea un código eficiente mediante una representación consistente principalmente en detectores de pistas acústicas. 23

24 Representación cortical Estas hipótesis nos remiten a la utilización de técnicas de inferencia y aprendizaje de diccionarios discretos para obtener representaciones ralas e independientes que se comporten aproximadamente como sus contrapartes biológicas 24

25 Representación cortical Puede armarse un modelo sensorial a partir de estas hipótesis y tratar de contrastar las predicciones realizadas con las respuestas reales. Entre las predicciones que han logrado validarse se puede mencionar la representación sensorial interna a nivel cortical a partir de los campos receptivos espectro-temporales (Klein 2003). 25

26 A c o u s t i c p r e s s u r e Esquema obtención AACR Speech signal (Time) Ear model A u d i t o r y n e r v e f i b e r s s x F Early auditory representation (Time-frequency) f n... x = F a + e a... S T R F n STRF n Primary auditory cortex model App. auditory cortical representation (Time-STRF n ) 26

27 Espectrograma auditivo (Shamma) 27

28 Experimentos y resultados

29 Experimentos: Diccionarios óptimos: Diccionario temporal (método Lewicki 00). Representaciones corticales aproximadas (Rufiner 02, Rufiner 05, Rufiner 05, Martinez 09). Aplicaciones: Clasificación de fonemas. Limpieza de ruido. Comparación alternativas propuestas con clásicas para cada caso. 29

30 Diccionario temporal (NOCICA) Dicc. óptimos: Sobrecompleto 64x128 (NOCICA). Albayzin: 10 oraciones, 1 hablante femenino. 30

31 Diccionario temporal (espectros) Densidad de Potencia Espectral de las señales de la base anterior 31

32 Diccionario temporal (activaciones) 32

33 STRF a partir de átomos temporales Espectrog. de átomos NOCICA comparados con STRF biológicos 16 mseg. 200 mseg. 33

34 STRF a partir de un espectrograma auditivo Campos receptivos: Proceso para generar los patrones espectro-temporales que permiten estimarlos. El sistema sensorial humano procesa de una manera particular las señales temporales. 34

35 Cuánto dura un fonema? Histogramas de duración de los fonemas 35

36 STRF s a nivel de sílabas Diccionario (análisis cualitativo) 128 mseg. real 36

37 STRF s a nivel de fonemas Diccionario (análisis cualitativo) 32 mseg. reales 37

38 Clasificación fonemas AACR 38

39 Clasificación fonemas AACR 39

40 Clasificación fonemas AACR % de tramos bien clasificados Figure: Initial tuning of the number of selected coefficients in the algorithm and hidden units in the neural networks. The best performance is obtained for 8 selected coefficients and 32 nodes in the hidden layer of the MLP. 40

41 Clasificación fonemas AACR % de tramos bien clasificados Figure: Recognition rates in percent for the classification of the 5 phonemes in the presence noise at different SNR, from clean speech up to same energy levels of speech and noise (SNR=0 db). 41

42 Limpieza de ruido AACR (a) Figure : Diagram of the proposed NCD method for denoising in the cortical domain. (a) Forward stage: cortical representation. (b) Backward stage: denoised reconstruction. (b) 42

43 Limpieza de ruido AACR 43

47 Conclusiones y trabajos futuros

48 Conclusiones generales Las técnicas presentadas constituyen una alternativa interesante frente a las clásicas. Importantes conexiones con los sistemas sensoriales biológicos. Permiten extraer las características significativas de la señal de voz en forma robusta y eficiente. Enfoque novedoso y prometedor. 48

49 Temas de interés futuro Métodos discriminativos para estimar diccionarios. Tratamiento del ruido. Medidas de calidad de la representación. Redes pulsadas y deep learning. Integración con sistemas artificiales actuales 49

50 Bibliografía

51 Algunos artículos C. Martínez, J. Goddard, L. Di Persia, D. Milone, H. Rufiner, Denoising sound signals in the non-negative auditory cortical domain, en preparación C. Martinez, J. Goddard, D. H. Milone, H. L. Rufiner, Approximated auditory cortical representation of speech with intrinsic robustness, enviado a Computer, Speech and Language, Elsevier Science, Junio H.L. Rufiner, C.E. Martínez, D.H. Milone and J. Goddard, "Auditory cortical representations of speech signals for phoneme classification", Lecture Notes in Computer Science, Springer- Verlag / Berlin Heidelberg, Vol. 4827, pp , H.L. Rufiner, C.E. Martínez, D.H. Milone, J. Goddard, Extracción de características bioinspirada basada en un Modelo Cortical Auditivo, Anales de la Academia Nacional de Ciencias Exactas, Físicas y Naturales, Tomo 58, pp , 2006 (por invitación). H.L. Rufiner, J. Goddard, L. F. Rocha, M. E. Torres, "Statistical method for sparse coding of speech including a linear predictive model", Physica A, Vol. 367 (1), , July H.L. Rufiner, C. Martínez, J. Goddard, "Clasificación de fonemas mediante representaciones corticales auditivas", Memorias XV Congreso SABI, Paraná, Argentina, Sept H.L. Rufiner, J. Goddard, L.F. Rocha, Representación rala de la señal de voz, Revista Argentina de Bioingeniería, Ed. Universitas, ISSN , Vol. 10, Nº 2, pp.3-12, Noviembre

52 Libros: H.L. Rufiner, Análisis y modelado digital de la voz: Técnicas recientes y aplicaciones, Editorial UNL, (Capítulo 2). 52