1/49. Procesamiento Digital de Audio. Dr. Caleb Rascón

Documentos relacionados
Introducción al curso Audición Robótica. Dr. Caleb Rascón

Agentes Inteligentes. Agentes Reflexivos RobotC. Manuel Aínza Carrillo Luis Enrique Garay Olmos Rocío García Estrada

1/40. Corpus AIRA Emulación de Ambientes Acústicos

GRADO EN INGENIERÍA DE TECNOLOGÍAS Y SERVICIOS DE TELECOMUNICACIÓN

Tecnologías de comunicación Análogas y Digitales

UNIVERSIDAD NACIONAL DE LOJA

PERFIL PROFESIOGRÁFICO PARA IMPARTIR LAS ASIGNATURAS DE LA LICENCIATURA EN INGENIERÍA EN TELECOMUNICACIONES (PLAN DE ESTUDIOS 2005)

ESTRUCTURA LÓGICA DE UN DISPOSITIVO MECATRÓNICO

Capítulo 1 Introducción.

Universidad de Costa Rica Facultad de Ingeniería Escuela de Ciencias de la Computación e Informática Licenciatura en Computación e Informática

CLASIFICACIÓN DE LAS COMPUTADORAS ACTUALES

Fundamentos para programación y robótica Módulo 2 Programación y robótica Capítulo 3 TortuBots y NXT

UNIVERSIDAD RICARDO PALMA FACULTAD DE INGENIERÍA

Introducción al procesamiento digital de señales en tiempo real

Oferta de trabajos en grupo teóricos

PERFIL PROFESIOGRÁFICO PARA IMPARTIR LAS ASIGNATURAS DE LA LICENCIATURA EN INGENIERÍA EN COMPUTACIÓN (PLAN DE ESTUDIOS 2005)

DEPARTAMENTO DE ELÉCTRICA Y ELECTRÓNICA CARRERA DE INGENIERÍA EN ELECTRÓNICA E INSTRUMENTACIÓN AUTOR: WILLIAM LÓPEZ DIRECTOR: ING.

ANX-PR/CL/ GUÍA DE APRENDIZAJE

Programación orientada a objetos. Clase & taller Dra. Elisa Schaeffer / FIME UANL 2011

RECONSTRUCCIÓN TRIDIMENSIONAL DE ZONAS DE INTERÉS: EVALUACIÓN DE RGB-D SLAM

Universidad Ricardo Palma

Capítulo 1. 1.Introducción

OFERTAS DE TRABAJOS FIN DE GRADO

BOLETÍN OFICIAL DEL ESTADO UNIVERSIDADES

Albert Cornet Director del Departamento de Electrónica

-

DSAP - Procesado Digital de Audio y Voz

Algoritmos. Libro en línea 3/8/18. Ing. Roberto Martínez Román - 1 RESOLVIENDO PROBLEMAS. Cuál es el objetivo del libro?

Acústica del Habla. Introducción a las Tecnologías del Habla 2 o cuatrimestre 2014 Agustín Gravano

INTRODUCCIÓN A LA PROGRAMACIÓN

UNIVERSIDAD CATÓLICA DE SANTA MARÍA

Capítulo 4: Resultados

DESCRIPCIÓN DEL RESULTADO DE INVESTIGACIÓN

Objetivo: Contenido

Diseño de un robot móvil con modelo cinemático Ackermann

DIVP - Procesado Digital de Imagen i Vídeo

Documento no controlado, sin valor

LAS 14 AREAS TEMATICAS DE LA COMPUTACIÓN

Reconocimiento de créditos para estudiantes de ciclos formativos de grado superior

BOLETÍN OFICIAL DEL ESTADO UNIVERSIDADES

Introducción a la Computación

PLANIFICACIÓN DE LA DOCENCIA UNIVERSITARIA GUÍA DOCENTE. Programación a bajo nivel

EN COMUNICACIONES Y ELECTRÓNICA

ALED: ALgoritmos y Estructuras de Datos

Capítulo 5. Diseño del Sistema

MATERIA: Módulo profesional de ofimática. FACILITADOR: Lic. Armando Barrios Mercado. TEMA: Clasificación del Hardware

CONTENIDOS DOCENTES DE AUTOMÁTICA EN LA UNIVERSIDAD MIGUEL HERNÁNDEZ

INGENIERÍA ELECTRÓNICA Y TELECOMUNICACIONES

Visión Artificial CIE-0703

Guía de estudio para informática

EI MT1008 Programación II

Metodología y Tecnología de la Programación. I.T. Informática de Gestión

RECONOCIMIENTO DE PATRONES DRA. LETICIA FLORES PULIDO

L A B O R A T O R I O COMPUTACIÓN

Hacia una educación más inclusiva

INFORMÁTICA. En la evaluación de Informática 4º de ESO se seguirán los siguientes pasos:

Capítulo 4 Exploración del ambiente.

Diadema Inalámbrica para Controlar Silla de Ruedas para Personas Tetrapléjicas

ACTIVIDAD CURRICULAR DE FORMACIÓN

Cálculo del valor de la resistencia eléctrica de un resistor de 4 franjas, por medio del código de colores utilizando visión por computadora

IMPROCES - Tratamiento de Imágenes en Biofotónica

Guía de asignatura. Información general. Programación de Computadores. Asignatura Código Tipo de asignatura Obligatoria X Electiva

UNIVERSIDAD DE ANTIOQUIA FACULTAD DE CIENCIAS EXACTAS Y NATURALES INSTITUTO DE FÍSICA PROGRAMA DE FUNDAMENTACIÓN EN COMPUTACIÓN

Contenido Capítulo 1 Introducción Capítulo 2 Conceptos Básicos Capítulo 3 Procesamiento de Imágenes en el Dominio Espacial

1. Datos de la asignatura

Tarjetas aceleradoras de gráficos

PROGRAMA DE LA ASIGNATURA "PROCESADO DIGITAL DE SEÑALES"

PDI - Procesamiento Digital de Imagen

Análisis de Señales y Sistemas. Dr. Grover Zurita

ANTECENDENTES DE LA COMPUTADORA

UNIVERSIDAD MAYOR DE SAN SIMON FACULTAD DE CIENCIAS Y TECNOLOGÍA PLAN GLOBAL COMPUTACION I

GUÍA DE APRENDIZAJE ESTRUCTURA DE DATOS

II.3. Retoque (enhancement) de imágenes médicas (Bankman I. N. (Ed.), Handbook of medical imaging, Academic Press, 2000)

PROGRAMACION DE COMPUTADORES I

UNIVERSIDAD AUTÓNOMA DE CHIAPAS Facultad de Contaduría y Administración, Campus I

PROCESAMIENTO DIGITAL DE IMÁGENES

CAPITULO 5 RESULTADOS Y CONCLUSIONES

Web 2.0 P of o. J os o é To T m o á m s Ca C de d na n s

UNIDAD 1: - ESTRUCTURA Y FUNCIONAMIENTO DE UN ORDENADOR

HERMES-TDT HERRAMIENTAS DE MONITORIZACIÓN Y

PRACTICAS DE ADOBE AUDITION

Redes de Ordenadores. Guía de aprendizaje

FUNDAMENTOS DEL MOTOR DE JUEGO DE BLENDER 2.49b

1/24. Lectura de Archivos de Audio. con JACK y libsndfile

FIRST LEGO League (FLL) Workshop de Programación con LEGO Mindstorms EV3

1. Se usa en computadoras de mano (palm), en cámaras digitales y en teléfonos celulares Memoria Stick

IMPROCES - Tratamiento de Imágenes en Biofotónica

Pendiente de aprobación por la Comunidad de Madrid

TÉCNICO SUPERIOR UNIVERSITARIO EN TECNOLOGÍAS DE LA INFORMACIÓN Y COMUNICACIÓN ÁREA MULTIMEDIA Y COMERCIO ELECTRÓNICO.

Con su diseño compacto y fácil de encontrar las teclas, el ALVA BC640 proporciona un fácil acceso a las aplicaciones utilizadas en la escuela.

DISEÑO DE ALGORITMOS. Ingeniería Ingeniería en Sistemas. Hardware. Clave de la materia: 215. UNIVERSIDAD AUTÓNOMA DE CHIHUAHUA Clave: 08MSU0017H

Transcripción:

1/49 Procesamiento Digital de Audio Dr. Caleb Rascón caleb.rascon@iimas.unam.mx

2/49 Procesamiento Digital de Audio El campo de señales de audio es normalmente considerado como el primito especial del área de Procesamiento de Señales. Señales visuales son más sexy Señales Biomédicas salvan vidas Mientras que procesar y analizar audio se considera una reliquia de los 90s. MP3 y compresión de audio

3/49 Procesamiento Digital de Audio Dentro de una señal de audio hay un mundo enorme que ha sido poco explorado. No fue hasta recientemente (> 2006) que se ha analizado adecuadamente. Este mundo es lo que nos vamos a referir como la Escena Auditiva. Y es muy compleja.

No me creen? 4/49

5/49 Experimento con Audio Cierren los ojos Y Sólo pónganle atención a la primera voz que escuchen

6/49 Complejidad de Escena Auditiva Qué pudieron hacer con sólo audio? Saber dónde están las varias fuentes de sonido. Separar las fuentes en canales con sólo una fuente. Saber qué es cada una de esas fuentes y etiquetarlas. Filtrar el sonido de las fuentes etiquetadas ruido. Saber qué es lo que está diciendo cada una de las fuentes del tipo persona. Decidir cuál es la más importante ponerle atención. Comprender qué es lo que está diciendo la fuente más importante. Reaccionar a ruidos no esperados. en tiempo real, en ambientes muy dinámicos.

Para qué? 7/49

8/49 Motivación Audio está en todo nuestro alrededor. El límite de rango del que se puede recibir una señal de audio es alto: 360 grados ambos vertical y horizontalmente. Comparado a: Visión: es ~ 170 grados horizontalmente y ~ 90 grados verticalmente. Olfato: rango comparable, pero sin dirección. Tacto: requiere movimiento del sensor.

9/49 Motivación Hay mucha información que puede ser extraída de una señal de audio: Dirección y distancia de una fuente de sonido Reconocimiento de clase de fuente de sonido Reconocimiento del habla Tamaño del entorno Materiales de paredes

10/49 Motivación Desafío Todo esa información de un arreglo de datos de una dimensión. Si tenemos varios micrófonos, podemos tener varios arreglos que analizar.... en línea/tiempo real.

11/49 Motivación Desarrollo Práctica de primera mano en desarrollar software de procesamiento. Hoy en dia, si estás procesando señales, lo estás haciendo con una computadora. Lenguajes variantes de C son los más prácticos en utilizar, por su robustez, eficiencia de manejo de recursos, así como su precio.

12/49 Motivación Telecomunicaciones Si consideramos al micrófono como un tipo de antena, muchos de los conceptos de telecomunicaciones se pueden aplicar en procesamiento de señales de audio. Filtrado Comparación de señales Beamforming

13/49 Motivación Aplicaciones Audición Robótica

14/49 Audición Robótica Varias definiciones. La que más me gusta: Rama que tiene como objetivo otorgar a un ente no-humano una capacidad auditiva cercana a la de un humano oyente.

15/49 Audición Robótica Varias definiciones. La que más me gusta: Rama que tiene como objetivo otorgar a un ente no-humano una capacidad auditiva cercana a la de un humano oyente. Usualmente un robot de servicio.

16/49 Motivación Audición Robótica Videos

17/49 Objetivo del Curso Exponer al alumno a temas de procesamiento de señales de audio, donde se cubrirán desde los conceptos teóricos hasta los aspectos de implementación.

18/49 Intención del Curso Al terminar este curso, le sea posible al alumno crear, de una manera eficiente, software que analice, procese, y regrese resultados de señales de audio en línea.

19/49 Suposición del Curso Aunque se espera que el alumno tenga bases previas de Señales y Sistemas, así como de programación, el curso se llevará a cabo de tal manera que dichas bases serán refinadas y repasadas.

20/49 Intención del Curso Al terminar este curso, le sea posible al alumno crear, de una manera eficiente, software que analice, procese, y regrese resultados de señales de audio en línea.

21/49 Desarrollo de Software Vamos a programar... mucho. En el lenguaje C. Utilizando struct's y dobles apuntadores. Vamos a compilar directamente en línea de comando. Sin IDE. Por lo tanto, necesitaremos computadoras.

Todos tenemos acceso a alguna computadora? 22/49

23/49 Todos tenemos acceso a alguna computadora? Con Linux instalado, nativamente... Se puede virtualizar, pero se han tenido malas experiencias.

24/49 Intención del Curso Al terminar este curso, le sea posible al alumno crear, de una manera eficiente, software que analice, procese, y regrese resultados de señales de audio en línea.

25/49 Señales de Audio Energía Tiempo

26/49 Señal de Audio 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 0.1 0.0 0.2 0.4 0.7 1.1 1.0 0.8 0.6 0.6 0.3 0.2 0.1 0.0 0.0 0.2 0.5 0.4 Arreglo de valores, en el que cada celda es un momento en el tiempo, y el valor de la celda es el valor de energía.

27/49 Intención del Curso Al terminar este curso, le sea posible al alumno crear, de una manera eficiente, software que analice, procese, y regrese resultados de señales de audio en línea.

En línea!= En tiempo real 28/49

En línea ~= En tiempo real 29/49

30/49 En Línea Lo contrario a fuera de línea. El procesamiento se lleva a cabo durante la captura, no después.

31/49 En Tiempo Real Implica en línea. Realmente no hay una definición definitiva. Difiere dependiendo del área de aplicación. Para propósitos de este curso: Tan rápido como un humano habla por un micrófono y se escucha a si mismo por una bocina.

32/49 Independientemente... Nos haremos muy buenos amigos de una biblioteca de procesamiento de señales de audio llamada: JACK Audio Connection Kit Su documentación presume hacer procesamiento de audio en tiempo real, pero lo que nos interesa es que lo hace en línea. Pero, tiene otras facilidades:

33/49 JACK Otorga la facilidad de crear agentes de JACK que se pueden conectar al servidor de JACK, el cual, a su vez, está conectado a dispositivos de audio (bocinas para salida, micrófonos para entrada, etc.).

JACK 34/49

35/49 JACK Cada agente se comunica con JACK por medio de escribir y/o leer valores de energía en arreglos de datos. Dichos arreglos representan ventanas de audio. También conocidos como periodos.

36/49 En Línea JACK Ventanas de tamaño: 6 0 1 2 3 4 5 0 1 2 3 4 5 0 1 2 3 4 5 0.1 0.0 0.2 0.4 0.7 1.1 1.0 0.8 0.6 0.6 0.3 0.2 0.1 0.0 0.0 0.2 0.5 0.4 Ventana 0 Ventana 1 Ventana 2

37/49 JACK De esta manera, mientras escribamos/leamos adecuadamente dichos arreglos de datos, JACK se encarga de entregar los datos a tiempo ya sea a: Los dispositivos Otros agentes

JACK 38/49

39/49 Procesamiento Digital de Audio Al final de este curso, deben de poder llevar a cabo un análisis de alguna parte de la escena auditiva.

40/49 Partes de la Escena Auditiva Saber dónde están las varias fuentes de sonido alrededor. Separar las fuentes en canales con sólo una fuente. Saber qué es cada una de esas fuentes y etiquetarlas. Filtrar el sonido de las fuentes etiquetadas ruido. Saber qué es lo que está diciendo cada una de las fuentes del tipo persona. Decidir cuál es la más importante ponerle atención. Comprender qué es lo que está diciendo la fuente más importante. Reaccionar a ruidos no esperados.

41/49 Partes de la Escena Auditiva Saber dónde están las varias fuentes de sonido alrededor. Separar las fuentes en canales con sólo una fuente. Saber qué es cada una de esas fuentes y etiquetarlas. Filtrar el sonido de las fuentes etiquetadas ruido. Saber qué es lo que está diciendo cada una de las fuentes del tipo persona. Decidir cuál es la más importante ponerle atención. Comprender qué es lo que está diciendo la fuente más importante. Reaccionar a ruidos no esperados.

42/49 Realmente... Este curso les dará las bases para poder hacer proyectos de procesamiento de audio muchísimo más complejos. Extrayendo otras partes de la escena auditiva. *cough* tesis *cough*

43/49 Página del Curso http://calebrascon.info/pda

44/49 Curso Se mantendrá un balance entre la teoría y la práctica. Primer mes, repaso de las bases de: *Lenguaje C Captura de Audio Señales y Sistemas (Transformada de Fourier) Resto: Filtrado y Detección de Actividad de Voz Revisión de algoritmos para: Estimación de Dirección de Arribo Separación de Fuentes en Línea Implementación de dichos algoritmos

45/49 Curso Tareas prácticas. Un examen parcial al fin del primer mes. Un proyecto final. Con mucho tiempo al fin del semestre para lo que terminen.

46/49 Proyecto Final DESEABLE. Resolver ambos: Estime la dirección de las fuentes en el ambiente. Las separe en diferentes canales. Máxima calificación: 10 no es para nada trivial.

47/49 Proyecto Final MÍNIMO. Resolver uno: Estime la dirección de las fuentes en el ambiente. O, asumiendo que ya se conocen las direcciones, las separe en diferentes canales. Máxima calificación: 9

48/49 Proyecto Final Presentación de 20 minutos, describiendo: Algoritmo(s) utilizado(s) y por qué. Problemas que se encontraron. Si se pudieron resolver: cómo? Si no se pudieron resolver: potenciales soluciones. Demostración del sistema, en vivo.

49/49 Información de Contacto Mi oficina: IIMAS, 4o piso, Oficina 403. Mi correo: caleb.rascon@iimas.unam.mx caleb.rascon@gmail.com