Memoria Final. Proyecto Sonacar



Documentos relacionados
MEDICIÓN Y AJUSTE DE LOS SISTEMAS DE REFUERZO SONORO

Covarianza y coeficiente de correlación

Representación de señales de audio

Introducción a la Firma Electrónica en MIDAS

App para realizar consultas al Sistema de Información Estadística de Castilla y León

UNIVERSIDAD DE SALAMANCA

Media vs mediana vs moda Cual medida de tendencia central es mas adecuada? MEDIA conveniencias:

ESTRATEGIA DE DINAMARCA: INFORME SOBRE EL FUTURO DEL ENTORNO LABORAL

Guías _SGO. Gestione administradores, usuarios y grupos de su empresa. Sistema de Gestión Online

Curso Excel Básico - Intermedio

Muestreo estadístico. Relación 2 Curso

E Evaluación de pilotos. : Versión: 0.1 Fecha: 07/02/13 Autor: Pablo Martín Pablo.martin@logica.com

TRABAJO PRACTICO No 7. MEDICION de DISTORSION EN AMPLIFICADORES DE AUDIO ANALIZADORES DE ESPECTRO DE AUDIO

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

GedicoPDA: software de preventa

8.1. Introducción Dependencia/independencia estadística Representación gráfica: diagrama de dispersión Regresión...

SEWERIN. Pre Localización De Fugas de Agua

Elementos requeridos para crearlos (ejemplo: el compilador)

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología

ANEXO III OBLIGACIONES DEL INDUSTRIAL

Manual del Usuario. Sistema de Help Desk

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Tipos de instalaciones

Sistema de detección de incendios. Sergio Menéndez Muñiz Consultor: Jordi Bécares Ferrés Fecha: Junio 2012

e-netcamanpr INDICE: Manual de Instalación

MACROS. Automatizar tareas a través del uso de las macros.

V Manual de Portafirmas V.2.3.1

Movimiento a través de una. José San Martín

MANUAL DE AYUDA HERRAMIENTA DE APROVISIONAMIENTO

Gestión de la Prevención de Riesgos Laborales. 1

LA MEDIDA Y SUS ERRORES

DE VIDA PARA EL DESARROLLO DE SISTEMAS

Capitulo I. Introducción

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

1.1. Introducción y conceptos básicos

Administración de Empresas. 11 Métodos dinámicos de evaluación de inversiones 11.1

Mantenimiento de Sistemas de Información

TRANSPRO EL TRANSPORTE URBANO DEL MONTEVIDEO DEL MAÑANA

ANTENAS: Teledistribución y televisión por cable

Funcionalidades Software PROYECTOS GotelGest.Net Software para la gestión de Proyectos GotelGest.Net

Análisis y cuantificación del Riesgo

CAPÍTULO 1 Instrumentación Virtual

CONTRATAS Y SUBCONTRATAS NOTAS

Procedimiento de Sistemas de Información

Capítulo V Resultados y conclusiones


E-CONTABILIDAD FINANCIERA: NIVEL II

ÍNDICE...1. Pág. 1/21

Escuela de Organización Industrial

Módulo 7: Los activos de Seguridad de la Información

Última modificación: 1 de agosto de

Manual de usuario para Android de la aplicación PORTAFIRMAS MÓVIL

Norma ISO 14001: 2015

2. TERMINOS BÁSICOS DE ACÚSTICA.

MATEMÁTICAS ESO EVALUACIÓN: CRITERIOS E INSTRUMENTOS CURSO Colegio B. V. María (Irlandesas) Castilleja de la Cuesta (Sevilla) Página 1 de 7

CAPÍTULO VI PREPARACIÓN DEL MODELO EN ALGOR. En este capítulo, se hablará acerca de los pasos a seguir para poder realizar el análisis de

Ejemplo de EVS (v 1.0). 1. Ámbito y alcance del proyecto. 2. Lista de usuarios participantes.

CAPITULO 6 SISTEMA DE DETECCION DE INTRUSOS

NORMA CHILENA OFICIAL NCh ACÚSTICA - EVALUACIÓN DEL RUIDO EN RELACIÓN CON LA REACCIÓN DE LA COMUNIDAD

28.- Manejo de los Feriados

Gestión y Desarrollo de Requisitos en Proyectos Software

CAPÍTULO 6 SIMULACIONES Y RESULTADOS

Activos Intangibles Costos de Sitios Web

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones

Comunicaciones Digitales - Ejercicios Tema 3

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2

LINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN

PLAN DE MEJORAS. Herramienta de trabajo. Agencia Nacional de Evaluación de la Calidad y Acreditación

4 Pruebas y análisis del software

Plan de tarificación. Redes telefónicas. Requisitos a cumplir por el plan.

ANEXO 26-A COMITÉ PERMANENTE DE INTERPRETACIÓN SIC N 32 ACTIVOS INTANGIBLES COSTOS DE SITIOS WEB. (Modificada en 2008) (IV Difusión)

MANUAL DE AYUDA. SAT Móvil (Movilidad del Servicio Técnico)

Capítulo IV. Manejo de Problemas

Funcionalidades Software SAT GotelGest.Net (Software de Servicio de Asistencia Técnica)

UNIDADES FUNCIONALES DEL ORDENADOR TEMA 3

Una tradición de calidad e innovación.

FASES DEL PROCESO DE RESOLUCIÓN DE PROBLEMAS

5.4. Manual de usuario

CONCEPTOS DE LA FUERZA

FUNDACIÓN KONECTA. Estudio piloto de aplicaciones informáticas en 30 empresas y guía de buenas prácticas

ing Solution La forma más efectiva de llegar a sus clientes.

6. DESCRIPCIÓN DEL SOFTWARE

Política de Seguridad y Salud Ocupacional. Recursos. Humanos. Abril 2006

Ejercicio de estadística para 3º de la ESO

de riesgos ambientales

TeCS. Sistema de ayuda a la gestión del desarrollo de producto cerámico

CRIPTOGRAFÍA SIMÉTRICA Y ASIMÉTRICA

Análisis de Resultados

Otras medidas descriptivas usuales

by Tim Tran:

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Control de iluminación integrado. ELS, MDS, EMD y control a medida

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

PROTECCION DE LOS OIDOS

CONCEPTOS GENERALES SOBRE SEGURIDAD INFORMATICA

4 Análisis de los principales factores AsociAdos A los resultados en ciencias

Pronósticos. Pronósticos y gráficos Diapositiva 1

Enfoque del Marco Lógico (EML)

Función Logaritmo, dominio y traslación. Guía del profesor.

Transcripción:

Memoria Final Proyecto Sonacar

ÍNDICE 1- Introducción......3 1.1- Presentación del proyecto...3 1.2- Objetivos del proyecto...4 2- Fase Primera. Corpus y análisis de sonidos...6 2.1- Especificación de requisitos de usuario...6 2.1.1- Alcance del proyecto...6 2.1.2- Características del prototipo...8 2.1.3- Especificaciones generales del prototipo...8 2.2- Análisis de patentes y publicaciones...9 2.2.1- Análisis de productos comerciales...9 2.2.2- Alternativas de solución en distintas investigaciones...11 2.2.3- Arquitectura de sistemas de reconocimiento de sonidos planteada en distintas investigaciones...12 2.3- Elaboración de un corpus de sonidos...27 2.3.1- Método de grabación...28 2.3.2- Sonidos de sirenas grabados...29 2.3.3- Sonidos de ruido ambiente grabados...36 2.3.4- Principales características de los sonidos analizados...38 2.4- Pruebas de algoritmos...38 2.4.1- Algoritmos de conversión rápida a tiempo-frecuencia...38

2.4.2- Comparación de los algoritmos en el procesamiento de una señal real......42 3- Fase Segunda. Detección y localización del sonido...46 3.1- Diseño y montaje plataforma pruebas...46 3.2- Desarrollo software detección...47 3.3- Pruebas de detección...50 3.4- Desarrollo software localización...52 3.5- Pruebas detección y localización...53 3.6- Diseño prototipo Sonacar...58 4- Fase Tercera. Reconocimiento y clasificación del sonido...60 4.1- Desarrollo del prototipo SONACAR...60 4.2- Pruebas de detección y localización de sonidos sobre prototipo...65 4.3- Pruebas para reconocimiento automático de sonidos...65 4.3.1- Análisis de partida...66 4.3.2- Influencia de la BD...68 4.3.3- Influencia del Nº de gaussianas...69 4.3.4- Influencia del Nº de parámetros...69 4.3.5- Relevancia de los parámetros...69 4.4- Análisis de resultados y difusión...70 5- Conclusiones......71 6- Referencias......72

1- Introducción 1.1- Presentación del proyecto El presente proyecto está orientado a la resolución de la problemática que las personas con limitación auditiva tienen para poder percibir señales sonoras indicativas de situaciones de emergencia o aviso desde el vehículo. Se trata de mejorar la seguridad activa en la conducción desarrollando un dispositivo que transmita a los ocupantes del vehículo situaciones de emergencia (ambulancia, bomberos, policía ) a través de una torre de pilotos luminosos, una pantalla con avisos iconográficos y textuales o una solución técnica de similares características. Con este proyecto se trata de, en primer lugar, dar la oportunidad de que todas las personas ocupantes de un vehículo, sean conductoras o no, presenten pérdida auditiva o no, puedan percibir por cauces visuales determinadas señales sonoras de emergencia. En segundo lugar, la posibilidad de que una persona sorda pueda conducir cualquier vehículo siempre que no conculque el derecho fundamental a la integridad física de las personas viajantes o del entorno de circulación. Si bien en la actualidad las personas con discapacidad auditiva pueden obtener el permiso de conducción de turismos, llevando a cabo las adaptaciones obligatorias que se determinen en cada caso, las licencias de conducción de vehículos de gran tonelaje, desde los camiones de mercancías hasta los vehículos de pasajeros/as, están vedadas a las personas con sordera. La existencia de un dispositivo visual como el que se plantea en el presente proyecto podría significar en un futuro la revisión del reglamento de concesión de algunas licencias y, en consecuencia, el acceso de las personas sordas a nuevos perfiles laborales hasta entonces vedados. El proyecto está dirigido al colectivo de personas con discapacidad auditiva. En la actualidad el colectivo de personas sordas todavía está sujeto a condicionantes que están dificultando el logro del bienestar personal, el desarrollo de una vida autónoma y la consecución de la plena ciudadanía. Desde la perspectiva tecnológica, los principales condicionantes son éstos:.. Las conquistas sociales, las innovaciones tecnológicas o las disposiciones legales pueden ser insuficientes si no van acompañados de un mayor aprovechamiento de la tecnología al servicio de las personas con discapacidad auditiva que permita disfrutar realmente de los avances producidos... También puede ocurrir que se reconozcan pero no se otorguen nuevos derechos mientras no se cumplan los requisitos necesarios para que ésos se puedan ejercer de modo que se salvaguarde en todo momento la integridad de las personas, grupos, estamentos e instituciones, y que todos o algunos de estos requisitos sean subsanables mediante la disposición de la tecnología adecuada. En el grupo de personas sordas existe una gran diversidad. En ocasiones hablamos de características de la persona sorda pero éstas dependen de numerosos factores, que habremos de tener en cuenta para hacernos una idea

real de situación de este grupo. Por un lado, tenemos factores que llamamos invariables, que nos vienen dados, como el momento de aparición de la sordera, el lugar de la lesión y el grado de pérdida auditiva. Por otro lado, existen otro tipo de factores que llamamos variables que concurren en el desarrollo personal: detección precoz, atención temprana, aceptación personal y familiar de la sordera, rehabilitación auditiva y logopédica, estrategias de comunicación con el entorno, utilización de ayudas técnicas, los recursos sociales e institucionales, la información y conocimiento que el entorno cercano y la sociedad en general tiene sobre la sordera y las barreras de comunicación. La interrelación de todos estos factores va a afectar al nivel lingüístico a la persona, a su estructura cognitivo-conductual, a su desarrollo emocional y afectivo y a la adaptación al y del entorno familiar, social, educativo, formativo, laboral... Se dice de la sordera que es una discapacidad invisible. Hay muchas personas sordas que no acuden a los servicios sociales o sanitarios de donde se salen los datos para las estadísticas; por eso existe una disparidad de datos importante. Las últimas estadísticas, recogidas por el Instituto Nacional de Estadística (INE, Encuesta sobre discapacidad, deficiencias y salud, 1999) nos proporcionan los siguientes datos: Discapacidad auditiva España País Vasco Edad (6-64) 295.869 15.619 Edad (mayor de 65) 665.622 27.305 Tabla 1: Porcentaje de personas sordas en España y País Vasco 1.2- Objetivos del proyecto El objetivo principal del proyecto ha sido diseñar y desarrollar un sistema que permita a las personas con discapacidad auditiva severa percibir, durante la conducción, la aproximación de vehículos de emergencia (ambulancia, policía, bomberos). Tomando este objetivo principal, el proyecto SONACAR ha tenido como fin diseñar y desarrollar un producto que cumpla al máximo posible los

siguientes requisitos funcionales:.. Que reconozca e identifique todas las fuentes sonoras ligadas a las situaciones de emergencia, sea (si existe tecla de alarma en el vehículo), o sea exterior (ambulancia, bomberos o policía del lugar donde se encuentra el vehículo)... Que intente trasmitir por medios visuales la intensidad y frecuencia del sonido así como localizar las coordenadas espaciales del origen del sonido... Que sea configurable por parte de la persona usuario/a directo/a en lo que respecta a parámetros relativos a la indicación visual de la detección de una señal sonora, incluyendo luminancia, color, parpadeo y duración... Que se pueda implantar en cualquier vehículo y no signifique la modificación del proceso de fabricación del mismo.

.. Que, en caso pertinente, sea actualizable por software y mantenga su función independientemente de la posición del vehículo. Para lograr los objetivos mencionados se abordó el proyecto de forma progresiva en 3 etapas o fases sucesivas: 1. Corpus y análisis de sonidos. 2. Detección y localización de sonido. 3. Reconocimiento y clasificación del sonido. Fase 1. Corpus y análisis de sonidos: Como primera fase del proyecto, en ella se han realizado una serie de investigaciones iniciales incluyendo:.. Estado del arte de productos, patentes y publicaciones: Durante los primeros meses de proyecto se analizaron los diferentes artículos relacionados con la detección y clasificación de sonidos... Elaboración de un corpus de sonidos: Se realizaron grabaciones de los distintos sonidos de sirenas de vehículos de emergencia en distintos escenarios reales, así como distintos tipos de ruidos de fondo... Análisis de muestras de sonidos: Se compararon las diferentes muestras de sirenas y ruidos y se observaron las diferencias y similitudes entre ellas... Pruebas de evaluación sobre simuladores de distintos algoritmos de procesamiento de señal utilizando las muestras de sonido grabadas. Se buscó la mejor representación que pudiera caracterizar al conjunto de sonidos almacenados y que sirviera para diferenciarlos de otros sonidos que puedan formar parte del ruido de fondo. Fase 2. Detección y localización del sonido: En esta segunda fase y utilizando los resultados de la primera, se abordó el diseño y desarrollo del prototipo básico. Se implementó inicialmente un prototipo para pruebas sobre plataforma PC que incorporó varios receptores de sonido y sobre el que se realizaron pruebas reales de campo. Fase 3. Reconocimiento y clasificación del sonido: En la tercera y última fase se desarrolló el prototipo final SONACAR. Además, se abordaron pruebas y análisis para el reconocimiento automático de sonidos, y se realizaron las pruebas finales.

2- Fase Primera. Corpus y análisis de sonidos 2.1- Especificación de requisitos de usuario Como primera tarea se han establecido las necesidades desde el punto de vista de usuario, representado por el colectivo de personas perteneciente a la Coordinadora Vizcaína de Sordos COORVISOR. Para ello se definió el alcance, características y especificaciones del prototipo a desarrollar en el proyecto. El documento de requisitos generado ha sido el documento de referencia durante toda la duración del proyecto y su posterior validación a través de las pruebas que se han realizado. A continuación se muestran los puntos que lo constituyen. 2.1.1- Alcance del proyecto Esta especificación de requisitos se dirige al usuario del prototipo final SONACAR. Para conocer sus intereses, expectativas y puntos de vista con respecto al proyecto, durante los primeros meses del inicio de éste se diseñó y entregó una encuesta a una parte representativa del colectivo de personas sordas asociadas a COORVISOR. Es de la evaluación de los resultados de estas encuestas y de las reuniones mantenidas con los representantes de la Coordinadora Vizcaína de Sordos de las que se han extraído las características y especificaciones que han marcado el transcurso del proyecto. En esta encuesta, diseñada y realizada por la propia asociación, se realizan preguntas de interés acerca de permisos/licencias/limitaciones que los encuestados poseen en la conducción, las ayudas técnicas de las que estos disponen en sus hogares, uso de equipamiento informático y punto de vista sobre el diseño del prototipo SONACAR. Los datos más significativos de las respuestas de la encuesta se exponen a continuación:.. Aunque más del 90% de los encuestados (de un total de 30 personas) disponen en sus casas de ordenador, no hay nadie que use PDAs... El 90% de los encuestados utilizan en sus hogares Ayudas Técnicas para la realización de actividades en su vida diaria, ya sea para detectar el timbre de la puerta, el despertador, el llanto del bebé o el teléfono, siendo el medio de transmisión de éstas muy variable (vibración, luces, bucle magnético)... Los encuestados contemplan como opción preferida para transmitir el aviso en el vehículo un medio visual, desplazando a la vibración a la segunda posición.

.. Un 61,7% de los encuestados manifiesta que siente ansiedad o miedo ante este tipo de situaciones... El 80% de los encuestados poseen carné de conducir tipo B.

Como conclusiones de estos datos, y de las reuniones y conversaciones con los representantes de la asociación COORVISOR se destacan los siguientes requisitos que el prototipo debe cumplir:.. Se debe disponer de un dispositivo accesible; que transmita los avisos utilizando luz o vibración (periféricos más comunes en el colectivo de personas sordas)... Que el dispositivo desarrollado sea portátil y pueda ser instalado en diferentes vehículos sin necesidad de comprar otro nuevo. En este caso, parece que la PDA no es el dispositivo más adecuado al no estar presente en el colectivo de personas sordas tal y como muestra la encuesta... Que, en caso de utilizar medios visuales para la comunicación máquinapersona, no se pierda tiempo en entender el mensaje... Los usuarios encuestados destacaban la importancia de reconocer los sonidos exteriores (las sirenas de ambulancia, policía y bomberos). El reconocer sonidos interiores propios del vehículo, tales como la alarma de robo que se planteó inicialmente, no suscitó gran interés debido a que existen productos comerciales que hacen esta función y no es una cuestión que ponga en peligro su seguridad. Dan prioridad a los sonidos que vengan del exterior del vehículo y no a sonidos que se pueden captar de una radio (que una persona sorda no va a encender) o a gente hablando (ya que en este caso sería el acompañante quien pudiera avisar al conductor de la llegada de la ambulancia, vehículo de bomberos o de la policía)... Aunque la posibilidad de conocer a qué tipo de vehículos de emergencia pertenece la sirena que suena les pareció interesante, se indicó que lo primordial no era la clasificación sino la detección dado que, como explicaron, la acción que se debe hacer en cualquiera de los casos (ya sea con una ambulancia, con un coche de policía o con un coche de bomberos) es la misma: dejar paso... La localización también se identificó como un punto secundario. Cuando una persona sin problemas auditivos escucha una sirena, normalmente, no sabe por donde viene, se basa en los espejos del vehículo para localizarla y ver la distancia que le separa con ella.

2.1.2- Características del prototipo Captación de la señal Para captar el audio del ambiente, en el diseño del prototipo se estableció el uso de dos micrófonos que pudieran servir para localizar el sonido, para saber si éste está delante o detrás (éste último caso es el preocupante para el conductor ya que es aquí donde debe ceder el paso). Estos micrófonos deben poseer la característica de ser comerciales y que su rango de frecuencias abarque el abanico de sonidos que el oído humano percibe. Además, deben tener una buena sensibilidad que permita diferenciar sonidos a largas distancias para dar más tiempo al procesado. También, en la medida de lo posible, se debe intentar que estos micrófonos no sean excesivamente grandes para no romper la estética del vehículo, incomodar o quitar visibilidad a los ocupantes. Dispositivo de procesado de la señal Debe tratarse de un dispositivo portátil capaz de ser instalado en cualquier vehículo cuya capacidad de procesamiento sea lo suficientemente alta para implementar los algoritmos de reconocimiento en un tiempo corto. Es de vital importancia que el procesado sea rápido ya que el contexto en el que nos movemos requiere un aviso que no puede superar un gran número de segundos si se desea que el prototipo sea usable. Notificación del aviso El periférico de salida que notifique al usuario la detección y clasificación de la señal debe ser capaz de hacer llegar esta información al usuario en un tiempo mínimo, desde que ésta es identificada hasta que ésta es asimilada. Además, por motivos de seguridad, es necesario que la interacción entre el usuario y la máquina sea mínima para evitar distracciones al volante que puedan derivar en un accidente.

Alimentación del dispositivo Se estipula que una característica esencial del diseño debe ser la incorporación de carga mediante la alimentación del mechero del vehículo. 2.1.3- Especificaciones generales del prototipo El prototipo final SONACAR debe ser capaz de detectar el mayor número posible de sirenas de ambulancia, policía y bomberos. El prototipo final SONACAR debe ser capaz de detectar el mayor número posible de sirenas de ambulancia, policía y bomberos en situaciones adversas de ruido ambiente (ruido de ciudad, autopista, )

El prototipo final SONACAR debe trabajar en tiempo real, mientras el vehículo se encuentre en movimiento y con un tiempo de respuesta bajo. 2.2- Análisis de patentes y publicaciones En paralelo a la especificación de requisitos de usuario se ha continuado profundizando en el análisis de patentes y publicaciones enmarcadas en el área de aplicación en la que el proyecto se centra. A continuación se presentan los datos más relevantes de éstas. 2.2.1- Análisis de productos comerciales El proyecto SONACAR se enmarca en el área de búsqueda de soluciones que permitan a las personas con discapacidad auditiva percibir, por medios visuales, señales sonoras que indiquen alarma o emergencia. En este campo existen en el mercado diversas soluciones o dispositivos pero todos ellos orientados hacia el hogar: A continuación se presentan algunos ejemplos de este tipo de dispositivos:.. Detector de alarma de incendios para habitación de hotel, FIRE CENTURION [1]. Sistema electrónico que detecta la activación de la sirena o alarma de incendios de una habitación de hotel. Al detectar dicho sonido se activa una almohadilla vibratoria y una luz estroboscópica que lanza destellos. Este sistema es apropiado para ser utilizado en cualquier edificio en el que la alarma de incendios está situada en la misma habitación que el sistema CENTURION. El sistema no resulta fiable para detectar alarmas sonoras localizadas en otras habitaciones o en pasillos. Figura 1: Detector de Alarma de Incendios FIRE CENTURION.. Detectores de distintos tipos de sonidos que se producen en una vivienda, tales como timbre de entrada, teléfono, detector de humos, etc. Los sistemas existentes en el mercado constan básicamente de: o una serie de transmisores, cada uno situado lo más cerca posible del origen del sonido que se quiere detectar. Cada transmisor tiene un ajuste de sensibilidad que ayuda a prevenir falsas alarmas. Cuando el transmisor detecta un nivel sonoro determinado, emite una señal indicando la detección del sonido. o Un dispositivo receptor recibe las señales de los distintos emisores y por medios visuales, distintos leds o modos de vibración, indica el transmisor que se ha activado y por tanto el sonido asociado al mismo.

Figura 2: Detector de Timbre de la Puerta Estas soluciones existentes en el mercado se basan en la detección de un sonido al superar éste un nivel de intensidad y/o una duración prefijados. En el mercado estatal se ofrecen ejemplos de este tipo: sistemas BELLMAN VISIT y PUZZLE. Aunque no dirigidos a las personas con discapacidad auditiva, existen en el mercado algunos sistemas diseñados para detectan un determinado tipo de sonidos. Este es el caso de algunos detectores de rotura de cristales [2,3], como el que se muestra en la figura, orientados para funciones de seguridad y basados en el reconocimiento del sonido que produce la rotura de un cristal. Figura 3: Detector de rotura de cristales Se trata de un detector acústico que dispone de un micrófono cuyo rango de frecuencia permite una buena captación del sonido a una distancia máxima de 7 m. El sensor cuenta con un microprocesador avanzado para realizar un procesado digital de la señal de sonido, procesando información relacionada con la frecuencia, amplitud y sincronización de cada sonido. Estos sistemas proporcionan una alta sensibilidad de detección y una casi total inmunidad a falsas alarmas. Sin embargo en el campo concreto en el que se centra el proyecto SONACAR, la detección y localización de sonidos procedentes de vehículos de emergencia, no se conoce la existencia de productos comerciales. Hablamos de un sistema detector de sirenas que sea capaz de detectar los sonidos de las sirenas de vehículos de emergencia, sonidos cuyas componentes en frecuencia cambian a un ritmo conocido en un rango o banda de frecuencia y con un periodo conocido.

2.2.2- Alternativas de solución en distintas investigaciones Diversas patentes y estudios proponen distintas realizaciones de sistemas de detección de sirenas orientadas hacia el control automático de los semáforos en cruces y así dar preferencia a los vehículos de emergencia, y en algunos casos también hacia la información a las personas con discapacidad auditiva. Como alternativas a la resolución del problema dado en el proyecto SONACAR surgen dos ramas bien diferenciadas y con un enfoque totalmente distinto: 1. Una de las ideas que se plantea es la colocación de un generador y transmisor de algún tipo de señal en cada vehículo de emergencia [4,5,6], por ejemplo señal de ultrasonidos [4], y un sistema receptor colocado en el vehículo de la persona con discapacidad auditiva. El análisis de la señal captada por el receptor permitiría la detección de la presencia de los distintos tipos de vehículos de emergencia. Esta solución implica la incorporación de un sistema transmisor en los vehículos de emergencia. 2. Otra de las ideas que se plantea en los distintos estudios y patentes es la basada en captar y analizar directamente el sonido ambiental y detectar en él los sonidos originados por las sirenas de los vehículos de emergencia. Este enfoque tiene la ventaja de no precisar la instalación de equipos adicionales en los vehículos de emergencia sino utilizar únicamente la captación del sonido de la sirena. Aunque el desarrollo de esta alternativa es excesivamente más complejo, debido a la dificultad que supone la incorporación de dispositivos nuevos en vehículos ajenos y el cambio de reglamentos, ésta será la rama en la que el proyecto SONACAR se centra. Las patentes y estudios analizados basados en esta segunda alternativa presentan distintos métodos para realizar la detección e identificación de los sonidos de sirenas de vehículos. A continuación se resumen algunas de las soluciones y métodos que presenta este enfoque: a) Sistema integrado por un micrófono situado en la parte frontal del vehículo y otro micrófono en la parte trasera [7]. Las señales de ambos micrófonos son tratadas con filtros pasa altos para eliminar las frecuencias de las señales de audio por debajo de un rango determinado. Una vez filtradas las frecuencias no deseadas, el sistema dispone de un detector de nivel sonoro que puede ser ajustado manualmente. Las señales de audio filtradas y que superen el nivel sonoro prefijado provocan la activación de un piloto colocado en el salpicadero del automóvil. b) Sistema basado en técnicas de procesamiento digital de señal aplicando diversos algoritmos para extracción de parámetros que permitan caracterizar y clasificar los sonidos [8, 9]. Distintas

soluciones que utilizan varios micrófonos distribuidos en distintas orientaciones y un sistema de tratamiento de la señal basado bien en PC, bien en tarjetas de desarrollo específico que incorporen un DSP. Estas soluciones diferencian dos etapas o fases: una primera de detección de un sonido de tipo sirena o emergencia y una segunda de reconocimiento o clasificación de ese sonido detectado. Los distintos estudios e investigaciones se centran en la aplicación de distintos métodos para el reconocimiento automático de este tipo de sonidos comparando los resultados de distintos algoritmos de clasificación estadísticos como por ejemplo Modelos Ocultos de Markov (HMM) y Modelos Mixtos Gaussianos (GMM) [8, 9, 10, 11, 12]. Las investigaciones que se realizan en la actualidad se centran básicamente en los enfoques descritos en el apartado b) [13], el cuál analiza de una forma más estricta la señal, y se dirigen hacia la obtención de técnicas cada vez más fiables, con un mínimo grado de error o detección de falsas alarmas, en ambientes ruidosos (ambiente de ruido real). En este campo se han desarrollado diversas investigaciones, aunque la mayoría de ellas dirigidas al reconocimiento de sonidos no-habla en general. 2.2.3- Arquitectura de sistemas de reconocimiento de sonidos planteada en distintas investigaciones La arquitectura típica de un sistema de reconocimiento de sonidos ambientales se muestra en la figura 4. En un primer paso la señal es captada y enviada al módulo de filtrado que limpiará la señal para más tarde enviarla al módulo de detección. El módulo de detección es el encargado de analizar la señal y buscar segmentos de audio que puedan contener eventos que estén dentro del conjunto de señales acústicas a identificar. Será el módulo de clasificación en un siguiente paso el que decida a qué clase de sonido pertenecen los eventos (sirena de ambulancia, sirena de policía, sirena de bomberos), para notificárselos al usuario.

Figura 4: Arquitectura general de un Sistema de Reconocimiento de Sonidos En los apartados siguientes se presentan los diferentes módulos que constituyen este tipo de sistemas, analizando cómo éstos son aplicados al reconocimiento de sonidos de sirenas. 2.2.3.1 Filtrado de la señal Para el análisis de las señales de sonido se propone extraer de la señal acústica sólo los componentes armónicos destacados y sostenidos que correspondan a una alarma. Para ello se filtra la señal de entrada para quedarse únicamente con aquellos segmentos del espectro más destacados y con una lenta variación de frecuencias. Se trata así de eliminar las componentes que puedan aportar el ruido de fondo, aunque éste también puede contribuir con componentes de tono puro que no serán eliminadas por este filtrado inicial. Es necesario realizar un análisis exhaustivo de los rangos de frecuencias que las sirenas comprenden para ser lo más restrictivos posibles en el filtrado y que las demás fases sean más robustas. Hay varios tipos de filtros así como distintas clasificaciones para estos filtros: - De acuerdo con la parte del espectro que dejan pasar y que atenúan hay:.. Filtros pasa alto... Filtros pasa bajo... Filtros pasa banda... Banda eliminada... Multibanda... Pasa todo... Resonador... Oscilador... Filtro peine (Comb filter)... Filtro ranura o filtro rechaza banda (Notch filter)......

- De acuerdo con su orden:.. primer orden.. segundo orden..... - De acuerdo con el tipo de respuesta ante entrada unitaria:.. FIR (Finite Impulse Response).. IIR (Infinite Impulse Response).. TIIR (Truncated Infinite Impulse Response) - De acuerdo con la estructura con que se implementa:.. Laticce.. Varios en cascada.. Varios en paralelo..... 2.2.3.2- Extracción de características Estudios acerca de cuáles son las características para discriminar entre voz y sonidos del entorno han sido y siguen siendo de gran interés en este área de investigación [14] [15]. Sin embargo, decidir qué características son las más significativas de cada sonido es una tarea complicada que la mayoría de las veces conlleva someter a la propia onda sonora a varias pruebas [16]. Investigaciones sobre percepción sonora apuntan que al igual que con el reconocimiento automático del habla, existen sonidos homónimos ( knight y night para el caso del habla) que no pueden ser determinados sin el contexto de otros sonidos [17]. Si por ejemplo, se produce un sonido metálico precedido de un chirrido, la interpretación semántica podría ser la de un choque de un coche, entendiéndose este chirrido como el sonido de los neumáticos al derrapar por la carretera. Por otra parte, si el mismo sonido metálico se combina con goteo de agua y ráfagas de aire, la interpretación semántica podría ser la del ruido de una máquina en una fábrica. A pesar de no existir ningún tipo de semántica que ayude a la clasificación de estos sonidos, estudios realizados en el ámbito del reconocimiento demuestran que, trabajando con un conjunto limitado de clases, ciertos parámetros o características de una señal dan información suficiente para que ésta pueda ser clasificada de una forma correcta, incluso cuando la fuente del sonido que se produzca pueda estar en movimiento [18]. La extracción de características puede dividirse en dos campos: extracción de características estacionarias (basadas en frecuencia) y extracción de características no-estacionarias (basadas en tiempo-frecuencia). La

extracción de características estacionarias produce un resultado global destacando las frecuencias contenidas en la señal completa, aunque no hay distinción de cuándo estas frecuencias ocurren. Al contrario, la extracción de características no-estacionarias divide la señal en unidades discretas de tiempo. Esto permite identificar las frecuencias en un área particular de la señal.

Se observa cómo, en el primer caso (extracción de características estacionarias), aunque de por sí esta técnica no se basa en el tiempo, para que éste tenga efecto, los estudios segmentan la señal captada en pequeñas regiones. Este híbrido hace que este tipo de parámetros pueda llegar a tener las mismas propiedades de tiempo-frecuencia que los correspondientes a extracción de características no-estacionarias. A continuación se presentan algunos de los parámetros acústicos más comunes en el reconocimiento de sonidos no-habla (algunos de los cuales son comúnmente utilizados en el reconocimiento de instrumentos musicales [19] [20] [21] [22] y la gran mayoría de ellos son utilizados en el reconocimiento del habla). Estas se muestran a continuación según su orden de complejidad: Energía espectral Aunque muy usado en la detección por su simplicidad y bajo coste computacional, escasos experimentos destacan la energía espectral como un parámetro útil a utilizar en la clasificación de señales acústicas. La poca información que este parámetro propicia se debe a que la diferencia entre muchos sonidos impulsivos está caracterizada por el timbre o espectro que estos poseen y no depende tanto de la amplitud de la señal. En diferentes estudios el Fisher Discriminant Ratio (FDR) demuestra la poca información que dota esta característica a la identificación de sonidos impulsivos, haciéndola muy prescindible en la mayoría de los casos [23]. El FDR da una indicación sobre la capacidad de separación de cada parámetro acústico (su valor es más grande que 1 para capacidades de separación buenas). La ecuación que lo define es la siguiente: SSS= == - =kikikjixvarjxixfdr1112])[( )][][( (1) Siendo 2)][][(jxix-la media y la varianza. )(xvar Zero-Crossing Rate (ZCR) Se denota como Zero-Crossing en procesamiento de señal el cambio de signo

en la amplitud de la señal, cuando la curva pasa por cero. Zero-Crossing Rate es la tasa de cruces por cero medidos en frecuencias por unidad de tiempo. En el espectro de la señal las altas (o bajas) frecuencias implican altos (o bajos) valores de Zero-Crossing Rate. La definición matemática se indica en la ecuación 2:

S= --= NntnxsignnxsignZ1])1[(])[( 21 (2) Siendo x la señal sonora en amplitud. Este parámetro ayuda a distinguir entre eventos excitados y eventos normales, capturando el ZCR medio para cada frame de audio [24]. ZCR, al igual que Roll Off Point y Spectral Centroid, no es un parámetro habitualmente utilizado en el reconocimiento del habla, sino que su uso se aplica con mayor intensidad en el ámbito de la identificación de música y sonidos impulsivos ambientales, así como en segmentación de voz/música/ruido [25]. En la gran mayoría de artículos encontrados, siguiendo las técnicas estadísticas, estos son los predominantes junto a los coeficientes MFCC teniendo gran relevancia en la clasificación. Frecuencia Fundamental En 1946 Denis Gabor utilizó la Transformada de Fourier para poder analizar una pequeña sección de la señal en un determinado tiempo, mediante una especie de ventana. Esta adaptación se conoce como STFT, la cual transforma la señal en el dominio del tiempo al dominio tiempo-frecuencia. La STFT busca un equilibrio entre el dominio del tiempo y el de la frecuencia de una señal. Sin embargo, la precisión está limitada y depende del tamaño de la ventana utilizada. La mayoría de características en el reconocimiento de sonidos se basan en el espectrograma de la señal. El inconveniente aparece debido a que una vez que se escoge un determinado tamaño de ventana, dicha ventana es la misma para todas las frecuencias, y muchas señales requieren un acercamiento más flexible para determinar con mayor precisión el tiempo o la frecuencia. El espectrograma está compuesto por la frecuencia fundamental y los armónicos que definen a los sonidos. En acústica, la frecuencia fundamental es la frecuencia más baja del espectro de frecuencias tal que las frecuencias dominantes pueden expresarse como múltiplos de esta frecuencia fundamental. Se presenta como el parámetro que da la definición a la forma pura de una señal [28] [29].

Coeficientes Wavelet El análisis de Wavelet intenta solventar las limitaciones de la STFT [30]. Este análisis consiste en la implementación de una técnica que utiliza ventanas con regiones de tamaño variable. Con esta herramienta se es capaz de utilizar intervalos grandes para segmentos en los que se requiera precisión en bajas frecuencias e intervalos más pequeños en segmentos cuyas frecuencias sean más altas.

La técnica de análisis Wavelet es empleada en gran variedad de sistemas. Detección de discontinuidades, identificación de frecuencias puras, compresión de imágenes, multiplicación de matrices, aplicaciones en medicina, son algunos ejemplos de ellas. Al tratarse de una técnica cuya resolución es variable en el tiempo se considera una buena herramienta a utilizar tanto para la detección como para la clasificación. Roll off Point (RF) Característica muy utilizada en el reconocimiento de sonidos no-habla que dota al sistema de altos ratios de exactitud en la clasificación [26] [9] [27] [31]. Este parámetro mide las frecuencias bajo las cuales reside el 85% de la energía del espectro del audio. En música, los sonidos percusivos y los ataques de las notas son los que suelen tener más energía. Por lo que ésta es una medida de lo apicada que es la señal, si tiene cambios muy bruscos. La ecuación que la define es la siguiente: SS== = NfRffMfMR11][*85.0][: (3) Donde representa a las diferentes frecuencias del espectro. ][fm Spectral Centroid Este parámetro mide lo brillante que es un sonido. Se evalúa el centro de gravedad del espectro partiendo de la información obtenida de las transformadas de Fourier [26][9] [27] [31] [32]. Se define como: SS= = =NktNkttkXkkXC11 ][ ][ (4) Donde representa la muestra k-ésima de la transformada de Fourier correspondiente a la trama. ][nxtt Linear Predictor Coefficient (LPC) Técnicas basadas en coeficientes LPC fueron implementadas con la idea de un vocoder, que es una simulación de un tracto vocal humano. Puesto que el tracto vocal humano no produce sonidos ambientales, estas técnicas no son

muy adecuadas para el reconocimiento de sonidos no-habla [6] aunque hay artículos donde sí que es empleada [26] [33] [34]. LPC ha sido ampliamente usado en el procesado de voz. Los LPCs son sensibles a los sonidos vocales, lo cuál puede ser utilizado para intentar separar eventos de habla y de no-habla. Linear Predictive Cepstral Coefficient (LPCC) LPCC viene derivado de los LPCs. Los LPCCs son más robustos contra cambios bruscos en la señal o el ruido porque estos coeficientes están

derivados de respuestas impulsivas de modelos del habla. Un ejemplo de aplicación se presenta en [35] obteniendo un porcentaje en la verificación global del 96% utilizando redes neuronales en la identificación de 4 tipos diferentes de señales. Log Frequency Cepstral Coefficient (LFCC) Los LFCCs [26] son computados usando bancos de filtros logarítmicos en el dominio de frecuencia. La posición de los filtros es calculada de la siguiente forma. Primero se transforman las frecuencias de la escala lineal a la escala logarítmica usando la ecuación siguiente: 2log)1(log1010logCFCFlinear+ = (5) donde es el factor de escala de frecuencia. Después, los filtros son linealmente posicionados en la escala de frecuencia logarítmica y estas posiciones son transformadas de regreso a la escala de frecuencia lineal. CuandoCse incrementa, más filtros son posicionados en las frecuencias bajas y viceversa. C La salidadel filtro es computada de la siguiente forma: )(iythi S= = iinmjijhjsiy)()]([log)(10 (6) Dondees el espectro de la señal,es el filtro, y y son fronteras del filtro. La ecuación que se muestra a continuación describe la computación del LFCC. SiHthiiminthithn S=......= cbniinnkiynnc12cos)(2)( p (7)

ikes la frecuencia central del filtro, yyson el número de puntos de muestra de frecuencia y el número de filtros, respectivamente. thincbn Mel Frequency Cepstral Coefficients (MFCC) MFCC es un parámetro perceptual basado en la FFT. Tras calcular el logaritmo de la magnitud de la FFT de la señal, los bins (unidades mínimas en el dominio espectral) se agrupan y suavizan según la escala frecuencial de Mel definida matemáticamente en la siguiente fórmula:......+= 7001log2595)(10ffMel (8)

Finalmente se realiza una DCT (Transformada Coseno Discreta) para decorrelar el vector de parámetros resultantes. La función que define este proceso es la siguiente: S= = + = 201)()( 2)12(coslogknpnpqKnqmcp (9) Aunque este parámetro es característico del reconocimiento del habla, la gran mayoría de estudios sobre reconocimiento de sonidos no-habla también hacen uso de él [26] [9] [27] [31] [36] [37] [38], siendo posiblemente la características acústicas que más puntos de separación obtiene en el reconocimiento. 2.2.3.3- Técnicas de detección Umbral de energía Un indicio de que se ha producido un evento es un cambio brusco en la amplitud de la señal muestreada. La opción más básica dispone de un controlador de amplitud que avisa cuando se produce un cambio de intensidad sonora, siendo éste el punto inicial desde el que se empezará a analizar la onda. Mejoras a este problema son las que se proponen en [26] basadas en crosscorrelación de dos sucesivas ventanas. Conociendo que la función de correlación cruzada es la medida de similitud entre dos señales, el primer algoritmo de detección en [26] aplica esta función entre dos sucesivas ventanas de la señal para detectar cambios bruscos. El algoritmo calcula la correlación cruzada entre dos sucesivas ventanas normalizadas de 2048 muestras (128 milisegundos) y obtiene el valor máximo. Finalmente, aplica un umbral en la señal (si la resultante está por debajo del umbral se genera una detección de evento). La normalización de la señal se obtiene calculando la raíz cuadrada de la energía de la ventana. Como segunda propuesta en [26], se utiliza la técnica de detección basada en predicción de energía. Este algoritmo calcula la energía de la señal en N (2048) muestras de ventana. Primero se predice el siguiente valor de la energía basado en los diez valores anteriores (L=10, longitud de predicción) usando el método de interpolación SPLINE. Después un umbral autoajustable es establecido en el error de predicción (la diferencia absoluta entre el valor real y el valor predicho). Si la energía varía con una pequeña pendiente, el error es pequeño, sin embargo, el error será importante para una rápida variación (el caso de un evento a detectar). El umbral autoajustable depende de la desviación estándar y la media de la señal.

Una técnica muy similar a las anteriores consiste en la disposición de un módulo donde la energía de la señal es estimada para cada sucesivo bloque de 100 milisegundos [8]. La secuencia de energía obtenida es filtrada y la salida del filtro substraída de la energía. Esto resulta en una nueva secuencia que es normalizada, enfatizando los pulsos de energía relevantes. Un umbral

adaptativo, dependiendo de la desviación estándar de una secuencia de energía de ventana pasada, es aplicado a continuación. Este método provee un esquema de detección modificable y muy sensible para señales impulsivas, donde los pulsos pueden ser detectados bajo condiciones de bastante ruido adverso de fondo, con una relación señal a ruido signal-to-noise (SNR) tan baja como -10 db. Los valores de SNR son medidos sobre una ventana que incluye la parte decreciente de la señal Modelos estadísticos Otra técnica utilizada en la detección de eventos es la basada en modelos estadísticos, surgida del VAD (Voice Activity Detection). La detección de actividad de voz es muy importante para aplicaciones de comunicación tales como el reconocimiento del habla o teléfonos manos-libres. Métodos basados en energía pueden dar buenos resultados, sin embargo, estos métodos tienen problemas cuando el ruido ambiente se sobrepone con el habla, especialmente en bajas condiciones de SNR. Un método para solventar este problema consiste en la utilización de múltiples modelos de sonidos mezclados, sin embargo, surge un gran número de combinaciones de habla y ruido. En [39] se estudia el método VAD en el marco del reconocimiento de patrones. En este método, el periodo de habla es detectado como un resultado del reconocimiento. Para solventar el problema del ruido se propone un nuevo método usando Modelos Ocultos de Markov (HMM) y modelos de ruido ambiente. En el método propuesto, una búsqueda eficiente y fiable se realiza restringiendo el número de combinaciones del modelo de habla y los modelos de ruido. También, el método puede estimar el ruido ambiente con solapamientos con habla y su valor SNR, pudiendo ser usada esta información adicional para el reconocimiento robusto de señales sonoras. Otra técnica muy utilizada es la basada en Modelos de Mezclas Gaussianas (GMMs), la cuál es más simple que los HMM y más rápida computacionalmente. Comparación de frecuencias Esta técnica es muy común cuando las señales que se quiere detectar tienen una forma establecida. Se analizan los valores muestreados de la señal de entrada y se van comparando con la función que representa a las señales analizadas previamente de las que se han extraído los datos. Muy similar a la correlación cruzada que desplaza el sonido durante el eje de tiempo observando los picos de similitudes.

2.2.3.4- Técnicas de clasificación A grosso modo, para clasificar una señal en un grupo se pueden usar tres tipos de técnicas o herramientas: modelos estadísticos, redes neuronales o modelos

basados en patrones [40] [41]. En los siguientes subapartados vamos a ir describiendo uno a uno estos modelos. Modelos Ocultos de Markov (HMMs) Este clasificador está basado en la utilización de estados para el modelado [33] [34] [36]. En el artículo [8] se hace una comparativa entre GMM y HMM, utilizando para este último modelo tres estados correspondientes a las fases de la señal: ataque, mantenimiento y decaimiento. Durante el proceso de entrenamiento, el sistema aprende las características del HMM de cada clase de señal considerada estimando funciones de densidad probabilísticas mono-gaussianas de las características, y las probabilidades de transición entre estados. Este entrenamiento se realiza con 20 iteraciones de la recursión de Baum-Welch. Durante el reconocimiento de patrones, la clase más probable de la señal es determinada. La probabilidad es evaluada usando la aproximación de Viterbi que reduce la complejidad computacional. En el reconocimiento del medio mediante análisis de audio, Auditory Audio Recognition [43], [44], este clasificador también es muy empleado. En [44] se utiliza HMM como clasificador de sonidos. Para este trabajo se utiliza una topología de izquierda a derecha, con estados variados de 3 a 21, viéndose cómo con 11, 13 y 15 estados los resultados obtenidos son mejores que en los otros casos. Modelos de Mezclas Gaussianas (GMMs) En la mayoría de documentación relacionada con la clasificación de señales sonoras del ambiente, el clasificador por excelencia es GMM [9] [42] [45]. Los modelos de mezclas gaussianas son combinaciones de distribuciones normales o funciones de Gauss. Una GMM de K gaussianas puede ser vista como una suma de densidades de gaussianas [46]. GMM es ampliamente utilizada para el modelado de la voz a partir de los vectores de características adquiridos de cada sonido. Una vez obtenida cierta cantidad de estos vectores por cada sonido, se crea un modelo probabilístico que lo representa de forma singular. La fórmula que describe la función de densidad de probabilidad del tipo gaussiana se describe a continuación:

)()(121)det(21))(,(µµpµ-S--- S=SxxdTexg (10) en la que se basa la ecuación que define una GMM con ciertos valores de pesos:

S= S = Kkkkkxgwxgm1))(,()(µ (11) siendo los pesos todos positivos y la suma de todos ellos igual a 1: S= =..= kiiiwkiw10} :,...,1{ 1 (12) En este caso K es el número de gaussianas u orden del modelo. Elegir el número K que de mejores resultados no es una tarea fácil, se debe ser precavido a la hora de escoger esta cantidad K de mezclas gaussianas con la cual se va a trabajar. Si se elige un número muy elevado puede darse el caso de que el modelo hallado sobre ajuste demasiado a los datos extraídos (overfitting). En caso contrario, elegir un K pequeño puede llevar a que el modelo no sea lo suficientemente diferente a los demás modelos y no se pueda reconocer adecuadamente el sonido en cuestión. El modelo general GMM consta de matrices de covarianza S completas, aunque también se emplean modelos en los cuales las matrices de covarianza son diagonales. Esto reduce el número de parámetros que deben ser optimizados y además simplifica los cálculos a realizar. Sin embargo, esta limitación sobre las matrices de covarianza reduce las capacidades de modelado e incluso puede que se necesite incrementar el número de componentes empleadas. El proceso de entrenamiento parte de una colección de vectores de entrenamiento de un sonido, de la cual se estiman los parámetros del modelo usando el algoritmo EM (Expectation Maximization). Partiendo de un modelo inicial, el algoritmo EM refina iterativamente el modelo GMM incrementando de manera monótona su verosimilitud. Dicho de otra forma, en la k-ésima iteración se encuentra el modelo y se cumple:. Este es el nuevo modelo inicial para repetir el proceso hasta llegar a un nivel de convergencia predeterminado. )(K.) () ()1()(->KKXPXP.. Debido a que en general el conjunto de vectores de características es muy grande, y por tanto, los valores de probabilidades son a menudo muy pequeños, es común utilizar el logaritmo de verosimilitud que viene dado por: ) (log1) ( 1..S=

= TiixPTXLogPr (13) Este valor, llamado Logl (log Likelihood) es la medida que nos dice qué tan probable es que los vectores X pertenezcan al modelo. La condición para interrumpir la iteración, además de establecerse un número máximo de iteraciones, puede ser:

e..<--) () ()1()(KKXLogPXLogP (14) El logaritmo de verosimilitud es usado para medir lo bien que un modelo se ajusta a los datos experimentales. En el proceso de testeo se intenta resolver el problema de qué modelo se acerca más a los datos de entrada. Se deben evaluar los logl para cada modelo. Aquel con mayor argumento es el que tiene mayor probabilidad de que los vectores de entrada pertenezcan a ese modelo. Sin embargo, se tendrá que mirar también si el que más se acerca tiene la suficiente probabilidad (ya que puede tratarse de un sonido que no se encuentre entre las muestras). Habitualmente se utiliza el Criterio de Información Bayesiano (BIC) para determinar el número óptimo de gaussianas. El BIC se puede plantear, a grandes rasgos, como un criterio de selección de modelos mediante un test de hipótesis: dado un hipotético punto de cambio en una secuencia, se basa en comprobar si los datos de esa secuencia se ajustan mejor con un único modelo gaussiano multivariado o con modelos separados para los segmentos a ambos lados del punto de cambio [9]. Clasificador K-NN La idea básica sobre la que se fundamenta este paradigma es que un nuevo caso se va a clasificar en la clase más frecuente a la que pertenecen sus K vecinos más cercanos. El paradigma se fundamenta por tanto en una idea muy simple e intuitiva, lo que unido a su fácil implementación hace que sea un modelo clasificatorio muy extendido. Como una variante al algoritmo básico se encontraría el K-NN con rechazo, el cual puede dejar un caso sin clasificar si no tiene suficientes garantías de que la clase que le corresponde es la correcta. Este problema se puede atajar incorporando un umbral prefijado, tal que el número de votos que obtenga una clase deba ser igual o superior a éste: si tenemos K=20, m=2 y el umbral lo establecemos en 12, si la clase mayoritaria obtiene 11 votos la muestra se quedará sin clasificar. Otra opción sería establecer un tipo de mayoría absoluta, donde la clase mayoritaria deba tener una diferencia de X votos con la segunda. Otra alternativa podría ser no basarse en el número de muestras del clasificador sino en la media de éstas. En varios estudios de reconocimiento del habla y de señales sonoras es muy habitual el uso de la distancia euclídea y la distancia de Mahalanobis. La utilidad de esta última radica en que es una forma de determinar la similitud entre dos variables aleatorias multidimensionales, diferenciándose de la distancia euclídea de que tiene en cuenta la correlación entre variables aleatorias [47]. El principal inconveniente que se observa es que computacionalmente es un método caro ya que compara el sonido a clasificar

con todos los vectores. Perceptrón Simple

El perceptrón simple, perteneciente a la colección de técnicas de las redes neuronales, es un modelo unidireccional compuesto por dos capas de neuronas, una de entrada y otra de salida [48]. La operación en un perceptrón simple que consta de n neuronas de entrada y m neuronas de salida se puede expresar como: S= -= njijijixwfy1)(. con (15).,...,1mi= Las neuronas de entrada son discretas y la función de activación de las neuronas de la capa de salida es de tipo escalón. El algoritmo de aprendizaje del modelo permite determinar automáticamente los pesos sinápticos que clasifican un conjunto de patrones a partir de un conjunto de ejemplos etiquetados. El inconveniente del Perceptrón simple es que tan sólo puede discriminar entre dos clases linealmente separables, clases cuyas regiones de decisión pueden ser separadas mediante una única condición lineal o hiperplano. Perceptrón Compuesto Con el fin de intentar solventar las limitaciones que conlleva el perceptrón simple surgió el perceptrón compuesto. Esta red neuronal tiene su fuerza en la inclusión de capas ocultas para poder separar patrones por más de un hiperplano. En [49] se utiliza una implementación del perceptrón multicapa desarrollada en Matlab usando Back Propagation. El MLP es entrenado usando los componentes frecuenciales de la señal. Dado que los sonidos no relacionados con el habla cubren un rango de frecuencias más alto que el de la voz se usa una FFT con muestreo a 44.100Hz, cuyos resultados son usados para entrenar al perceptrón. No obstante, los resultados que produce esta técnica son muy pobres, extraño si comparamos los resultados de las redes neuronales en el modelado del habla. Para la detección de alarmas, [50] también se hace uso del perceptrón multicapa con una única capa oculta. La red posee 100 neuronas ocultas y 2 neuronas de salida que corresponden a alarma o no alarma. El MLP es entrenado con Back Propagation usando un criterio de mínima cross-entropía en los 20 sonidos de ejemplo. Learning Vector Quantization (LVQ) La técnica denominada Learning Vector Quantization (LVQ) basa su funcionamiento en dividir el espacio de entrada en un número determinado de

regiones en las cuales definir un vector que las separe y caracterice. En este modelo, las muestras de entrada del sistema son vectores n-dimensionales, siendo la salida una representación discreta del espacio de vectores de entrada.

Learning Vector Quantization utiliza un aprendizaje supervisado para definir regiones de clases en el espacio de los datos de entrada, consiguiendo de esta manera que un conjunto de vectores de similitud etiquetados de forma similar formen una región de una clase. Partiendo de una secuencia de datos de entrada almacenados, se selecciona del conjunto un grupo de vectores de referencia, también llamados codebooks. En cada iteración, se selecciona un vector de entrada y se actualiza el vectorw, para ajustar de la mejor manera. El algoritmo LVQ trabaja de la siguiente manera [51]: kwixix A cada clase,, se le asocia un vector de peso. En cada iteración, el algoritmo selecciona un vector de entrada,, y lo compara con otro vector de pesos,, usando la distancia euclídeakkwixkwkiwx-; el vector será el ganador si es el más cercano a, por lo que será la clase asignada: cwixc {kikiiwxwx-=-min (16) Las clases compiten entre ellas para encontrar el vector de entrada más parecido, para que el ganador sea el que menor distancia euclídea tenga respecto al vector de entrada. Sólo la clase ganadora podrá modificar el vector de pesos usando un algoritmo de aprendizaje reforzado, o positivo o negativo, dependiendo de si la clasificación es correcta o no. De este modo, si la clase ganadora pertenece a la misma clase que el vector de entrada (la clasificación ha sido correcta), se incrementará el peso, acercándose ligeramente al vector de entrada (premio). Por el contrario, si la clase ganadora es diferente a la clase del vector de entrada (la clasificación no ha sido correcta), se decrementará el peso, alejándose ligeramente del vector de entrada (castigo). Sea un vector de entrada en el tiempot, y el vector de pesos para la claseken el tiempo. La siguiente ecuación define el proceso de aprendizaje básico para el algoritmo LVQ. )(txikwt.)()()()()1(twtxtstwtwcicc- +=+a (17) donde, si0=sck.;, siypertenecen a la misma clase; y 1=s)(txi)(twc1-=s, si no lo son, y donde)(taes el ratio de aprendizaje, siendo1)(0<<ta, una función monótona decreciente del tiempo. Se recomienda que)(tasea más bien pequeña inicialmente, menor de 0.5, y que decrezca hasta un umbral dado,u, muy cercano a 0.

Alineamiento temporal El alineamiento temporal, técnicas DTW, es una comparación de patrones utilizando programación dinámica. Consiste en comparar los parámetros

extraídos de la señal a identificar con aquellos que pertenecen al vocabulario almacenado en la base de datos que se posee. El resultado de esta operación es la distancia entre la muestra a reconocer y la más cercana a ella del vocabulario. Los sistemas de reconocimiento basados en Dynamic Time Warping (DTW) funcionan siguiendo los siguientes pasos: el sonido a reconocer se segmenta en pequeñas ventanas de análisis y de cada una se extrae un conjunto de parámetros acordados. Este conjunto o vector de parámetros se puede ver como un punto en un espacio n-dimensional. Si consideramos todas las ventanas de análisis que se han tenido en cuenta en el procesado de la señal, se definirá como patrón la secuencia de puntos en el espacio correspondientes a los puntos de todo el conjunto de ventanas de análisis. El sistema de reconocimiento dispone de un conjunto de patrones de referencia que se habrán calculado en la etapa de entrenamiento, representando al conjunto de sonidos que el sistema puede reconocer. Así, una vez obtenido el patrón de la señal a reconocer, éste será comparado con todos los patrones de referencia que el sistema posee, calculando la distancia que lo separa de las referencias, y eligiendo como sonido reconocido aquel cuyo patrón de referencia de la menor distancia en la comparación. En el reconocimiento automático del habla, DTW es una técnica que ha sido muy utilizada debido a que tiene en cuenta la variación en la escala del tiempo de dos palabras a comparar [52]. El problema que se presenta cuando se pronuncia una palabra es que ésta no se realiza siempre con la misma velocidad, produciéndose importantes distorsiones temporales. Estas distorsiones afectan no sólo a la palabra considerada sino también a sus componentes acústicos. Las variaciones temporales no son generalmente proporcionales a la velocidad de locución y dependiendo del locutor pueden variar. De aquí la necesidad de una técnica capaz de comparar dos palabras, sin considerar las distorsiones temporales. Si se pretende comparar dos palabras, estas técnicas proporcionan una medida de disimilitud. Sea la secuencia de ventanas que representan el patrón de la palabra de referencia dondees en general un vector de parámetros multidimensional que describe las características de la n-ésima ventana de una palabra. Seala secuencia que representa el patrón de la palabra que se desea reconocer. Se necesita hallar la función de alineamiento, la cual describirá el camino óptimo. No se puede garantizar que el camino buscado sea una relación funcional simple por lo que en tales casos se hace necesario definir una tercera variable común a los ejesn y tal que: NnnR,...2,1),(= )(nrmmmt,...2,1),(= )(nwm= mkkkin,...2,1),(==, Kkkjm,...2,1),(== donde K es la longitud del eje temporal común. Aunque se puede pensar que los sonidos ambientales no presentan la

problemática de la alineación temporal, esta técnica clasificatoria obtiene los mejores resultados de todos los experimentos realizados con diferentes clasificadores (70% bien clasificados con características wavelets).

2.2.3.5- Notificación de Sonidos Al centrarnos en el área de personas con discapacidad, podemos entender cómo no sólo es importante desarrollar técnicas y herramientas de gran calidad y robustez en la detección y clasificación, sino que también es fundamental analizar cómo, una vez reconocido un evento, éste es notificado al usuario (por vibración o mediante luces generalmente a las personas con problemas auditivos). Aunque no centrado en la notificación de sirenas en vehículos, en [54] se construyeron dos prototipos que soportaban la monitorización y la notificación de sonidos del hogar. Una evaluación mostró que la gente prefería el prototipo, el cuál presentaba los sonidos como ondas posicionales. En [53] se realizaron entrevistas con la comunidad de personas sordas para el desarrollo de una guía de diseño de displays de sonidos ambientales, formulando un conjunto de preferencias visuales en el diseño y de requerimientos funcionales. En un proyecto posterior, [55] desarrolló varios prototipos funcionales los cuales fueron evaluados en diferentes estudios. La aplicación Single Icon mostraba los sonidos reconocidos como iconos y los no reconocidos como anillos. La aplicación Spectrograph with Icon adicionalmente mostraba un espectrograma en blanco y negro. Ambos prototipos usaron el sistema de reconocimiento desarrollado en [56] de identificación de sonidos. Otro ejemplo de notificación puede ser el producto denominado con el nombre de Chatter (http://myweb.tiscali.co.uk/anna.hiltunen/chatter.htm). Se trata de una mesa que reacciona a las frecuencias sonoras con cambios en los patrones de luz. El volumen es visualizado a través del brillo del patrón. Personas con problemas auditivos pueden aprender la conexión entre los patrones y los eventos acústicos. 2.3- Elaboración de un corpus de sonidos Con el objetivo de disponer de un conjunto amplio de sirenas de ambulancia, policía y bomberos, el cuál más tarde analizar, durante la primera fase del proyecto SONACAR se llevaron a cabo distintas y variadas grabaciones en diferentes entornos y situaciones. Para ello se establecieron comunicaciones con los responsables de los Centros de Bomberos de la Diputación Foral de Bizkaia, y con el departamento de interior de la Ertzaina, siendo en este último donde también se encontraban las ambulancias. En estos centros se realizaron varias visitas con un equipo de grabación instalado en un coche para adquirir las señales producidas por los vehículos de emergencia correspondientes. A continuación se presentan los puntos referentes al desarrollo de esta etapa:

2.3.1- Método de grabación Hardware utilizado En las grabaciones realizadas en la Fase 1 el hardware empleado con sus características se muestra en la tabla siguiente: Características Foto Portátil Compaq Armada E500 Intel Pentium III 1GHz Micrófono Micrófono electrodinámico Rango de frecuencias: 50-14.000 Hz Sensibilidad: -60dB Impedancia: 2K ohms Tabla 2: Hardware utilizado para la grabación del corpus de sonidos Software utilizado El software empleado para las grabaciones fue Adobe Audition 2.0. La decisión de utilización de este software de edición de audio fue tomada por la versatibilidad que este programa ofrece para el tratamiento de señales sonoras. Destacan en él sus funciones de grabación y mezcla así como sus herramientas de visualización de la frecuencia espectral. Metodología establecida Con el fin de obtener una representación de las señales lo más próxima posible a la realidad, el equipo fue instalado en un coche con el que se realizaron las visitas a los centros acordados con bomberos, policías y conductores de ambulancias.

El micrófono fue colocado en el asidero de la parte superior del marco de la puerta del conductor mediante dos bridas, intentando que el cabezal no estuviese en contacto directo con ninguna superficie del vehículo que pudiera entorpecer la captación del sonido como se muestra en la figura siguiente: Las opciones de grabación que se establecieron fueron, en primer lugar, una frecuencia de muestreo de 44.100 Hz con la que encapsular todo el rango posible de frecuencias perceptibles al oído humano, así como, en segundo lugar, una resolución de 16 bits para no deteriorar la señal en la digitalización.

Figura 5: Colocación del micrófono en el vehículo 2.3.2- Sonidos de sirenas grabados En este apartado se muestran los diferentes espectrogramas obtenidos con Adobe Audition (http://www.adobe.com/ ) de las sirenas grabadas. Sirenas de Ambulancias (1/3) Conversión a escala tiempo-frecuencia SONACAR Ambulancia 1 Ambulancia 2

Ambulancia 3 Ambulancia 4 Figura 6: Sirenas de ambulancia (1/3) Sirenas de Ambulancias (2/3) Conversión a escala tiempo-frecuencia SONACAR Ambulancia 5 Ambulancia 6 Ambulancia 7

Ambulancia 8 Figura 7: Sirenas de ambulancia (2/3) Sirenas de Ambulancias (3/3) Conversión a escala tiempo-frecuencia SONACAR Ambulancia 9 Ambulancia 10 Figura 8: Sirenas de ambulancia (3/3)

Sirenas de Bomberos (1/1) Conversión a escala tiempo-frecuencia SONACAR Bomberos1 Bomberos2 Bomberos3 Bomberos4 Figura 9: Sirenas de bomberos (1/1)

Sirenas Policía (1/1) Conversión a escala tiempo-frecuencia SONACAR Policía1 Policía2 Policía3 Figura 10: Sirenas de policía (1/1) Las sirenas utilizadas en vehículos de emergencia como coches de policía, ambulancias y camiones de bomberos, producen generalmente señales que se caracterizan por una forma de onda modulada en frecuencia, en la que la frecuencia sigue una variación periódica. Según los datos disponibles de los estudios analizados, estas sirenas se encuentran en un rango de frecuencias entre los 600 Hz y los 1200 Hz. El número de ciclos por minuto puede variar entre los 15 y los 240, y es modificable por el conductor del vehículo de emergencia.

Si bien el sonido de la sirena está compuesto por una serie de armónicos, el correspondiente a la frecuencia más baja es el dominante. La variación periódica de la frecuencia de esta componente dominante se muestra en la siguiente figura. Esta curva, curva de frecuencia característica de la sirena, puede considerarse como patrón y por tanto el problema de identificación de la sirena supone el reconocimiento de este tipo de patrones. Figura 11: Caracterización de un patrón de sirena El número de patrones que surgen tras el análisis de los espectrogramas de las sirenas grabadas se muestra en la tabla siguiente. Forma del Patrón Ambulancia Bomberos Policía Periodo <3 seg. Periodo >3 seg. Periodo <3 seg. Periodo >3seg. Periodo <3seg. Periodo >3seg. Exponencial A1 A6

A7 A10 B1 P1 Escalonada A2 A3 A8 B3 B4 P2 Triangular A4 B2 P3 Mezcla A5 A9

A: Ambulancia, B: Bomberos, P: Policía (Corresponden a los nombres de los espectrogramas mostrados anteriormente) Tabla 3: Patrones de sirenas

Se ha encontrado que, además de que las diferentes sirenas por cada patrón son muy similares, ambulancia, policía y bomberos comparten muchas de ellas. La gran mayoría de sirenas son compartidas por los diferentes vehículos de emergencia lo que no permite una clasificación de ellas. En la tabla siguiente se muestra esta problemática. Espectrograma Sirenas Coincidentes Identificadores A7=B1=P1 A8=B4=P2 A4=B2=P3 A5 y A9 tienen componentes tanto de ambulancia como de policía y bomberos. Tabla 4: Comparativa de patrones de sirenas No existe estandarización y/o legislación a nivel nacional que regule las frecuencias o forma que las diferentes sirenas deban tener. Este hecho refrenda los datos facilitados por la empresa Federal Signal VAMA (http://www.fedsig.com/), principal suministrador nacional de equipos de emergencia en el mercado:

Tabla 5: Estándar de sirenas Como se indica en la tabla 5 no se hace distinción entre vehículos de emergencia de bomberos, ambulancia y policía, encontrándose las frecuencias de las sirenas en las mismas frecuencias tonales. Esta problemática se extiende al resto de países de la comunidad europea, lo que imposibilita la clasificación. 2.3.3- Sonidos de ruido ambiente grabados Al igual que es necesario un análisis de lo que se quiere detectar (sirenas), también es necesario un análisis de lo que no se quiere detectar (ruido ambiente). Con el mismo sistema de grabación utilizado para captar las señales de sirenas, durante los dos primeros meses del proyecto se recorrieron diferentes trayectos con el vehículo captando el ruido ambiente que hay que discriminar en el reconocimiento. Aunque éste es totalmente aleatorio e impreciso, la figura siguiente muestra un ejemplo del problema. Figura 12: Ruido ambiente circulando con el vehículo Como se puede apreciar, la frecuencia fundamental se encuentra por debajo de los 500Hz, sin embargo, sus armónicos se expanden hasta gran altura. El mayor problema que se detecta en la gráfica es la gran intensidad que el ruido posee, la cuál, al mezclarse con el sonido de las sirenas puede dificultar en gran medida su detección. Más ejemplos de ruido se muestran en la tabla siguiente:

Ruido ambiente (1/1) Conversión a escala tiempo-frecuencia SONACAR Claxon Teléfono móvil Música piano Figura 13: Ruidos ambientes varios Es necesario realizar varias mediciones y análisis mezclando los diferentes sonidos para observar la encapsulación que se produce en las frecuencias que definen al sonido de la sirena.

2.3.4- Principales características de los sonidos analizados Una vez analizadas las grabaciones almacenadas, los principales factores que se extraen de ellas son los siguientes:.. Las sirenas producen generalmente señales que se caracterizan por una forma de onda modulada en frecuencia, siguiendo una variación periódica... El rango de frecuencias de las sirenas está entre los 600Hz y los 1200Hz, pudiendo variar su número de ciclos por minuto entre los 15 y los 240... Los patrones básicos que definen a una sirena son tres: exponencial, escalonada y triangular, estando presentes todos ellos en los diferentes vehículos de policía, bomberos y ambulancia... No existe estandarización y/o legislación que regule el uso de las sirenas en los vehículos, lo que hace improbable la clasificación... El ruido de ambiente recogido durante la grabación dentro del vehículo es muy aleatorio e impreciso, siendo su intensidad elevada... La frecuencia fundamental del ruido se encuentra por debajo de los 500Hz, sin embargo, sus armónicos se expanden hasta frecuencias mucho más altas pudiendo encapsular la señal de sirena. El transcurso del proyecto se deriva del análisis de estas conclusiones, teniéndolas en cuenta en todos los desarrollos futuros. 2.4- Pruebas de algoritmos Una vez recogidos los diferentes sonidos, el primer paso que se debe tomar es preguntarse cómo se van a representar las señales para poder discriminarlas ante el resto de sonidos ambiente que se encuentran en el entorno. A continuación se presentan los distintos algoritmos utilizados para esta labor. 2.4.1- Algoritmos de conversión rápida a tiempo-frecuencia Basar la detección en la intensidad, como se ha visto en el apartado de análisis de patentes y publicaciones, no es una práctica viable ni aconsejable por lo que es necesario trabajar con las frecuencias de las sirenas, obteniendo para ello

su espectrograma. El espectrograma es una representación visual de las variaciones de la frecuencia en el eje vertical a lo largo del tiempo que se representa en el eje horizontal. En muchos programas también se representa la intensidad mediante niveles de colores o grises del sonido Para la obtención del espectrograma se aplica una transformada de Fourier inicialmente a la señal. Dependiendo del tamaño de la ventana que utilizamos para el análisis de Fourier tendremos diferentes niveles de resolución del espectrograma. Si se aplica una ventana muy grande obtendremos un

espectrograma muy detallado pero a costa de incrementar el tiempo de cálculo necesario para esta operación. Para el caso de una ventana demasiado pequeña el efecto es el inverso y no seremos capaces de distinguir los diferentes armónicos si están muy juntos en el espectrograma. El espectrograma sirve para analizar la sonoridad, la duración, la estructura de los formantes (timbre), la intensidad, las pausas, y el ritmo. Según lo que se deduce de las especificaciones del usuario, el sistema debería ser portátil, y con un tiempo de respuesta corto, lo que descarta el uso de un sistema complejo con gran procesamiento de señal. Se ha optado por realizar un sistema con la cantidad mínima de procesado que al mismo tiempo tuviera un porcentaje elevado de detecciones de alarma. Básicamente se ha limitado al procesamiento rápido adaptado a las características de la frecuencia fundamental de la señal recibida, aprovechando que las señales de alarma a detectar tienen todas unas características muy determinadas. Para el paso inicial del cálculo del espectrograma, se analizaron cuatro formas de obtenerlo que se resumen a continuación: 1. Algoritmo Adaptive Least Squares ( ALS ) [57] Toda onda senoidal muestreada es de la forma )(f.+=nasensn Por tanto ))1(())1((11f.f.++++-=++-nAsennAsenssnn, desarrollando las expresiones trigonométricas, al final se obtiene.cos211nnnsss=++- Por tanto se verifica la fórmula recursiva 2)()(cos111+--+ =nnnsss.

Definiendo la función error siguiente 2112)()(............+ -S=.+-nnnnxxxaa

Si la señal es una sinusoide, cuando el error debe ser pequeño 1)(cos-=.a Por otro lado, hallando el valor del parámetro alfa que hace mínimo el error, obtenemos *a SS+- +- + + = nnnnnnnxxxxx21111* )( )(2a Cuando la señal es un seno, ambos parámetros deben ser similares, por tanto la frecuencia estimada de la señal es )1(cos* 1* a.-= 2. Algoritmo FFT [58] Es un algoritmo básico en procesado de señal que implementa de forma eficiente la transformada discreta de Fourier (DFT) de una secuencia.. )(nx La forma general de la DFT es S- = = 10)()( NnknNWnxkX siendo y la secuencia transformada, con NjNeW/)2(p-=)(kX10-==Nk

Para calcular los valores de la DFT se necesitan multiplicaciones complejas y sumas complejas, lo que la hace computacionalmente ineficiente. Los algoritmos FFT aceleran el cálculo aprovechando las propiedades de simetría y periodicidad de los factores de fase cuando es una potencia de 2. N2NNN-2NWN 3. Algoritmo de Goerztel [59] Cuando se necesita evaluar la DFT en una frecuencia determinada o en un número pequeño de frecuencias knpkkkp<<,,...,,21, se puede usar el algoritmo de Goertzel como alternativa.

Como, multiplicamos la DFT por ese factor y nos queda 12==-kjkNneWp S- = --= 10)()()( NmmNkNWmxkX Por otro lado si definimos la secuencia como )(nyks- = --= 10)()()( NmmnkNkWmxny vemos que es la convolución de la secuencia de entrada de longitud con un filtro de respuesta impulsional. La salida de este filtro en )(nyk)(nxn)()(nuwnhknnk-= Nn= da el valor de la DFT en la frecuencia Nkwk/2p=, NnknykX==)()( 4. Algoritmo Chirp-Z En la expresión de la DCT S- = = 10)()( NnknNWnxkX Los factores de fase pueden ser interpretados como puntos en el plano complejo situados en el círculo unidad ya que tienen módulo 1. Si se hace una generalización de esos factores dando la posibilidad de que sean números complejos cualesquiera tendremos la transformada Z de la secuencia de entrada. NjNeW/)2(p-= La transformada chirp-z es un paso intermedio entre los dos ya que calcula la transformada Z de la secuencia de entrada a lo largo de contornos

espirales en el plano Z. Lo que eran factores de fase en la DCT pasan ahora a tener la forma zl=aw-l, con l=0,..., M-1. A es una constante compleja que define el punto de inicio de la espiral, y M es la longitud de la transformada. Observaciones sobre el uso de estos métodos:.. El análisis frecuencial de una señal habitualmente se realiza con la FFT, pero en los espectrogramas de las alarmas descritos en el capítulo 2.3 se ve que la banda de frecuencias está bien definida y que la mayor parte del tiempo no hay saltos abruptos de frecuencia. Conocidas a priori

esas dos características de las señales a analizar, en principio podrían ser también aplicables los algoritmos Goertzel y ALS... El algoritmo de Goertzel teóricamente es más rápido que la FFT si el número de frecuencias que se quieren analizar es log2(n), siendo N el número de puntos de la FFT. N es 256 en nuestro caso, luego el algoritmo de Goertzel podría ser usable en lugar de la FFT si nos es suficiente con detectar la presencia de 8 frecuencias en la banda. Si se necesita mayor resolución la velocidad es similar... El método ALS tiene como problema principal que es muy poco robusto frente al ruido, sin embargo es mucho más rápido... La transformada chirp-z permite investigar un tramo de frecuencias determinado con mayor resolución que la FFT.

2.4.2- Comparación de los algoritmos en el procesamiento de una señal real Para comparar el comportamiento de los algoritmos se realizó con Matlab una simulación de los resultados que darían cuando analizaran una señal de alarma real mezclada con diferentes intensidades de ruido recogido en autopista. Señal inicial, sin ruido de autopista Algoritmo de extracción de la frecuencia fundamental - SONACAR ALS FFT Goertzel Chirp-Z Figura 14: Comparativa de algoritmos Señal Inicial

Se puede ver que a pesar de no haberse añadido todavía el ruido de autopista, el ruido intrínseco de la señal real recogida ya es suficiente para que la señal obtenida con ALS sea claramente la de peor calidad. Las obtenidas con FFT y Goertzel son similares. La procesada con chirp-z da mayor resolución que las anteriores, como se puede apreciar por el aspecto no escalonado de la gráfica. Con intensidad baja de ruido de autopista - SONACAR ALS FFT Goertzel Chirp-Z Figura 15: Comparativa de algoritmos Señal con intensidad baja de ruido

Con intensidad media de ruido de autopista - SONACAR ALS FFT Goertzel Chirp-Z Figura 16: Comparativa de algoritmos Señal con intensidad media de ruido

Con intensidad alta de ruido de autopista - SONACAR ALS FFT Goertzel Chirp-Z Figura 17: Comparativa de algoritmos Señal con intensidad alta de ruido De la observación de estas gráficas se puede deducir que:.. El algoritmo ALS es muy sensible frente al ruido, lo que le hace prácticamente inutilizable... Los algoritmos FFT y Goertzel son equivalentes tanto en resolución como en comportamiento frente al ruido.. El algoritmo basado en la transformada chirp-z evoluciona con el ruido de forma similar a los anteriores, pero da una mayor resolución. En base a estos resultados se ha optado por la implementación de algoritmos FFT para los prototipos a desarrollar en las siguientes etapas del proyecto.

3- Fase Segunda. Detección y localización del sonido 3.1- Diseño y montaje plataforma pruebas Para la grabación de alarmas y pruebas con diferentes micrófonos se utilizó la siguiente plataforma: Figura 1: Plataforma de pruebas SONACAR.. Para la captación y procesado de los sonidos y pruebas de elección de micrófono y detección con señales reales grabadas, se ha utilizado la tarjeta comercial SPEEDY-33 de National Instruments orientada a aplicaciones genéricas de procesado digital de señales de audio estéreo. Sus características principales son las siguientes: o Basada en el DSP VC33 de Texas Instruments o Dispone de una entrada y una salida de audio analógica estéreo muestreadas a 48 KHz o Ocho entradas y salidas digitales de propósito general. o Memoria en chip de 32K x 32 bits o Memoria flash en placa de 512K x 8 bits para almacenamiento de programa y datos o Implementación y depurado de los algoritmos de procesado mediante el módulo DSP de LabView. o Una vez depurado el programa, éste se puede cargar en la tarjeta y funcionar de forma autónoma, lo que permite su uso en vehículo.

.. Como software de análisis de audio se uso Adobe Audition 1.5.. Se probaron los tres tipos de micrófono que se ilustran en la tabla siguiente: Micrófonos de pruebas en SONACAR Micrófono electrodinámico Micrófono de condensador AKG C418 Cápsula microfónica electret CME12 Tabla 1: Micrófonos de grabación SONACAR 3.2- Desarrollo software detección Con plataforma hardware la del punto anterior, se grabaron sonidos reales de alarmas y se procesaron en la tarjeta SPEEDY 33 con el algoritmo de detección descrito en el siguiente diagrama de bloques. Figura 2: Diagrama de bloques desarrollo detección Descripción de los bloques:.. Señal Señales analógicas procedentes del micrófono a través de la entrada de la tarjeta SPEEDY 33

.. Filtro paso banda Se efectúa un filtrado de banda para retener únicamente las frecuencias comprendidas entre 500 Hz y 1500 Hz, que es la zona de frecuencias donde está la componente fundamental de las alarmas analizadas, según se puede deducir de los datos obtenidos en el apartado 2.3.

.. FFT f0 La señal analógica es muestreada a 8 KHz y cada 256 muestras se realiza una FFT. El procesado consiste en obtener el valor máximo y el índice al que éste corresponde, a partir del cual se obtiene el valor correspondiente de frecuencia, f0. Se realiza esta operación 80 veces tras lo que se obtiene un vector básico VB con el que van a trabajar los bloques siguientes para decidir finalmente si hay o no una alarma... Cálculo de parámetros estadísticos 1 Se calculan los valores estadísticos de valor medio, varianza y desviación típica de los valores del VB.. Filtro bilineal Los valores de VB se pasan por un módulo de filtrado bilineal de coeficientes 1 y 1, que es equivalente a obtener un vector cuyos valores son la resta de dos consecutivos, en el fondo una diferenciación de la señal... Cálculo de parámetros estadísticos 2 Se calculan los valores estadísticos de valor medio, varianza y desviación típica de los valores del vector pasado por el filtro anterior.. Decisión En este bloque se decide la presencia o no de alarma, en función de los valores de valor medio de la señal sin filtrar y filtrada y de la desviación típica de la señal filtrada. Los valores con los que se estima la detección se han obtenido a partir del análisis estadístico de señales reales. Como ejemplo a continuación se dan los valores obtenidos para tres tipos de alarma representativas de los tres patrones que se identificaron en el apartado 2.3.2. Del conjunto de valores obtenidos se dedujo que con media 1 > 9, media 2 <700, y desviación estándar 2<10 se tendría una detección bastante fiable. Para cada señal las gráficas que aparecen son:.. señal inicial: salida del bloque FFT f0.. media 1, desviación estándar 1: son los parámetros obtenidos por el bloque "Cálculo de parámetros estadísticos 1"

.. media 2, desviación estándar 2: son los parámetros obtenidos por el bloque "Cálculo de parámetros estadísticos 2". Para evitar la aparición de decimales en la lectura directa de media 2 en algunas señales, el valor real ha sido multiplicado por 100

Sirena con patrón exponencial Figura 3: Media y Desviación de la sirena de patrón exponencial Sirena con patrón triangular Figura 4: Media y Desviación de la sirena de patrón triangular

Sirena con patrón escalonado Figura 5: Media y Desviación de la sirena de patrón escalonado 3.3- Pruebas de detección Como ejemplo de pruebas del algoritmo, se dan a continuación las salidas que se obtienen del detector para tres tipos de alarma representativas de los tres patrones que se identificaron en el apartado 2.3.2. Para cada señal las gráficas que aparecen son:.. señal inicial: salida del bloque FFT f0.. decisión: el valor 1 indica detección de alarma. El valor 0 indica que no hay detección. Como consecuencia del procesado de la señal, en todas las señales en las que hay detección se observa un retardo entre la aparición de la alarma y la puesta a 1 de esta señal.

Sirena con patrón exponencial Figura 6: Detección de sirena con patrón exponencial Sirena con patrón triangular Figura 7: Detección de sirena con patrón triangular

Sirena con patrón escalonado Figura 8: Detección de sirena con patrón escalonado 3.4- Desarrollo software localización El paso siguiente es el procesado simultáneo de los dos canales para decidir no sólo la presencia de alarma sino también la procedencia (derecha o izquierda). El algoritmo de localización es el siguiente: Figura 9: Diagrama de bloques desarrollo localización

.. Señal I, Señal D: Señales analógicas procedentes de los micrófonos derecho e izquierdo.. FFT V0: La señal analógica es muestreada a 8 KHz y cada 256 muestras se realiza una FFT. La señal analógica es muestreada a 8 KHz y cada 256 muestras se realiza una FFT. El procesado consiste en obtener el valor máximo V0 que se corresponde la frecuencia f0 obtenida en la detección... Detección I: salida del bloque de detección del canal I.. Detección D: salida del bloque de detección del canal D.. Localización: En función de las señales de salida de los bloques de detección (alarma/no alarma) y de los valores de los máximos de señal de cada canal, se obtiene la posición de la alarma: a la derecha o a la izquierda. 3.5- Pruebas detección y localización Las pruebas se realizaron en varias etapas.. Pruebas preliminares del algoritmo de detección con la tarjeta SPEEDY 33. Se realizaron pruebas en laboratorio, simulando mediante generadores de funciones las señales sonoras de alarma. Fueron necesarios un PC con LabView para programar el software y micrófonos. Cuando se llegó a un funcionamiento satisfactorio del sistema se pasó a la siguiente etapa de las pruebas.. Pruebas iniciales en diferentes vehículos de Robotiker. Aunque no estaba diseñado aún el hardware adicional de la alimentación tal como se explica en el punto 4.2, alimentando de forma independiente con baterías fue posible instalar el sistema en el coche. Inmediatamente se vio una diferencia fundamental respecto a la detección realizada en laboratorio: la detección de falsas alarmas era lo bastante frecuente como para invalidar el sistema. La fuente principal de las falsas alarmas se identificó como el ruido acoplado mecánicamente al micrófono, básicamente el de rodadura de los neumáticos. Por tanto hubo que hacer pruebas adicionales con diferentes tipos de micrófono y soporte, hasta que se obtuvo un porcentaje tolerable de errores utilizando el micrófono AKG C118. También se detectaron otros sonidos que podían provocar errores en el sistema, si bien de forma no tan severa como el anterior: ciertos tipos de música, algunos tonos de voz, sonidos transitorios generados al abrir una ventanilla. Mediante ajustes en el software se consiguió reducir las falsas alarmas, aunque no eliminarlas del todo. Para comprobar la detección de alarmas reales con este sistema provisional se realizaron pruebas en parado variando la distancia a una fuente real (camión de bomberos con posibilidad de diferentes tipos). Se comprobó que si el nivel de señal era lo bastante alto, aproximadamente unos 60db de nivel sonoro dentro del habitáculo (unos 25 metros de distancia con las ventanillas cerradas), la detección se realizaba conforme a lo previsto en las simulaciones presentadas en el apartado 3.3.

Como ejemplo de pruebas del algoritmo de localización, a continuación las salidas que se obtienen del bloque de localización para tres tipos de alarma representativas de los tres patrones que se identificaron en el apartado 2.3.2. Para cada señal las gráficas que aparecen son:.. señal inicial: salida del bloque FFT f0.. canal I: señal temporal del canal I.. canal D: señal temporal del canal D.. localización: el valor 1 indica detección de alarma en la parte derecha. El valor 0 indica que no hay detección. el valor -1 indica detección de alarma en la parte derecha. En todas ellas el algoritmo detecta correctamente la situación de la sirena.

Localización con patrón de señal exponencial, señal procedente de la izquierda Figura 10: Localización con patrón de señal exponencial, señal procedente de la izquierda Localización con patrón de señal exponencial, señal procedente de la derecha Figura 11: Localización con patrón de señal exponencial, señal procedente de la derecha

Localización con patrón de señal triangular, señal procedente de la izquierda Figura 12: Localización con patrón de señal triangular, señal procedente de la izquierda Localización con patrón de señal triangular, señal procedente de la derecha Figura 13: Localización con patrón de señal triangular, señal procedente de la derecha

Localización con patrón de señal escalonada, señal procedente de la izquierda Figura 14: Localización con patrón de señal escalonada, señal procedente de la izquierda Localización con patrón de señal escalonada, señal procedente de la derecha Figura 15: Localización con patrón de señal escalonada, señal procedente de la derecha

3.6- Diseño prototipo Sonacar Tras las pruebas anteriores se tuvieron definidos los componentes del prototipo, cuyo diagrama de bloques es el siguiente Figura 16: Diagrama de bloques diseño final SONACAR.. Micrófono AKG C118. Canal Izquierdo y Canal Derecho El sistema utiliza dos micrófonos necesarios para discernir, si las características de la señal recibida lo permiten, la procedencia del sonido: parte derecha o parte izquierda del vehículo. Tal como se expuso en el punto anterior, en el transcurso de las pruebas se vio que una característica muy importante del micrófono debía ser su insensibilidad al ruido procedente del coche, principalmente el producido por la rodadura de los neumáticos; en este sentido el modelo AKG C118 es el que mejores características presentaba. Asimismo el sistema de anclaje de este micrófono permite que se pueda colocar en diferentes lugares del coche... Toma de alimentación del coche El sistema se alimenta de las habituales tomas de mechero del vehículo, requiriendo como máximo 6 vatios de potencia; como la típica de una toma de automóvil es de unos 200 vatios, el sistema no supone una carga apreciable para el sistema.

.. Tarjeta de alimentación Esta tarjeta genera las tensiones adecuadas para alimentar los micrófonos, la tarjeta procesadora de audio y los LEDs indicadores a partir de los 12 voltios de la toma de alimentación del coche. También protege esos módulos frente a tensiones transitorias. Físicamente está colocada sobre la tarjeta principal SPEEDY 33, formando ambas un solo cuerpo... Tarjeta procesadora de audio SPEEDY 33 Ya descrita en el apartado 3.1.. Módulo de LEDs indicadores Se usan dos de las salidas digitales de la SPEEDY 33 para controlar la activación/desactivación de estos LEDs de alta luminosidad indicadores de la presencia de una alarma. Uno indica la detección en la parte izquierda ( verde ) y el otro en la parte derecha ( rojo ). Los LEDs están integrados en un pequeño módulo que se puede colocar fácilmente en el salpicadero del coche.

4- Fase Tercera. Reconocimiento y clasificación del sonido 4.1- Desarrollo del prototipo SONACAR En base al diseño descrito en el apartado 3.6, el desarrollo final del prototipo SONACAR se muestra en las siguientes figuras. Entradas Prototipo Final SONACAR Figura 17: Entradas Prototipo Final SONACAR

Perfil 1 del Prototipo Final SONACAR Figura 18: Vista lateral 1 Prototipo Final SONACAR Perfil 2 del Prototipo Final SONACAR Figura 19: Vista lateral 2 Prototipo Final SONACAR

Planta Prototipo Final SONACAR Figura 20: Vista planta Prototipo Final SONACAR

Prototipo Final SONACAR con Micrófono y Módulo de LEDs Figura 21: Prototipo Final SONACAR con micrófono y módulo de LEDs Prototipo Final SONACAR instalado en el maletero de un vehículo Figura 22: Prototipo Final SONACAR instalado en el maletero de un vehículo

LEDs Prototipo Final SONACAR instalados en vehículo Figura 23: LEDs Prototipo Final SONACAR instalados en vehículo Micrófono Prototipo Final SONACAR instalado en vehículo Figura 24: Micrófono Prototipo Final SONACAR instalado en vehículo

4.2- Pruebas de detección y localización de sonidos sobre prototipo Con el prototipo completo se realizaron las siguientes pruebas.. Pruebas en varios vehículos de Robotiker del prototipo completo descrito en el apartado anterior. Se comprobó entonces el funcionamiento del hardware adicional diseñado y la facilidad de instalación del sistema. Se realizaron pruebas de detección en movimiento alrededor de un fuente real de alarmas (camión de bomberos con posibilidad de diferentes tipos), donde se comprobó que la detección era más inestable que en parado debido a los ruidos y a los obstáculos. No había variaciones sustanciales del nivel necesario para la detección, manteniéndose en los 60 db aproximados que se observaron en las pruebas realizadas anteriormente. El número de falsas alarmas fue apreciablemente bajo, el 90 % del tiempo en un trayecto típico de 15 minutos sin alarmas el sistema no producía falsos avisos... Pruebas en vehículo de distintas personas pertenecientes al colectivo de personas sordas. Conclusiones de las pruebas:.. El algoritmo de detección funciona con un nivel de señal de unos 60 db y en ausencia de ruidos excesivos. Una cuantificación más concreta es difícil de realizar dado que no se pueden hacer pruebas en un ambiente controlado... La generación de falsas alarmas se ha limitado al máximo posible, dentro de las limitaciones del sistema. Si se quisieran eliminar aún más se debería recurrir a técnicas más complejas de reconocimiento y clasificación de sonidos... Dada la imposibilidad de contemplar todos los escenarios posibles de funcionamiento del sistema, el criterio final de aceptación del sistema lo dará la sensación subjetiva del usuario a lo largo de un tiempo de uso. 4.3- Pruebas para reconocimiento automático de sonidos Aun debido a la imposibilidad de poder clasificar las diferentes sirenas por el inconveniente de que, como se ha comentado en puntos anteriores del documento, estas sirenas coinciden en los vehículos de emergencia analizados (policía, ambulancia, bomberos), se han realizado algunas pruebas de clasificación fuera del prototipo final del proyecto SONACAR. Se han intentado diferenciar los tres tipos de patrones base que describen a las sirenas (escalonados, exponenciales y triangulares) que en un futuro podrían ser asignados cada uno a un vehículo de emergencia para permitir una clasificación viable.

Para ello se ha utilizado el entorno de desarrollo de Matlab. Se ha evaluado un clasificador estadístico Gaussian Mixture Model (GMM) descrito en el estado del arte de técnicas clasificatorias de este documento junto a

características típicas del reconocimiento del habla como son los Mel Frequency Cepstral Coefficients (MFCCs) y no típicas del habla: Zero Crossing Rate (ZCR), Spectral Centroid y Roll Off Point. En los apartados siguientes se muestran los resultados de estas pruebas. 4.3.1- Análisis de partida Para observar inicialmente la complejidad que la clasificación supone se muestran a continuación dos ejemplos comparativos. En el primer ejemplo se ve el nivel de clasificación que producen dos parámetros (MFCC1 y MFCC2, descritos en el apartado de análisis de patentes y publicaciones). Para ello en la siguiente se muestra su distribución para todos los segmentos o frames (puntos de colores) en los que se divide el audio. Figura 25: Distribución de frames 1er ejemplo

Utilizando la probabilidad que da la GMM para los mismos sonidos, una apreciación en 3D vendría dada en la gráfica de la figura siguiente. Figura 26: Distribución GMM 1er ejemplo En el segundo ejemplo, analizando la misma prueba con la combinación dada por MFCC3 y MFCC4 la distribución para los frames se muestra en las figuras siguientes. Figura 27: Distribución de frames 2do ejemplo

Figura 28: Distribución GMM 2do ejemplo Esta prueba inicial demuestra cómo dependen en gran medida los parámetros que utilicemos para obtener buenos resultados. En el primer ejemplo la combinación de parámetros MFCC1 y MFCC2 distribuyen las muestras de una forma bastante independiente. Sin embargo, en la distribución que otorgan los parámetros MFCC3 y MFCC4 hay más puntos solapados que implicarán una peor precisión. En los siguientes apartados se presentan los resultados obtenidos en el experimento dividiéndolos en los siguientes subpuntos:.. Influencia de la BD.. Influencia del Nº de gaussianas.. Influencia del Nº de parámetros.. Relevancia de los parámetros 4.3.2- Influencia de la BD Utilizando cuatro tamaños de base de datos para el entrenamiento y evaluación se comprobó la variación de precisión en la clasificación que este hecho producía. Los resultados alcanzan ratios de exactitud elevados, cerca del 90%. No obstante, cabe remarcar que la diferencia que se da de frames bien clasificados cuando el tamaño de la bases de datos varía es relativamente pequeña, de pocas centésimas.

4.3.3- Influencia del Nº de gaussianas El número de gaussianas es un parámetro propio de la GMM. Este parámetro representa los grupos en los que cada clasificador dividirá sus muestras. Diferentes estudios indican cómo este número no debe ser muy elevado debido a que podría producir un efector de memorización, y no de entrenamiento, en el clasificador que deteriorase el ratio de exactitud de éste. En los experimentos realizados se demuestra cómo, aunque el rango de exactitud es pequeño, la mayor exactitud se produce utilizando 4 gaussianas. 4.3.4- Influencia del Nº de parámetros Las pruebas de clasificación indican también cómo, aunque con pocos parámetros la precisión va aumentando cuando añades más, llega un punto en el que el porcentaje de bien clasificados comienza a disminuir (en este caso los mejores resultados se dan para combinaciones de entre 16 elementos tomados de 9 en 9, 10 en 10, 11 en 11 o 12 en 12). En concreto, la combinación ganadora por frames, fue la formada por los parámetros (11 en total): MFCC0, MFCC1, MFCC2, MFCC3, MFCC4, MFCC8, MFCC9, MFCC11, Centroid, Roll- Off Point y ZCR. Teniendo en cuenta el número de iteraciones que producen estas combinaciones (=11.440, =8.008, =4.368), esto supone que, por la cantidad elevada de cálculos que se deben realizar deberemos analizar nuevos métodos más rápidos computacionalmente para hallar el conjunto óptimo de parámetros para 9, 10 y 11 grupos por encontrarse estos entre las combinaciones que más iteraciones conllevan. 9,16C10,16C11,16C 4.3.5- Relevancia de los parámetros Fijando una BD de entrenamiento con 33 muestras, los resultados se han calculado dando 5 puntos a los parámetros que están en la combinación ganadora de cada grupo, 4 a los que obtienen el segundo mejor ratio de exactitud,... hasta 1 a los que se encuentran en la quinta posición mejor. Luego estos valores se han normalizado.

00,10,20,30,40,50,60,70,80,91MFCC0MFCC1MFCC2MFCC3MFCC4MFCC5MFCC6MFCC7MFCC8MFCC9M FCC10MFCC11MFCC12CentroidRoll-Off PointZCRExactitudRelevanciapor frames Figura 29: Mejores parámetros por frames Estos datos demuestran la gran importancia que poseen los parámetros no propios del reconocimiento del habla: Centroid, Roll-Off Point y ZCR junto a los primeros coeficientes MFCCs, donde MFCC0 sigue siendo el parámetro más relevante de todos los coeficientes. 4.4- Análisis de resultados y difusión En el mes de junio de 2007, se celebró la Conferencia Anual IANIS+ (Innovative Actions Network for the Information Society Plus) Innovation, ICT & Creativity : Knowledge-based regions for a competitive Europe donde se mostraron, mediante una visita a los laboratorios de Robotiker-Tecnalia, los diferentes proyectos enmarcados en el campo de Soluciones para una vida independiente e inclusión social en desarrollo por Robotiker-Tecnalia. En esta visita se presentó el prototipo SONACAR, realizando una demostración de su funcionamiento así como dando una explicación de los resultados obtenidos de las pruebas realizadas. En el mes de noviembre de 2007 se presentó el prototipo SONACAR en la ponencia dada por D. Javier González Lodoso ABLE. Una nueva forma de investigar en la conferencia Tecnologías de Apoyo: Un Sector de Futuro... y Presente organizada por Robotiker-Tecnalia. Además, el prototipo fue mostrado durante todo el día en un stand asignado donde las personas asistentes a la conferencia pudieron ver su funcionamiento y resolver las dudas sobre el mismo. A su vez, durante el transcurso del proyecto, han pasado por el laboratorio de Robotiker-Tecnalia diferentes asociaciones y colectivos a los cuales se ha explicado y mostrado el desarrollo del prototipo SONACAR.

5- Conclusiones Las conclusiones de este proyecto son positivas. Las investigaciones en procesado digital de señal han demostrado la posibilidad de implementar algoritmos capaces de discernir de forma precisa entre patrones de señales en movimiento y el ruido ambiente, habiéndose desarrollado un prototipo funcional capaz de detectar un gran número de sirenas de vehículos de emergencia. El prototipo final SONACAR es un dispositivo portátil y fácil de instalar, a la vez que accesible. El prototipo cumple las especificaciones requeridas por el colectivo de personas sordas y se concibe como un avance importante en su seguridad y autonomía, así como un apoyo futuro a la incorporación laboral de las personas con problemas auditivos al sector del transporte. Aunque las pruebas finales de evaluación demuestran cómo la tasa de falsas alarmas se ha reducido en gran medida, aun existen situaciones que conllevan a una mala detección. Sonidos procedentes de la radio o del reproductor de música ocasionan de vez en cuando alguna falsa alarma. Para solventar este problema se han investigado nuevos métodos clasificatorios basados en analizar la distribución estadística que las muestras pregrabadas siguen. Sin embargo, se trata de algoritmos que requieren de una fase de entrenamiento previa y un análisis más exhaustivo de la señal, y esto implica que el cálculo computacional aumenta considerablemente, requiriéndose por tanto un mayor estudio y análisis de la problemática. Como nota relevante del proyecto cabe destacar la falta de estandarización existente en lo referente a forma y frecuencias que definen a las diferentes señales de sirenas para los diferentes vehículos de emergencia. En vehículos de policía, ambulancia y bomberos están disponibles para su uso las mismas sirenas, imposibilitando su clasificación.

6- Referencias [1] http://easylinkuk.co.uk/page39.html [2] http://www.dsc.com/home.aspx [3] http://www.texe.com/document.php?docid=302 [4] Brill, W. E. Emergency Vehicle Detection System, US6362749, 2002. [5] Heric, F. Emergengy Vehicle Detection System, SI21866, 2006 [6] Turbeville, T.A. Emergengy Vehicle Detection System, WO03049061, 2003 [7] Rose Chino, R.; Robinson, F.L. Emergengy Vehicle Detection System, US5894279, 1999 [8] Dufaux, A. Automatic Sound Detection and Recognition of noisy environment, Institute of Microtechnology, University of Neuchatel [9] Dan Istrate, Eric Casteli. Multichannel Smart Sound Sensor for perceptive spaces. MICA Center, CLIPS Laboratory. Project ISERE, 2004 [10] A. Dufaux, L. Besacier, M. Ansorge, and F. Pellandini, Automatic Classification of Wideband Acoustic Signals, 137th Meeting of the Acoustical Society of America and Forum Acusticum 99, 1999. [11] L. Besacier, A. Dufaux, M. Ansorge, F. Pellandini, Automatic Sound Recognition Relying on Statistical Methods, with Application to Telesurveillance, Proc. of COST 254, International Workshop on Intelligent Communication Technologies and Applications, with Emphasis on Mobile Communication, 1999. [12] Alain Dufaux, Detection and Recognition System for Impulsive Audio Signals, University of Neuchâtel, IMT, 2001.

[13] Ellis, D.P.W., Detecting Alarma Sounds, Department of Electrical Engineering, Columbia University, New York. [14] Yuan-Yuan, Shi / Xue, Wen / Bin, She Several Features for Discrimination between Vocal Sounds and Other Environmental Sounds EUSIPCO 2004 (XII. European Signal Processing Conference) 2004. [15] Lie Lu / Jiang, Hao / Zhang, Hongjiang A Robust Audio Classification and Segmentation Method ACM 2001, pp. 203-211. Ottawa, Canada, 2001. [16] Mitrovic, Dalibor / Zeppelzauer, Matthias / Eidenberger, Horst. Towards an Optimal Feature Set for Environmental Sound Recognition Technical Report

TR-188-2-2006-03, 2006, [consultado 05-02-2007], Disponible en: http://www.ims.tuwien.ac.at/publication_master.php, 2006. [17] Cowling, Michael Non-Speech Environmental Sound Classification System for Autonomous Surveillance Tesis Doctoral. Griffith University, Gold Coast Campus, 2004. [18] Couvreur, Christophe. Environmental Sound Recognition: A Statistical Approach Tesis Doctoral, Faculté Polytechnique de Mons, Belgium, June 1997. [19] Marques, Janet / Moreno, Pedro J. A Study of Musical Instrument Classification Using Gaussian Mixture Models and Support Vector Machines Compaq Corporation, Cambridge Research laboratory, Technical Report Series CRL 99/4, June 1999. [20] Eggink, Jana / Brown, Guy J. Application of Missing Feature Theory to the Recognition of Musical Instruments in Polyphonic Audio In Proceedings of International Symposium on Music Information Retrieval (ISMIR '03), Baltimore, Md, USA, October 2003. [21] McKinney, Martin F. / Breebaart, Jeroen. Features for Audio and Music Classification In Proceedings of the Fourth International Conference on Music Information Retrieval (ISMIR) 2003. [22] Eslim, Essid / Gaël, Richard / Bertrand, David Hierarchical Classification of Musical Instruments on Solo Recordings IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP'06, Toulouse, France, 15-19 mai 2006. [23] Clavel, C. / Ehrette, T. / Richard, G. Events Detection for an Audio-Based Surveillance System In Proceedings of the IEEE Int. Conf. on Multimedia and Expo (ICME 2005), Amsterdam, 6-8 July 2005. [24] Atrey, Pradeep K. / Maddage, Namunu C. / Kankanhalli, Mohan S. Audio Based Event Detection for Multimedia Surveillance Proc ICCASP 2006. [25] Vacher, Michel / Istrate, Dan / Serignat, Jean-Francois. Detection and

Speech/Sound Segmentation in a Smart Room Environment presented at The 3rd Conference on Speech Technology and Human-Computer Dialogue (Sped 2005), pp. 37-48.Cluj-Napoca, Romania, May 13-14, 2005. [26] Vacher, M / Istrate, D. / Besacier, L. / Serignat, J.F. Life Sounds Extraction and Classification in Noisy Environment in Proceedings of the International Association of Science and Technology for Development, Signal and Image Processing IASTED'SIP 2003, Horiolulu, Hawaii, USA, 13.15 August, 2003.

[27] Vacher, Michel / Istrate, Dan / Serignat, Jean-Francois. Sound Detection and Classification Through Transient Models using Wavelet Coefficient Trees EUSIPCO 2004. [28] Munich, M. E. Bayesian subspace methods for acoustic signature recognition of vehicles. In Proceedings of the European Signal Processing Conference (EURASIP) Vienna, Austria 2004. [29] Harb, Hadi / Chen, Liming Sound Recognition: a connectionist approach Proceedings of the IEEE International Symposium on Signal Processing and its Applications ISSPA2003, July 1-4, Paris - France, 2003 [30] Tzanetakis, George / Essl, Georg / Cook, Perry. Audio Analysis using the Discrete Wavelet Transform In Proceedings of WSES International Conference, Acoustics and Music: Theory and Applications (AMTA), Skiathos, Greece, 2001. [31] Castelli, Eric / Vacher, Michel / Istrate, Dan / Besacier, Laurent. Habitat Telemonitoring System Based on the Sound Surveillance Presented at ICICTH (International Conference on Information Communication Technologies in Health), Samos Island, Greece, July 13-15, 2003, ISBN: 960-813-17-1, pp. 141-146. [32] Härmä, A. / McKinney, M. / Skowronek J. Automatic surveillance of the acoustic activity in our living environment In IEEE International Conference on Multimedia and Expo, ICME 2005, Amsterdam, Netherlands, 2005. [33] Gaunard, P / Mubikangiey, C. G. / Couvreur, C. / Fontaine, V. Automatic classification of environmental noise events by hidden Markov models. Appl. Acoustics 54, 3, 187, 1998. [34] Oberle, S. "Recognition of Acoustical Alarm Signals for the Profoundly Deaf Using Hidden Markov Models", IEEE International Symposium on Circuits and Systems, 1995, No. 3, pp. 2285-2288. [35] Uribe, O.A / Meana, H.M.P. / Miyatake, M.N. Environmental Sounds Recognition System using the Speech Recognition System Techniques in Electrical and Electronics Engineering, 2005 2nd International Conference, Sept. 2005 [36] Rabaoui, A. / Lachiri, Z. / Ellouze, N. Automatic Environmental Noise

recognition In Industrial Technology. IEEE ICIT '04. IEEE International Conference, 2004. [37] Huang, W. Lau, S. Tan, T. Li, L. Wyse, L. Audio Events Classification Using Hierarchical Structure In Information, Communications and Signal Processing and the Fourth Pacific Rim Conference on Multimedia. Proceedings of the 2003 Joint Conference of the Fourth International Conference,2003.

[38] Goldhor, R.S. Recognition of Environmental Sounds in ICASSP 93, USA, pp. 149 152, 1993. [39] RWCP Sound Scene Database in Real Acoustical Environments Voice Activity Detection in Noisy Environments [consultado 05-02-07], Disponible en: http://tosa.mri.co.jp/sounddb/nospeech/research/indexe.htm [40] Markou, Markos / Singh, Sameer. Novelty Detection: A Review - Part1: Statistical Approaches Signal Processing, v.83 n.12, p.2481-2497, December 2003. [41] Markou, Markos / Singh, Sameer. Novelty Detection: A Review - Part2: Neural Network Based Approaches Signal Processing, v.83 n.12, p.2499-2521, December 2003. [42] Temko, A. / Nadeu C. Classification of Meeting-room Acoustic Events with Support Vector Machines and Variable-feature-set Clustering. In ICASSP05, pagesv: 505 508, 2005. [43] Chu, Selina / Narayanan, Shrikanth / Kuo, C.-C. Jay / Mataric, Maja J. Where Am I? Scene Recognition for Mobile Robots Using Audio Features In Proc. of IEEE International Conference on Multimedia & Expo, 2006. [44] Ma, L. / Smith, D.J. / Milner, B.P. Context Awareness using Environmental Noise Classification Proceedings of Eurospeech2003, 2003. pp. 2237-2240. [45] Cristani, M. / Bicego, M. / Murino, V. Online Adaptive Background Modelling for Audio Surveillance, Proc. Of ICPR, 2004. [46] Moore Andrew W. Clustering with Gaussian Mixtures [consultado en 05-02-2007], Disponible en http://www.cs.cmu.edu/~awm. 2004. [47] Fagerlund, Seppo. Automatic Recognition of Bird Species by their Sounds Tesis Doctoral. Helsinky University of Technology, 2004. [48] Yu Hen Hu / Jenq-Neng Hwang. Handbook of Neural Network Signal Processing ISBN 0-8493-2359-2, 2002

[49] Cowling, Michael / Sitte, Renate. Analysis of Speech Recognition Techniques for use in a Non-Speech Sound Recognition System IEEE Transactions on Speech and Audio Processing, Vol.10, pp. 504-516, Oct.2002. [50] Ellis, Daniel P.W. Detecting Alarm Sounds In Proceedings of Consistent and Reliable Acoustic Cues for sound analysis (CRAC01), Aalborg, Denmark, September 2001. [51] Martínez,. / Díaz, M.C. / Martín, M.T. / Rivas, V.M. / Ureña, L.A. Aplicación de Redes Neuronales y Redes Bayesianas en la Detección de Multipalabras para Tareas IR JOTRI 2002.

[52] Wrigley, Stuart N. Speech Recognition by Dynamic Time Warping [consultado 05-02-2007] Disponible en: http://www.dcs.shef.ac.uk/~stu/com326, 1998. [53] Matthews, T. / Fong, J. / Mankoff J. Visualizing Non-Speech Sounds for the Deaf, Proc. of ACM SIGACCESS Conference on Computers and Accessibility, pp. 52-59, 2005. [54] Ho-Ching, F.W.-L. / Mankoff, J. / Landay, J.A. Can You See What I Hear? The Design and Evaluation of a Peripheral Sound Display for the Deaf, Proc. of the SIGCHI Conference on Human factors in Computing Systems, pp. 161-168, 2003. [55] Matthews, T. / Fong, J. / Ho-Ching, F.W.-L. / Mankoff, J. Evaluating Non- Speech Sound Visualizations for the Deaf, Behaviour & Information Technology, vol. 25( 4), pp. 333-351, 2006. [56] Malkin, R. / Macho D. / Temko, A. First Evaluation of Acoustic Event Classification Systems in the CHIL Project, Proc. of Workshop on Hands-Free Speech Communication and Microphone Arrays, 2005. [57] Duchi, John / Phillips, Benjamin "Query By Humming: Finding Songs in a Polyphonic Database". Computer Science Department. Stanford University. [58] Sanjit K. Mitra / James F. Kaiser. "Handbook for Digital Signal Processing", Ed. John Wiley and Sons [59] Sanchis R Análisis de estructuras resonantes electromagnéticas combinando el método FDTD con el algoritmo de Goertzel". et al. Grup d Electromagnetisme i Ones. Dpt. de Fisica Aplicada, Universitat de València.