Reconocimiento Automático de Locutor

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Reconocimiento Automático de Locutor"

Transcripción

1 Reconocimiento Automático de Locutor Joaquín González Rodríguez ATVS Biometric Recognition Group Universidad Autónoma de Madrid Sumario Introducción: n: voz e identidad Reconocimiento de locutor multinivel Reconocimiento acústico (bajo nivel) GMM SVM-GLDS Reconocimiento de alto nivel Fonético Prosódico Fusión Evaluaciones NIST Desafíos Actuales y Últimas Tendencias Conclusiones 2 1

2 Información de identidad en la señal de voz 3 Señal de Voz e Información de Identidad Las personas somos capaces de identificar locutores a partir de sus voces Durante toda nuestra vida adquirimos voces. Inconscientemente creamos un modelo de cada locutor. Por tanto, la señal de voz conlleva información n de identidad del hablante. Dónde se encuentra esa información? n? Cómo podemos extraerla, caracterizarla y compararla? 4 2

3 Niveles de Identidad en la Voz Existen diferentes niveles en los que la identidad del hablante se encuentra en la señal de voz Cuando reconocemos a alguien por la voz tenemos en cuenta Su timbre El uso de los sonidos Su forma de entonar Influye uno o varios niveles (fusi( fusión) Esa combinación n es dependiente del locutor a reconocer 5 Niveles de Identidad en la Voz Bajo nivel Segmentales: : Formantes, ancho de banda de formantes, frecuencia fundamental Suprasegmentales: : transición n y ataque entre sonidos, coarticulación y concatenación Alto nivel Nivel prosódico: entonación, n, acentuación, n, duración n (grupos fónicos f y silencios) Nivel lingüí üístico: ritmo, melodía, tempo, jerga, léxico, reiteración n de expresiones, variedad dialectal 6 3

4 Estrategia en Biometría Vocal En biometría a vocal tendrán n que tenerse en cuenta: 1.La información n extraída a diferentes niveles Estrategia multinivel Y de diferente forma en cada nivel Estrategia multisistema 2.La combinación n de esa información Fusión multinivel Fusión multisistema Rec. Acústico 1 Rec. Acústico 2 Rec. Prosódico Fusión Rec. Fonético 7 Problema: Variabilidad Problema fundamental en la señal de voz Debida a múltiples m (y comunes) factores: Factores internos intrínsecos: nsecos: Permanentes: sexo, edad, sesión, tipo y cantidad de habla Transitorios: estado emocional, patologías as fonatorias Factores internos forzados: Efecto Lombard (voz en ambiente ruidoso) Efecto cocktail-party (voz en voces concurrentes) Factores externos: Canal (electro)ac( electro)acústico: : ruido acústico, reverberación, microfonía,, distancia Canal de comunicaciones: ruido eléctrico, ancho de banda, margen dinámico, distorsión, codificación 8 4

5 Reconocimiento de locutor dependiente del texto Sistema text-dependent 39 modelos fonéticos (english) spk-indept de TIMIT 23 modelos fonéticos (español) spk-indept Albayzin Alineamiento forzado con locuciones train Técnicas evaluadas: EM: reestimación Baum-Welch (1-5 iteraciones) MLLR: adaptación de modelos (1-32 clases) Sin normalización de scores (t-norm, etc.) Implementación actual: HTK Próximamente portado a Sphinx 10 5

6 Pruebas sobre Yoho 4 sesiones enrollment, 24 frases/sesión = 96 locuciones 10 sesiones de test, 4 frases/sesión = 40 locuciones 138 locutores Locuciones: tipo Tipo de habla: (single) microphone Protocolo de prueba: reconocimiento fonético con desafío dinámico Condiciones de entrenamiento en prueba: 4 sesiones, 96 locuciones 1 sesión, 24 locuciones 1 sesión, 6 locuciones 11 Text-dependent: MLLR vs EM 12 6

7 GMM-HMM-Fusion sobre Yoho (6 frases) 13 Phone-dependent t-norm 14 7

8 Fusión T-HMM + GMM 15 Comparativa t-norm HMM 16 8

9 Pruebas sobre Biosec Habla microfónica y webcam 1 archivo de train frente a 1 test 150 locutores: 2 sesiones, 4 locuciones/sesion 16 train/test true pairs per speaker (2400 trials) 150 x 149/2 = non-target trials Sistema MLLR 17 Resultados habla microfónica MLLR Resultados TALP con habla webcam mediante GMM: 13% EER 18 9

10 Reconocimiento multinivel de locutores (independiente de texto) 19 Reconocimiento de locutor multinivel Tradicionalmente (años 90), sólo s sistemas basados en parámetros acústicos Diferentes estrategias: Dynamic Time Warping (DTW) Vector Quantization (VQ) Artificial Neural Network (ANN) Hidden Markov Models (HMM) Gaussian Mixture Models (GMM) Los sistemas de alto nivel proporcionan enormes posibilidades, especialmente para longitudes de entrenamento grandes (>10min.) Para longitudes de entrenamiento pequeñas, los sistemas acústicos funcionan mucho mejor 20 10

11 Reconocimiento de locutor multinivel Parámetros acústicos: Fáciles de extraer y modelar, buenos resultados (GMM/SVM) Alta sensibilidad a fuentes de variabilidad (canal, paso del tiempo, etc.) Parámetros de alto nivel: Dificultad de extracción n variable, pero en general alta complejidad Sólo a partir de duraciones grandes Alta robustez a fuentes de variabilidad (una vez extraídos de forma fiable) 21 Reconocimiento de locutor multinivel Fusión de sistemas a distintos niveles: Acústico Prosódico Fonético Léxico Conversacional Referencia: SuperSID: D. A. Reynolds, et al., The SuperSID Project: Exploiting High-level Information for High-accuracy Speaker Recognition, IEEE Intl. Conf. on Acous. Speech and Signal Proc., ICASSP

12 Sistemas Acústicos: GMM y SVM-GLDS 23 Reconocimiento acústico de locutor Los sistemas acústicos basan el reconocimiento en las características espectrales de la señal de voz Y en la variación n de esas características a lo largo del tiempo s i e t e c e r o 24 12

13 Mecanismo de producción de voz El espectro de la señal de voz está directamente relacionado con La señal de excitación n procedente de las cuerdas vocales La configuración n de tracto vocal 25 Cuerdas vocales: excitación Las cuerdas vocales generan el sonido Señal de excitación Si las cuerdas vibran, señal sonora (estructura periódica subyacente) Ciclo de Vibración Si las cuerdas no vibran, señal sorda (ruido sin periodicidad alguna) 26 13

14 Espectro: Sonidos Sordos Si las cuerdas vocales no vibran Espectro ruidoso de alta frecuencia Ejemplo: s s sorda, f, z 27 Espectro: Sonidos Sonoros Si las cuerdas vocales vibran Tono (pitch( pitch) ) + formantes (envolvente) Señal cuasi-peri periódica: pitch Ejemplo: vocales, m, l Estructura periódica, alta energía Estructura fina (armónicos) y formantes Amplitud(dB) Tiempo(ms) Frecuencia(KHz) 14

15 Tracto vocal: articulación La señal de excitación n define la frecuencia fundamental de vibración n (pitch( pitch) Sin embargo, la forma del espectro (formantes) está definida por la configuración n de los órganos articulatorios (tracto vocal) El tracto vocal de cada ser humano genera formantes ligeramente diferentes para un mismo sonido Por tanto, de la forma del espectro se puede extraer información n que permite discriminar entre personas 29 Análisis a corto plazo El espectro de la señal de voz tiene mucha variabilidad temporal s i e t e c e r o Un análisis del espectro total de la voz no resulta práctico, porque los espectros de los diferentes sonidos no se distinguirían 30 15

16 Análisis a corto plazo Sin embargo, a corto plazo (entre 5 y 30 ms) Sonidos sonoros se pueden considerar periódicos Sonidos sordos se pueden considerar estacionarios Tiempo(ms) Estrategia: muchas muestras de la señal a corto plazo (enventanado) 31 Parametrización acústica Primer paso: enventanado Se obtienen trozos de la señal con solapamiento Segundo paso: parametrización Se obtienen características (parámetros) de cada ventana Se obtiene una secuencia de vectores de parámetros Una secuencia por cada locución 32 16

17 Parametrización acústica Objetivo: extraer información n discriminante de cada ventana de voz en la locución De cada ventana se obtiene un vector de parámetros Generalmente de longitud fija 0 Amplitud(dB) Frecuencia(KHz) Diversos tipos Parametrización Linear Prediction Cepstal Coefficients (LPCC) Mel Frequency Cepstral Coefficients (MFCC) 33 Linear Prediction Cepstral Coefficients (LPCC) La envolvente de la ventana bajo análisis se estima utilizando un filtro de predicción n lineal La transformada cepstral de los coeficientes de dicho filtro genera unos coeficientes transformados Parte de esos coeficientes cepstrales serán n el vector de parámetros de esa ventana 34 17

18 Mel Frequency Cepstral Coefficients (MFCC) No se modela la envolvente Se extrae una serie de coeficientes procedentes de un banco de filtros Mel La escala Mel está basada en la percepción n logarítmica del oído o humano La transformada cepstral de dichos coeficientes genera unos coeficientes transformados Parte de esos coeficientes cepstrales serán n el vector de parámetros de esa ventana 35 Espacio de características espectrales El espacio de características es compartido por cada locutor y hay solapamiento entre ellos Además, existe variabilidad dentro del mismo locutor por diversos factores Siete hablantes españoles Un hablante por idioma 36 18

19 Modelado Una vez extraídos los parámetros, será necesario crear un modelo para cada locutor En un esquema de verificación, compararemos una locución n desconocida con el modelo almacenado Veremos dos tipos de modelado acústico GMM SVM-GLDS 37 Sistema GMM 38 19

20 Gaussian Mixture Models (GMM) Cada vector en la secuencia de vectores es una muestra Con todas las muestras se obtiene un modelo de mezclas de gaussianas GMM Función n densidad de probabilidad multidimensional Gaussian Mixture Models (GMM) Modelo paramétrico Cada modelo de locutor viene definido por los siguientes parámetros: Pdf en el espacio de características: p M ( x λp ) = ωipgip ( x) i= 1 Vector de de medias (mezcla i): i): µ p ={µ p ={µ ip } ip } Matriz de de covarianzas (mezcla i): i): Σ p ={Σ p ={Σ ip } ip } Vector de de pesos (mezcla i): i): ω p ={ω p ={ω ip }, ip }, Σ i ω i ip =1 ip =1 Modelo del del locutor p: p: λ p ={µ p ={µ ip,σ ip,σ ip,ω ip,ω ip } ip } ( x ) = N ( µ ip, Σip ) Los parámetros del modelo se obtienen (usualmente) mediante el algoritmo EM (Expectation( Maximization). g ip 40 20

21 Adaptación desde modelo universal Cuando hay poca habla del locutor, el modelo GMM puede ser poco general Se introduce generalidad a partir de un modelo universal Universal Background Model (UBM) El UBM se entrena con muchísima habla de todo el mundo Idea: El modelo UBM nos da lo general, común n a todos El modelo del locutor nos da lo particular de ese locutor con respecto del modelo universal Robustez frente a pocos datos 41 Adaptación desde modelo universal Adaptación n MAP (Máximo a Posteriori) mediante el algoritmo EM 42 21

Juegos Interactivos para la Rehabilitación Fonatoria

Juegos Interactivos para la Rehabilitación Fonatoria Juegos Interactivos para la Rehabilitación Fonatoria Autores: Ing. Eduardo González Moreira MSc.. Carlos Ariel Ferrer Riesgo Dra. María E. Hernández Díaz-Huici Ing. Eric Lisandro Acao Centro de Estudios

Más detalles

Modelo de producción de la voz

Modelo de producción de la voz Modelo de producción de la voz Fonética y fonémica Fonema: Unidad teórica básica para describir cómo la voz transporta un significado lingüístico. Sonido: Realización práctica de un fonema Fonémica: Estudio

Más detalles

Verificación Automática del Locutor

Verificación Automática del Locutor Verificación Automática del Locutor Juan Arturo Nolazco Flores Departamento de Ciencias Computacionales Tecnológico de Monterrey, Campus Monterrey. Juan Arturo Nolazco Flores. RAH Agenda Introducción IAL

Más detalles

PROCESAMIENTO DE VOZ. RETOS ACTUALES. PROYECTOS CIC

PROCESAMIENTO DE VOZ. RETOS ACTUALES. PROYECTOS CIC PROCESAMIENTO DE VOZ. RETOS ACTUALES. PROYECTOS CIC Dr. Sergio Suárez Guerra [email protected] 1 La señal voz, expectativas de uso Cada día nos encontramos más, con infinidad de aplicaciones de los sistemas

Más detalles

Procesamiento digital de voz

Procesamiento digital de voz Procesamiento digital de voz Seminario de Audio 2005 Ernesto López Martín Rocamora Producción del habla Aparato fonador Corte transversal de la laringe Sonidos sonoros y sordos Sonidos sonoros Forma de

Más detalles

MÁQUINAS DE VECTORES SOPORTE (SVM) PARA RECONOCIMIENTO DE LOCUTOR E IDIOMA

MÁQUINAS DE VECTORES SOPORTE (SVM) PARA RECONOCIMIENTO DE LOCUTOR E IDIOMA UNIVERSIDAD AUTÓNOMA DE MADRID ESCUELA POLITÉCNICA SUPERIOR MÁQUINAS DE VECTORES SOPORTE (SVM) PARA RECONOCIMIENTO DE LOCUTOR E IDIOMA -RESUMEN DEL PROYECTO FIN DE CARRERA- XXVIII Convocatoria premios

Más detalles

Fonética y Fonología españolas

Fonética y Fonología españolas Fonética y Fonología españolas Fonética y Fonología españolas Mary C. Iribarren EDITORIAL SINTESIS Consulte nuestra página web: www.sintesis.com En ella encontrará el catálogo completo y comentado Reservados

Más detalles

ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN

ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN Titulación : INGENIERO TÉCNICO DE TELECOMUNICACIÓN, ESPECIALIDAD EN SONIDO E IMAGEN Título del proyecto: PROCESADO DIGITAL DE VOZ

Más detalles

Sistema para identificación de hablantes robusto a cambios en la voz

Sistema para identificación de hablantes robusto a cambios en la voz Artículo Científico / Scientific Paper Sistema para identificación de hablantes robusto a cambios en la voz Guillermo Arturo Martínez Mascorro, y Gualberto Aguilar Torres 2 Resumen Los sistemas de reconocimiento

Más detalles

ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN

ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN Titulación : INGENIERO DE TELECOMUNICACIÓN Título del proyecto: IMPLEMENTACIÓN Y COMPARACIÓN DE ALGORITMOS BASADOS EN TÉCNICAS

Más detalles

Reconocimiento de voz basado en MFCC, SBC y Espectrogramas

Reconocimiento de voz basado en MFCC, SBC y Espectrogramas Artículo Científico / Scientific Paper Reconocimiento de voz basado en MFCC, SBC y Espectrogramas Guillermo Arturo Martínez Mascorro, y Gualberto Aguilar Torres 2 Resumen Uno de los problemas en los sistemas

Más detalles

Fiabilidad en sistemas forenses de reconocimiento automático de locutor explotando la calidad de la señal de voz

Fiabilidad en sistemas forenses de reconocimiento automático de locutor explotando la calidad de la señal de voz UNIVERSIDAD AUTONOMA DE MADRID ESCUELA POLITECNICA SUPERIOR Fiabilidad en sistemas forenses de reconocimiento automático de locutor explotando la calidad de la señal de voz -PROYECTO FIN DE CARRERA- Alberto

Más detalles

UNIVERSIDAD DE GRANADA PROCESAMIENTO DE VOZ

UNIVERSIDAD DE GRANADA PROCESAMIENTO DE VOZ UNIVERSIDAD DE GRANADA PLAN DE ESTUDIOS: DIPLOMADO EN LOGOPEDIA PROCESAMIENTO DE VOZ Ángel de la Torre Vega Dpto. Teoría de la Señal, Telemática y Comunicaciones Procesamiento de Voz ATV Dpto. Teoría de

Más detalles

APLICACIONES EN RECONOCIMIENTO DE VOZ UTILIZANDO HTK T.G. 0446

APLICACIONES EN RECONOCIMIENTO DE VOZ UTILIZANDO HTK T.G. 0446 i APLICACIONES EN RECONOCIMIENTO DE VOZ UTILIZANDO HTK T.G. 0446 AUTOR: IVÁN HORACIO VILLAMIL ESPINOSA. SANTA FE DE BOGOTA DC. PONTIFICIA UNIVERSIDAD JAVERIANA FACULTAD DE INGENIERIA DEPARTAMENTO DE ELECTRONICA

Más detalles

DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA

DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA Universidad Autónoma de Madrid Escuela Politécnica Superior Proyecto fin de carrera DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA Ingeniería Superior en Telecomunicación Carlos Ortego Resa Julio 2009 2 DETECCIÓN

Más detalles

La fonología es esencialmente la descripción del sistema y de los patrones de los sonidos de una lengua (Yule 1998:66).

La fonología es esencialmente la descripción del sistema y de los patrones de los sonidos de una lengua (Yule 1998:66). 8 1.5. La Fonología 1.5.1. Definición Algunas definiciones de Fonología: La fonología es esencialmente la descripción del sistema y de los patrones de los sonidos de una lengua (Yule 1998:66). G. Yule

Más detalles

Definiciones. Ruido: Sonido no deseado, desagradable o molesto

Definiciones. Ruido: Sonido no deseado, desagradable o molesto Definiciones Ruido: Sonido no deseado, desagradable o molesto Sonido: Vibración mecánica transmitida por ondas en un medio elástico, que es capaz de ser percibida por órgano auditivo. Presión P 0 Distancia

Más detalles

Reconocimiento del hablante empleando rasgos distintivos de largo plazo

Reconocimiento del hablante empleando rasgos distintivos de largo plazo Reconocimiento del hablante empleando rasgos distintivos de largo plazo Tesista: Pedro UNIVASO Directores:Dr. Juan M. ALE y Dr. Jorge A. GURLEKIAN Lugar de Trabajo:Laboratorio de Investigaciones Sensoriales,

Más detalles

Aplicaciones del análisis acústico en los estudios de la voz humana

Aplicaciones del análisis acústico en los estudios de la voz humana Seminario Internacional de Aplicaciones del análisis acústico en los estudios de la voz humana Matías Zañartu Salas Unidad de Acústica - Escuela de Fonoaudiología Universidad Mayor Av. Libertador Bdo.

Más detalles

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Amaro Camargo Erika, Reyes García Carlos A. Instituto Nacional de Astrofísica, Óptica

Más detalles

Psicoacústica. Campos de Aplicación: Psicología. Medicina. Acústica. Audio. Electroacústica. Higiene industrial. Comunicaciones. Etc.

Psicoacústica. Campos de Aplicación: Psicología. Medicina. Acústica. Audio. Electroacústica. Higiene industrial. Comunicaciones. Etc. PSICOACÚSTICA Psicoacústica Es la ciencia que estudia las reacciones del Ser Humano ante la percepción sonora. Su objetivo es la evaluación cuantitativa de sensaciones subjetivas originadas a partir de

Más detalles

UNIVERSIDADES PÚBLICAS DE LA COMUNIDAD DE MADRID MATERIA: LENGUAJE Y PRÁCTICA MUSICAL

UNIVERSIDADES PÚBLICAS DE LA COMUNIDAD DE MADRID MATERIA: LENGUAJE Y PRÁCTICA MUSICAL UNIVERSIDADES PÚBLICAS DE LA COMUNIDAD DE MADRID PRUEBA DE ACCESO A LAS ENSEÑANZAS UNIVERSITARIAS OFICIALES DE GRADO Curso 2009-2010 MATERIA: LENGUAJE Y PRÁCTICA MUSICAL INSTRUCCIONES GENERALES Y VALORACIÓN

Más detalles

BATVOX: SISTEMA AUTOMÁTICO DE RECONOCIMIENTO DE LOCUTOR. BEATRIZ GONZÁLEZ SIGÜENZA Agnitio

BATVOX: SISTEMA AUTOMÁTICO DE RECONOCIMIENTO DE LOCUTOR. BEATRIZ GONZÁLEZ SIGÜENZA Agnitio BATVOX: SISTEMA AUTOMÁTICO DE RECONOCIMIENTO DE LOCUTOR BEATRIZ GONZÁLEZ SIGÜENZA Agnitio [email protected] BATVOX: Sistema automático de reconocimiento de locutor 303 RESUMEN El objetivo del presente

Más detalles

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos Agro 6998 Conferencia Introducción a los modelos estadísticos mixtos Los modelos estadísticos permiten modelar la respuesta de un estudio experimental u observacional en función de factores (tratamientos,

Más detalles

TEMA I.12. Ondas Estacionarias en una Cuerda. Dr. Juan Pablo Torres-Papaqui

TEMA I.12. Ondas Estacionarias en una Cuerda. Dr. Juan Pablo Torres-Papaqui TEMA I.12 Ondas Estacionarias en una Cuerda Dr. Juan Pablo Torres-Papaqui Departamento de Astronomía Universidad de Guanajuato DA-UG (México) [email protected] División de Ciencias Naturales y Exactas,

Más detalles

Memoria Final. Proyecto Sonacar

Memoria Final. Proyecto Sonacar Memoria Final Proyecto Sonacar ÍNDICE 1- Introducción......3 1.1- Presentación del proyecto...3 1.2- Objetivos del proyecto...4 2- Fase Primera. Corpus y análisis de sonidos...6 2.1- Especificación de

Más detalles

INSTITUTO POLITÉCNICO NACIONAL

INSTITUTO POLITÉCNICO NACIONAL INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MODELO DE PROCESAMIENTO DE VOZ PARA LA CLASIFICACIÓN DE ESTADOS T E S I S QUE PARA OBTENER EL GRADO DE DOCTOR EN CIENCIAS DE LA COMPUTACIÓN

Más detalles

RECOMENDACIÓN UIT-R BS *,** Medición del nivel de tensión del ruido de audiofrecuencia en radiodifusión sonora

RECOMENDACIÓN UIT-R BS *,** Medición del nivel de tensión del ruido de audiofrecuencia en radiodifusión sonora Rec. UIT-R BS.468-4 1 RECOMENDACIÓN UIT-R BS.468-4 *,** Medición del nivel de tensión del ruido de audiofrecuencia en radiodifusión sonora La Asamblea de Radiocomunicaciones de la UIT, (1970-1974-1978-1982-1986)

Más detalles

UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN TESIS DOCTORAL

UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN TESIS DOCTORAL UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN TESIS DOCTORAL Técnicas de análisis, caracterización y detección de señales de voz en entornos acústicos adversos

Más detalles

SEGMENTACIÓN DE AUDIO Y DE LOCUTORES PARA RECUPERACIÓN DE INFORMACIÓN MULTIMEDIA Y SU APLICACIÓN A VIDEOS DE INFORMACIÓN TURÍSTICA

SEGMENTACIÓN DE AUDIO Y DE LOCUTORES PARA RECUPERACIÓN DE INFORMACIÓN MULTIMEDIA Y SU APLICACIÓN A VIDEOS DE INFORMACIÓN TURÍSTICA UNIVERSIDAD AUTONOMA DE MADRID ESCUELA POLITECNICA SUPERIOR PROYECTO FIN DE CARRERA SEGMENTACIÓN DE AUDIO Y DE LOCUTORES PARA RECUPERACIÓN DE INFORMACIÓN MULTIMEDIA Y SU APLICACIÓN A VIDEOS DE INFORMACIÓN

Más detalles

Representación de señales de audio

Representación de señales de audio Representación de señales de audio Emilia Gómez Gutiérrez Síntesi i Processament del So I Departament de Sonologia Escola Superior de Musica de Catalunya Curso 2009-2010 [email protected] 28 de septiembre

Más detalles

UNIVERSIDAD DE ALMERIA GUÍA DOCENTE CURSO:

UNIVERSIDAD DE ALMERIA GUÍA DOCENTE CURSO: Pag. 1 de 7 UNIVERSIDAD DE ALMERIA GUÍA DOCENTE CURSO: 2010-11 DATOS BÁSICOS DE LA ASIGNATURA Asignatura: Fonética y Fonología Española. Aspectos Contrastivos Código de asignatura: 31978308 Plan: Licenciado

Más detalles

Minería Multimedia Minería de datos NO estructurados (Textos, Imágenes, Audios y Videos)

Minería Multimedia Minería de datos NO estructurados (Textos, Imágenes, Audios y Videos) Minería Multimedia Minería de datos NO estructurados (Tetos, Imágenes, Audios y Videos) Ana Isabel Oviedo Docente Universidad Pontificia Bolivariana [email protected] Medellín, noviembre 13 de 2014

Más detalles

EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I.

EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I. EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO 2013-2014. Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I. UNIDAD 3: POLINOMIOS Y FRACCIONES ALGEBRAICAS Operaciones

Más detalles

EL4005 Principios de Comunicaciones Clase No.22: Señalización Ortogonal

EL4005 Principios de Comunicaciones Clase No.22: Señalización Ortogonal EL4005 Principios de Comunicaciones Clase No.22: Señalización Ortogonal Patricio Parada Departamento de Ingeniería Eléctrica Universidad de Chile 29 de Octubre de 2010 1 of 34 Contenidos de la Clase (1)

Más detalles

Representación en el espacio de estado. Sistemas Control Embebidos e Instrumentación Electrónica UNIVERSIDAD EAFIT

Representación en el espacio de estado. Sistemas Control Embebidos e Instrumentación Electrónica UNIVERSIDAD EAFIT Representación en el espacio de estado Representación en espacio de estado Control clásico El modelado y control de sistemas basado en la transformada de Laplace, es un enfoque muy sencillo y de fácil

Más detalles

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC) GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC) Curso Académico: 2015-2016 Programa: Centro: Universidad: Máster Universitario en Ingeniería Informática Escuela Politécnica Superior

Más detalles

Clustering para la inicialización de HMM en RAH. Jorge Luis Guevara Díaz

Clustering para la inicialización de HMM en RAH. Jorge Luis Guevara Díaz Clustering para la inicialización de HMM en RAH Jorge Luis Guevara Díaz Introducción Introducción Definicion de RAH Formulación Arquitectura Extracción de características Modelo acústico Modelo del lenguaje

Más detalles

APLICACIÓN DE LAS MÁQUINAS DE SOPORTE VECTORIAL AL RECONOCIMIENTO DE HABLANTES

APLICACIÓN DE LAS MÁQUINAS DE SOPORTE VECTORIAL AL RECONOCIMIENTO DE HABLANTES APLICACIÓN DE LAS MÁQUINAS DE SOPORTE VECTORIAL AL RECONOCIMIENTO DE HABLANTES UNIVERSIDAD AUTÓNOMA METROPOLITANA MAESTRÍA EN CIENCIAS Y TECNOLOGÍAS DE LA INFORMACIÓN Juan Gabriel Pedroza Bernal [email protected]

Más detalles

DEPARTAMENTO DE MATEMÁTICAS. IES GALLICUM

DEPARTAMENTO DE MATEMÁTICAS. IES GALLICUM UNIDAD I: NÚMEROS (6 Horas) 1.- Repasar el cálculo con números racionales y potencias de exponente entero. 2.- Resolver problemas de la vida cotidiana en los que intervengan los números racionales. 1.-

Más detalles

Trabajo Práctico n 2. Robotización de un Puente Grúa. Presentación. Restricciones. Curso 2011

Trabajo Práctico n 2. Robotización de un Puente Grúa. Presentación. Restricciones. Curso 2011 Trabajo Práctico n 2 Robotización de un Puente Grúa Presentación Este problema consiste en desarrollar un sistema de control automático que permita robotizar la operación de un puente grúa para la carga

Más detalles

1.- Qué es una onda?

1.- Qué es una onda? Ondas y Sonido. 1.- Qué es una onda? Perturbación de un medio, que se propaga a través del espacio transportando energía. El medio perturbado puede ser de naturaleza diversa como aire, agua, un trozo de

Más detalles

Métodos, Algoritmos y Herramientas

Métodos, Algoritmos y Herramientas Modelado y Simulación de Sistemas Dinámicos: Métodos, Algoritmos y Herramientas Ernesto Kofman Laboratorio de Sistemas Dinámicos y Procesamiento de la Información FCEIA - Universidad Nacional de Rosario.

Más detalles

REDUCCIÓN DEL RUIDO EN UNA IMAGEN DIGITAL

REDUCCIÓN DEL RUIDO EN UNA IMAGEN DIGITAL Div. Ingeniería de Sistemas y Automática Universidad Miguel Hernández REDUCCIÓN DEL RUIDO EN UNA IMAGEN DIGITAL Tabla de Contenidos Definición Filtros No Lineales Filtros Temporales Definición 3 G = Ruido:

Más detalles

RECOMENDACIÓN UIT-R P.1145 DATOS DE PROPAGACIÓN PARA EL SERVICIO MÓVIL TERRESTRE TERRENAL EN LAS BANDAS DE ONDAS MÉTRICAS Y DECIMÉTRICAS

RECOMENDACIÓN UIT-R P.1145 DATOS DE PROPAGACIÓN PARA EL SERVICIO MÓVIL TERRESTRE TERRENAL EN LAS BANDAS DE ONDAS MÉTRICAS Y DECIMÉTRICAS Rec. UIT-R P.1145 1 RECOMENDACIÓN UIT-R P.1145 DATOS DE PROPAGACIÓN PARA EL SERVICIO MÓVIL TERRESTRE TERRENAL EN LAS BANDAS DE ONDAS MÉTRICAS Y DECIMÉTRICAS (Cuestión UIT-R 203/3) (1995) Rec. UIT-R P.1145

Más detalles

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición... Contenidos 1 Introducción al paquete estadístico S-PLUS 19 1.1 Introducción a S-PLUS............................ 21 1.1.1 Cómo entrar, salir y consultar la ayuda en S-PLUS........ 21 1.2 Conjuntos de datos..............................

Más detalles

Tema 4. Reducción del ruido

Tema 4. Reducción del ruido Div. Ingeniería de Sistemas y Automática Universidad Miguel Hernández GRUPO DE TECNOLOGÍA INDUSTRIAL Tabla de Contenidos Definición Filtros Lineales Filtros Temporales Realce Espacial Definición Ruido:

Más detalles

Conferencia-coloquio sobre: Representación en el dominio de la frecuencia y Percepción sonora.

Conferencia-coloquio sobre: Representación en el dominio de la frecuencia y Percepción sonora. Conferencia-coloquio sobre: Representación en el dominio de la frecuencia y Percepción sonora. Pedro Fortet Roura Asistente honorario del Departamento de Tecnología electrónica. Universidad de Sevilla

Más detalles

Tema 2 Datos multivariantes

Tema 2 Datos multivariantes Aurea Grané Máster en Estadística Universidade Pedagógica 1 Aurea Grané Máster en Estadística Universidade Pedagógica 2 Tema 2 Datos multivariantes 1 Matrices de datos 2 Datos multivariantes 2 Medias,

Más detalles

3.6. Resonancia y formantes

3.6. Resonancia y formantes 3.6. Resonancia y formantes Las ondas sonoras complejas presentes en los sonidos del habla son el resultado de: o Vibración de los repliegues vocales. o Efecto de filtrado que se produce en las cavidades

Más detalles

Amplificador de 10W con TDA2003

Amplificador de 10W con TDA2003 Amplificador de 10W con TDA2003 Un amplificador es un dispositivo que sirve para aumentar la potencia entregada a una carga (en este caso una bocina) y por lo tanto tener un sonido mas potente. Tabla de

Más detalles

Redes bayesianas temporales para reconocimiento de escenarios

Redes bayesianas temporales para reconocimiento de escenarios Redes bayesianas temporales para reconocimiento de escenarios Ahmed Ziani and Cina Motamed Visión de Alto Nivel Dr. Enrique Sucar Irvin Hussein López Nava Junio 2009 Introducción (1) Objetivo: aplicaciones

Más detalles

Filtros: concepto y especificaciones

Filtros: concepto y especificaciones Filtros: concepto y especificaciones Definición de filtro (eléctrico: Circuito cuya función es modificar el espectro en frecuencia de una señal de entrada (excitación conforme a determinados requerimientos

Más detalles

Dispositivos Electrónicos

Dispositivos Electrónicos Dispositivos Electrónicos AÑO: 2010 TEMA 3: PROBLEMAS Rafael de Jesús Navas González Fernando Vidal Verdú E.T.S. de Ingeniería Informática Ingeniero Técnico en Informática de Sistemas: Curso 1º Grupo

Más detalles

El ruido como recurso expresivo en la composición musical. Paula Traver-Navarro

El ruido como recurso expresivo en la composición musical. Paula Traver-Navarro El ruido como recurso expresivo en la composición musical Paula Traver-Navarro Copyright 2011. Paula Traver-Navarro. VALENCIA. Edición autorizada para todos los países a PILES, Editorial de Música, S.

Más detalles

PRÁCTICA 1 ANÁLISIS DE SEÑALES EN EL DOMINIO DE LA FRECUENCIA: EL ANALIZADOR DE ESPECTROS

PRÁCTICA 1 ANÁLISIS DE SEÑALES EN EL DOMINIO DE LA FRECUENCIA: EL ANALIZADOR DE ESPECTROS PRÁCTICA 1 ANÁLISIS DE SEÑALES EN EL DOMINIO DE LA FRECUENCIA: EL ANALIZADOR DE ESPECTROS 1 Espectro de una señal GSM Las señales radiadas son susceptibles de ser interceptadas y analizadas. EJ. Monitorización

Más detalles

Guía Didáctica de Lenguaje Musical

Guía Didáctica de Lenguaje Musical Guía Didáctica de Lenguaje Musical LENGUAJE MUSICAL 1º Plan Básico Lectura: Conocimiento de figuras rítmicas: Diferentes combinaciones de estas figuras tales como: Compases: 2/4 3/4 4/4 Entonación: Tonalidad

Más detalles

CONTENIDOS. 1. Procesos Estocásticos y de Markov. 2. Cadenas de Markov en Tiempo Discreto (CMTD) 3. Comportamiento de Transición de las CMTD

CONTENIDOS. 1. Procesos Estocásticos y de Markov. 2. Cadenas de Markov en Tiempo Discreto (CMTD) 3. Comportamiento de Transición de las CMTD CONTENIDOS 1. Procesos Estocásticos y de Markov 2. Cadenas de Markov en Tiempo Discreto (CMTD) 3. Comportamiento de Transición de las CMTD 4. Comportamiento Estacionario de las CMTD 1. Procesos Estocásticos

Más detalles

La percepción del acento léxico en una lengua extranjera

La percepción del acento léxico en una lengua extranjera 1/15 en español por parte de hablantes nativos de italiano en español por parte de hablantes nativos de francés Comparaciones interlingüísticas Conclusiones generales Coloquio Europeo Verbo-Tonal Percepción

Más detalles

Repaso de conceptos fundamentales

Repaso de conceptos fundamentales Índice de contenidos Unidades: 1. Introducción a los sistemas de sonido Repaso de conceptos fundamentales La cadena de audio 2. Amplificadores 3. Equipos de procesado de señal 4. La consola multicanal

Más detalles

Descripción de clases

Descripción de clases Apéndice A Descripción de clases Este apéndice se incluye la documentación de las clases del proyecto generada automáticamente con Doxygen v1.3.8 a partir del código fuente. Doxygen es un sistema de documentación

Más detalles

Repaso de conceptos de álgebra lineal

Repaso de conceptos de álgebra lineal MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN Manuel Sánchez-Montañés Luis Lago Ana González Escuela Politécnica Superior Universidad Autónoma de Madrid Repaso

Más detalles

RECOMENDACIÓN UIT-R TF.538-3 MEDICIONES DE LA INESTABILIDAD DE FRECUENCIA Y EN EL TIEMPO (FASE) (Cuestión UIT-R 104/7)

RECOMENDACIÓN UIT-R TF.538-3 MEDICIONES DE LA INESTABILIDAD DE FRECUENCIA Y EN EL TIEMPO (FASE) (Cuestión UIT-R 104/7) Caracterización de las fuentes y formación de escalas de tiempo Rec. UIT-R TF.538-3 1 RECOMENDACIÓN UIT-R TF.538-3 MEDICIONES DE LA INESTABILIDAD DE FRECUENCIA Y EN EL TIEMPO (FASE) (Cuestión UIT-R 104/7)

Más detalles

Comunicaciones Digitales - Ejercicios Tema 3

Comunicaciones Digitales - Ejercicios Tema 3 Comunicaciones Digitales - Ejercicios Tema 3 007. 1. Considere el diagrama de rejilla para un canal discreto equivalente genérico con 4 coeficientes no nulos (memoria K p = 3) y una constelación -PAM.

Más detalles

Programa de estudios por competencias Redes de computadoras y protocolos de comunicación

Programa de estudios por competencias Redes de computadoras y protocolos de comunicación Programa de estudios por competencias Redes de computadoras y protocolos de comunicación 1. Identificación del curso Programa educativo: Licenciatura en Ingeniería en Computación Unidad de aprendizaje:

Más detalles

Tiempo de Reverberación Nivelando con AL1 RT60 = T20 * 3

Tiempo de Reverberación Nivelando con AL1 RT60 = T20 * 3 Detalles de Contacto Taller Pro-Audio 2004 Berno Nigsch (Product Manager) NTI AG Im alten Riet 102 FL 9494 Schaan Tel.: +423 239 6060 Medidas y Mejoras Acústicas Susana Fernández NEOTÉCNICA Marqués de

Más detalles

Práctica 3: Análisis en el Dominio Espectral

Práctica 3: Análisis en el Dominio Espectral Prácticas de laboratorio Práctica 3: Análisis en el Dominio Espectral 1. INTRODUCCIÓN El objetivo de la práctica es programar funciones en C, dentro del entorno LTVWIN, para la estimación espectral de

Más detalles

CONSIDERACIONES GENERALES SOBRE ESTÁTICA

CONSIDERACIONES GENERALES SOBRE ESTÁTICA CONSIDERACIONES GENERALES SOBRE ESTÁTICA Índice 1. CONCEPTOS ÚTILES 2 1.1. Configuración geométrica de un sistema....................... 2 1.2. Ligaduras....................................... 2 1.3. Coordenadas

Más detalles

Filtros Digitales II Lic. Matías Romero Costas

Filtros Digitales II Lic. Matías Romero Costas Filtros Digitales II Lic. Matías Romero Costas Respuesta en frecuencia: las características de un filtro pueden determinarse a partir de su respuesta en frecuencia, constituida por la respuesta en amplitud

Más detalles

Modelización por medio de sistemas

Modelización por medio de sistemas SISTEMAS DE ECUACIONES DIFERENCIALES LINEALES. Modelización por medio de sistemas d y dy Ecuaciones autónomas de segundo orden: = f ( y, ) Una variable independiente. Una variable dependiente. La variable

Más detalles

CAPÍTULO ANÁLISIS E INTERPRETACIÓN DE RESULTADOS

CAPÍTULO ANÁLISIS E INTERPRETACIÓN DE RESULTADOS CAPÍTULO 5 5.0 ANÁLISIS E INTERPRETACIÓN DE RESULTADOS 5.1 Cuadro de Utilización de Métodos de Lecto-Escritura y Diferencia de Calificaciones Promedio de PAES por Institución (1º Y 2º Trimestre) Método

Más detalles

Expresiones Regulares y Derivadas Formales

Expresiones Regulares y Derivadas Formales y Derivadas Formales Las Derivadas Sucesivas. Universidad de Cantabria Esquema 1 2 3 Derivadas Sucesivas Recordemos que los lenguajes de los prefijos dan información sobre los lenguajes. Derivadas Sucesivas

Más detalles

1. TIPO DE DOCUMENTO: Trabajo de grado para optar por el título de INGENIERO DE SONIDO.

1. TIPO DE DOCUMENTO: Trabajo de grado para optar por el título de INGENIERO DE SONIDO. 1. TIPO DE DOCUMENTO: Trabajo de grado para optar por el título de INGENIERO DE SONIDO. 2. TÍTULO: DESARROLLO E IMPLEMENTACION DE UN SISTEMA DE PROCESAMIENTO DE VOCES PARA EL ANÁLISIS DE TRES ESTADOS EMOCIONALES

Más detalles