Reconocimiento Automático de Locutor
|
|
|
- Roberto Guzmán Mendoza
- hace 9 años
- Vistas:
Transcripción
1 Reconocimiento Automático de Locutor Joaquín González Rodríguez ATVS Biometric Recognition Group Universidad Autónoma de Madrid Sumario Introducción: n: voz e identidad Reconocimiento de locutor multinivel Reconocimiento acústico (bajo nivel) GMM SVM-GLDS Reconocimiento de alto nivel Fonético Prosódico Fusión Evaluaciones NIST Desafíos Actuales y Últimas Tendencias Conclusiones 2 1
2 Información de identidad en la señal de voz 3 Señal de Voz e Información de Identidad Las personas somos capaces de identificar locutores a partir de sus voces Durante toda nuestra vida adquirimos voces. Inconscientemente creamos un modelo de cada locutor. Por tanto, la señal de voz conlleva información n de identidad del hablante. Dónde se encuentra esa información? n? Cómo podemos extraerla, caracterizarla y compararla? 4 2
3 Niveles de Identidad en la Voz Existen diferentes niveles en los que la identidad del hablante se encuentra en la señal de voz Cuando reconocemos a alguien por la voz tenemos en cuenta Su timbre El uso de los sonidos Su forma de entonar Influye uno o varios niveles (fusi( fusión) Esa combinación n es dependiente del locutor a reconocer 5 Niveles de Identidad en la Voz Bajo nivel Segmentales: : Formantes, ancho de banda de formantes, frecuencia fundamental Suprasegmentales: : transición n y ataque entre sonidos, coarticulación y concatenación Alto nivel Nivel prosódico: entonación, n, acentuación, n, duración n (grupos fónicos f y silencios) Nivel lingüí üístico: ritmo, melodía, tempo, jerga, léxico, reiteración n de expresiones, variedad dialectal 6 3
4 Estrategia en Biometría Vocal En biometría a vocal tendrán n que tenerse en cuenta: 1.La información n extraída a diferentes niveles Estrategia multinivel Y de diferente forma en cada nivel Estrategia multisistema 2.La combinación n de esa información Fusión multinivel Fusión multisistema Rec. Acústico 1 Rec. Acústico 2 Rec. Prosódico Fusión Rec. Fonético 7 Problema: Variabilidad Problema fundamental en la señal de voz Debida a múltiples m (y comunes) factores: Factores internos intrínsecos: nsecos: Permanentes: sexo, edad, sesión, tipo y cantidad de habla Transitorios: estado emocional, patologías as fonatorias Factores internos forzados: Efecto Lombard (voz en ambiente ruidoso) Efecto cocktail-party (voz en voces concurrentes) Factores externos: Canal (electro)ac( electro)acústico: : ruido acústico, reverberación, microfonía,, distancia Canal de comunicaciones: ruido eléctrico, ancho de banda, margen dinámico, distorsión, codificación 8 4
5 Reconocimiento de locutor dependiente del texto Sistema text-dependent 39 modelos fonéticos (english) spk-indept de TIMIT 23 modelos fonéticos (español) spk-indept Albayzin Alineamiento forzado con locuciones train Técnicas evaluadas: EM: reestimación Baum-Welch (1-5 iteraciones) MLLR: adaptación de modelos (1-32 clases) Sin normalización de scores (t-norm, etc.) Implementación actual: HTK Próximamente portado a Sphinx 10 5
6 Pruebas sobre Yoho 4 sesiones enrollment, 24 frases/sesión = 96 locuciones 10 sesiones de test, 4 frases/sesión = 40 locuciones 138 locutores Locuciones: tipo Tipo de habla: (single) microphone Protocolo de prueba: reconocimiento fonético con desafío dinámico Condiciones de entrenamiento en prueba: 4 sesiones, 96 locuciones 1 sesión, 24 locuciones 1 sesión, 6 locuciones 11 Text-dependent: MLLR vs EM 12 6
7 GMM-HMM-Fusion sobre Yoho (6 frases) 13 Phone-dependent t-norm 14 7
8 Fusión T-HMM + GMM 15 Comparativa t-norm HMM 16 8
9 Pruebas sobre Biosec Habla microfónica y webcam 1 archivo de train frente a 1 test 150 locutores: 2 sesiones, 4 locuciones/sesion 16 train/test true pairs per speaker (2400 trials) 150 x 149/2 = non-target trials Sistema MLLR 17 Resultados habla microfónica MLLR Resultados TALP con habla webcam mediante GMM: 13% EER 18 9
10 Reconocimiento multinivel de locutores (independiente de texto) 19 Reconocimiento de locutor multinivel Tradicionalmente (años 90), sólo s sistemas basados en parámetros acústicos Diferentes estrategias: Dynamic Time Warping (DTW) Vector Quantization (VQ) Artificial Neural Network (ANN) Hidden Markov Models (HMM) Gaussian Mixture Models (GMM) Los sistemas de alto nivel proporcionan enormes posibilidades, especialmente para longitudes de entrenamento grandes (>10min.) Para longitudes de entrenamiento pequeñas, los sistemas acústicos funcionan mucho mejor 20 10
11 Reconocimiento de locutor multinivel Parámetros acústicos: Fáciles de extraer y modelar, buenos resultados (GMM/SVM) Alta sensibilidad a fuentes de variabilidad (canal, paso del tiempo, etc.) Parámetros de alto nivel: Dificultad de extracción n variable, pero en general alta complejidad Sólo a partir de duraciones grandes Alta robustez a fuentes de variabilidad (una vez extraídos de forma fiable) 21 Reconocimiento de locutor multinivel Fusión de sistemas a distintos niveles: Acústico Prosódico Fonético Léxico Conversacional Referencia: SuperSID: D. A. Reynolds, et al., The SuperSID Project: Exploiting High-level Information for High-accuracy Speaker Recognition, IEEE Intl. Conf. on Acous. Speech and Signal Proc., ICASSP
12 Sistemas Acústicos: GMM y SVM-GLDS 23 Reconocimiento acústico de locutor Los sistemas acústicos basan el reconocimiento en las características espectrales de la señal de voz Y en la variación n de esas características a lo largo del tiempo s i e t e c e r o 24 12
13 Mecanismo de producción de voz El espectro de la señal de voz está directamente relacionado con La señal de excitación n procedente de las cuerdas vocales La configuración n de tracto vocal 25 Cuerdas vocales: excitación Las cuerdas vocales generan el sonido Señal de excitación Si las cuerdas vibran, señal sonora (estructura periódica subyacente) Ciclo de Vibración Si las cuerdas no vibran, señal sorda (ruido sin periodicidad alguna) 26 13
14 Espectro: Sonidos Sordos Si las cuerdas vocales no vibran Espectro ruidoso de alta frecuencia Ejemplo: s s sorda, f, z 27 Espectro: Sonidos Sonoros Si las cuerdas vocales vibran Tono (pitch( pitch) ) + formantes (envolvente) Señal cuasi-peri periódica: pitch Ejemplo: vocales, m, l Estructura periódica, alta energía Estructura fina (armónicos) y formantes Amplitud(dB) Tiempo(ms) Frecuencia(KHz) 14
15 Tracto vocal: articulación La señal de excitación n define la frecuencia fundamental de vibración n (pitch( pitch) Sin embargo, la forma del espectro (formantes) está definida por la configuración n de los órganos articulatorios (tracto vocal) El tracto vocal de cada ser humano genera formantes ligeramente diferentes para un mismo sonido Por tanto, de la forma del espectro se puede extraer información n que permite discriminar entre personas 29 Análisis a corto plazo El espectro de la señal de voz tiene mucha variabilidad temporal s i e t e c e r o Un análisis del espectro total de la voz no resulta práctico, porque los espectros de los diferentes sonidos no se distinguirían 30 15
16 Análisis a corto plazo Sin embargo, a corto plazo (entre 5 y 30 ms) Sonidos sonoros se pueden considerar periódicos Sonidos sordos se pueden considerar estacionarios Tiempo(ms) Estrategia: muchas muestras de la señal a corto plazo (enventanado) 31 Parametrización acústica Primer paso: enventanado Se obtienen trozos de la señal con solapamiento Segundo paso: parametrización Se obtienen características (parámetros) de cada ventana Se obtiene una secuencia de vectores de parámetros Una secuencia por cada locución 32 16
17 Parametrización acústica Objetivo: extraer información n discriminante de cada ventana de voz en la locución De cada ventana se obtiene un vector de parámetros Generalmente de longitud fija 0 Amplitud(dB) Frecuencia(KHz) Diversos tipos Parametrización Linear Prediction Cepstal Coefficients (LPCC) Mel Frequency Cepstral Coefficients (MFCC) 33 Linear Prediction Cepstral Coefficients (LPCC) La envolvente de la ventana bajo análisis se estima utilizando un filtro de predicción n lineal La transformada cepstral de los coeficientes de dicho filtro genera unos coeficientes transformados Parte de esos coeficientes cepstrales serán n el vector de parámetros de esa ventana 34 17
18 Mel Frequency Cepstral Coefficients (MFCC) No se modela la envolvente Se extrae una serie de coeficientes procedentes de un banco de filtros Mel La escala Mel está basada en la percepción n logarítmica del oído o humano La transformada cepstral de dichos coeficientes genera unos coeficientes transformados Parte de esos coeficientes cepstrales serán n el vector de parámetros de esa ventana 35 Espacio de características espectrales El espacio de características es compartido por cada locutor y hay solapamiento entre ellos Además, existe variabilidad dentro del mismo locutor por diversos factores Siete hablantes españoles Un hablante por idioma 36 18
19 Modelado Una vez extraídos los parámetros, será necesario crear un modelo para cada locutor En un esquema de verificación, compararemos una locución n desconocida con el modelo almacenado Veremos dos tipos de modelado acústico GMM SVM-GLDS 37 Sistema GMM 38 19
20 Gaussian Mixture Models (GMM) Cada vector en la secuencia de vectores es una muestra Con todas las muestras se obtiene un modelo de mezclas de gaussianas GMM Función n densidad de probabilidad multidimensional Gaussian Mixture Models (GMM) Modelo paramétrico Cada modelo de locutor viene definido por los siguientes parámetros: Pdf en el espacio de características: p M ( x λp ) = ωipgip ( x) i= 1 Vector de de medias (mezcla i): i): µ p ={µ p ={µ ip } ip } Matriz de de covarianzas (mezcla i): i): Σ p ={Σ p ={Σ ip } ip } Vector de de pesos (mezcla i): i): ω p ={ω p ={ω ip }, ip }, Σ i ω i ip =1 ip =1 Modelo del del locutor p: p: λ p ={µ p ={µ ip,σ ip,σ ip,ω ip,ω ip } ip } ( x ) = N ( µ ip, Σip ) Los parámetros del modelo se obtienen (usualmente) mediante el algoritmo EM (Expectation( Maximization). g ip 40 20
21 Adaptación desde modelo universal Cuando hay poca habla del locutor, el modelo GMM puede ser poco general Se introduce generalidad a partir de un modelo universal Universal Background Model (UBM) El UBM se entrena con muchísima habla de todo el mundo Idea: El modelo UBM nos da lo general, común n a todos El modelo del locutor nos da lo particular de ese locutor con respecto del modelo universal Robustez frente a pocos datos 41 Adaptación desde modelo universal Adaptación n MAP (Máximo a Posteriori) mediante el algoritmo EM 42 21
Juegos Interactivos para la Rehabilitación Fonatoria
Juegos Interactivos para la Rehabilitación Fonatoria Autores: Ing. Eduardo González Moreira MSc.. Carlos Ariel Ferrer Riesgo Dra. María E. Hernández Díaz-Huici Ing. Eric Lisandro Acao Centro de Estudios
Modelo de producción de la voz
Modelo de producción de la voz Fonética y fonémica Fonema: Unidad teórica básica para describir cómo la voz transporta un significado lingüístico. Sonido: Realización práctica de un fonema Fonémica: Estudio
Verificación Automática del Locutor
Verificación Automática del Locutor Juan Arturo Nolazco Flores Departamento de Ciencias Computacionales Tecnológico de Monterrey, Campus Monterrey. Juan Arturo Nolazco Flores. RAH Agenda Introducción IAL
PROCESAMIENTO DE VOZ. RETOS ACTUALES. PROYECTOS CIC
PROCESAMIENTO DE VOZ. RETOS ACTUALES. PROYECTOS CIC Dr. Sergio Suárez Guerra [email protected] 1 La señal voz, expectativas de uso Cada día nos encontramos más, con infinidad de aplicaciones de los sistemas
Procesamiento digital de voz
Procesamiento digital de voz Seminario de Audio 2005 Ernesto López Martín Rocamora Producción del habla Aparato fonador Corte transversal de la laringe Sonidos sonoros y sordos Sonidos sonoros Forma de
MÁQUINAS DE VECTORES SOPORTE (SVM) PARA RECONOCIMIENTO DE LOCUTOR E IDIOMA
UNIVERSIDAD AUTÓNOMA DE MADRID ESCUELA POLITÉCNICA SUPERIOR MÁQUINAS DE VECTORES SOPORTE (SVM) PARA RECONOCIMIENTO DE LOCUTOR E IDIOMA -RESUMEN DEL PROYECTO FIN DE CARRERA- XXVIII Convocatoria premios
Fonética y Fonología españolas
Fonética y Fonología españolas Fonética y Fonología españolas Mary C. Iribarren EDITORIAL SINTESIS Consulte nuestra página web: www.sintesis.com En ella encontrará el catálogo completo y comentado Reservados
ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN
ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN Titulación : INGENIERO TÉCNICO DE TELECOMUNICACIÓN, ESPECIALIDAD EN SONIDO E IMAGEN Título del proyecto: PROCESADO DIGITAL DE VOZ
Sistema para identificación de hablantes robusto a cambios en la voz
Artículo Científico / Scientific Paper Sistema para identificación de hablantes robusto a cambios en la voz Guillermo Arturo Martínez Mascorro, y Gualberto Aguilar Torres 2 Resumen Los sistemas de reconocimiento
ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN
ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN Titulación : INGENIERO DE TELECOMUNICACIÓN Título del proyecto: IMPLEMENTACIÓN Y COMPARACIÓN DE ALGORITMOS BASADOS EN TÉCNICAS
Reconocimiento de voz basado en MFCC, SBC y Espectrogramas
Artículo Científico / Scientific Paper Reconocimiento de voz basado en MFCC, SBC y Espectrogramas Guillermo Arturo Martínez Mascorro, y Gualberto Aguilar Torres 2 Resumen Uno de los problemas en los sistemas
Fiabilidad en sistemas forenses de reconocimiento automático de locutor explotando la calidad de la señal de voz
UNIVERSIDAD AUTONOMA DE MADRID ESCUELA POLITECNICA SUPERIOR Fiabilidad en sistemas forenses de reconocimiento automático de locutor explotando la calidad de la señal de voz -PROYECTO FIN DE CARRERA- Alberto
UNIVERSIDAD DE GRANADA PROCESAMIENTO DE VOZ
UNIVERSIDAD DE GRANADA PLAN DE ESTUDIOS: DIPLOMADO EN LOGOPEDIA PROCESAMIENTO DE VOZ Ángel de la Torre Vega Dpto. Teoría de la Señal, Telemática y Comunicaciones Procesamiento de Voz ATV Dpto. Teoría de
APLICACIONES EN RECONOCIMIENTO DE VOZ UTILIZANDO HTK T.G. 0446
i APLICACIONES EN RECONOCIMIENTO DE VOZ UTILIZANDO HTK T.G. 0446 AUTOR: IVÁN HORACIO VILLAMIL ESPINOSA. SANTA FE DE BOGOTA DC. PONTIFICIA UNIVERSIDAD JAVERIANA FACULTAD DE INGENIERIA DEPARTAMENTO DE ELECTRONICA
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA
Universidad Autónoma de Madrid Escuela Politécnica Superior Proyecto fin de carrera DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA Ingeniería Superior en Telecomunicación Carlos Ortego Resa Julio 2009 2 DETECCIÓN
La fonología es esencialmente la descripción del sistema y de los patrones de los sonidos de una lengua (Yule 1998:66).
8 1.5. La Fonología 1.5.1. Definición Algunas definiciones de Fonología: La fonología es esencialmente la descripción del sistema y de los patrones de los sonidos de una lengua (Yule 1998:66). G. Yule
Definiciones. Ruido: Sonido no deseado, desagradable o molesto
Definiciones Ruido: Sonido no deseado, desagradable o molesto Sonido: Vibración mecánica transmitida por ondas en un medio elástico, que es capaz de ser percibida por órgano auditivo. Presión P 0 Distancia
Reconocimiento del hablante empleando rasgos distintivos de largo plazo
Reconocimiento del hablante empleando rasgos distintivos de largo plazo Tesista: Pedro UNIVASO Directores:Dr. Juan M. ALE y Dr. Jorge A. GURLEKIAN Lugar de Trabajo:Laboratorio de Investigaciones Sensoriales,
Aplicaciones del análisis acústico en los estudios de la voz humana
Seminario Internacional de Aplicaciones del análisis acústico en los estudios de la voz humana Matías Zañartu Salas Unidad de Acústica - Escuela de Fonoaudiología Universidad Mayor Av. Libertador Bdo.
Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés
Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Amaro Camargo Erika, Reyes García Carlos A. Instituto Nacional de Astrofísica, Óptica
Psicoacústica. Campos de Aplicación: Psicología. Medicina. Acústica. Audio. Electroacústica. Higiene industrial. Comunicaciones. Etc.
PSICOACÚSTICA Psicoacústica Es la ciencia que estudia las reacciones del Ser Humano ante la percepción sonora. Su objetivo es la evaluación cuantitativa de sensaciones subjetivas originadas a partir de
UNIVERSIDADES PÚBLICAS DE LA COMUNIDAD DE MADRID MATERIA: LENGUAJE Y PRÁCTICA MUSICAL
UNIVERSIDADES PÚBLICAS DE LA COMUNIDAD DE MADRID PRUEBA DE ACCESO A LAS ENSEÑANZAS UNIVERSITARIAS OFICIALES DE GRADO Curso 2009-2010 MATERIA: LENGUAJE Y PRÁCTICA MUSICAL INSTRUCCIONES GENERALES Y VALORACIÓN
BATVOX: SISTEMA AUTOMÁTICO DE RECONOCIMIENTO DE LOCUTOR. BEATRIZ GONZÁLEZ SIGÜENZA Agnitio
BATVOX: SISTEMA AUTOMÁTICO DE RECONOCIMIENTO DE LOCUTOR BEATRIZ GONZÁLEZ SIGÜENZA Agnitio [email protected] BATVOX: Sistema automático de reconocimiento de locutor 303 RESUMEN El objetivo del presente
Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos
Agro 6998 Conferencia Introducción a los modelos estadísticos mixtos Los modelos estadísticos permiten modelar la respuesta de un estudio experimental u observacional en función de factores (tratamientos,
TEMA I.12. Ondas Estacionarias en una Cuerda. Dr. Juan Pablo Torres-Papaqui
TEMA I.12 Ondas Estacionarias en una Cuerda Dr. Juan Pablo Torres-Papaqui Departamento de Astronomía Universidad de Guanajuato DA-UG (México) [email protected] División de Ciencias Naturales y Exactas,
Memoria Final. Proyecto Sonacar
Memoria Final Proyecto Sonacar ÍNDICE 1- Introducción......3 1.1- Presentación del proyecto...3 1.2- Objetivos del proyecto...4 2- Fase Primera. Corpus y análisis de sonidos...6 2.1- Especificación de
INSTITUTO POLITÉCNICO NACIONAL
INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MODELO DE PROCESAMIENTO DE VOZ PARA LA CLASIFICACIÓN DE ESTADOS T E S I S QUE PARA OBTENER EL GRADO DE DOCTOR EN CIENCIAS DE LA COMPUTACIÓN
RECOMENDACIÓN UIT-R BS *,** Medición del nivel de tensión del ruido de audiofrecuencia en radiodifusión sonora
Rec. UIT-R BS.468-4 1 RECOMENDACIÓN UIT-R BS.468-4 *,** Medición del nivel de tensión del ruido de audiofrecuencia en radiodifusión sonora La Asamblea de Radiocomunicaciones de la UIT, (1970-1974-1978-1982-1986)
UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN TESIS DOCTORAL
UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN TESIS DOCTORAL Técnicas de análisis, caracterización y detección de señales de voz en entornos acústicos adversos
SEGMENTACIÓN DE AUDIO Y DE LOCUTORES PARA RECUPERACIÓN DE INFORMACIÓN MULTIMEDIA Y SU APLICACIÓN A VIDEOS DE INFORMACIÓN TURÍSTICA
UNIVERSIDAD AUTONOMA DE MADRID ESCUELA POLITECNICA SUPERIOR PROYECTO FIN DE CARRERA SEGMENTACIÓN DE AUDIO Y DE LOCUTORES PARA RECUPERACIÓN DE INFORMACIÓN MULTIMEDIA Y SU APLICACIÓN A VIDEOS DE INFORMACIÓN
Representación de señales de audio
Representación de señales de audio Emilia Gómez Gutiérrez Síntesi i Processament del So I Departament de Sonologia Escola Superior de Musica de Catalunya Curso 2009-2010 [email protected] 28 de septiembre
UNIVERSIDAD DE ALMERIA GUÍA DOCENTE CURSO:
Pag. 1 de 7 UNIVERSIDAD DE ALMERIA GUÍA DOCENTE CURSO: 2010-11 DATOS BÁSICOS DE LA ASIGNATURA Asignatura: Fonética y Fonología Española. Aspectos Contrastivos Código de asignatura: 31978308 Plan: Licenciado
Minería Multimedia Minería de datos NO estructurados (Textos, Imágenes, Audios y Videos)
Minería Multimedia Minería de datos NO estructurados (Tetos, Imágenes, Audios y Videos) Ana Isabel Oviedo Docente Universidad Pontificia Bolivariana [email protected] Medellín, noviembre 13 de 2014
EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I.
EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO 2013-2014. Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I. UNIDAD 3: POLINOMIOS Y FRACCIONES ALGEBRAICAS Operaciones
EL4005 Principios de Comunicaciones Clase No.22: Señalización Ortogonal
EL4005 Principios de Comunicaciones Clase No.22: Señalización Ortogonal Patricio Parada Departamento de Ingeniería Eléctrica Universidad de Chile 29 de Octubre de 2010 1 of 34 Contenidos de la Clase (1)
Representación en el espacio de estado. Sistemas Control Embebidos e Instrumentación Electrónica UNIVERSIDAD EAFIT
Representación en el espacio de estado Representación en espacio de estado Control clásico El modelado y control de sistemas basado en la transformada de Laplace, es un enfoque muy sencillo y de fácil
GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)
GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC) Curso Académico: 2015-2016 Programa: Centro: Universidad: Máster Universitario en Ingeniería Informática Escuela Politécnica Superior
Clustering para la inicialización de HMM en RAH. Jorge Luis Guevara Díaz
Clustering para la inicialización de HMM en RAH Jorge Luis Guevara Díaz Introducción Introducción Definicion de RAH Formulación Arquitectura Extracción de características Modelo acústico Modelo del lenguaje
APLICACIÓN DE LAS MÁQUINAS DE SOPORTE VECTORIAL AL RECONOCIMIENTO DE HABLANTES
APLICACIÓN DE LAS MÁQUINAS DE SOPORTE VECTORIAL AL RECONOCIMIENTO DE HABLANTES UNIVERSIDAD AUTÓNOMA METROPOLITANA MAESTRÍA EN CIENCIAS Y TECNOLOGÍAS DE LA INFORMACIÓN Juan Gabriel Pedroza Bernal [email protected]
DEPARTAMENTO DE MATEMÁTICAS. IES GALLICUM
UNIDAD I: NÚMEROS (6 Horas) 1.- Repasar el cálculo con números racionales y potencias de exponente entero. 2.- Resolver problemas de la vida cotidiana en los que intervengan los números racionales. 1.-
Trabajo Práctico n 2. Robotización de un Puente Grúa. Presentación. Restricciones. Curso 2011
Trabajo Práctico n 2 Robotización de un Puente Grúa Presentación Este problema consiste en desarrollar un sistema de control automático que permita robotizar la operación de un puente grúa para la carga
1.- Qué es una onda?
Ondas y Sonido. 1.- Qué es una onda? Perturbación de un medio, que se propaga a través del espacio transportando energía. El medio perturbado puede ser de naturaleza diversa como aire, agua, un trozo de
Métodos, Algoritmos y Herramientas
Modelado y Simulación de Sistemas Dinámicos: Métodos, Algoritmos y Herramientas Ernesto Kofman Laboratorio de Sistemas Dinámicos y Procesamiento de la Información FCEIA - Universidad Nacional de Rosario.
REDUCCIÓN DEL RUIDO EN UNA IMAGEN DIGITAL
Div. Ingeniería de Sistemas y Automática Universidad Miguel Hernández REDUCCIÓN DEL RUIDO EN UNA IMAGEN DIGITAL Tabla de Contenidos Definición Filtros No Lineales Filtros Temporales Definición 3 G = Ruido:
RECOMENDACIÓN UIT-R P.1145 DATOS DE PROPAGACIÓN PARA EL SERVICIO MÓVIL TERRESTRE TERRENAL EN LAS BANDAS DE ONDAS MÉTRICAS Y DECIMÉTRICAS
Rec. UIT-R P.1145 1 RECOMENDACIÓN UIT-R P.1145 DATOS DE PROPAGACIÓN PARA EL SERVICIO MÓVIL TERRESTRE TERRENAL EN LAS BANDAS DE ONDAS MÉTRICAS Y DECIMÉTRICAS (Cuestión UIT-R 203/3) (1995) Rec. UIT-R P.1145
2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...
Contenidos 1 Introducción al paquete estadístico S-PLUS 19 1.1 Introducción a S-PLUS............................ 21 1.1.1 Cómo entrar, salir y consultar la ayuda en S-PLUS........ 21 1.2 Conjuntos de datos..............................
Tema 4. Reducción del ruido
Div. Ingeniería de Sistemas y Automática Universidad Miguel Hernández GRUPO DE TECNOLOGÍA INDUSTRIAL Tabla de Contenidos Definición Filtros Lineales Filtros Temporales Realce Espacial Definición Ruido:
Conferencia-coloquio sobre: Representación en el dominio de la frecuencia y Percepción sonora.
Conferencia-coloquio sobre: Representación en el dominio de la frecuencia y Percepción sonora. Pedro Fortet Roura Asistente honorario del Departamento de Tecnología electrónica. Universidad de Sevilla
Tema 2 Datos multivariantes
Aurea Grané Máster en Estadística Universidade Pedagógica 1 Aurea Grané Máster en Estadística Universidade Pedagógica 2 Tema 2 Datos multivariantes 1 Matrices de datos 2 Datos multivariantes 2 Medias,
3.6. Resonancia y formantes
3.6. Resonancia y formantes Las ondas sonoras complejas presentes en los sonidos del habla son el resultado de: o Vibración de los repliegues vocales. o Efecto de filtrado que se produce en las cavidades
Amplificador de 10W con TDA2003
Amplificador de 10W con TDA2003 Un amplificador es un dispositivo que sirve para aumentar la potencia entregada a una carga (en este caso una bocina) y por lo tanto tener un sonido mas potente. Tabla de
Redes bayesianas temporales para reconocimiento de escenarios
Redes bayesianas temporales para reconocimiento de escenarios Ahmed Ziani and Cina Motamed Visión de Alto Nivel Dr. Enrique Sucar Irvin Hussein López Nava Junio 2009 Introducción (1) Objetivo: aplicaciones
Filtros: concepto y especificaciones
Filtros: concepto y especificaciones Definición de filtro (eléctrico: Circuito cuya función es modificar el espectro en frecuencia de una señal de entrada (excitación conforme a determinados requerimientos
Dispositivos Electrónicos
Dispositivos Electrónicos AÑO: 2010 TEMA 3: PROBLEMAS Rafael de Jesús Navas González Fernando Vidal Verdú E.T.S. de Ingeniería Informática Ingeniero Técnico en Informática de Sistemas: Curso 1º Grupo
El ruido como recurso expresivo en la composición musical. Paula Traver-Navarro
El ruido como recurso expresivo en la composición musical Paula Traver-Navarro Copyright 2011. Paula Traver-Navarro. VALENCIA. Edición autorizada para todos los países a PILES, Editorial de Música, S.
PRÁCTICA 1 ANÁLISIS DE SEÑALES EN EL DOMINIO DE LA FRECUENCIA: EL ANALIZADOR DE ESPECTROS
PRÁCTICA 1 ANÁLISIS DE SEÑALES EN EL DOMINIO DE LA FRECUENCIA: EL ANALIZADOR DE ESPECTROS 1 Espectro de una señal GSM Las señales radiadas son susceptibles de ser interceptadas y analizadas. EJ. Monitorización
Guía Didáctica de Lenguaje Musical
Guía Didáctica de Lenguaje Musical LENGUAJE MUSICAL 1º Plan Básico Lectura: Conocimiento de figuras rítmicas: Diferentes combinaciones de estas figuras tales como: Compases: 2/4 3/4 4/4 Entonación: Tonalidad
CONTENIDOS. 1. Procesos Estocásticos y de Markov. 2. Cadenas de Markov en Tiempo Discreto (CMTD) 3. Comportamiento de Transición de las CMTD
CONTENIDOS 1. Procesos Estocásticos y de Markov 2. Cadenas de Markov en Tiempo Discreto (CMTD) 3. Comportamiento de Transición de las CMTD 4. Comportamiento Estacionario de las CMTD 1. Procesos Estocásticos
La percepción del acento léxico en una lengua extranjera
1/15 en español por parte de hablantes nativos de italiano en español por parte de hablantes nativos de francés Comparaciones interlingüísticas Conclusiones generales Coloquio Europeo Verbo-Tonal Percepción
Repaso de conceptos fundamentales
Índice de contenidos Unidades: 1. Introducción a los sistemas de sonido Repaso de conceptos fundamentales La cadena de audio 2. Amplificadores 3. Equipos de procesado de señal 4. La consola multicanal
Descripción de clases
Apéndice A Descripción de clases Este apéndice se incluye la documentación de las clases del proyecto generada automáticamente con Doxygen v1.3.8 a partir del código fuente. Doxygen es un sistema de documentación
Repaso de conceptos de álgebra lineal
MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN Manuel Sánchez-Montañés Luis Lago Ana González Escuela Politécnica Superior Universidad Autónoma de Madrid Repaso
RECOMENDACIÓN UIT-R TF.538-3 MEDICIONES DE LA INESTABILIDAD DE FRECUENCIA Y EN EL TIEMPO (FASE) (Cuestión UIT-R 104/7)
Caracterización de las fuentes y formación de escalas de tiempo Rec. UIT-R TF.538-3 1 RECOMENDACIÓN UIT-R TF.538-3 MEDICIONES DE LA INESTABILIDAD DE FRECUENCIA Y EN EL TIEMPO (FASE) (Cuestión UIT-R 104/7)
Comunicaciones Digitales - Ejercicios Tema 3
Comunicaciones Digitales - Ejercicios Tema 3 007. 1. Considere el diagrama de rejilla para un canal discreto equivalente genérico con 4 coeficientes no nulos (memoria K p = 3) y una constelación -PAM.
Programa de estudios por competencias Redes de computadoras y protocolos de comunicación
Programa de estudios por competencias Redes de computadoras y protocolos de comunicación 1. Identificación del curso Programa educativo: Licenciatura en Ingeniería en Computación Unidad de aprendizaje:
Tiempo de Reverberación Nivelando con AL1 RT60 = T20 * 3
Detalles de Contacto Taller Pro-Audio 2004 Berno Nigsch (Product Manager) NTI AG Im alten Riet 102 FL 9494 Schaan Tel.: +423 239 6060 Medidas y Mejoras Acústicas Susana Fernández NEOTÉCNICA Marqués de
Práctica 3: Análisis en el Dominio Espectral
Prácticas de laboratorio Práctica 3: Análisis en el Dominio Espectral 1. INTRODUCCIÓN El objetivo de la práctica es programar funciones en C, dentro del entorno LTVWIN, para la estimación espectral de
CONSIDERACIONES GENERALES SOBRE ESTÁTICA
CONSIDERACIONES GENERALES SOBRE ESTÁTICA Índice 1. CONCEPTOS ÚTILES 2 1.1. Configuración geométrica de un sistema....................... 2 1.2. Ligaduras....................................... 2 1.3. Coordenadas
Filtros Digitales II Lic. Matías Romero Costas
Filtros Digitales II Lic. Matías Romero Costas Respuesta en frecuencia: las características de un filtro pueden determinarse a partir de su respuesta en frecuencia, constituida por la respuesta en amplitud
Modelización por medio de sistemas
SISTEMAS DE ECUACIONES DIFERENCIALES LINEALES. Modelización por medio de sistemas d y dy Ecuaciones autónomas de segundo orden: = f ( y, ) Una variable independiente. Una variable dependiente. La variable
CAPÍTULO ANÁLISIS E INTERPRETACIÓN DE RESULTADOS
CAPÍTULO 5 5.0 ANÁLISIS E INTERPRETACIÓN DE RESULTADOS 5.1 Cuadro de Utilización de Métodos de Lecto-Escritura y Diferencia de Calificaciones Promedio de PAES por Institución (1º Y 2º Trimestre) Método
Expresiones Regulares y Derivadas Formales
y Derivadas Formales Las Derivadas Sucesivas. Universidad de Cantabria Esquema 1 2 3 Derivadas Sucesivas Recordemos que los lenguajes de los prefijos dan información sobre los lenguajes. Derivadas Sucesivas
1. TIPO DE DOCUMENTO: Trabajo de grado para optar por el título de INGENIERO DE SONIDO.
1. TIPO DE DOCUMENTO: Trabajo de grado para optar por el título de INGENIERO DE SONIDO. 2. TÍTULO: DESARROLLO E IMPLEMENTACION DE UN SISTEMA DE PROCESAMIENTO DE VOCES PARA EL ANÁLISIS DE TRES ESTADOS EMOCIONALES
