Reconocimiento de Locutor (Biometría Vocal)

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Reconocimiento de Locutor (Biometría Vocal)"

Transcripción

1 Reconocimiento de Locutor (Biometría Vocal) Daniel Ramos Castro ATVS Biometric Recognition Group Universidad Autónoma de Madrid Sumario Introducción: voz e identidad multinivel Reconocimiento acústico (bajo nivel) GMM SVM-GLDS Reconocimiento de alto nivel Fonético Prosódico Fusión Evaluaciones NIST Desafíos Actuales y Últimas Tendencias Conclusiones 2 1

2 Información de identidad en la señal de voz 3 Señal de Voz e Información de Identidad Las personas somos capaces de identificar locutores a partir de sus voces Durante toda nuestra vida adquirimos voces Inconscientemente creamos un modelo de cada locutor Por tanto, la señal de voz conlleva información de identidad del hablante Dónde se encuentra esa información? Cómo podemos etraerla, caracterizarla y compararla? 4 2

3 Niveles de Identidad en la Voz Eisten diferentes niveles en los que la identidad del hablante se encuentra en la señal de voz Cuando reconocemos a alguien por la voz tenemos en cuenta 5 Niveles de Identidad en la Voz Eisten diferentes niveles en los que la identidad del hablante se encuentra en la señal de voz Cuando reconocemos a alguien por la voz tenemos en cuenta Su timbre 6 3

4 Niveles de Identidad en la Voz Eisten diferentes niveles en los que la identidad del hablante se encuentra en la señal de voz Cuando reconocemos a alguien por la voz tenemos en cuenta Su timbre Su uso de los sonidos 7 Niveles de Identidad en la Voz Eisten diferentes niveles en los que la identidad del hablante se encuentra en la señal de voz Cuando reconocemos a alguien por la voz tenemos en cuenta Su timbre Su uso de los sonidos Su forma de entonar Identidad en varios niveles (fusión( fusión) Esa combinación es dependiente del locutor a reconocer 8 4

5 Niveles de Identidad en la Voz Las diferentes características de la voz se agrupan en niveles (lingüística) Fonético: utilización de diferentes sonidos, pronunciación, etc. Prosódico: entonación particular, variación de energía, pausas entre frases o palabras, etc. Espectral: configuración (resonancia) del tracto vocal, co-articulación, nasalidad, etc. Nivel más alto 9 Estrategia en Biometría Vocal En biometría vocal tendrán que tenerse en cuenta: 1. La información etraída a diferentes niveles Estrategia multinivel Y de diferente forma en cada nivel Estrategia multisistema Rec. espectral 1 Rec. espectral 2 Rec. Prosódico Rec. Fonético 10 5

6 Estrategia en Biometría Vocal En biometría vocal tendrán que tenerse en cuenta: 1. La información etraída a diferentes niveles Estrategia multinivel Y de diferente forma en cada nivel Estrategia multisistema 2. La combinación de esa información Fusión multinivel Fusión multisistema Fusión (capítulo de multibiometría) Rec. espectral 1 Rec. espectral 2 Rec. Fonético Rec. Prosódico 11 Problema: Variabilidad Problema fundamental en la señal de voz Debida a múltiples (y comunes) factores: Factores internos intrínsecos: 12 Permanentes: seo, edad, sesión, tipo y cantidad de habla Transitorios: estado emocional, patologías fonatorias Factores internos forzados: Efecto Lombard (voz en ambiente ruidoso) Efecto cocktail-party (voz en voces concurrentes) Factores eternos: Canal (electro)acústico( electro)acústico: : ruido acústico, reverberación, microfonía,, distancia Canal de comunicaciones: ruido eléctrico, ancho de banda, margen dinámico, distorsión, codificación 6

7 Arquitectura básica de un sistema de reconocimiento de locutores 13 Reconocimiento automático La gran mayoría de sistemas calcula puntuaciones (scores( scores) Similitud entre las identidades en dos fragmentos de voz Identidad A Identidad B Reconocimiento automático de locutor score Idealmente (y sin perder generalidad): Si A y B son la misma identidad, score más alto Si A y B son identidades diferentes, score más bajo Un score permite discriminar 14 7

8 Cálculo de una puntuación (score): etapas Paso 1: modelado de características A Etracción de características Modelado Modelo A 15 Cálculo de una puntuación (score): etapas Paso 1: modelado de características A Etracción de características Modelado Modelo A Paso 2: cálculo de la puntuación (score( score) B Etracción de características Comparación score Modelo A 16 8

9 Detección (verificación) de locutor Tarea básica Es la identidad de ambos fragmentos de voz la misma? Típicamente en dos pasos: 1. Cálculo de la puntuación 2. Comparación con un umbral A B Reconocimiento automático de locutor score > τ A y B son iguales < τ A y B son diferentes 17 Reconocimiento multinivel de locutores (independiente de teto) 18 9

10 multinivel Tradicionalmente (años 90), sólo sistemas basados en parámetros espectrales Diferentes estrategias: Dynamic Time Warping (DTW) Vector Quantization (VQ) Artificial Neural Network (ANN) Hidden Markov Models (HMM) Gaussian Miture Models (GMM) Los sistemas de alto nivel proporcionan posibilidades Especialmente para longitudes de entrenamento grandes (>10min.) Para longitudes de entrenamiento pequeñas (<5m.), los sistemas acústicos funcionan mucho mejor 19 multinivel Parámetros espectrales: Fáciles de etraer y modelar, buenos resultados (GMM/SVM) Alta sensibilidad a fuentes de variabilidad (canal, paso del tiempo, etc.) Parámetros de alto nivel: Dificultad de etracción variable, pero en general alta complejidad Sólo a partir de duraciones grandes Información muy complementaria a la del nivel espectral 20 10

11 multinivel Fusión de sistemas a distintos niveles: Acústico Prosódico Fonético Léico Conversacional Referencia: SuperSID: D. A. Reynolds, et al., The SuperSID Project: Eploiting High-level Information for High-accuracy Speaker Recognition, IEEE Intl. Conf. on Acous. Speech and Signal Proc., ICASSP a nivel espectral 22 11

12 Reconocimiento acústico de locutor Los sistemas acústicos basan el reconocimiento en las características espectrales de la señal de voz Y en la variación de esas características a lo largo del tiempo s i e t e c e r o Amplitud(dB) Frecuencia(KHz) Mecanismo de producción de voz El espectro de la señal de voz está directamente relacionado con La señal de ecitación procedente de las cuerdas vocales La configuración de tracto vocal 24 12

13 Cuerdas vocales: ecitación Las cuerdas vocales generan el sonido Señal de ecitación Si las cuerdas vibran, señal sonora (estructura periódica subyacente) Ciclo de Vibración Si las cuerdas no vibran, señal sorda (ruido, sin periodicidad) 25 Espectro: Sonidos Sordos Si las cuerdas vocales no vibran Espectro ruidoso de alta frecuencia Ejemplo: s sorda, f, z 26 13

14 Espectro: Sonidos Sonoros Si las cuerdas vocales vibran Tono (pitch( pitch) ) + formantes (envolvente) Señal cuasi-periódica: pitch Ejemplo: vocales, m, l Estructura periódica, alta energía Estructura fina (armónicos) y formantes Amplitud(dB) Tiempo(ms) Frecuencia(KHz) Tracto vocal: articulación La señal de ecitación define la frecuencia fundamental de vibración (pitch( pitch) Sin embargo, la forma del espectro (formantes) está definida por la configuración de los órganos articulatorios (tracto vocal) El tracto vocal de cada ser humano genera formantes ligeramente diferentes para un mismo sonido Por tanto, de la forma del espectro se puede etraer información que permite discriminar entre personas 28 14

15 Pulso glotal y resonancia Tracto vocal (resonancia) Envolvente espectral: estructura del tracto vocal (particular de cada locutor) 29 Pulso glotal (vibración, periódica) Etracción de características Primer paso para el reconocimiento: etracción de características A Etracción de características Modelado Modelo A 30 15

16 Análisis a corto plazo El espectro de la señal de voz tiene mucha variabilidad temporal s i e t e c e r o Un análisis del espectro total de la voz (a( a largo plazo) no resulta práctico, porque los espectros de los diferentes sonidos no se distinguirían 31 Análisis a corto plazo Sin embargo, a corto plazo (entre 5 y 30 ms) Sonidos sonoros se pueden considerar periódicos Sonidos sordos se pueden considerar estacionarios /a/ (sonora) /s/ (sorda) Time (seconds) Time (seconds) Estrategia: muchas muestras de la señal a corto plazo (enventanado) 32 16

17 Parametrización acústica Primer paso: enventanado Se obtienen trozos de la señal con solapamiento Segundo paso: parametrización Se obtienen características (parámetros) de cada ventana Analysis Windows Feature Vectors o 1 o 2 o 3 o 4 o 5 o t o T Se obtiene una secuencia de vectores de parámetros Una secuencia por cada locución 33 Parametrización acústica Objetivo: etraer información discriminante de cada ventana de voz en la locución De cada ventana se obtiene un vector de características Generalmente de longitud fija 0 Amplitud(dB) Frecuencia(KHz) Diversos tipos Parametrización Mel Frequency Cepstral Coefficients (MFCC) Linear Prediction Cepstal Coefficients (LPCC) 34 17

18 Mel Frequency Cepstral Coefficients (MFCC) Banco de filtros Mel La escala Mel está basada en la percepción logarítmica del oído humano Trasformada cepstral Propiedades interesatnes Deconvolucíón Ortogonalización Parte de esos coeficientes cepstrales serán el vector de parámetros de esa ventana m 1 m 2... m p Cepstral transform f 1 f 2... f D Frequency 35 Linear Prediction Cepstral Coefficients (LPCC) La envolvente de la ventana bajo análisis se estima utilizando un filtro de predicción lineal La transformada cepstral de los coeficientes de dicho filtro genera unos coeficientes transformados Parte de esos coeficientes cepstrales serán el vector de parámetros de esa ventana 36 18

19 Espacio de características espectrales El espacio de características es compartido por cada locutor y hay solapamiento entre ellos Además, eiste variabilidad dentro del mismo locutor por diversos factores Siete hablantes españoles Un hablante por idioma 37 Modelado Una vez etraídos los parámetros, será necesario crear un modelo para cada locutor La puntuación se obtendrá comparando la locución de prueba con el modelo creado (entrenado( entrenado) Veremos dos tipos de modelado y cálculo de puntuación de características espectrales GMM SVM-GMM A Etracción de características Modelado Modelo A 38 19

20 Modelos de mezclas de gaussianas (Gaussian Miture Models, GMM) 39 Modelos de Mezclas de Gaussianas (GMM) Función densidad de probabilidad multidimensional Modela la probabilidad de obtener características de un locutor determinado en el espacio Suma ponderada de densidades de probabilidad gaussianas Función densidad de probabilidad Ejemplo: M=4 componentes (mezclas) gaussianas Espacio de características de D=2 dimensiones Detalles en [Reynolds00] 40 20

21 Modelos de Mezclas de Gaussianas (GMM) Vector de medias (mezcla i): μ p ={μ ip } Matriz de covarianzas (mezcla i): Σ p ={Σ ip } Vector de pesos (mezcla i): ω p ={ω ip }, Σ i ω ip =1 Modelo del locutor p: λ p ={μ ip,σ ip,ω ip } p g M ( o λp) = ωipgip( o) i= 1 ip ( o) = N( μip, Σip ) Regiones diferentes del espacio corresponden a configuraciones diferentes del tracto vocal Valores diferentes de las características GMM representa bien muy diversas distribuciones de características Entrenamiento GMM A partir de datos de entrenamiento A Etracción de características cj ci 42 21

22 Entrenamiento GMM A partir de datos de entrenamiento Inicialización del modelo cj ci 43 Entrenamiento GMM A partir de datos de entrenamiento Inicialización del modelo Maimum Likelihood (ML) Ajuste a datos cj Iterativamente Algoritmo Epectation Maimization (EM) ci 44 22

23 Entrenamiento GMM A partir de datos de entrenamiento Inicialización del modelo Maimum Likelihood (ML) Ajuste a datos cj Iterativamente Algoritmo Epectation Maimization (EM) ci 45 Entrenamiento GMM A partir de datos de entrenamiento Inicialización del modelo Maimum Likelihood (ML) Ajuste a datos cj Iterativamente Algoritmo Epectation Maimization (EM) Modelo GMM A entrenado ci 46 23

24 Cálculo del score utilizando GMM Partimos del modelo GMM entrenado con el habla de identidad A Etraemos características del habla de identidad B Cálculo del score: Probabilidad de las muestras de B suponiendo el modelo de A Asumiendo independencia entre muestras 47 B Etracción de características (o 1,...,o 6 ) p( O λ A ) = p t T t = 1 ( o λ A ) c j o 1 o 2 o 4 o 3 o 5 Modelo GMM de de A o 6 c i Adaptación desde modelo universal El habla de entrenamiento en general es limitada Pueden entrenarse modelos de locutor no generales Sobreajuste a datos de entrenamiento Universal Background Model (UBM) Entrenado con habla de muchos individuos Intenta modelar la máima variabilidad para la aplicación dada Idea: UBM representa distribuciones de características comunes a todos los locutores El modelo de locutor se adapta desde el UBM Características de entrenamiento: distribución particular del locutor Las regiones del espacio en las que no hay características del locutor mantienen la distribución común a todos (UBM) Robustez frente a pocos datos de entrenamiento 48 24

25 Adaptación desde UBM Características de un conjunto grande de locutores Representa la variabilidad en la aplicación objetivo Etracción cj ci 49 Adaptación desde UBM Entrenamiento de UBM ML con algoritmo EM Etracción cj UBM ci 50 25

26 Adaptación desde UBM Entrenamiento de UBM ML con algoritmo EM cj 51 UBM ci Adaptación desde UBM Características del habla de entrenamiento (A) Pueden ser escasas A Feature etraction cj cj UBM ci ci 52 26

27 cj Adaptación desde UBM Adaptación a partir del UBM Máimo A Posteriori (MAP) Utilizando de nuevo el algoritmo EM El modelo cambiará en las regiones con datos de entrenamiento En el resto de regiones el modelo se mantiene como el UBM cj Feature etraction A 53 UBM ci Speaker Model A ci Puntuación GMM-UBM Puntuación frente al modelo con respecto a puntuación frente al UBM Resalta especificidades del locutor con respecto al universo B Etracción p( O λa) = p t t= 1 Puntuación Modelo A Puntuación UBM p( O λubm ) = p T T t= 1 ( o λa ) / ( ot λu BM ) score = log T t= 1 T t= 1 p p ( ot λa ) ( ot λu BM ) 54 27

28 Máquinas de vectores soporte (SVM) utilizando supervectores GMM 55 Máquinas de vectores soporte (SVM) utilizando supervectores GMM SVM: plano de separación óptimo entre características de clases distintas Pero las características espectrales son difíciles de separar con n un plano Espacio de características alternativo: supervectores GMM [Campbell06] Paso 1: Se entrena un GMM por cada locución Paso 2: construcción del supervector con los vectores de medias del GMM concatenados = ( µ,..., µ ) A 1 M cj Nuevo espacio de dimension D M D es la dimensión del espacio original M es el número de mezclas del GMM GMM locución A ci 56 28

29 Máquinas de vectores soporte (SVM) utilizando supervectores GMM Paso 1: modelado A cj Modelo Modelo GMM GMM A ci Impostores A Modelo SVM A (hiperplano de separación) Paso 2: cálculo del score B 57 cj Modelo Modelo GMM GMM B ci B Score (distancia al hiperplano) Sistemas de Alto Nivel: Fonético 58 29

30 Reconocimiento Fonético Discrimina locutores por el uso que hacen de los sonidos Diferentes locutores emplearán sonidos diferentes Objetivo: medida de similitud entre secuencias de fonemas reconocidos Qué necesitamos?: 1. Reconocedor fonético (uno o varios, diferentes configuracions y/ó idiomas) transcripción fonética 2. Modelado de lenguaje con n-gramas n 59 bigram,, trigram, 4-gram4 gram Reconocedor Fonético Como entrada recibe la señal de voz Como salida devuelve una secuencia de fonemas reconocidos Locución de entrada: casa Reconocedor fonético /k/ /a/ /s/ /a/ Basado en modelos de fonema Alto coste computacional No eento de errores Sensible a variabilidad en el habla 60 30

31 Modelo de lenguaje Trata de representar la frecuencia de ocurrencia de secuencias de fonemas o n-gramas Un n-grama n es una secuencia de n fonemas seguidos en la cadena reconocida A partir de una locución de entrenamiento se obtiene: /k/ /a/ /s/ /a/ Modelado de n-gramas Probabilidades de cada n-grama para el locutor i La probabilidad de que una secuencia de fonemas de test la haya pronunciado el locutor i se obtiene a partir de la probabilidad de cada n-grama n en la secuencia Generalmente se asume independencia (producto) 61 Sistema fonético Cálculo del score 62 31

32 Sistemas de Alto Nivel: Prosódico 63 Información prosódica Semántica, Léico Estado: Edad Seo Ánimo Pausas y declinación Duración Pitch (F0) Energía Estilo de habla Leída Espontánea Conversación Susurro Prosodia = f (semántica, léico, edad, emoción,, estilo de habla,. ) Lingüístico Etralingüístico 64 32

33 Reconocimiento Prosódico Discrimina locutores por el uso que hacen de la prosodia Diferentes locutores emplearán la prosodia de manera diferente Objetivo: medida de similitudes entre la prosodia de dos locuciones Variación de la energía Variación de la frecuencia funcamental (pitch,, f0) 65 Reconocimiento Prosódico Qué necesitamos?: 1. Etraer la variación de la energía y la F0 2. Modelado estadístico mediante n-gramas n bigram,, trigram, 4-gram4 gram 66 33

34 Parametrización prosódica: F0 y energía 67 Contornos de F0 y Energía Contornos Apro. Lineal O Puntos de infleión O Comienzo-final 68 34

35 Cuantificación Se detectan tipos de contorno Sube rápido, baja rápido, sube despacio A cada tipo de contorno se le asigna una clase (token( token) F0 Log E TOKEN FO +F +F +S +S -F -F -S -S +F +F +S +S -F -F -S -S E +F +S +F +S -F -S -F -S -F -S -F -F +F +S +F +S +F=Fast-rising; +S=Slow-rising; -F=Fast-falling; -S=Slow-falling; UV=Unvoiced 17 UV * 69 Modelo de n-gramas Trata de representar la frecuencia de ocurrencia de secuencias de tokens o n-gramas Un n-grama n es una secuencia de n tokens seguidos en la cadena cuantificada A partir de una locución de entrenamiento se obtiene: T8 T16 T5 T3 Modelado de n-gramas Probabilidades de cada n-grama para el locutor i Scoring igual que en reconocimiento fonético 70 35

36 Compensación de variabilidad entre sesiones 71 Variabilidad: el desafío El reconocimiento espectral supera ampliamente en rendimiento al de alto nivel Pero la variabilidad sigue siendo un problema Aún muy dañina (micro vs. teléfono, alto ruido o reverberación, etc.) Técnicas de compensación 72 36

37 Compensación: factor analysis y cía. Variabilidad entre sesiones 73 Compensación: factor analysis y cía. Idea sencilla: búsqueda y compensación de direcciones de variación no deseadas eigen Implementación no tan sencilla ( ) ( ( ) ) ( ) ( () ( )( ) ) ( ) t j = t w k j k ( ) ( () ) T K 1 ( ( ) ) T s s s s s s 1 s γm em Σm ot γm em ( ) Σm em s m t s m t k=

38 Compensación: factor analysis y cía. Y Y cía. (sic( sic) ) porque eisten muchas variantes Factor analysis Joint factor analysis Nuissance Attribute Projection Channel factors Speaker Factors... Vendrán más, es un campo en actual ebullición Factor analysis ha revolucionado la compensación de canal 75 Estado del Arte y tendencias 76 38

39 Estado del Arte Dominio de los sistemas espectrales Superan a los sistemas de alto nivel [Reynolds00, Campbell06] Compensación de variabilidad entre sesiones Intensa actividad investigadora en la actualidad [Kenny07,Vogt07] Fusión de diferentes sistemas Eplotar información complementaria [Brummer07] Tema de multibiometría 77 Desafíos actuales Variabilidad de la voz entre sesiones Sigue siendo muy problemático en condiciones etremas [Kenny07,Vogt07] Degradación del rendimiento con poco material de voz Locuciones cortas (típicamente de prueba) [Vogt08,Fauve08] Desajuste de base de datos El sistema se entrena con datos en condiciones muy diferentes a la de funcionamiento real (ruido, estilo de habla, reverberación, etc.) [Ramos08] 78 39

40 Evaluaciones NIST de reconocimiento de locutor 79 Evaluaciones NIST Realizadas anualmente por el NIST americano (National( Institute of Standards and Technology) Objetivo: fomentar el desarrollo de la tecnología de reconocimiento de locutor Primera edición en 1998 ATVS ha participado de manera eitosa desde 2001 salvo en la edición de 2003 Impulso radical en la tecnología de reconocimiento de locutor Bases de datos Protocolos comunes Foro científico muy competitivo speech 80 40

41 ATVS-UAM en NIST SRE 2008 Sistema primario ATVS1 Fusión de sistemas espectrales con compensación de variabilidad GMM, SVM-GMM, SVM-GLDS Sub-condición teléfono (entrenamiento) vs. teléfono (test( test) 81 ATVS-UAM en NIST SRE 2008 Sub-condición micrófono (entrenamiento) vs. micrófono (test) 8 diferentes tipos de micrófono, muy diversas calidades Diferentes estilos de habla (conversación, entrevista) 82 41

42 ATVS-UAM en NIST SRE 2008 Condiciones de desajuste muy fuerte Robustez Teléfono vs. micrófono Micrófono vs. teléfono 83 Efecto y compensación de variabilidad Desarrollo NIST SRE 2008, hombres Desajuste de base de datos (datos microfónicos) Compensación de variabilidad entre sesiones Eliminación de ruido (filtrado de Wiener) 84 42

43 Conclusiones 85 Conclusiones Señal de voz: gran cantidad de información sobre hablante Distintos niveles de identidad Muy alta variabilidad Estrategis en biometría vocal: Combinación de múltiples etractores de información Fusión multinivel Fusión multisistema Algoritmos de compensación de variabilidad Problema de difícil resolución Gran actividad investigadora Evaluaciones NIST: claves en el desarrollo de la tecnología de reconocimiento de locutor 86 43

44 Muchas Gracias 87 Referencias 44

45 Referencias [Reynolds00] D. A. Reynolds et al., Speaker verification using adapted Gaussian miture models, Digital Signal Processing, v. 10, pp , [Campbell06] W. M. Campbell et al., Support vector machines using GMM supervectors for speaker verification. Signal Processing Letters, v. 13(5), pp [Reynolds03] D. A. Reynolds et al., The SuperSID project: Eploiting high-level information for high-accuracy speaker recognition. Proc. of ICASSP 2003, Hong Kong, China. [Karajarekar04] S. Kajarekar et al., Modelling NERFs for Speaker Recognition. Proc. of Odyssey 2004, Toledo, Spain. [Rabiner07] L. Rabiner, HMMs and Related Speech Technologies. In Springer Handbook of Speech Technologies (ISBN: ). J. Benesty, M. M. Sondhi, Y. Huang (Eds.). [Stolcke06] A. Stolcke et al., MLLR Transforms as Features in Speaker Recognition. Proc. of Interspeech 2005, Lisbon, Portugal. 89 Referencias [Campbell06b] W. M. Campbell et al., Support vector machines for speaker and language recognition. Computer Speech and Language, v. 20(2-3), pp [Lopez07] I. Lopez-Moreno et al. Support Vector Regression for Speaker Verification. Proc. of Interspeech 2007, pp Antwerp, Belgium. [Auckenthaller00] R. Auckenthaler et al., Score normalization for tet-independent speaker verification systems. Digital Signal Processing, vol. 10, pp [Brummer07] N. Brümmer et al., Fusion of heterogeneous speaker recognition systems in the STBU submission for the NIST speaker recognition evaluation IEEE Transactions on Audio, Speech and Signal Processing, vol. 15, no. 7, pp [Kenny07] P. Kenny et al., Speaker and session variability in GMMbased speaker verification. IEEE Transactions on Audio, Speech and Language Processing, vol. 15, no. 4, pp

46 Referencias [Vogt07] R. Vogt and S. Sridharan, Eplicit modelling of session variability for speaker verification. Computer Speech and Language, vol. 22, no. 1, pp [Vogt08] R. Vogt et al., Factor Analysis Modelling for Speaker Verification with Short Utterances. Proc. of Odyssey 2008, Stellenbosch, South Africa. [Fauve08] B. Fauve et al., Improving the performance of tetindependent short duration SVM- and GMM-based speaker verification. Proc. Of Odyssey, Stellenbosch, South Africa. [Ramos08] D. Ramos et al., Addressing database mismatch in forensic speaker recognition with Ahumada III: a public real-casework database in Spanish. Proc. of Interspeech 2008, Brisbane, Australia. 91 Reconocimiento de Locutor (Biometría Vocal) Daniel Ramos Castro daniel.ramos@uam.es ATVS Biometric Recognition Group Universidad Autónoma de Madrid 46

MÁQUINAS DE VECTORES SOPORTE (SVM) PARA RECONOCIMIENTO DE LOCUTOR E IDIOMA

MÁQUINAS DE VECTORES SOPORTE (SVM) PARA RECONOCIMIENTO DE LOCUTOR E IDIOMA UNIVERSIDAD AUTÓNOMA DE MADRID ESCUELA POLITÉCNICA SUPERIOR MÁQUINAS DE VECTORES SOPORTE (SVM) PARA RECONOCIMIENTO DE LOCUTOR E IDIOMA -RESUMEN DEL PROYECTO FIN DE CARRERA- XXVIII Convocatoria premios

Más detalles

Verificación Automática del Locutor

Verificación Automática del Locutor Verificación Automática del Locutor Juan Arturo Nolazco Flores Departamento de Ciencias Computacionales Tecnológico de Monterrey, Campus Monterrey. Juan Arturo Nolazco Flores. RAH Agenda Introducción IAL

Más detalles

Modelo de producción de la voz

Modelo de producción de la voz Modelo de producción de la voz Fonética y fonémica Fonema: Unidad teórica básica para describir cómo la voz transporta un significado lingüístico. Sonido: Realización práctica de un fonema Fonémica: Estudio

Más detalles

Minería Multimedia Minería de datos NO estructurados (Textos, Imágenes, Audios y Videos)

Minería Multimedia Minería de datos NO estructurados (Textos, Imágenes, Audios y Videos) Minería Multimedia Minería de datos NO estructurados (Tetos, Imágenes, Audios y Videos) Ana Isabel Oviedo Docente Universidad Pontificia Bolivariana ana.oviedo@upb.edu.co Medellín, noviembre 13 de 2014

Más detalles

Procesamiento digital de voz

Procesamiento digital de voz Procesamiento digital de voz Seminario de Audio 2005 Ernesto López Martín Rocamora Producción del habla Aparato fonador Corte transversal de la laringe Sonidos sonoros y sordos Sonidos sonoros Forma de

Más detalles

Juegos Interactivos para la Rehabilitación Fonatoria

Juegos Interactivos para la Rehabilitación Fonatoria Juegos Interactivos para la Rehabilitación Fonatoria Autores: Ing. Eduardo González Moreira MSc.. Carlos Ariel Ferrer Riesgo Dra. María E. Hernández Díaz-Huici Ing. Eric Lisandro Acao Centro de Estudios

Más detalles

Sistema para identificación de hablantes robusto a cambios en la voz

Sistema para identificación de hablantes robusto a cambios en la voz Artículo Científico / Scientific Paper Sistema para identificación de hablantes robusto a cambios en la voz Guillermo Arturo Martínez Mascorro, y Gualberto Aguilar Torres 2 Resumen Los sistemas de reconocimiento

Más detalles

Reconocimiento de voz basado en MFCC, SBC y Espectrogramas

Reconocimiento de voz basado en MFCC, SBC y Espectrogramas Artículo Científico / Scientific Paper Reconocimiento de voz basado en MFCC, SBC y Espectrogramas Guillermo Arturo Martínez Mascorro, y Gualberto Aguilar Torres 2 Resumen Uno de los problemas en los sistemas

Más detalles

DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA

DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA Universidad Autónoma de Madrid Escuela Politécnica Superior Proyecto fin de carrera DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA Ingeniería Superior en Telecomunicación Carlos Ortego Resa Julio 2009 2 DETECCIÓN

Más detalles

Representación de la voz en el reconocimiento del habla

Representación de la voz en el reconocimiento del habla Página 1 de 7 Representación de la voz en el reconocimiento del habla Voice representation in speech recognition Climent Nadeu Para reconocer el habla de forma automática se requiere una representación

Más detalles

Aplicaciones del análisis acústico en los estudios de la voz humana

Aplicaciones del análisis acústico en los estudios de la voz humana Seminario Internacional de Aplicaciones del análisis acústico en los estudios de la voz humana Matías Zañartu Salas Unidad de Acústica - Escuela de Fonoaudiología Universidad Mayor Av. Libertador Bdo.

Más detalles

BATVOX: SISTEMA AUTOMÁTICO DE RECONOCIMIENTO DE LOCUTOR. BEATRIZ GONZÁLEZ SIGÜENZA Agnitio

BATVOX: SISTEMA AUTOMÁTICO DE RECONOCIMIENTO DE LOCUTOR. BEATRIZ GONZÁLEZ SIGÜENZA Agnitio BATVOX: SISTEMA AUTOMÁTICO DE RECONOCIMIENTO DE LOCUTOR BEATRIZ GONZÁLEZ SIGÜENZA Agnitio bgonzalez@agnitio.es BATVOX: Sistema automático de reconocimiento de locutor 303 RESUMEN El objetivo del presente

Más detalles

UNIVERSIDAD DE GRANADA PROCESAMIENTO DE VOZ

UNIVERSIDAD DE GRANADA PROCESAMIENTO DE VOZ UNIVERSIDAD DE GRANADA PLAN DE ESTUDIOS: DIPLOMADO EN LOGOPEDIA PROCESAMIENTO DE VOZ Ángel de la Torre Vega Dpto. Teoría de la Señal, Telemática y Comunicaciones Procesamiento de Voz ATV Dpto. Teoría de

Más detalles

Fiabilidad en sistemas forenses de reconocimiento automático de locutor explotando la calidad de la señal de voz

Fiabilidad en sistemas forenses de reconocimiento automático de locutor explotando la calidad de la señal de voz UNIVERSIDAD AUTONOMA DE MADRID ESCUELA POLITECNICA SUPERIOR Fiabilidad en sistemas forenses de reconocimiento automático de locutor explotando la calidad de la señal de voz -PROYECTO FIN DE CARRERA- Alberto

Más detalles

Fonética y Fonología españolas

Fonética y Fonología españolas Fonética y Fonología españolas Fonética y Fonología españolas Mary C. Iribarren EDITORIAL SINTESIS Consulte nuestra página web: www.sintesis.com En ella encontrará el catálogo completo y comentado Reservados

Más detalles

PROCESAMIENTO DE VOZ. RETOS ACTUALES. PROYECTOS CIC

PROCESAMIENTO DE VOZ. RETOS ACTUALES. PROYECTOS CIC PROCESAMIENTO DE VOZ. RETOS ACTUALES. PROYECTOS CIC Dr. Sergio Suárez Guerra ssuarez@cic.ipn.mx 1 La señal voz, expectativas de uso Cada día nos encontramos más, con infinidad de aplicaciones de los sistemas

Más detalles

Última modificación: 1 de julio de

Última modificación: 1 de julio de Contenido SEÑALES DIGITALES Y CAPACIDAD DE CANAL 1.- Señales digitales de 2 y más niveles. 2.- Tasa de bit e intervalo de bit. 3.- Ancho de banda de una señal digital. 4.- Límites en la tasa de transmisión.

Más detalles

Definiciones. Ruido: Sonido no deseado, desagradable o molesto

Definiciones. Ruido: Sonido no deseado, desagradable o molesto Definiciones Ruido: Sonido no deseado, desagradable o molesto Sonido: Vibración mecánica transmitida por ondas en un medio elástico, que es capaz de ser percibida por órgano auditivo. Presión P 0 Distancia

Más detalles

ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN

ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN Titulación : INGENIERO TÉCNICO DE TELECOMUNICACIÓN, ESPECIALIDAD EN SONIDO E IMAGEN Título del proyecto: PROCESADO DIGITAL DE VOZ

Más detalles

La fonología es esencialmente la descripción del sistema y de los patrones de los sonidos de una lengua (Yule 1998:66).

La fonología es esencialmente la descripción del sistema y de los patrones de los sonidos de una lengua (Yule 1998:66). 8 1.5. La Fonología 1.5.1. Definición Algunas definiciones de Fonología: La fonología es esencialmente la descripción del sistema y de los patrones de los sonidos de una lengua (Yule 1998:66). G. Yule

Más detalles

TEMA I.12. Ondas Estacionarias en una Cuerda. Dr. Juan Pablo Torres-Papaqui

TEMA I.12. Ondas Estacionarias en una Cuerda. Dr. Juan Pablo Torres-Papaqui TEMA I.12 Ondas Estacionarias en una Cuerda Dr. Juan Pablo Torres-Papaqui Departamento de Astronomía Universidad de Guanajuato DA-UG (México) papaqui@astro.ugto.mx División de Ciencias Naturales y Exactas,

Más detalles

A hybrid system based on hidden Markov models and support vector machines with forward learning for phone recognition in venezuelan continuous speech

A hybrid system based on hidden Markov models and support vector machines with forward learning for phone recognition in venezuelan continuous speech REVISTA INGENIERíA UC, VOL. 18, NO. 3, DICIEMBRE 2011 7-16 Un sistema híbrido basado en modelos ocultos de Markov y máquinas de vectores de soporte con aprendizaje hacia adelante para reconocimiento de

Más detalles

UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN TESIS DOCTORAL

UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN TESIS DOCTORAL UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN TESIS DOCTORAL Técnicas de análisis, caracterización y detección de señales de voz en entornos acústicos adversos

Más detalles

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC) GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC) Curso Académico: 2015-2016 Programa: Centro: Universidad: Máster Universitario en Ingeniería Informática Escuela Politécnica Superior

Más detalles

Autor: Max Glisser - Jefe de Proyectos

Autor: Max Glisser - Jefe de Proyectos Comparación de niveles de potencia acústica para maquinarias medidas en terreno por Control Acústico Ltda. y niveles establecidos por la Norma Británica BS5228. Autor: Max Glisser - Jefe de Proyectos RESUMEN

Más detalles

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos Agro 6998 Conferencia Introducción a los modelos estadísticos mixtos Los modelos estadísticos permiten modelar la respuesta de un estudio experimental u observacional en función de factores (tratamientos,

Más detalles

EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I.

EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I. EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO 2013-2014. Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I. UNIDAD 3: POLINOMIOS Y FRACCIONES ALGEBRAICAS Operaciones

Más detalles

Cómo se ve la voz? Recibido: 19 de julio de 2007 Aceptado: 26 de julio de 2007

Cómo se ve la voz? Recibido: 19 de julio de 2007 Aceptado: 26 de julio de 2007 Cómo se ve la voz? Fabiola M. Martínez Licona, John Goddard Close, Alma E. Martínez Licona Inteligencia Artificial Aplicada, Depto. Ingeniería Eléctrica, UAM-I. fmml@xanum.uam.mx Recibido: 19 de julio

Más detalles

SOMI XVIII Congreso de Instrumentación TECNOLOGIAS DE LA INFORMACION RAM1847

SOMI XVIII Congreso de Instrumentación TECNOLOGIAS DE LA INFORMACION RAM1847 Reconocedor de Voz Adaptado para mejorar la pronunciación de Inglés en Hispanos M.A. García Galván, R. Aréchiga Martínez Universidad Autónoma Metropolitana, Departamento de Electrónica. Av San Pablo #

Más detalles

PRÁCTICA 1 ANÁLISIS DE SEÑALES EN EL DOMINIO DE LA FRECUENCIA: EL ANALIZADOR DE ESPECTROS

PRÁCTICA 1 ANÁLISIS DE SEÑALES EN EL DOMINIO DE LA FRECUENCIA: EL ANALIZADOR DE ESPECTROS PRÁCTICA 1 ANÁLISIS DE SEÑALES EN EL DOMINIO DE LA FRECUENCIA: EL ANALIZADOR DE ESPECTROS 1 Espectro de una señal GSM Las señales radiadas son susceptibles de ser interceptadas y analizadas. EJ. Monitorización

Más detalles

Clasificación de sistemas

Clasificación de sistemas Capítulo 2 Clasificación de sistemas 2.1 Clasificación de sistemas La comprensión de la definición de sistema y la clasificación de los diversos sistemas, nos dan indicaciones sobre cual es la herramienta

Más detalles

Caracterización y agrupamiento de fonemas vocálicos en español e inglés

Caracterización y agrupamiento de fonemas vocálicos en español e inglés FABIOLA M. MARTÍNEZ LICONA JOHN CHARLES GODDARD CLOSE ALMA E. MARTÍNEZ LICONA TOMÁS ALJAMA CORRALES UAM Iztapalapa. México, DF, México E-Mail: fmml@xanum.uam.mx Caracterización y agrupamiento de fonemas

Más detalles

DEPARTAMENTO DE MATEMÁTICAS. IES GALLICUM

DEPARTAMENTO DE MATEMÁTICAS. IES GALLICUM UNIDAD I: NÚMEROS (6 Horas) 1.- Repasar el cálculo con números racionales y potencias de exponente entero. 2.- Resolver problemas de la vida cotidiana en los que intervengan los números racionales. 1.-

Más detalles

Integración de optimización evolutiva para el reconocimiento de emociones en voz

Integración de optimización evolutiva para el reconocimiento de emociones en voz Integración de optimización evolutiva para el reconocimiento de emociones en voz Luis-Alberto Pérez-Gaspar, Santiago-Omar Caballero-Morales, Felipe Trujillo-Romero Universidad Tecnológica de la Mixteca,

Más detalles

Sistema de monitiorización de ruido de aviones basado en pc. 1/5

Sistema de monitiorización de ruido de aviones basado en pc. 1/5 Sistema de monitiorización de ruido de aviones basado en pc "Se ha conseguido el objetivo propuesto en este proyecto. Se ha diseñado un prototipo de sistema de medida bicanal basado en PC y un software

Más detalles

Instituto tecnológico de Massachussetts Departamento de ingeniería eléctrica e informática. Trabajo 3 Representación de la señal

Instituto tecnológico de Massachussetts Departamento de ingeniería eléctrica e informática. Trabajo 3 Representación de la señal Instituto tecnológico de Massachussetts Departamento de ingeniería eléctrica e informática 6.345 Reconocimiento automático del habla Primavera de 2003 Publicado: 21/02/03 Entregar: 05/03/03 Trabajo 3 Representación

Más detalles

UIT-T P.30 SECTOR DE NORMALIZACIÓN DE LAS TELECOMUNICACIONES DE LA UIT

UIT-T P.30 SECTOR DE NORMALIZACIÓN DE LAS TELECOMUNICACIONES DE LA UIT UNIÓN INTERNACIONAL DE TELECOMUNICACIONES UIT-T P.30 SECTOR DE NORMALIZACIÓN DE LAS TELECOMUNICACIONES DE LA UIT CALIDAD DE TRANSMISIÓN TELEFÓNICA LÍNEAS Y APARATOS DE ABONADO CARACTERÍSTICAS DE TRANSMISIÓN

Más detalles

Redes bayesianas temporales para reconocimiento de escenarios

Redes bayesianas temporales para reconocimiento de escenarios Redes bayesianas temporales para reconocimiento de escenarios Ahmed Ziani and Cina Motamed Visión de Alto Nivel Dr. Enrique Sucar Irvin Hussein López Nava Junio 2009 Introducción (1) Objetivo: aplicaciones

Más detalles

Sistema de reconocimiento de voz para los dígitos en inglés del 0 al 9

Sistema de reconocimiento de voz para los dígitos en inglés del 0 al 9 Sistema de reconocimiento de voz para los dígitos en inglés del 0 al 9 Iria Gallego Gallego Irene Pérez Encinar Universidad Carlos III de Madrid 100050239@alumnos.uc3m.es Universidad Carlos III de Madrid

Más detalles

Herramientas software para la docencia de la señal de voz en Ingeniería Técnica de Telecomunicaciones

Herramientas software para la docencia de la señal de voz en Ingeniería Técnica de Telecomunicaciones Herramientas software para la docencia de la señal de voz en Ingeniería Técnica de Telecomunicaciones S. Bleda (1,2) ; J. Francés (1,2) ; S. Marini (1,2) ; J.J. Martínez (1) (1) Departamento de Física

Más detalles

Curso modular de Introducción a las Neurociencias

Curso modular de Introducción a las Neurociencias Curso modular de Introducción a las Neurociencias Módulo 2: Análisis Computacional de Neuro-Imágenes (MRI y fmri) Enzo Tagliazucchi Temas del Curso Introducción a la resonancia magnética. Introducción

Más detalles

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Amaro Camargo Erika, Reyes García Carlos A. Instituto Nacional de Astrofísica, Óptica

Más detalles

Capítulo I. El reconocimiento de voz

Capítulo I. El reconocimiento de voz Capítulo I El reconocimiento de voz Un sonido es, al final, una fórmula matemática que se puede representar en un par de ejes cartesianos. Las curvas esenciales que lo forman son muy simples (senos y cosenos),

Más detalles

ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN

ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN Titulación : INGENIERO DE TELECOMUNICACIÓN Título del proyecto: IMPLEMENTACIÓN Y COMPARACIÓN DE ALGORITMOS BASADOS EN TÉCNICAS

Más detalles

APLICACIONES EN RECONOCIMIENTO DE VOZ UTILIZANDO HTK T.G. 0446

APLICACIONES EN RECONOCIMIENTO DE VOZ UTILIZANDO HTK T.G. 0446 i APLICACIONES EN RECONOCIMIENTO DE VOZ UTILIZANDO HTK T.G. 0446 AUTOR: IVÁN HORACIO VILLAMIL ESPINOSA. SANTA FE DE BOGOTA DC. PONTIFICIA UNIVERSIDAD JAVERIANA FACULTAD DE INGENIERIA DEPARTAMENTO DE ELECTRONICA

Más detalles

Modelo de duración para conversión texto a voz en euskera

Modelo de duración para conversión texto a voz en euskera Procesamiento del Lenguaje Natural, vol. 1, núm. 3 (2002), pp. 1-15 recibido 31-10-2002; aceptado 20-12-2002 Modelo de duración para conversión texto a voz en euskera Eva Navas Universidad del País Vasco

Más detalles

INTERFACES INTELIGENTES. ING. MA. MARGARITA LABASTIDA ROLDÁN E mail:

INTERFACES INTELIGENTES. ING. MA. MARGARITA LABASTIDA ROLDÁN E mail: INTERFACES INTELIGENTES ING. MA. MARGARITA LABASTIDA ROLDÁN E mail: magielr@gmail.com GENERALIDADES DE LAS INTERFACES INTERFAZ DE USUARIO: Es el dispositivo por medio del cual un usuario realiza la comunicación

Más detalles

6.542J, J, HST.712J CURSO PRÁCTICO EN FISIOLOGÍA, ACÚSTICA Y PERCEPCIÓN DEL HABLA Otoño del Programa 06/09/01 TEMAS A CUBRIR

6.542J, J, HST.712J CURSO PRÁCTICO EN FISIOLOGÍA, ACÚSTICA Y PERCEPCIÓN DEL HABLA Otoño del Programa 06/09/01 TEMAS A CUBRIR 6.542J Programa 06/09/01 1 6.542J, 24.966J, HST.712J CURSO PRÁCTICO EN FISIOLOGÍA, ACÚSTICA Y PERCEPCIÓN DEL HABLA Otoño del 2001 Programa 06/09/01 TEMAS A CUBRIR A. Introducción 1. 6 de sept. Organización;

Más detalles

Introducción a la Ingeniería Audiovisual Examen de Enero de Nombre:... DNI...

Introducción a la Ingeniería Audiovisual Examen de Enero de Nombre:... DNI... UNIVERSIDAD DE CASTILLA LA MANCHA Escuela Universitaria Politécnica de Cuenca Ingeniería Técnica de Telecomunicación (Especialidad de Sonido e Imagen) Introducción a la Ingeniería Audiovisual Examen de

Más detalles

Representación de señales de audio

Representación de señales de audio Representación de señales de audio Emilia Gómez Gutiérrez Síntesi i Processament del So I Departament de Sonologia Escola Superior de Musica de Catalunya Curso 2009-2010 emilia.gomez@esmuc.cat 28 de septiembre

Más detalles

Introducción al procesamiento digital de señales en tiempo real

Introducción al procesamiento digital de señales en tiempo real Introducción al procesamiento digital de señales en tiempo real ELO 385 Laboratorio de Procesamiento Digital de Señales Segundo semestre - 2011 Matías Zañartu, Ph.D. Departamento de Electrónica Universidad

Más detalles

Tiempo de Reverberación Nivelando con AL1 RT60 = T20 * 3

Tiempo de Reverberación Nivelando con AL1 RT60 = T20 * 3 Detalles de Contacto Taller Pro-Audio 2004 Berno Nigsch (Product Manager) NTI AG Im alten Riet 102 FL 9494 Schaan Tel.: +423 239 6060 Medidas y Mejoras Acústicas Susana Fernández NEOTÉCNICA Marqués de

Más detalles

SISTEMA DE NAVEGACIÓN AUTOMÁTICA CONTROLADA POR VOZ PARA UNA SILLA DE RUEDAS

SISTEMA DE NAVEGACIÓN AUTOMÁTICA CONTROLADA POR VOZ PARA UNA SILLA DE RUEDAS ENFOQUTE. 1: 74-81 Copyright 2010 Universidad Tecnológica Equinoccial ISSN: 1390-6542 SISTEMA DE NAVEGACIÓN AUTOMÁTICA CONTROLADA POR VOZ PARA UNA SILLA DE RUEDAS Marcelo Arévalo Luzuriaga 1 RESUMEN EL

Más detalles

Autor: León Augusto Bourgeat Terán

Autor: León Augusto Bourgeat Terán UNIVERSIDAD AUTÓNOMA DE MADRID ESCUELA POLITÉCNICA SUPERIOR Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones TRABAJO FIN DE MÁSTER Evaluación de

Más detalles

REDUCCIÓN DEL RUIDO EN UNA IMAGEN DIGITAL

REDUCCIÓN DEL RUIDO EN UNA IMAGEN DIGITAL Div. Ingeniería de Sistemas y Automática Universidad Miguel Hernández REDUCCIÓN DEL RUIDO EN UNA IMAGEN DIGITAL Tabla de Contenidos Definición Filtros No Lineales Filtros Temporales Definición 3 G = Ruido:

Más detalles

Biometría por voz: fundamentos, tecnología y aplicaciones

Biometría por voz: fundamentos, tecnología y aplicaciones Biometría por voz: fundamentos, tecnología y aplicaciones Néstor Becerra Yoma, PhD Laboratorio de Procesamiento y Transmisión de Voz Departamento de Ingeniería Eléctrica Universidad de Chile Tel: (02)29784205

Más detalles

Tema 4. Reducción del ruido

Tema 4. Reducción del ruido Div. Ingeniería de Sistemas y Automática Universidad Miguel Hernández GRUPO DE TECNOLOGÍA INDUSTRIAL Tabla de Contenidos Definición Filtros Lineales Filtros Temporales Realce Espacial Definición Ruido:

Más detalles

Requisitos para la cuantificación en SPECT y PET. Rafael Puchal Radiofísico Barcelona

Requisitos para la cuantificación en SPECT y PET. Rafael Puchal Radiofísico Barcelona Requisitos para la cuantificación en SPECT y PET Rafael Puchal Radiofísico Barcelona Qué es necesario para una correcta cuantificación? Cuantificación? Obtener una relación directa entre la actividad administrada

Más detalles

INSTITUTO POLITÉCNICO NACIONAL

INSTITUTO POLITÉCNICO NACIONAL INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN MODELO DE PROCESAMIENTO DE VOZ PARA LA CLASIFICACIÓN DE ESTADOS T E S I S QUE PARA OBTENER EL GRADO DE DOCTOR EN CIENCIAS DE LA COMPUTACIÓN

Más detalles

Nombre de la asignatura : Teleproceso. Carrera : Ingeniería en Sistemas Computacionales. Clave de la asignatura : SCB-9340

Nombre de la asignatura : Teleproceso. Carrera : Ingeniería en Sistemas Computacionales. Clave de la asignatura : SCB-9340 1. D A T O S D E L A A S I G N A T U R A Nombre de la asignatura : Teleproceso Carrera : Ingeniería en Sistemas Computacionales Clave de la asignatura : SCB-9340 Horas teoría-horas práctica-créditos :

Más detalles

Nuestro objetivo es ofrecer acceso remoto y control de cámara las 24 horas del día, 7 días a la semana. Dynamic Transcoding

Nuestro objetivo es ofrecer acceso remoto y control de cámara las 24 horas del día, 7 días a la semana. Dynamic Transcoding Nuestro objetivo es ofrecer acceso remoto y control de cámara las 24 horas del día, 7 días a la semana Dynamic Transcoding 2 Dynamic Transcoding Acceso y control remoto 24 horas al día, 7 días a la semana,

Más detalles

4º E.S.O. Matemáticas A

4º E.S.O. Matemáticas A 4º E.S.O. Matemáticas A Objetivos 1. Incorporar, al lenguaje y formas habituales de argumentación, las distintas formas de expresión matemática (numérica, algebraica, de funciones, geométrica...), con

Más detalles

Filtros Digitales II Lic. Matías Romero Costas

Filtros Digitales II Lic. Matías Romero Costas Filtros Digitales II Lic. Matías Romero Costas Respuesta en frecuencia: las características de un filtro pueden determinarse a partir de su respuesta en frecuencia, constituida por la respuesta en amplitud

Más detalles

5. Experimentos y Resultados

5. Experimentos y Resultados Experimentos y Resultados 52 5. Experimentos y Resultados Después de haber entrenado los modelos acústicos y los modelos del lenguaje para el reconocimiento de voz de niños, estas fuentes de conocimiento

Más detalles

Dirección de Recursos Humanos

Dirección de Recursos Humanos Dirección de Recursos Humanos Duración: 45.00 horas Descripción Este curso de Dirección de Recursos Humanos profundiza en los aspectos relacionados con la estrategia empresarial de Recursos Humanos en

Más detalles

Tema 2 Datos multivariantes

Tema 2 Datos multivariantes Aurea Grané Máster en Estadística Universidade Pedagógica 1 Aurea Grané Máster en Estadística Universidade Pedagógica 2 Tema 2 Datos multivariantes 1 Matrices de datos 2 Datos multivariantes 2 Medias,

Más detalles

RECOMENDACIÓN UIT-R P.1145 DATOS DE PROPAGACIÓN PARA EL SERVICIO MÓVIL TERRESTRE TERRENAL EN LAS BANDAS DE ONDAS MÉTRICAS Y DECIMÉTRICAS

RECOMENDACIÓN UIT-R P.1145 DATOS DE PROPAGACIÓN PARA EL SERVICIO MÓVIL TERRESTRE TERRENAL EN LAS BANDAS DE ONDAS MÉTRICAS Y DECIMÉTRICAS Rec. UIT-R P.1145 1 RECOMENDACIÓN UIT-R P.1145 DATOS DE PROPAGACIÓN PARA EL SERVICIO MÓVIL TERRESTRE TERRENAL EN LAS BANDAS DE ONDAS MÉTRICAS Y DECIMÉTRICAS (Cuestión UIT-R 203/3) (1995) Rec. UIT-R P.1145

Más detalles

LECTURA 01: LA DISTRIBUCIÓN NORMAL GENERAL. LA DISTRIBUCIÓN NORMAL ESTÁNDAR (PARTE I). TEMA 1: LA DISTRIBUCION NORMAL GENERAL.

LECTURA 01: LA DISTRIBUCIÓN NORMAL GENERAL. LA DISTRIBUCIÓN NORMAL ESTÁNDAR (PARTE I). TEMA 1: LA DISTRIBUCION NORMAL GENERAL. LECTURA 1: LA DISTRIBUCIÓN NORMAL GENERAL LA DISTRIBUCIÓN NORMAL ESTÁNDAR (PARTE I) TEMA 1: LA DISTRIBUCION NORMAL GENERAL PROPIEDADES 1 INTRODUCCION La distribución de probabilidad continua más importante

Más detalles

CAPÍTULO ANÁLISIS E INTERPRETACIÓN DE RESULTADOS

CAPÍTULO ANÁLISIS E INTERPRETACIÓN DE RESULTADOS CAPÍTULO 5 5.0 ANÁLISIS E INTERPRETACIÓN DE RESULTADOS 5.1 Cuadro de Utilización de Métodos de Lecto-Escritura y Diferencia de Calificaciones Promedio de PAES por Institución (1º Y 2º Trimestre) Método

Más detalles

Desambigüación del sentido de las palabras (WSD)

Desambigüación del sentido de las palabras (WSD) Desambigüación del sentido de las palabras (WSD) Miguel A. Alonso Departamento de Computación, Facultad de Informática, Universidade da Coruña 1 / 18 Índice 1 Introducción 2 Evaluación 3 Enfoques basados

Más detalles

APLICACIÓN DE LAS MÁQUINAS DE SOPORTE VECTORIAL AL RECONOCIMIENTO DE HABLANTES

APLICACIÓN DE LAS MÁQUINAS DE SOPORTE VECTORIAL AL RECONOCIMIENTO DE HABLANTES APLICACIÓN DE LAS MÁQUINAS DE SOPORTE VECTORIAL AL RECONOCIMIENTO DE HABLANTES UNIVERSIDAD AUTÓNOMA METROPOLITANA MAESTRÍA EN CIENCIAS Y TECNOLOGÍAS DE LA INFORMACIÓN Juan Gabriel Pedroza Bernal pedrozafm@yahoo.com.mx

Más detalles

RecAM. Reconocimiento Automático de Matrículas

RecAM. Reconocimiento Automático de Matrículas RecAM Reconocimiento Automático de Matrículas Curso de Tratamiento de Imágenes por Computadora Año 2003 Tutor: Ing. Alvaro Pardo Integrantes: Rodrigo Abal Raúl Medeglia Nicolás Pebet De Qué Se Trata? Cada

Más detalles

Coclear Implant System. Implante de 20 canales

Coclear Implant System. Implante de 20 canales e de 20 canales Referencias DX 10/SP DX 10 /SP-BTE DX 10/ SP-k DX10/SP-2PE e solo e de 20 canales Todo el sistema con el procesador Digi SP Todo el sistema con el procesador Digi SPK e coclear de doble

Más detalles

La Naturaleza del Sonido

La Naturaleza del Sonido La Naturaleza del Sonido El sentido del oído nos permite percibir los sonidos, su volumen, tono, timbre y la dirección de la que provienen. Nos da información sobre nuestro entorno Nos ha servido durante

Más detalles

Psicoacústica. Campos de Aplicación: Psicología. Medicina. Acústica. Audio. Electroacústica. Higiene industrial. Comunicaciones. Etc.

Psicoacústica. Campos de Aplicación: Psicología. Medicina. Acústica. Audio. Electroacústica. Higiene industrial. Comunicaciones. Etc. PSICOACÚSTICA Psicoacústica Es la ciencia que estudia las reacciones del Ser Humano ante la percepción sonora. Su objetivo es la evaluación cuantitativa de sensaciones subjetivas originadas a partir de

Más detalles

DEFINICIONES Y CONCEPTOS (SISTEMAS DE PERCEPCIÓN - DTE) Curso

DEFINICIONES Y CONCEPTOS (SISTEMAS DE PERCEPCIÓN - DTE) Curso DEFINICIONES Y CONCEPTOS (SISTEMAS DE PERCEPCIÓN - DTE) Curso 2009-10 1. Generalidades Instrumentación: En general la instrumentación comprende todas las técnicas, equipos y metodología relacionados con

Más detalles

RECOMENDACIÓN UIT-R BS *,** Medición del nivel de tensión del ruido de audiofrecuencia en radiodifusión sonora

RECOMENDACIÓN UIT-R BS *,** Medición del nivel de tensión del ruido de audiofrecuencia en radiodifusión sonora Rec. UIT-R BS.468-4 1 RECOMENDACIÓN UIT-R BS.468-4 *,** Medición del nivel de tensión del ruido de audiofrecuencia en radiodifusión sonora La Asamblea de Radiocomunicaciones de la UIT, (1970-1974-1978-1982-1986)

Más detalles

Modelo Predictivo del Crimen para la Región Metropolitana

Modelo Predictivo del Crimen para la Región Metropolitana Análisis Espacial de la Criminalidad basado en Georeferenciación de Denuncias José Miguel Benavente PhD Departamento de Economía. Departamento de Ingeniería Industrial. Universidad de Chile. Carabineros

Más detalles

SOLICITUD DE DEFENSA DEL TRABAJO DE INICIACIÓN A LA INVESTIGACIÓN

SOLICITUD DE DEFENSA DEL TRABAJO DE INICIACIÓN A LA INVESTIGACIÓN SOLICITUD DE DEFENSA DEL TRABAJO DE INICIACIÓN A LA INVESTIGACIÓN JAVIER GALBALLY HERRERO TRIBUNAL PROPUESTO: Javier Ortega García (Tutor) Joaquín González Rodríguez Doroteo Torre Toledano TÍTULO: ESTUDIO

Más detalles

UNIVERSIDAD DE ALMERIA GUÍA DOCENTE CURSO:

UNIVERSIDAD DE ALMERIA GUÍA DOCENTE CURSO: Pag. 1 de 7 UNIVERSIDAD DE ALMERIA GUÍA DOCENTE CURSO: 2010-11 DATOS BÁSICOS DE LA ASIGNATURA Asignatura: Fonética y Fonología Española. Aspectos Contrastivos Código de asignatura: 31978308 Plan: Licenciado

Más detalles

Experiencia en la colaboración Universidad-Educación Especial en la Generación de Herramientas Informáticas para Logopedia

Experiencia en la colaboración Universidad-Educación Especial en la Generación de Herramientas Informáticas para Logopedia Experiencia en la colaboración Universidad-Educación Especial en la Generación de Herramientas Informáticas para Logopedia Oscar Saz Universidad de Zaragoza oskarsaz@unizar.es 1/75 Índice Parte I: Colaboración

Más detalles

UNIVERSIDADES PÚBLICAS DE LA COMUNIDAD DE MADRID MATERIA: LENGUAJE Y PRÁCTICA MUSICAL

UNIVERSIDADES PÚBLICAS DE LA COMUNIDAD DE MADRID MATERIA: LENGUAJE Y PRÁCTICA MUSICAL UNIVERSIDADES PÚBLICAS DE LA COMUNIDAD DE MADRID PRUEBA DE ACCESO A LAS ENSEÑANZAS UNIVERSITARIAS OFICIALES DE GRADO Curso 2009-2010 MATERIA: LENGUAJE Y PRÁCTICA MUSICAL INSTRUCCIONES GENERALES Y VALORACIÓN

Más detalles

Dirección de Recursos Humanos, 45 horas

Dirección de Recursos Humanos, 45 horas Dirección de Recursos Humanos, 45 horas Objetivos - Planificar, desarrollar y evaluar las políticas de recursos humanos coherentes con la estrategia de la organización. - Determinar las características

Más detalles

Yoma Becerra, N., Molina, C., 2006. Feature-dependent compensation of coders in speech recognition. Signal Processing. 86(1), 38-49.

Yoma Becerra, N., Molina, C., 2006. Feature-dependent compensation of coders in speech recognition. Signal Processing. 86(1), 38-49. 15/04/2014 Publicaciones en revistas internacionales Fuente de Revistas Internacionales a Abril, 2014: ISI Web of Science Core Collection. Thomson Reuters ( ). www.webofknowledge.com 2014. Arias, J. P.,

Más detalles

Sistema inteligente para el tratamiento de ruidos

Sistema inteligente para el tratamiento de ruidos Sistema inteligente para el tratamiento de ruidos G.M.Barrera, F.D.Goldenstein, D.M.López de Luise Universidad de Palermo (Tel.: 54--599-4520, aigroup@palermo.edu). Objetivos y alcance El principal objetivo

Más detalles

Sistemas Electrónicos Digitales. Práctica 2 Implementación de un filtro FIR basado en estructura MAC

Sistemas Electrónicos Digitales. Práctica 2 Implementación de un filtro FIR basado en estructura MAC Sistemas Electrónicos igitales 2 o Ing. Telecomunicación Práctica 2 Implementación de un filtro FIR basado en estructura MAC Javier Toledo Moreo pto. Electrónica, Tecnología de Computadoras y Proyectos

Más detalles

PROTOTIPO DE SISTEMA DE AUTOMATIZACIÓN DE ENCUESTAS TELEFÓNICAS. Universitat Politècnica de València {ahector,ecubel,asanchis}@iti.upv.

PROTOTIPO DE SISTEMA DE AUTOMATIZACIÓN DE ENCUESTAS TELEFÓNICAS. Universitat Politècnica de València {ahector,ecubel,asanchis}@iti.upv. Zaragoza Del 8 al 10 de Noviembre de 2006 IV Jornadas en Tecnologia del Habla PROTOTIPO DE SISTEMA DE AUTOMATIZACIÓN DE ENCUESTAS TELEFÓNICAS Alejandro H. Toselli 1, Elsa Cubel Barea 1, Alberto Sanchis

Más detalles

Memoria Final. Proyecto Sonacar

Memoria Final. Proyecto Sonacar Memoria Final Proyecto Sonacar ÍNDICE 1- Introducción......3 1.1- Presentación del proyecto...3 1.2- Objetivos del proyecto...4 2- Fase Primera. Corpus y análisis de sonidos...6 2.1- Especificación de

Más detalles

Tema: Uso del analizador espectral.

Tema: Uso del analizador espectral. Sistemas de Comunicación I. Guía 1 1 I Facultad: Ingeniería Escuela: Electrónica Asignatura: Sistemas de comunicación Tema: Uso del analizador espectral. Objetivos Conocer el funcionamiento de un Analizador

Más detalles

SEGMENTACIÓN DE AUDIO Y DE LOCUTORES PARA RECUPERACIÓN DE INFORMACIÓN MULTIMEDIA Y SU APLICACIÓN A VIDEOS DE INFORMACIÓN TURÍSTICA

SEGMENTACIÓN DE AUDIO Y DE LOCUTORES PARA RECUPERACIÓN DE INFORMACIÓN MULTIMEDIA Y SU APLICACIÓN A VIDEOS DE INFORMACIÓN TURÍSTICA UNIVERSIDAD AUTONOMA DE MADRID ESCUELA POLITECNICA SUPERIOR PROYECTO FIN DE CARRERA SEGMENTACIÓN DE AUDIO Y DE LOCUTORES PARA RECUPERACIÓN DE INFORMACIÓN MULTIMEDIA Y SU APLICACIÓN A VIDEOS DE INFORMACIÓN

Más detalles

Silla de Ruedas Inteligente Controlada por Voz

Silla de Ruedas Inteligente Controlada por Voz Silla de Ruedas Inteligente Controlada por Voz J.M. Alcubierre 1, J. Minguez 1, L. Montesano 1, L. Montano 1, O. Saz 2, E. Lleida 2 Instituto de Investigación en Ingeniería de Aragón 1 Departamento de

Más detalles

SEGMENTACIÓN AUTOMÁTICA DE TEJIDOS CEREBRALES EN MRI MULTIESPECTRALES MEDIANTE CLASIFICACIÓN POR MÍNIMA DISTANCIA EUCLÍDEA

SEGMENTACIÓN AUTOMÁTICA DE TEJIDOS CEREBRALES EN MRI MULTIESPECTRALES MEDIANTE CLASIFICACIÓN POR MÍNIMA DISTANCIA EUCLÍDEA 42 Jornadas Argentinas de Informática 4 Congreso Argentino de Informática y Salud Facultad de Matemática, Astronomía y Física Universidad Nacional de Córdoba Córdoba, Argentina SEGMENTACIÓN AUTOMÁTICA

Más detalles

LOS SISTEMAS ADAPTATIVOS

LOS SISTEMAS ADAPTATIVOS 0010100100100101010110010001 0101010001010100101000101 0010100011110010110010001 11111111111010100010101001010010100010101010101 0010100011110101010101011100101001001010101100100010010100011110101010001

Más detalles

Métodos, Algoritmos y Herramientas

Métodos, Algoritmos y Herramientas Modelado y Simulación de Sistemas Dinámicos: Métodos, Algoritmos y Herramientas Ernesto Kofman Laboratorio de Sistemas Dinámicos y Procesamiento de la Información FCEIA - Universidad Nacional de Rosario.

Más detalles

Índice. TEMA 11. Equipos de metrología dimensional Máquinas medidoras de formas. 1. Descripción de las máquinas medidoras de formas (MMF).

Índice. TEMA 11. Equipos de metrología dimensional Máquinas medidoras de formas. 1. Descripción de las máquinas medidoras de formas (MMF). INTRODUCCIÓN A LA METROLOGÍA Curso Académico 2011-1212 Rafael Muñoz Bueno Laboratorio de Metrología y Metrotecnia LMM-ETSII-UPM TEMA 11. Equipos de metrología dimensional Máquinas medidoras de formas Índice

Más detalles

ANEXO III 2.º DE EDUCACIÓN SECUNDARIA

ANEXO III 2.º DE EDUCACIÓN SECUNDARIA ANEXO III 2.º DE EDUCACIÓN SECUNDARIA I. COMUNICACIÓN FUNCIONES DEL LENGUAJE CRITERIOS 1. Identificar el uso de las funciones del lenguaje, representativa, expresiva y conativa. COMUNICACIÓN ORAL 2. Reconocer

Más detalles

EL4005 Principios de Comunicaciones Clase No.3: Modelos de Canales y Modulación de Amplitud I

EL4005 Principios de Comunicaciones Clase No.3: Modelos de Canales y Modulación de Amplitud I EL4005 Principios de Comunicaciones Clase No.3: Modelos de Canales y Modulación de Amplitud I Patricio Parada Departamento de Ingeniería Eléctrica Universidad de Chile 18 de Agosto de 2010 1 of 25 Contenidos

Más detalles

Trabajo Práctico n 2. Robotización de un Puente Grúa. Presentación. Restricciones. Curso 2011

Trabajo Práctico n 2. Robotización de un Puente Grúa. Presentación. Restricciones. Curso 2011 Trabajo Práctico n 2 Robotización de un Puente Grúa Presentación Este problema consiste en desarrollar un sistema de control automático que permita robotizar la operación de un puente grúa para la carga

Más detalles

Motivación del LPTV. marco de tecnologías de voz (speech technology) aplicada a las telecomunicaciones.

Motivación del LPTV. marco de tecnologías de voz (speech technology) aplicada a las telecomunicaciones. I+D+I en biometría por voz en el LPTV Nestor Becerra Yoma, Ph.D. Speech Processing and Transmission Laboratory Department of Electrical Engineering Universidad de Chile, Santiago, Chile nbecerra@ing.uchile.cl

Más detalles

CAPITULO 1 INTRODUCCION AL PROYECTO

CAPITULO 1 INTRODUCCION AL PROYECTO CAPITULO 1 INTRODUCCION AL PROYECTO 1 INTRODUCCION AL PROYECTO 1.1 Marco Teórico Los procesadores digitales de señales ganaron popularidad en los años sesentas con la introducción de la tecnología de estado

Más detalles