Introducción al Procesamiento del Habla
|
|
- Eva Romero Fidalgo
- hace 5 años
- Vistas:
Transcripción
1 Escuela de Verano RIO 2016 Departamento de Computación, FCEFQyN Universidad Nacional de Río Cuarto Introducción al Procesamiento del Habla Prof. Agustín Gravano Departamento de Computación, FCEyN Universidad de Buenos Aires
2 Procesamiento del Habla Programa del curso: Lunes: Acústica, fonética y fonología. Sonido, onda, fono, fonema, espectrograma. Martes: Reconocimiento del habla. Mezclas de gausianas (GMM), Modelos ocultos de Markov (HMM). Miércoles: Síntesis del habla. Síntesis concatenativa, HMM, articulatoria y de formantes. Jueves: Usando el reconocimiento y la síntesis del habla. Pre- y pos-procesamiento en ASR y TTS. Sistemas de diálogo hablado. Viernes: Detección de características del hablante. Aprendizaje Automático. Detección de id, lenguaje, género, edad, etc.
3 Síntesis del Habla
4 Tipos de Síntesis del Habla Síntesis articulatoria. Síntesis de formantes. Síntesis basada en HMM. Síntesis concatenativa.
5 Síntesis Articulatoria Requiere precisos modelos mecánicos y acústicos de la producción del habla: Vibración de las cuerdas vocales (sonidos sonoros). Aspiración de aire (sonidos sordos). Movimiento de los articuladores (lengua, labios, etc.). Cómputos (costosos) de la acústica del tracto vocal. Produce resultados inteligibles y con amplio control, pero todavía lejos de sonar naturales.
6 Síntesis Articulatoria Virtudes: Control sobre la variabilidad prosódica Muy útil para generar estímulos en experimentos de percepción (p.ej.). Muy livianos. Costo bajo de cambiar de idioma. tts-vocaltractlab-halt.avi Nächster Halt: Hamburg. tts-vocaltractlab-zug.avi Der Zug hat eine Stunde Verspätung.
7 Síntesis de Formantes Síntesis paramétrica, acústica o de resonancia. Encapsula el tracto vocal como una caja negra. Busca reproducir sus características de input/output. A una fuente de sonido le aplica una combinación de filtros.
8 Síntesis de Formantes Parametric Artificial Talker, por Walter Lawrence (1953). tts-pat.wav - What did you say before that? Tea or coffee? What have you done with it? Demos: Ejemplo: tts-klaat.wav, generado con estos comandos: TIME=0; AV=80; F1=500; F2=1500; F3=2250; F0=120 TIME=30; AV=80; F1=650; F2=1700; F3=2500 TIME=50; F2=1775 TIME=250; F0=90 TIME=500; F0=130; F1=800; F2=1900; F3=3000 END Virtudes = síntesis articulatoria (control, liviano, idioma).
9 Ejercicio: Síntesis de Formantes con Klatt Generar los siguientes sonidos usando la interfaz web del sintetizador de formantes Klatt ( Las cinco vocales: /a/ /e/ /i/ /o/ /u/. Con Praat, medir en aeiou.wav los formantes de cada vocal. View & Edit; Seleccionar vocal; Formant > Get first/second/third formant Por ejemplo, este código genera una /a/: TIME=0; AV=80; F1=725; F2=1285; F3=2485 TIME+500 END Diptongos (/iu/ /ui/ /ai/ /ia/, etc.). La vocal /a/, ahora con tres contornos de entonación distintos (ej: ascendente, sostenido, descendente). Para esto, modificar F0 (frecuencia fundamental). Para aprender a manejar Klatt, leer las instrucciones de la página de arriba. Ayuda: para estos ejercicios no hace falta usar más variables que F0, F1, F2, F3, AV y TIME. Igual, experimenten con otras variables para ver qué efecto tienen.
10 Síntesis Basada en HMM Hidden Markov Model (HMM) Modelo probabilístico generativo usado en reconocimiento. Fono Patrón espectral. Reconocer un fono == Reconocer su patrón espectral. Cómo usar HMM para síntesis? Para sintetizar una secuencia de fonos [xyz], producimos el espectrograma de [xyz] según el HMM. a e i o u Entrenamiento Síntesis
11 Síntesis Concatenativa 1936 Speaking Clock del Reino Unido: tts-clock.wav At the third stroke, it will be eight fifty-seven, precisely Hora oficial de la Argentina: tts-113.wav Tiene infinidad de usos en dominios específicos: El vuelo número N N N N de AEROLINEA con destino a CIUDAD se encuentra ESTADO. Muy barato, fácil de implementar, de rápido desarrollo.
12 Síntesis Concatenativa 1) Construir una base de datos de habla. a) Grabar a una persona diciendo oraciones preparadas. b) Recortar unidades de habla (frases, palabras, sílabas, sonidos, etc.). 2) Para cada nueva oración a sintetizar: a) Elegir las unidades de la base de datos. b) Concatenarlas. c) [Procesar el resultado para mejorar la calidad.]
13 Difonos Para sintetizar cualquier oración (dominio abierto), necesitamos usar unidades más chicas. Difono: Desde la región estable de un fono hasta la región estable del siguiente fono. -s sa ap po o- s a p o o Los difonos capturan la coarticulación (influencia de un fono sobre sus vecinos) y evitan saltos en la señal.
14 Síntesis Concatenativa Dominio abierto (sintetizar cualquier oración): Unidad = difono (desde el medio de un fono hasta el medio del siguiente) Síntesis de difonos: Guardar una sola instancia de cada difono. Modificar la secuencia para cambiar la prosodia. Selección de unidades: Guardar varias instancias de cada difono. Elegir difonos cercanos a la prosodia deseada.
15 Síntesis de Difonos 1) Preparar un inventario de difonos. 2) Armar frases que contengan todos los difonos. 3) Grabar a un/a locutor/a leyendo las frases. 4) Segmentar y etiquetar los difonos. 5) Guardar una instancia de cada uno.
16 Inventario de difonos Cantidad de difonos = O(fonos 2 ) No todos los difonos son válidos en un lenguaje. Restricciones fonotácticas. Ejemplos en español: /pf/ /kg/ /pp/... Ejemplo: Sistema en inglés (AT&T, Olive et al. 1998). 43 fonos = 1849 difonos posibles. Sólo 1162 difonos válidos.
17 Frases, grabación y segmentación Tono, intensidad y duración constantes. Frases portadoras: aportan consistencia. /ba/ #tabama# /-a/ #ama# /pa/ #tapama# /-e/ #ema# /sa/ #tasama# /-o/ #oma# # = silencio Antes de grabar cada frase, escuchar una frase fija. Segmentación semi-automática de difonos. 1) Alineación forzada con sistema de reconocimiento de habla. 2) Corrección manual.
18 Concatenación de difonos Concatenar difonos puede generar ruidos (clicks) causados por 3 tipos de discontinuidad: De fase. De tono (f0). De espectro. Smoothing (suavizado) de las uniones. Hanning windowing. Señal original: x(t) Ventana de Hanning: w(t) Señal modificada: x(t) w(t)
19 Modificación de la prosodia Todos los difonos tienen la misma prosodia (f0, int, dur). La prosodia deseada se consigue con proc. de señales. La intensidad se puede modificar fácilmente. Cómo modificar tono y duración? Aumentar la duración de una señal disminuye el tono. TD-PSOLA: Time-Domain Pitch-Synchronous Overlap-and-Add Identificar ciclos básicos de la señal. Para cambiar la duración: duplicar/borrar ciclos. Para cambiar el tono: juntar o separar ciclos.
20 TD-PSOLA: Cómo identificar ciclos básicos Pitch marking Electroglotógrafo (EGG) durante la grabación. Automáticamente: algoritmos aproximados (ej: autocorrelación).
21 TD-PSOLA: Cómo modificar la duración Duplicar ciclos para alargar la señal. Eliminar ciclos para acortar la señal.
22 TD-PSOLA: Cómo modificar el tono Juntar ciclos para aumentar la frecuencia (y el tono); separarlos para disminuir la frecuencia. Agregar ciclos cuando sea necesario para mantener la duración deseada. overlap-and-add
23 Modificación del tono TD-PSOLA: muy eficiente. Hanning windowing En Praat, la función To Manipulation... usa esta técnica.
24 Seleccionar un objeto de tipo 'Sound' Manipulate To manipulation... (Usar rango tonal Hz.) View & Edit. Pitch Stylize pitch (2st) Para modificar el tono, en la capa Pitch manip : Arrastrar los puntos. Agregar puntos con: click, CTRL+T. Para modificar la duración, en la Duration manip : Ejercicio: Manipulación de prosodia con Praat Arrastrar los puntos. Agregar puntos con: click, CTRL+D. Ejercicio 1: Abrir cena.wav. Modificar su prosodia para que suene a una pregunta (mejor aún si suena indignada). Ejercicio 2: Abrir lamparita.wav. Modificar su prosodia para que diga alcanza en lugar de alcanzá.
25 Síntesis de difonos Base de datos pequeña: ~8MB para inglés (16Hz, 16 bits). Modificación de la prosodia con procesamiento de señales (e.g. TD-PSOLA): resultados poco naturales. Idea alternativa: Guardar muchas instancia de cada difono; al sintetizar, elegir la instancia con las características prosódicas más parecidas a las deseadas. Eso se conoce como síntesis con selección de unidades.
26 Síntesis con selección de unidades Las frases a grabar deben contener múltiples instancias de cada difono. Respetar la distribución de frecuencias del lenguaje. En español, muchas instancias de /la/; pocas de /pt/. Varias horas de grabación. Segmentación semi-automática de fonemas. 1) Alineación forzada con sistema de reconocimiento. 2) Corrección manual.
27 Síntesis con selección de unidades Síntesis = Encontrar en la base de datos la secuencia de difonos que mejor cumpla la especificación dada. Qué significa mejor? Costo del objetivo (T): Cuán bien respetan los difonos las características especificadas (prosodia, contexto, etc.). Costo de unión (J): Cuán bien se concatenan los difonos adyacentes. Û =argmin U i T (s i,u i )+ i J (u i, u i +1 ) donde s i : especificación de la i-ésima unidad a sintetizar u i : unidad de la base de datos
28 Costo del objetivo T(s, u) Cuánto se parecen la unidad u (de la base de datos) y la especificación objetivo s? Ejemplos de especificaciones de difonos: /-t/, acentuado, principio frase, F0 alto, adverbio,... /la/, no acent., medio frase, F0 medio, artículo,... Costo objetivo T = suma de P subcostos T p : Acentuación, posición en la frase y en la palabra, F0, duración, intensidad, POS de la palabra, etc. Cada subcosto tiene un peso w p T (s, u)= w p T p (s, u) p=1 Cómo se determinan los pesos w p? P
29 Costo de unión J(u i, u i+1 ) Cuán suave es la concatenación de dos unidades u i y u i +1 (ambas de la base de datos)? Costo de unión J = suma de P subcostos J p : Intensidad, F0, atributos espectrales, etc. Cada subcosto tiene un peso w p. P J (u i, u i +1 )= p =1 w p J p (u i,u i +1 )
30 Síntesis con selección de unidades S = -o ol la am mu un nd do o- (con sus especificaciones prosódicas y contextuales) Base de datos de difonos: -o ol la am mu un nd do o- Û -o ol ol la la am un un nd nd do do o- o- la nd o- Û =argmin U i T (s i, u i )+ i J (u i, u i +1 )
31 Síntesis con selección de unidades Algoritmo de Viterbi Programación dinámica. Encuentra en forma eficiente y exacta el camino con el costo más bajo. Complejidad: O(M * N 2 ). M = Longitud de la secuencia objetivo. N = Número de difonos en la base de datos.
32 Síntesis con selección de unidades Resultados más naturales que con otras técnicas. Base de datos muy grande: O(GB). Búsqueda de difonos: cara computacionalmente. Cuadrática en el tamaño de la base de datos! Técnicas de optimización: e.g. clustering de difonos. La calidad puede ser muy mala cuando no hay buenos candidatos en la base de datos. Problema: en interacciones humano-máquina suele ser muy molesto mezclar cosas muy buenas y muy malas.
33 Herramientas y Demos de TTS Herramientas para desarrollo: Festival Mary TTS Demos comerciales: Cepstral Nuance vices/inbound-solutions/loquendo-small-business-bundle/tts-demo/spanish/index.htm LumenVox AT&T att-demo.wav
34 Síntesis del Habla Resumen Síntesis articulatoria: Modelos del tracto vocal. Síntesis de formantes: Fuentes y filtros. Síntesis basada en HMM. Síntesis concatenativa: Dífonos, TD-PSOLA, selección de unidades.
Síntesis Concatenativa. Introducción a las Tecnologías del Habla 2 o cuatrimestre 2014 Agustín Gravano
Síntesis Concatenativa Introducción a las Tecnologías del Habla 2 o cuatrimestre 2014 Agustín Gravano Sistema text-to-speech (TTS) Front end Input: Texto en algún formato: HTML, email, etc. Procesamiento
Síntesis del Habla. Introducción a las Tecnologías del Habla 2 o cuatrimestre 2014 Agustín Gravano
Síntesis del Habla Introducción a las Tecnologías del Habla 2 o cuatrimestre 2014 Agustín Gravano Síntesis del Habla Clase de Hoy Un poco de historia. Primeros intentos de construir máquinas parlantes.
Procesamiento del Habla
Departamento de Computación, FCEyN, UBA Procesamiento del Habla Agustín Gravano 1er Cuatrimestre 2017 Prosodia Entonación, ritmo y más... Ejemplo de síntesis caperucita-roja.ogg Sintetizado con Bluemix
Reconocimiento Automático de Voz
Reconocimiento Automático de Voz Presentación basada en las siguientes Referencias: [1] Rabiner, L. & Juang, B-H.. Fundamentals of Speech Recognition, Prentice Hall, N.J., 1993. [2] Rabiner, L. & Juang,
Capítulo 2: Sistemas de síntesis de voz.
Capítulo 2:. 2.1. Introducción. Si bien existen varias clasificaciones posibles de los sistemas de síntesis de voz, la más común de todas ellas es aquella que se refiere al tipo de codificación de la señal
I. LA SÍNTESIS DE VOZ
I. LA SÍNTESIS DE VOZ I.1 Introducción. Muchos sistemas de laboratorio y dispositivos comerciales realizan la conversión automática de un texto a voz sintetizada. El progreso en este área ha sido posible
Introducción al Procesamiento del Habla
Escuela de Verano RIO 2016 Departamento de Computación, FCEFQyN Universidad Nacional de Río Cuarto Introducción al Procesamiento del Habla Prof. Agustín Gravano Departamento de Computación, FCEyN Universidad
Acústica del Habla. Introducción a las Tecnologías del Habla 2 o cuatrimestre 2014 Agustín Gravano
Acústica del Habla Introducción a las Tecnologías del Habla 2 o cuatrimestre 2014 Agustín Gravano Repaso clase anterior Procesamiento del Habla Construir sistemas informáticos capaces de manipular efectivamente
Procesamiento del Habla
Departamento de Computación, FCEyN, UBA Procesamiento del Habla Agustín Gravano 1er Cuatrimestre 2017 Procesamiento del Habla Objetivo: Construir sistemas informáticos capaces de manipular efectivamente
UNIVERSIDAD DE GRANADA PROCESAMIENTO DE VOZ
UNIVERSIDAD DE GRANADA PLAN DE ESTUDIOS: DIPLOMADO EN LOGOPEDIA PROCESAMIENTO DE VOZ Ángel de la Torre Vega Dpto. Teoría de la Señal, Telemática y Comunicaciones Procesamiento de Voz ATV Dpto. Teoría de
2. SÍNTESIS DE VOZ Y SEGMENTACIÓN AUTOMÁTICA DE UNIDADES
2. SÍNTESIS DE VOZ Y SEGMENTACIÓN AUTOMÁTICA DE UNIDADES Continuando con el panorama general en el que se enmarca nuestro proyecto, en este capítulo hablaremos brevemente de la síntesis de voz, particularizaremos
Asignación de Prosodia en Sistemas TTS
Asignación de Prosodia en Sistemas TTS Introducción a las Tecnologías del Habla 2 o cuatrimestre 2014 Agustín Gravano Prosodia en sistemas TTS Dos tareas separadas: 1) Dado un texto, determinar una prosodia
3. ESTRUCTURA DE UN CONVERSOR TEXTO-VOZ
Capítulo 3. Estructura de un conversor texto-voz Pagina 27 3. ESTRUCTURA DE UN CONVERSOR TEXTO-VOZ 3.1 INTRODUCCIÓN La conversión automática de texto a voz requiere la sucesión de una serie de procesos
Introducción a las Tecnologías del Habla
Introducción a las Tecnologías del Habla Profesor: Agustín Gravano 2 o cuatrimestre 2014 Departamento de Computación FCEyN UBA Procesamiento del Habla Objetivo: Construir sistemas informáticos capaces
Procesamiento de la señal de voz
Procesamiento de la señal de voz Leandro Vignolo Procesamiento Digital de Señales Ingeniería Informática FICH-UNL 29 de mayo de 2014 L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de
Fonética y Fonología españolas
Fonética y Fonología españolas Fonética y Fonología españolas Mary C. Iribarren EDITORIAL SINTESIS Consulte nuestra página web: www.sintesis.com En ella encontrará el catálogo completo y comentado Reservados
Reconocimiento y Síntesis de voz. Escrito por Cristina Villoria Martes, 31 de Marzo de :11
La accesibilidad en el mundo de la informática es la tarea prioritaria a la hora de desarrollar nuevos programas y componentes para nuestros ordenadores... INTRODUCCIÓN La accesibilidad en el mundo de
Fonética y Fonología españolas
Fonética y Fonología españolas Mary C. Iribarren EDITORIAL SÍNTESIS índice Prefacio 15 Introducción 17 1. La producción de los sonidos del lenguaje 19 1.1. Causa y origen del sonido articulado 19 1.2.
Análisis de Rasgos Prosódicos en el Español Rioplatense y su Aplicación en el Reconocimiento del Habla
Análisis de Rasgos Prosódicos en el Español Rioplatense y su Aplicación en el Reconocimiento del Habla Tesista: Diego Evin Director: Ing. Jorge Gurlekian Codirector: Dr. Diego Milone Organización de la
Aplicaciones del análisis acústico en los estudios de la voz humana
Seminario Internacional de Aplicaciones del análisis acústico en los estudios de la voz humana Matías Zañartu Salas Unidad de Acústica - Escuela de Fonoaudiología Universidad Mayor Av. Libertador Bdo.
Introducción al Procesamiento del Habla
Escuela de Verano RIO 2016 Departamento de Computación, FCEFQyN Universidad Nacional de Río Cuarto Introducción al Procesamiento del Habla Prof. Agustín Gravano Departamento de Computación, FCEyN Universidad
Fonética práctica UVG Sololá de julio El uso de Praat. https://campuspress.yale.edu/ ryanbennett/fonetica-practica
Fonética práctica UVG Sololá 14-16 de julio 2016 El uso de Praat https://campuspress.yale.edu/ ryanbennett/fonetica-practica 1 Para empezar Descargar Praat: http://www.fon.hum.uva.nl/praat/ Windows: http://www.fon.hum.uva.nl/praat/download_win.html
ESPA 3295: Gramática española - UPR Mayagüez - Otoño 2013 Profesor Melvin González Rivera
Lección 2 - Fonética y fonología lunes 9-viernes 13 de septiembre de 2013 ESPA 3295: Gramática española - UPR Mayagüez - Otoño 2013 Profesor Melvin González Rivera PREGUNTA: Cómo se articulan las consonantes?
Síntesis de Voz Prof. Eduardo López Gonzalo
Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upm.es Dpto. Señales, Sistemas y Radiocomunicaciones Tipos de Síntesis de Voz y Aplicaciones Principios básicos de Sistemas de Conversión de Texto a
Procesamiento del Habla
Departamento de Computación, FCEyN, UBA Procesamiento del Habla Agustín Gravano 1er Cuatrimestre 2017 Acústica. Repaso de la clase anterior Sonidos periódicos y aperiódicos. Ondas periódicas simples. Ciclo,
Seguimiento de los parámetros del modelo del tracto vocal
Algoritmos para el seguimiento de los parámetros del modelo de tracto vocal Monografía de Tratamiento Estadístico de Señales parias@fing.edu.uy Instituto de Ingeniería Eléctrica Facultad de Ingeniería
Procesamiento del Audio. Eduardo Morales Vargas
Procesamiento del Audio Eduardo Morales Vargas 1 Contenido Calidad de sonido contra razón de muestreo Síntesis y reconocimiento de voz 22/11/2015 2 Calidad de sonido contra razón de muestreo 22/11/2015
Sistema Automático de Reconocimiento Fonético
PROYECTO FIN DE CARRERA para la obtención del título de Ingeniero Industrial Sistema Automático de Reconocimiento Fonético Alumno: Francisco José Cadaval Arrola Tutor: Dr. J. Ramiro Martínez de Dios Departamento
Procesamiento de voz - Reconocimiento de voz I
Procesamiento de voz - Reconocimiento de voz I Marc S. Reßl Roxana Saint-Nom 2009 Ingeniería Electrónica Instituto Tecnológico de Buenos Aires Reconocimiento de voz El reconocimiento automático de voz
Síntesis de voz en el dialecto venezolano por medio de la concatenación de difonos
Síntesis de voz en el dialecto venezolano por medio de la concatenación de difonos Speech synthesis of the venezuelan dialect via diphone concatenation M. Rodríguez*, E. Mora** *Departamento de Electrónica
Reconocimiento Automático de Locutor
Reconocimiento Automático de Locutor Joaquín González Rodríguez ATVS Biometric Recognition Group Universidad Autónoma de Madrid http://atvs.ii.uam.es Sumario Introducción: n: voz e identidad Reconocimiento
Trabajo de Grado presentado para optar al título de Ingeniero de Sonido. Asesor: Santiago Ruiz Sánchez
Desarrollo de un prototipo de convertidor de texto a voz por medio de síntesis concatenativa para realizar análisis comparativo entre los métodos MBR-PSOLA y FD-PSOLA Vanessa Mususué Castro, Julián Andrés
Coeficientes Cepstrales en Frecuencia Mel y Dynamic Time Warping para Reconocimiento Automatico del Habla
Coeficientes Cepstrales en Frecuencia Mel y Dynamic Time Warping para Reconocimiento Automatico del Habla Jorge Luis Guevara Diaz Semana ciencia de la Computación Escuela de Informática Universidad Nacional
Lingüística computacional
Lingüística computacional Definición y alcance Escuela Nacional de Antropología e Historia (ENAH) Agosto diciembre de 2015 Lingüística Ciencias de la computación Lingüística computacional Estudio del lenguaje
Procesamiento de la voz
Procesamiento de la voz Diego Milone Leandro Vignolo Muestreo y Procesamiento Digital Ingeniería Informática FICH-UNL 18 de mayo de 2011 Organización de la clase Aparato fonador y oído Generalidades del
Tecnologías del habla
Tecnologías del habla Inmaculada Hernaez Eduardo Lleida Eva Navas Alfonso Ortega Curso 2006/2007 Programa Introducción 1. Generación y percepción de la señal de voz Producción Modelos digitales Percepción
TECNOLOGIAS DE LA VOZ
DEPARTAMENTO DE INGENIERÍA ELECTRÓNICA Y COMUNICACIONES CENTRO POLITÉCNICO SUPERIOR UNIVERSIDAD DE ZARAGOZA TECNOLOGIAS DE LA VOZ 5000 0-5000 señal original 200 250 300 350 Señal sintetizada 10000 5000
Sintetizadores y Corpus de voz
Capítulo 2 Sintetizadores y Corpus de voz 2.1 Qué es un Sintetizador de Voz? Con el paso del tiempo la tecnología del habla ha englobado conocimientos que pertenecen a distintas áreas, entre ellas la lingüística,
Procesamiento de voz - Reconocimiento de voz II
Procesamiento de voz - Reconocimiento de voz II Marc S. Reßl Roxana Saint-Nom 2009 Ingeniería Electrónica Instituto Tecnológico de Buenos Aires Reconocimiento de voz Las técnicas que vimos hasta ahora
Capítulo 1. Sistemas de reconocimiento y síntesis de voz
Capítulo Sistemas de reconocimiento y síntesis de voz Durante los últimos años ha surgido un nuevo tipo de interfaces humanocomputadora que combinan varias tecnologías del lenguaje para permitir el acceso
HAMILTON COLLEGE ACADEMIC YEAR IN SPAIN
HAMILTON COLLEGE ACADEMIC YEAR IN SPAIN Asignatura: Fonética Española Profesora: Mar Campelo Moreno Curso académico: 2011-2012 Semestre: Otoño Horario: Martes y jueves de 9:00h a 10:25h. Descripción del
El Sistema de Producción de Voz
El Sistema de Producción de Voz Rafael Martínez Olalla Grupo de Informática Aplicada al Procesamiento de Señal e Imagen (GIAPSI) Universidad Politécnica de Madrid, Campus de Montegancedo, s/n, 28660 Boadilla
La percepción del acento léxico en español Joaquim Llisterri, María Jesús Machuca, Carme de la Mota, Montserrat Riera y Antonio Ríos
XXXIII XXXIII SIMPOSIO DE DE LA LA SOCIEDAD ESPAÑOLA DE DE LINGÜÍSTICA Universitat de de Girona, 16-19 de de diciembre de de 2003 2003 La percepción del acento léxico en español Joaquim Llisterri, María
Procesamiento de voz - El mecanismo de producción
Procesamiento de voz - El mecanismo de producción Marc S. Reßl Roxana Saint-Nom 2009 Ingeniería Electrónica Instituto Tecnológico de Buenos Aires El aparato fonador Los pulmones son la fuente de la excitación
Las consonantes oclusivas sordas.
Las consonantes oclusivas sordas. [p] [e] [t] [a] [k] [a] LAS CONSONANTES OCLUSIVAS: CARACTERÍSTICAS GENERALES Primeramente, cabe destacar que las consonantes oclusivas se perciben fácilmente en un espectrograma,
6.542J, J, HST.712J CURSO PRÁCTICO EN FISIOLOGÍA, ACÚSTICA Y PERCEPCIÓN DEL HABLA Otoño del Programa 06/09/01 TEMAS A CUBRIR
6.542J Programa 06/09/01 1 6.542J, 24.966J, HST.712J CURSO PRÁCTICO EN FISIOLOGÍA, ACÚSTICA Y PERCEPCIÓN DEL HABLA Otoño del 2001 Programa 06/09/01 TEMAS A CUBRIR A. Introducción 1. 6 de sept. Organización;
Manual de fonética y fonología españolas
SUB Hamburg B/168110 %bm 3 Manual de fonética y fonología españolas J. Halvor Clegg Willis C. Fails 0 Routledge 1 Taylor &. Francis Group LONDON AND NEW YORK Indice general Dedicatoria y agradecimientos...y
Introducción a las Tecnologías del Habla Presentación de papers relacionados
Introducción a las Tecnologías del Habla Presentación de papers relacionados Prof. Agustín Gravano Modelización de patrones melódicos del español para la síntesis y el reconocimiento de habla 26 de Noviembre
Capítulo 7. Sistema de reconocimiento de Voz. Como se mencionó en el capítulo anterior, dos fonemas, debido a los problemas
Capítulo 7 Sistema de reconocimiento de Voz Como se mencionó en el capítulo anterior, dos fonemas, debido a los problemas de discapacidad pueden presentar la misma señal en frecuencia, por lo que podría
Síntesis de Voz. Prof. Eduardo López Gonzalo Dpto. Señales, Sistemas y Radiocomunicaciones
Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upm.es Dpto. Señales, Sistemas y Radiocomunicaciones Tipos de y Aplicaciones Principios básicos de Sistemas de Conversión de Texto a Voz (TTS systems)
Fundamentos acústicos al respecto de los tonos
Fundamentos acústicos al respecto de los tonos Christian T. DiCanio dicanio@haskins.yale.edu Haskins Laboratories http://linguistics.berkeley.edu/ dicanio 17/6/12 Christian DiCanio ((((Haskins)))) Acústica
Proyecto Especial Señales y Sistemas
Proyecto Especial Señales y Sistemas Análisis y síntesis de sonidos vocálicos Objetivo El objetivo del presente proyecto es la utilización de algunas de las técnicas de análisis y procesamiento de señales
La percepción del acento léxico en una lengua extranjera
1/15 en español por parte de hablantes nativos de italiano en español por parte de hablantes nativos de francés Comparaciones interlingüísticas Conclusiones generales Coloquio Europeo Verbo-Tonal Percepción
Procesamiento del Habla
Departamento de Computación, FCEyN, UBA Procesamiento del Habla Agustín Gravano 1er Cuatrimestre 2017 Fonética y Fonología Los sonidos del lenguaje De estas figuras, cuál se llama Buba y cuál Kiki? Los
Fonética práctica UVG Sololá de julio 2016
Fonética práctica UVG Sololá 14-16 de julio 2016 Espectros de potencia y la acústica de las vocales https://campuspress.yale.edu/ ryanbennett/fonetica-practica 1 Periodicidad Las ondas acústicas se pueden
Capítulo 4. SAPI. 4.1 Qué es Microsoft Speech Application Program Interface (SAPI)?
Capítulo 4. SAPI. 4.1 Qué es Microsoft Application Program Interface (SAPI)? La SAPI es una interfaz de reconocimiento del habla y de síntesis de voz para la programación de aplicaciones basadas en Win32
Índice general. Introducción... 23
Índice general Introducción... 23 Parte I. Inteligencia Artificial 1. Conocimiento y Razonamiento... 33 1.1. Introducción... 33 1.2. Representaciones proposicionales... 34 1.3. Representaciones estructuradas...
A. LA GENERACIÓN DEL SONIDO
A. LA GENERACIÓN DEL SONIDO Objetivos Mostrar las principales características de un tono puro al ser representado en un diagrama de intensidad contra tiempo. Introducción Evidenciar las relaciones entre
Naturalidad y expresividad en la conversión de texto en habla: las consonantes róticas en coda silábica en
Naturalidad y expresividad en la conversión de texto en habla: las consonantes róticas en coda silábica en español Luz Rello y Joaquim Llisterri Universitat Autònoma de Barcelona luzrello@gmail.com - joaquim.llisterri@uab.cat
Modelo de producción de la voz
Modelo de producción de la voz Fonética y fonémica Fonema: Unidad teórica básica para describir cómo la voz transporta un significado lingüístico. Sonido: Realización práctica de un fonema Fonémica: Estudio
III. LA BASE DE DATOS.
III. LA BASE DE DATOS. III.1. Introducción. Para la extracción de los parámetros que caracterizan a cada emoción partimos de una base de datos que se compone de frases y párrafos recitados por un actor
Test La Fonética es la parte de la Lingüística que estudia
Test 12 1. La Fonética es la parte de la Lingüística que estudia a) El aspecto oral del lenguaje. b) El aspecto escrito del lenguaje. c) El Aspecto oral y el aspecto escrito del lenguaje. 2. La Fonología
Juana Gil. Anexo 1: Conceptos fundamentales de fonética acústica. Aspectos fonéticos del español como segunda lengua.
1 Aspectos fonéticos del español como segunda lengua. Juana Gil. Anexo 1: Conceptos fundamentales de fonética acústica 1. La onda sonora 2. Tipos de ondas 3. Las ondas de los sonidos del habla 4. La resonancia
CONVERSIÓN DE TEXTO A VOZ USANDO MODELOS OCULTOS DE MARKOV
i REPÚBLICA BOLIVARIANA DE VENEZUELA UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA ANTONIO JOSÉ DE SUCRE VICERRECTORADO BARQUISIMETO DEPARTAMENTO DE INGENIERÍA ELECTRÓNICA CONVERSIÓN DE TEXTO A VOZ USANDO
Instituto tecnológico de Massachussets Departamento de Ingeniería eléctrica e informática Reconocimiento automático del habla Primavera 2003
Instituto tecnológico de Massachussets Departamento de Ingeniería eléctrica e informática 6.345 Reconocimiento automático del habla Primavera 2003 Trabajo 2 Estructura de la sílaba Publicado: 14/02/03
Foné%ca General UVG Al%plano. Las Acús(cas de los Consonantes
Foné%ca General UVG Al%plano Las Acús(cas de los Consonantes 1 Las Espectrogramas Cual información podemos ver en las espectrogramas acerca de los consonantes? Duración Voz (estriaciones, barra de voz)
Modelos de producción de voz. Curso de doctorado 2001/2002 Inmaculada Hernáez
Modelos de producción de voz Curso de doctorado 2001/2002 Inmaculada Hernáez inma@bips.bi.ehu.es Modelos de producción de voz Teoría de la producción del habla El sintetizador de formantes Teoría de la
Síntesis del habla. Helenca Duxans Barrobés Marta Ruiz Costa-jussà PID_
Síntesis del habla Helenca Duxans Barrobés Marta Ruiz Costa-jussà PID_00188071 CC-BY-NC-ND PID_00188071 Síntesis del habla Los textos e imágenes publicados en esta obra están sujetos excepto que se indique
Audio ::: Aplicar efectos Diseño de materiales multimedia. Web Aplicar efectos
280 3.7 Aplicar efectos 281 3.7 Aplicar efectos Audacity proporciona múltiples efectos que se pueden aplicar a un fragmento de audio digital: amplificar su volumen, modificar su velocidad o ritmo, ecualizarlo,
Tema 1. Producción de Voz y Fonética
Tema 1. Producción de Voz y Fonética 1.1.- La señal de voz 1.2.- Características temporales de la señal de voz 1.3.- Naturaleza de las señales habladas 1.4.- Características estadísticas de la señal hablada
La fonética judicial. La comparación de muestras de habla
La fonética judicial!ámbitos de la fonética judicial!la identificación del hablante en el contexto judicial!la comparación entre muestras de habla!el reconocimiento de voces por parte de testigos o de
$63(&7267e&1,&26'(/ /,0,7$&,21(6. Ángel de la Torre Vega. Dpto. Electrónica y Tecnología de Computadores. Universidad de Granada
$63(&7267e&1,&26'(/,03/$17(&2&/($5 )81&,21$0,(172326,%,/,'$'(6< /,0,7$&,21(6 Ángel de la Torre Vega Dpto. Electrónica y Tecnología de Computadores Universidad Ángel de la Torre Vega G.I. Procesamiento
Análisis de imágenes digitales
Análisis de imágenes digitales MEJORAMIENTO DE LA IMAGEN Procesamiento del histograma DISTRIBUCIÓN DE PÍXELES El histograma de una imagen es un gráfico de las frecuencias relativas de ocurrencia de cada
Tema 6. Reconocimiento de voz
Tema 6. Reconocimiento de voz 6.1.- Introducción 6.2.- Problemática 6.3.- Clasificación 6.4.- Esquema de trabajo 6.5.- Técnicas de reconocimiento 6.6.- Conclusiones 6.1.- Introducción Reconocimiento de
otros gráficos que se muestran superpuestos, por ejemplo, si aparece el pitch o si se ven puntos
Manual básico de PRAAT ESPECTROGRAMAS 1 4. ESPECTROGRAMAS Con un objeto de tipo sound en el panel PRAAT OBJETCS, al activar el botón EDIT aparece una ventana que muestra por defecto un espectrograma de
Introducción al análisis de sonidos
Introducción al análisis de sonidos Marcelo Araya-Salas New Mexico State University Taller análisis de vocalizaciones animales en R Modificado de Bradbury y Vehrencamp 2010 Grabación de sonidos Sonido:
Materiales en la web http//liceu.uab.es/ ~joaquim/teaching/ Phonetics/Oviedo_03/ Oviedo_03.html
El análisis del plano de la expresión LXIII Cursos de Verano Extensión n Universitaria 2003 Universidad de Oviedo, 17 de julio de 2003 Fonética y tecnologías del habla Departament de Filologia Espanyola,
Síntesis de Voz en Español
INSTITUTO POLITECNICO NACIONAL Unidad Profesional Interdisciplinaria en Ingeniería y Tecnologías Avanzadas U P I I T A Síntesis de Voz en Español Trabajo Terminal Que para obtener el Titulo de Ingeniero
CAPÍTULO 1. /b/ /d/ /g/ [ ] [ ] [ ] FONÉTICA Y FONOLOGÍA ESPAÑOLAS. Ejercicios
CAPÍTULO 1 /b/ /d/ /g/ [ ] [ ] [ ] FONÉTICA Y FONOLOGÍA ESPAÑOLAS Ejercicios Ejercicios capítulo 1 2 1.1. Sin Visite www.wiley.com/college/schwegler Visite la página www.wiley.com/college/schwegler y familiarícese
Microsoft Excel 2010
Unidad 2 Planilla de cálculos. Libros y Planillas de Cálculo. Procesamiento avanzado de datos. Microsoft Excel 2010 Dra. María Paula González http://cs.uns.edu.ar/~mpg Depto. de Ciencias e Ingeniería de
Fonología generativa contemporánea de la lengua española
Fonología generativa contemporánea de la lengua española Rafael A. Núñez Cedeño Alfonso Morales-Front Colaboran Pilar Prieto i Vives José Ignacio Hualde Georgetown University Press Washington DC índice
Bases Formales de la Computación: Sesión 3. Modelos Ocultos de Markov
Bases Formales de la Computación: Sesión 3. Prof. Gloria Inés Alvarez V. Departamento de Ciencias e Ingeniería de la Computación Pontificia Universidad Javeriana Cali Periodo 2008-2 Contenido 1 Introducción
La fonología es esencialmente la descripción del sistema y de los patrones de los sonidos de una lengua (Yule 1998:66).
8 1.5. La Fonología 1.5.1. Definición Algunas definiciones de Fonología: La fonología es esencialmente la descripción del sistema y de los patrones de los sonidos de una lengua (Yule 1998:66). G. Yule
LA VOZ Y ELEMENTOS PROSÓDICOS. Mª Nieves Sánchez Garrucho Educación Infantil
LA VOZ Y ELEMENTOS PROSÓDICOS Mª Nieves Sánchez Garrucho Educación Infantil Sonido producido por el ser humano cuando el aire es expulsado a través de la laringe y hace que vibren las cuerdas vocales.
Redes Neuronales Artificiales El Perceptrón
1 Sistemas Expertos e Inteligencia Artificial / Guía IX / Ciclo 01-2018 Facultad: Ingeniería Escuela: Computación Asignatura: Sistemas Expertos e Inteligencia Artificial Redes Neuronales Artificiales El
PROCESAMIENTO Y RECONOCIMIENTO DE VOZ EN LENGUA NÁHUATL
Anexo Proyecto 20080449 PROCESAMIENTO Y RECONOCIMIENTO DE VOZ EN LENGUA NÁHUATL Resumen El proyecto presenta el diseño y captura de corpus de voces para la lengua Náhuatl. De los corpus diseñados se completó
Programa de estimulación temprana lingüístico. HABLA y CONCIENCIA FONOLÓGICA EN EL AULA CON LA LOGOPEDA DEL CENTRO
Programa de estimulación temprana lingüístico HABLA y CONCIENCIA FONOLÓGICA EN EL AULA CON LA LOGOPEDA DEL CENTRO OBJETIVOS GENERALES - Enriquecimiento de la comunicación lingüística y no lingüística.
Capítulo III. Corpus de voz. 3.1 Corpus de dígitos
Capítulo III Corpus de voz Un corpus es la colección de grabaciones de voz con transcripciones de texto, los cuales se preparan y dividen para el desarrollo, prueba y entrenamiento de un reconocedor. La
QUÉ ES UNA TABLA DINÁMICA?
TABLAS DINAMICAS QUÉ ES UNA TABLA DINÁMICA? DEFINICIÓN Una tabla dinámica es una de las herramientas más poderosas de Excel, te permiten resumir y analizar fácilmente grandes cantidades de información
EL GÉNERO DE LAS VOCES
Castro, Sabrina; López Sabrina EL GÉNERO DE LAS VOCES El propósito de este trabajo fue determinar si la información que utiliza el cerebro para distinguir las vocales, depende del sexo del emisor. INTRODUCCIÓN
18/08/2009. Unidad 3: Audacity Autor: Alejandra Hernández Silva
Unidad 3: Audacity 1.2.6 GUÍA DE AUTOESTUDIO Autor: Alejandra Hernández Silva 1 Audacity 1.2.6 SOFTWARE LIBRE PARA CREACIÓN Y EDICIÓN DE AUDIO Características de Audacity Herramienta libre y open source
editorialcepe.es 1. PRESENTACIÓN E INTRODUCCIÓN AL PROGRAMA E.LECTOES
ÍNDICE editorialcepe.es 1. Presentación e introducción... 9 2. El programa: Contenido y modo de proceder... 13 2.1. Contenido y funciones básicas... 15 2.2. Modo de proceder... 19 3. La lectura... 25 4.
Temas Avanzados en Procesado de Señales
Temas Avanzados en Procesado de Señales Parte I: Procesado de Voz y Audio Javier Ortega García Joaquín González Rodríguez Tema 1 Análisis de Señales de Voz 1.1. Introducción La señal de voz es una señal
Por qué acentuar? Universidad Autónoma de Campeche Facultad de Ingeniería. Juan Jesús Moncada Bolón.
Por qué acentuar? Universidad Autónoma de Campeche Facultad de Ingeniería Juan Jesús Moncada Bolón jjmoncad@balam.uacam.mx 9 / 9 / 9 Objetivos Convencerte de que: es necesario acentuar la expresión escrita
MICROSOFT OFFICE 2013: WORD, EXCEL, POWERPOINT, OUTLOOK Y ONENOTE 2013 (NIVEL AVANZADO)
Objetivos y Temario MICROSOFT OFFICE 2013: WORD, EXCEL, POWERPOINT, OUTLOOK Y ONENOTE 2013 (NIVEL AVANZADO) OBJETIVOS Este curso le presenta las funciones avanzadas de las aplicaciones Word, Excel, PowerPoint,
Unidad 3 Combinatoria
Unidad 3 Combinatoria CONTEO La enumeración no termina con la aritmética. Tiene aplicaciones en áreas como álgebra, la probabilidad y estadística (matemáticas) y el análisis de algoritmos (en ciencias
Podriamos conversar con las maquinas como lo hacemos con los humanos?
Que veremos? 1. Introducción 2. Trabajos Previos 3. Procesamiento de la Señal 4. Coeficientes MFCC 5. Trasformada Wavelet 6. Extracción de características usando wavelets 7. Experimentos y Resultados 8.
Experiencias prácticas en la creación de corpus orales para uso en tecnologías del habla. Por: Carlos Daniel Hernández Mena
Experiencias prácticas en la creación de corpus orales para uso en tecnologías del habla Por: Carlos Daniel Hernández Mena Objetivo de un corpus para uso en tecnologías del habla (T.H.) El objetivo es
Classifying Subject Ratings of Emotional Speech Using Acoustic Features.
Classifying Subject Ratings of Emotional Speech Using Acoustic Features. Jackson Liscombe, Jennifer Venditti, Julia Hirschberg Ramiro Camino Universidad de Buenos Aires Noviembre 2014 Introducción El habla
la ventana de edición y la duración aparece en la ventana. Se puede escuchar la sección marcada
Manual básico de PRAAT ANÁLISIS TEMPORAL 1 5. ANÁLISIS TEMPORAL Obtener valores de duración en forma manual es muy sencillo. Basta con marcar el segmento en la ventana de edición y la duración aparece