Reconocimiento Automático de Habla

Documentos relacionados
Bases Formales de la Computación: Sesión 3. Modelos Ocultos de Markov

y clasificación de los reconocedores de voz

PERCEPCIÓN DEL HABLA Reconocimiento de Palabras Habladas

Reconocimiento Automático de Locutor

APLICACIONES EN RECONOCIMIENTO DE VOZ UTILIZANDO HTK T.G. 0446

PROCESAMIENTO DE VOZ. RETOS ACTUALES. PROYECTOS CIC

La fonología es esencialmente la descripción del sistema y de los patrones de los sonidos de una lengua (Yule 1998:66).

TEMA 5: RECONOCIMIENTO DE LOCUTORES Y DE VOZ.

INDICE 1. Introducción 2. Recopilación de Datos Caso de estudia A 3. Descripción y Resumen de Datos 4. Presentación de Datos

Nombre de la asignatura: Diseño Estructurado de Algoritmos. Carrera: Ingeniería en Sistemas Computacionales. Clave de la asignatura: SCB-9316

INTERFACES INTELIGENTES. ING. MA. MARGARITA LABASTIDA ROLDÁN E mail:

Redes bayesianas temporales para reconocimiento de escenarios

Métodos, Algoritmos y Herramientas

Clustering para la inicialización de HMM en RAH. Jorge Luis Guevara Díaz

3. ESTRUCTURA DE UN CONVERSOR TEXTO-VOZ

El proyecto CIVIL. Cualidad Individual de la Voz en la Identificación de Locutores. Cáceres, Oct 2011

INDICE. Prólogo a la Segunda Edición

CIRCUITOS ELÉCTRICOS. Temas:

Introducción a las RdP. Optimización basada en redes de Petri. Redes de Petri. Son objeto de estudio: RdP. Ejemplos:

3. Competencia en el conocimiento y la interacción con el mundo físico.

Señales y Sistemas. Señales y Clasificación Sistemas y Clasificación Respuesta al impulso de los sistemas. 5º Curso-Tratamiento Digital de Señal

Juegos Interactivos para la Rehabilitación Fonatoria

Nombre de la asignatura: Algoritmos y Lenguajes de programación.

MASTER EN CIENCIAS ACTUARIALES Y FINANCIERAS PLAN Módulo: FORMACIÓN FUNDAMENTAL. Créditos ECTS: 6 Presenciales: 5 No presenciales: 1

Especialidades en GII-TI

OPTIMIZACIÓN VECTORIAL

6 10 3,5 2,0 4,5. PROGRAMA DE CURSO Código Nombre EL Señales y Sistemas I Nombre en Inglés Signals and Systems I SCT

INDICE 1.1. Objetivos 1.2. Introducción 1.3. Contenidos 1.4. Bibliografía recomendada 1.1. OBJETIVOS

Algoritmos. Medios de expresión de un algoritmo. Diagrama de flujo

Los textos. prescriptivos: la receta. Descripción. de procesos. Ordenación alfabética de palabras. Asociación de fonemas y grafías.

CLASIFICACIÓN DE LA IMAGEN. Escuela de Ingeniería Civil y Geomática Francisco Luis Hernández Torres

ANEXO III 2.º DE EDUCACIÓN SECUNDARIA

Fundamentos de Programación Visual Basic

PRÁCTICA DE CHATTER SUPERVISIÓN AUTOMÁTICA DE PROCESOS

Fundamentos de programación JAVA

ÍNDICE ÍNDICE DE SÍMBOLOS ÍNDICE DE ABREVIATURAS CAPÍTULO 1. INTRODUCCIÓN... 33

Sumario. Presentación... 15

Introducción a la Identificación de sistemas

TEMARIO PARA EL EXAMEN DE ACCESO A LA ESPECIALIDAD MATEMÁTICAS PARA E.S.O. Y BACHILLERATO DEL MÁSTER DE SECUNDARIA

INDICE Capitulo 6. Canales de Comunicación 6.1. Canales de Comunicación 6.2. Canales Ideales y Canales Reales

Incorporando Rampas Digitales a Lihuen 4

PROGRAMACIÓN. UNIDAD II. ALGORITMO PROFA : HAU MOY

Distorsión dinámica temporal Búsqueda Algoritmos de búsqueda gráfica Algoritmos de programación dinámicos

Universidad Centroccidental Lisandro Alvarado. Decanato de Ciencias y Tecnología Departamento de Sistemas

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

UNIVERSIDAD NACIONAL FEDERICO VILLARREAL FACULTAD DE INGENIERÍA ELECTRÓNICA E INFORMÁTICA SÍLABO ASIGNATURA: PROCESAMIENTO DIGITAL DE SEÑALES

Índice general. Capítulo 1 Conceptos básicos. Capítulo 2 Controles básicos I. Pág. N. 1

Procesamiento digital de voz

Aprender a desarrollar con JavaScript

Bloque 1. Contenidos comunes. (Total: 3 sesiones)

Unidad 1: Espacio de Probabilidad

INGENIERÍA EN MANTENIMIENTO INDUSTRIAL HOJA DE ASIGNATURA CON DESGLOSE DE UNIDADES TEMÁTICAS

Guía práctica Windows 7 Registro y configuración Francisco Charte Ojeda

Guía para la elaboración de una prueba de lectura

CAPITULO 1: PERSPECTIVE GENERAL DE LA

Unidad I Introducción a la programación de Sistemas. M.C. Juan Carlos Olivares Rojas

Vídeo Digital. 0. Presentación. Objetivos Temario Prácticas Evaluación Introducción

1. CURSO: ESTADÍSTICA DESCRIPTIVA Y NOCIONES DE ESTADÍSTICA INFERENCIAL. 2. EN EL MARCO DE ACTIVIDADES DE POSGRADO: Acreditado para Doctorado.

FÍSICA Y QUÍMICA 3º ESO. OBJETIVOS, CONTENIDOS Y CRITERIOS DE EVALUACIÓN 1ª Evaluación: Unidad 1. La medida y el método científico.

APRENDIZAJES ESPERADOS. Grado: 6º Primaria. 4. bimestre: MARZO - ABRIL ESPAÑOL. Proyecto: Producir un texto que contraste información sobre un tema

GUÍA DOCENTE Fonética y Fonología españolas

VISIÓN 3D. José M. Sebastián - Luis M. Jiménez. Problema Central de la Visión Artificial Tridimensional.

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ESTUDIOS SUPERIORES CUAUTITLÁN PLAN DE ESTUDIOS DE LA LICENCIATURA EN QUÍMICA INDUSTRIAL

COMPRENDER LOS PROBLEMAS MATEMÁTICOS. Habilidades Cognitivas. Psicología Básica. Mª R. García Viedma

Escuela Provincial de Educación Técnica Nº 1 UNESCO. PLANIFICACIÓN ANUAL 2015 Ciclo Superior Secundario FUNDAMENTACION

Fonética y Fonología españolas

CONTENIDOS MÍNIMOS BLOQUE 2. NÚMEROS

Localización. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides

UNIVERSIDAD AUTÓNOMA DE QUERÉTARO FACULTAD DE INGENIERÍA. práctica, Total: 85 Horas a la semana: 5 teoría: 4 prácticas: 1 Créditos:

BLOQUE III: SENTIDO ESTADÍSTICO COMO OBJETO DE ENSEÑANZA/APRENDIZAJE. MODULO 6: Probabilidad MODULO 7: Estadística

Visión por computadora Computer vision

La percepción del acento léxico en una lengua extranjera

TÉCNICO SUPERIOR UNIVERSITARIO EN MECATRÓNICA ÁREA AUTOMATIZACIÓN EN COMPETENCIAS PROFESIONALES ASIGNATURA DE LENGUAJE DE PROGRAMACIÓN

CONCEPTOS; PROCEDIMIENTOS Y CRITERIOS DE EVALUACIÓN

Agradecimientos. Nota de los autores. 1 Problemas, algoritmos y programas 1

CÁLCULO DE PROBABILIDADES

Inteligencia Artificial. Aprendizaje neuronal. Ing. Sup. en Informática, 4º. Curso académico: 2011/2012 Profesores: Ramón Hermoso y Matteo Vasirani

License Plate Detection using Neural Networks

Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica tiene forma de campana.

ANEXO VII TAXONOMÍA ACCESIBILIDAD

Materia requisito: DOMINIOS COGNITIVOS (Objetos de estudio, temas y subtemas) I. INTRODUCCION A LAS BASES DE DATOS

INSTITUTO TECNOLÓGICO SUPERIOR DEL SUR DEL ESTADO DE YUCATAN SUBDIRECCIÓN ACADÉMICA DEPARTAMENTO DE INGENIERÍA INDUSTRIAL

Inteligencia artificial

CRITERIOS DE SELECCIÓN DE MODELOS

INGLES NM3 3º EM. Unidad temáticas CONOCIMIENTOS BÁSICOS DEL PROFESOR

Complejidad de los Algoritmos

Teoría de la decisión

Transcripción:

TécnicasAvanzadas de Sistemas Inteligentes: t Reconocimiento Automático de Habla Máster Universitario de Investigación en TIC Valentín Cardeñoso Payo Universidad de Valladolid

Para hoy Introducción al uso de habla en interfaces Qué es ASR Aplicaciones Dificultades Estrategias de solución g Modelos ocultos de Markov

Lenguaje Natural Medio de comunicación genuinamente humano Naturalidad Modo más natural cara a cara Variantes posibles y aspectos relevantes: Escrito Pantalla Teclado / ratón / Hablado Altavoces Micrófono

Lenguaje Natural Escrito Salida: Tipos de letra Distribución espacial contenidos Iconografía Generación de texto t Entrada: Juego de caracteres Elementos gráficos (teclado/ratón): Botones Desplegables Listas Reconocimiento/interpretación del guión escrito

Lenguaje Natural Hablado Salida (altavoces): Conversión Texto Voz: Normalización texto Anotación supra segmental (prosodia/entonación) Síntesis de voz (generación de señal ñl de salida) Entrada (micrófono[s]) Reconocimiento Automático de Habla Transcripción voz >texto (Decodificación) Captura y acondicionamiento de señal Extracción de características Selección de mejores candidatos Emisión de representación textual asociada

Traducción voz voz? Hablante Producción de habla en español RAH Identificación de idioma Conversión voz a texto MT Traducción español-inglés CTV Normalización de texto Generación señal s(t) Oyente Escucha habla en inglés

RAH(ASR): A vista de pájaro Voz: Fenómeno ondulatorio Energía Frecuencia Acondicionamiento i i Paso banda Eliminación ruidos Normalización Estacionareidad: Secuencia vectores p(t) Comparación con DB Modelado Secuencia óptima source: HTK book

Aplicaciones Máquina de dictado (transcripción) Control y gobierno (Command & Control) Interfaz hablado con la computadora. Dispositivos activados por voz: Teléfono, TV, VCR, Entornos manos y ojos libres : Conducción vehículos Sala de control seguridad crítica Ayuda a los discapacitados: Dispositivos ayuda a la movilidad Sustitución de dispositivos hápticos Detección de palabras clave (Keyword spotting) Resumen de documentos sonoros Sistemas de Información y Reserva Banca, Viajes, Operadoras telefónicas

Para el cuaderno Localizar en la web: Servicios vocales para TV o móvil: Viajes Comida Películas Servicios de atención vocal: Experiencia personal Ejemplos conocidos

Variantes del problema Tipo de habla: Palabras aisladas (IWR) Palabras conectadas (CWR) Habla contínua (CSR) Habla espontánea Detección de palabras clave Dependencia del hablante Dependiente de hablante Adaptable al hablante Independiente de hablante Multilocutor

Variantes del problema Talla del vocabulario Pequeño (<100 palabras) Mediado (100 < x < 1000) Grande (x ~ 1000) Muy grande (x ~> 10000) Vocabulario abierto (OOV) Canal Escritorio i / Etdi Estudio / Oficina i Exterior / Entorno ruidoso (factoría, vehículo) d h ( ó il) Banda estrecha (móvil)

Dificultad del ASR Variabilidad (ambigüedad perplejidad): Dependiente de hablante: fisiológica, emocional, cultural. Continuidad de la señal: fronteras de segmentos? Segmento = unidad lingüística (fonema, difonema, sílaba, ) Ambiente: suido, efecto Lombard, acústica del medio Canal: compresión / ruido aditivo / convolución Dispositivo: direccionalidad / tipo de sensor / p / p / Contexto fonético

Modelo esquemático de fonación

De la voz a los patrones Tratamiento en dominio de tiempo Acondicionamiento Filtrado Espectrogramas Cepstrum FFT de tiempo corto Comparación de plantillas Cuantificación vectorial Alineamiento temporal (lineal y no lineal)

ASR: Estrategias de solución Acústico Fonética: Basadas en reglas (heurísticas) Clasificación acústico fonética Clasificación VQ K NN ANN Ajuste de patrones (PM o PR) Deterministas: Alineamiento i lineall Pandeo dinámico temporal (DTW) Estocásticos: HMM Técnicas de AI: Integración de conocimiento Niveles estratificados

ASR: Aproximación fonética acústica

ASR: Rasgos acústico fonéticos Mapa vocálico Diferenciación sonidos Formantes (frecuencia)

ASR: Reconocedor palabras aisladas

ASR: Reconocimiento de Patrones Secuenciales (PR) Objetivo: Reconocer la secuencia de palabras (u otras unidades) partiendo de la forma de onda de la señal sonora. Dos fases esenciales de funcionamiento ASR: Entrenamiento (aprendizaje) Reconocimiento (puesta a prueba)

ASR: Ventajas de PR Sencillez: Fácil de comprender Fundamentos formales/matemáticos sólidos Robustez: Invariante a cambios de vocabulario, usuarios, juegos de rasgos, algoritmos de comparación, reglas de decisión. Metamodelo vs. Modelo Alto rendimiento Demostrado en la práctica Margen para mejora claro

ASR: Medidas de distancia Rasgos Bancos de filtros Codificación de Predicción lineal Análisis cepstral Cepstrum en escala Mel Prediccion perceptual lineal Métricas Distancia i Euclídea, p Norma Mahalanobis Distancia i Itakura Saito

ASR: Predictor Lineal (LPC)

ASR: Modelos perceptuales (no lineales)

ASR: Alineamiento no lineal

ASR: Limitaciones PR Rendimiento = f (Talla Entrenamiento) Patrones de referencia = f(medio, Entorno) Carga computacional ~ Nº patrones Generalidad vs. Especificidad Independencia del nivel descriptivo Dificultad de incorporar conocimiento específico.

ASR: Integración de conocimiento Acústico Evidencias espectrales: presencia/ausencia de rasgos Léxico Combinación de evidencias acústicas en palabras. MorfoSintáctico Combinación de palabras en frases correctas Semántico Combinación condicional correcta de significado: Significado: representación simbólica estructurada Datos + Relaciones (Hechos y Reglas) Pragmático Normas de uso contextual (histórico) Desambigüación

ASR: Esquema top down Generación de hipótesis. Validación con datos (hechos) encontrados.

ASR: Esquema bottom up Constructivista Sí t i t l d Síntesis controlada Restricciones Menor acoplamiento

ASR: Esquema de pizarra Dirigido por datos KS independientes Paradigma individual: Hipótesis/prueba Propagación asíncrona: Costes Méritos globales

ASR: Diagrama conceptual (ANNs?)

ASR: Modelos estocásticos PR (plantillas): Caracterización estadística implícita limitada Suposición (variabilidad): Señal hablada Proceso aleatorio paramétrico Parámetros = f(observación) Soporte: Baum et al (60 s) Baker (CMU) y Jelinek (IBM) (70 s) Rabiner et al. (Bell) (80 s), Young (Camb.) (90 s)

HMM: Intro ( Qué nos oculta Markov?) Interpretación(Estado) = Salida Qué oculta HMM? Estado <(1:N)> Salida

HMM: Componentes N: Conjunto de estados (finito) M: Alfabeto de salida (finito +) A: Distribución de probabilidades de transición B: Distribución de probabilidad de emisión : Distribución de probabilidad de estado inicial Modelo: µ A, B,

HMM: Generación observaciones 1. Elegir estado inicial q[1] usando 2. Hacer t=1 3. Elegir o[t] = v[k] usando B 4. Cambiar a q[t+1] usando A 5. Hacer t=t+1 6. Ir a 3 si t < T 7. Terminar

HMM: Problemas Problema 1: Evaluación IN: Secuencia de observación O = (o[1]o[2] o[n]) Modelo µ A, B, OUT: Probabilidad P(O ) Problema 2: Camino óptimo IN: Secuencia de observación O = (o[1]o[2] o[n]) Modelo µ A, B, OUT: Secuencia de estaros q = (q[1]q[2] q[t]) óptima. Problema 3: Ajuste de modelo IN: Secuencia(s) de observación O = (o[1]o[2] o[n]) OUT: Modelo µ A, B, que maximiza P(O )

HMM: Problema 1 (Scoring)

HMM: Solución Problema 1 Forward Backward α 1 (i) = π i b i (o 1 ), β T (i) = 1,

HMM: Problema 2 (Optimum Path) Maximiza

HMM: Solución Problema 2 (Viterbi) δ 1 i = π i b i (o 1 ) Inicio Iteración Terminación Secuencia (inversa)

HMM: Problema 3 (Model estimation) IN: Observación O (o conjunto de ellas en secuencia) OUT: Modelo µ = (A, B, Maximiza P(O µ) Procedimiento: i Reestimación Baum Welch (ver paper)

HMM: Solución P. 3 (Baum Welch) t = 1 Convergencia Asegurada

HMM: Variantes y Extensiones Transiciones: Ergódico (poco empleado) Left to Rigth (Bakis) Densidad contínua Duración explícita de estados Criterio de optimalidad: ML (Baum Welch) Cada clase (modelo) por separado: poca discriminación MMI (métodos de Gradiente) Todas las clases a la vez. Minimizar la incertidumbre condicional de una clase (dado el resto)

HMM: Herramientas HMM Toolbox para Matlab Útil para jugar con problemas de monedas/urnas Hidden Markov Model Toolkit (HTK) Sphinx Muy usados en ASR Incorporación API programas propios: GHMM Library Biblioteca en C: http://www.kanungo.com/software/software.html

Referencias Libro de Rabiner y Juang. Fundamentals Of Speech Recognition. Prentice-Hall 1993. Artículos proporcionados en el entorno. Tutorial de HMM (con corrección de errores) Tutorial de HMM (con corrección de errores) Wikipedia (para empezar) y otros web: http://es.wikipedia.org/wiki/modelo_oculto_de_m%c3%a1rkov http://es.wikipedia.org/wiki/algoritmo_de_avance-retroceso http://jedlik.phy.bme.hu/~gerjanos/hmm/node2.html Pon las tuyas (para el cuaderno)

Actividades Para el cuaderno en esta presentación Elaborar un resumen de HMMs y solución de los tres problemas base empleando artículo Rabiner. Usar HTK: Realizar el tutorial. t