Introducción Modelando palabras no presentes en el vocabulario (OOV)

Documentos relacionados

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

Sistema Incremental Generador de Oraciones y de Descodificación Lingüística. José Luciano Maldonado. luzmalvy@telcel.net.ve maldonaj@faces.ula.

DISEÑO DE COMPONENTES DE SOFTWARE *

Indicaciones específicas para los análisis estadísticos.

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

Year-at-a-Glance --- Grade Literacy --- Writing Un vistazo al año o grado --- Alfabetización --- Escritura

Traducción automática Técnicas y aplicaciones. Isabel Cuadrado Gutiérrez David Ferrer Figueroa

CURSOS DE ESPECIALIZACIÓN MICROSOFT EXCEL

El Proceso Unificado de Desarrollo de Software

PERCEPCIÓN DEL LENGUAJE

Data Mining Técnicas y herramientas

Test de Idioma Francés. Manual del evaluador

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

Interacción Persona - Ordenador

Contenidos generales INGLÉS

O jeto de apre r ndizaje

TEMA 4: Introducción al Control Estadístico de Procesos

MODELOS DE RECUPERACION

A robust identification approach to gait recognition

La Necesidad de Modelar. Diseño de Software Avanzado Departamento de Informática

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

Minería de Datos Web. 1 er Cuatrimestre Página Web. Prof. Dra. Daniela Godoy.

PROGRAMA FORMATIVO MICROSOFT ACCESS 2003 (COMPLETO)

Activos Intangibles Costos de Sitios Web

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Resumen obtenido de: Roger S. Pressman, Ingeniería de Software. Un enfoque práctico, quinta edición, Introducción al Diseño de Software

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

Entrenamiento de una red neuronal, utilizando un corpus de voces infantiles

Introducción a la Programación Orientada a Objetos (POO) Introducción a la Programación Orientada a Objetos (POO)

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Plan de estudios ISTQB: Nivel Fundamentos

Sistemas de Información Administrativo - Universidad Diego Portales. Cátedra : Sistemas de Información Administrativa S.I.A.

I.E.S.MEDITERRÁNEO CURSO DPTO DE MATEMÁTICAS PROGRAMA DE RECUPERACIÓN DE LOS APRENDIZAJES NO ADQUIRIDOS EN MATEMÁTICAS DE 3º DE E.S.O.

5.1. Redes de aprendizaje supervisado basadas en la cuantificación vectorial. Curso de doctoramiento Técnicas de Computación Flexíbeis

NORMA INTERNACIONAL DE AUDITORÍA 520 PROCEDIMIENTOS ANALÍTICOS

CICLO DE GRADO SUPERIOR DE ADMINISTRACIÓN Y FINANZAS DE GESTIÓN ADMINISTRATIVA MÓDULO DE INGLÉS

PARTE III OBTENCIÓN DE MODELOS OBTENCIÓN DE MODELOS MODELADO E IDENTIFICACIÓN ASPECTOS A TENER EN CUENTA MODELADO IDENTIFICACIÓN OBTENCIÓN DE MODELOS

MUESTREO TIPOS DE MUESTREO

Prácticas PGSI. Práctica 4. Gestión de las Cargas de Trabajo de los Recursos y Delimitaciones de Tareas

La medición funcional de software con SCRUM

5. Experimentos y Resultados

PROGRAMACIÓN ORIENTADA A OBJETOS Master de Computación. II MODELOS y HERRAMIENTAS UML. II.2 UML: Modelado de casos de uso

Matemáticas 2º BTO Aplicadas a las Ciencias Sociales

Microsoft Access 2010 (Completo)

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

PROGRAMA FORMATIVO MICROSOFT ACCESS 2007 (COMPLETO)

SISTEMA NACIONAL DE INVERSIONES CHILE AVANCES TECNOLÓGICOS

MÓDULO III SEIS SIGMA ESTRATEGIA PARA LA MEJORA DE PROYECTOS

Técnico Superior en Mecatrónica Industrial Técnico Superior en Automatización y Robótica Industrial

ANÁLISIS Y DISEÑO DE SISTEMAS DEPARTAMENTO DE CIENCIAS E INGENIERÍA DE LA COMPUTACIÓN

CICLO DE VIDA DEL SOFTWARE

Estructura de frase. Teoría X

HERRAMIENTAS DE LA CALIDAD

Trabajo final de Ingeniería

Control Estadístico del Proceso. Ing. Claudia Salguero Ing. Alvaro Díaz

ESTIMACIÓN. puntual y por intervalo

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco

Parte I: Introducción

Portafolio de Servicios y Productos

Fundamentos del diseño 3ª edición (2002)

Google Analytics Y Herramientas para Webmasters

CICLO DE VIDA DEL SOFTWARE. Una aproximación lógica a la adquisición, el suministro, el desarrollo, la explotación y el mantenimiento del software

PROPUESTA DE ALTERNATIVAS PARA EL MODELADO DE USUARIO ESTADÍSTICO UNIVERSIDAD CARLOS III D E MADRID

Después de que un producto agrícola sale de la explotación agrícola, puede pasar a través de uno o incluso dos mercados mayoristas y una cadena de

Unidad VI: Supervisión y Revisión del proyecto

4. Programación Paralela

Indicadores para la generación de conocimiento acerca de la evaluación de la calidad de las instituciones educativas

Inteligencia de Negocio

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

Análisis y síntesis El proceso documental Lenguajes documentales El proceso de indización El resumen documental

Clasificación Bayesiana de textos y páginas web

Capitulo 3. Protocolo y grabaciones

En un proyecto de desarrollo de software la metodología define Quién debe hacer Qué, Cuando y Como hacerlo. 6

DESARROLLO DE UN SISTEMA AVANZADO DE AYUDA A LA COMUNICACIÓN ORAL PARA PERSONAS SORDAS

Descriptores de los niveles de dominio para los estándares del Desarrollo del idioma inglés de California

Las Reglas de Westgard más Six Sigma, igual a Mejores Métodos, Mejor Control de la Calidad. Gabriel Alejandro Migliarino

Oferta tecnológica: Procesamiento del lenguaje natural para la extracción y recuperación de información

17 de Agosto de 2013 HERRAMIENTAS DE CALIDAD TOTAL

Consultas con combinaciones

Capítulo 9. Archivos de sintaxis

IDENTIFICACIÓN DE SISTEMAS ASPECTOS PRÁCTICOS EN IDENTIFICACIÓN

TransUnion República Dominicana. Preguntas frecuentes sobre los modelos de score de TransUnion

LA MEDIDA Y SUS ERRORES

BORRADOR. CEDE - C/ Cartagena, Madrid Tel.: CEDE TEMARIO DE INGLÉS 1

ARCHIVOS CON SERIES DEL BOLETÍN ESTADÍSTICO Manual de Usuario

2.1 Planificación del Alcance

Proyecto Piloto sobre Viabilidad de Internet como Fuente de Datos. Resultados del Proyecto

Un primer acercamiento a la CMDB.

Informes de Reputación Online. Conozca la presencia en Internet y Redes Sociales sobre cualquier marca, concepto o empresa española.

2.1 INFORMACION BASICA Y PRINCIPALES DEFINICIONES.

Eclipse Process Framework Composer EPFC, es un editor de procesos gratuito que sirve para editar fragmentos de método, procesos o metodologías y

Calendarización anual Programa de matemáticas 2º básico

Parte II DISEÑO METODOLÓGICO DE LA INVESTIGACIÓN. Tema 5 TÉCNICAS CUANTITATIVAS DE RECOGIDA DE INFORMACIÓN

Capítulo 1. Introducción

Índice. Unidad 1. Unidad 4. Unidad 5. Unidad 2. Unidad 3. Unidad 6

DESCRIPTORES DE RENDIMIENTO

Rosamil Rey, Ph.D. CHEM 4160

Técnicas de valor presente para calcular el valor en uso

Transcripción:

Clase nº 19 Año académico 2003 Modelando nuevas palabras Introducción Modelando palabras no presentes en el vocabulario (OOV) Formulación probabilística Métodos independientes del dominio Aprendizaje de unidades de subpalabra OOV Modelos de OOV multiclase 6.345 Reconocmiento automático del habla Modelado OOV 1

Qué es una nueva palabra? Discurso de entrada A Reconocedor de voz argmax PW ( A) W Salida de reconocimiento * W w w... 1 2 w n Modelo acústico Modelo léxico de palabra Modelo de lenguaje Casi todos los reconocedores de voz buscan un léxico finito Una palabra no contenida por el léxico es referida como palabra no presente en el vocabulario Las palabras no presentes en el vocabulario (OOV) son inevitables a la vez que problemáticas 6.345 Reconocmiento automático del habla Modelado OOV 2

Las nuevas palabras son inevitables Análisis de discurso múltiple y corpus de texto Tamaño del vocabulario frente a cantidad de datos de entrenamiento Índice no presente en el vocabulario frente a tamaño del vocabulario El crecimiento del vocabulario parece ilimitado Nuevas palabras van apareciendo constantemente El crecimiento parece ser independiente del lenguaje Índice de error para palabras no presentes en el vocabulario, una función de tipo de datos Discurso entre humano y máquina Discurso de humano a humano Texto de un periódico Modelado OOV 3

Las nuevas palabras causan errores Las palabras no presentes en el vocabulario (OOV) presentan un índice de error más alto a nivel de palabra y oración, que las palabras presentes en el vocabulario (IV) WER 14% 51% IV OOV SER 33% 100% WER: Índice de error por palabra SER: Índice de error por oración Las palabras OOV normalmente generan múltiples errores, ej., Symphony Ref.: Members of Charleston SymphonyOrchestra are being treated Hip.: Members of Charleston simple your stroke are being treated 6.345 Reconocmiento automático del habla Modelado OOV 4

Las palabras nuevas bloquean a los reconocedores La computación de la búsqueda aumenta la presencia cercana de nuevas palabras 6.345 Reconocmiento automático del habla Modelado OOV 5

Las nuevas palabras son importantes Las nuevas palabras son normalmente palabras de contenido importantes NOMBRE PROPIO SUSTANTIVO VERBO ADJETIVO ADVERBIO Weather (tiempo) Broadcast News(parte meteorológico) Es más probable que las palabras de contenido sean reutilizadas (ej., persistent) 6.345 Reconocmiento automático del habla Modelado OOV 6

Nuevos desafíos de palabras Cuatro desafíos con nuevas palabras: 1) Detectar la presencia de la palabra 2) Determinar su lugar dentro del enunciado 3) Reconocer la secuencia fonética subyacente 4) Identificar la ortografía de la palabra Aplicaciones para nuevos modelos de palabras: Mejorar el reconocimiento, detectar errores de reconocimiento Manejar palabras parciales Procesar estrategias de diálogo Incorporar dinámicamente nuevas palabras en el vocabulario Modelado OOV 7

Enfoques hacia el modelado de OOV Aumentar el tamaño del vocabulario Emplear una puntuación de seguridad para detectar palabras OOV Utilizar unidades de subpalabra en la primera de un sistema de dos fases Incorporar un modelo de palabras desconocido en un reconocedor de voz Una extensión de un modelo rellenador o basurero para las no palabras Modelado OOV 8

Incorporación de un modelo OOV en ASR (Bazzi, 2002) Espacio de búsqueda híbrida: una unión de espacios de búsqueda IV y OOV 1) Comenzar con una red léxica estándar 2) Construir una red de subpalabra separada 3) Añadir una red de subpalabra a una red de palabra como una nueva palabra, W oov El coste C oov, se añade para controlar el índice de detección OOV Durante el entrenamiento del modelo de lenguaje, todas las palabras OOV van asociadas a la etiqueta W oov Una variedad de unidades de subpalabra son posibles (ej., fonos, sílabas ) Una variedad de restricciones topológicas Restricciones fonético-acústicas Restricciones de duración W 1. W N W oov U 1. U M Modelado OOV 9

El modelo de probabilidad de OOV El modelo de probabilidad estándar: W * arg max W P( A W ) P( W ) Modelos acústicos: igual para palabras IV y OOV Modelos de lenguaje: se utiliza una clase n-grama para palabras OOV Una palabra OOV es planteada como hipótesis si: p p p2.. p, tal que 1 N w L i P( A p) P( p OOV ) P( OOV ) P( A w ) P( w i i ) Probabilidad del modelo acústico Probabilidad del modelo de lenguaje 6.345 Reconocmiento automático del habla Modelado OOV 10

Ventajas del enfoque integrado Comparado con modelos de relleno Mismos modelos acústicos para palabras IV y OOV * Las estimaciones de probabilidad son comparables Modelo de lenguaje de subpalabra * Estimado para el propósito de reconocimiento de palabras OOV Modelo de lenguaje a nivel de palabra prediciendo la palabra OOV Uso de grandes unidades de subpalabra Todo lo mencionado dentro de un marco sencillo Lo mejor de ambos mundos: los rellenadores y las dos fases Temprana utilización del conocimiento léxico (rellenadores) Modelado subléxico detallado (dos fases) Modelado OOV 11

Un modelo de OOV basado en corpus El modelo de OOV basado en corpus usa una configuración de r nocimiento de fonos típica Se permite cualquier secuencia de fonos de cualquier longitud Durante el reconocimiento, las secuencias de fonos están limitadas por una n-grama de fonos La n-grama de fonos es calculada desde el mismo corpus de entrenamiento utilizado para entrenar al reconocedor de palabras C oov P 1. P N Modelado OOV 12

Configuración experimental Los experimentos emplean el reconocedor del sistema de información meteorológica JUPITER Reconocedor SUMMIT basado en segmentos Modelos difonos dependientes del contexto 88,755 enunciados de datos de entrenamiento 2,009 palabras en el vocabulario del reconocedor Índice de OOV: 2.2% (15.5% a nivel de enunciado) El modelo de OOV utiliza un bigrama de fonos Los experimentos emplean 2,029 enunciados de prueba de llamadas a JUPITER 1,715 enunciados sólo con palabras IV 314 enunciados contienen palabras OOV Modelado OOV 13

Resultados de la detección del modelo OOV de corpus Índice de detección? Índice de detección OOV (%) 100 90 80 70 60 50 40 30 20 10 0 Modelo OOV de corpus 0 1 2 3 4 5 6 7 8 9 10 Índice de falsa alarma (%) Curva ROC? Índice de falsa alarma? La mitad de las palabras OOV detectadas presentan un 2% de falsa alarma En un índice de detección del 70%, la falsa alarma es del 8.5% Modelado OOV 14

EL modelo de OOV oráculo Objetivo: cuantificar el mejor rendimiento posible con el marco propuesto Enfoque: construir un modelo de OOV que permita sólo las secuencias de fonos de palabras OOV del conjunto de pruebas La configuración oráculo no es equivalente a la adición de palabras OOV al vocabulario Mejores oráculos? C oov OOV 1. OOV n 6.345 Reconocmiento automático del habla Modelado OOV 15

Detección de resultados del modelo de OOV oráculo Índice de detección OOV (%) 100 90 80 70 60 50 40 30 20 10 0 0 1 2 3 4 5 6 7 8 9 10 Índice de falsa alarma (%) Corpus Oráculo Considerable espacio para una mejora Modelado OOV 16

Un modelo de OOV independiente del dominio Inconvenientes del modelo corpus Favorece a las palabras más frecuentes dado que está entrenado con transcripciones fonéticas de enunciados completos Dedica una porción de la masa de probabilidad n-grama para las secuencias entre palabras El modelo de OOV dependiente del dominio podría no generalizar Un modelo OOV diccionario se construye desde un diccionario de palabras genérico en vez de a partir de un corpus de enunciados Elimina la dependencia del dominio y el margen de error de las palabras frecuentes En los experimentos se emplea el diccionario LDC PRONLEX 90.694 palabras con un total de 99.202 pronunciaciones Modelado OOV 17

Resultados de detección del modelo OOV de diccionario Índice de detección OOV (%) 100 90 80 70 60 50 40 30 20 10 0 Corpus Oráculo Diccionario 0 1 2 3 4 5 6 7 8 9 10 Índice de falsa alarma (%) En un índice de detección del 70%, el índice de falsa alarma queda reducido de 8.5% a 5.3% Modelado OOV 18

Impacto en el índice de error por palabra 20 19 Vocabulario cerrado Modelo OOV Modelo OOV (det == rec) Qué ocurre con los datos de prueba IV? WER (%) 18 17 16 15 0 1 2 3 4 5 6 7 8 9 10 False Alarm Rate (%) La WER en un conjunto de pruebas completos es reducida de un 17.1% a un 16.4% La WER puede reducirse de un 17.1% a un 15.1% con un mecanismo de identificación Modelado OOV 19

Otras medidas de rendimiento Exactitud al localizar palabras OOV: 100 OOV comienzo OOV final s Referencia Hipótesis t % dentro de la variación 90 80 70 60 Tasa de error fonético de OOV (PER): PER 50 10 30 Sustituciones Inserciones Eliminaciones 50 70 variación (mseg) 90 Sirve? bien? 37.8% 18.9% 6.0% 12.9% Modelado OOV 20

Aprendizaje de unidades de subpalabra OOV Objetivo: incorporar restricciones estructurales adicionales para reducir la falsa hipótesis de las palabras OOV Idea: restringir el reconocimiento de la red OOV para unidades multi-fono específicas Cómo obtenemos el conjunto de unidades multifono? Un enfoque orientado a datos: medir la estadística de coaparición de fonos (ej., información mutua) dentro de un amplio diccionario para proponer incrementalmente nuevas unidades multifono Modelado OOV 21

Aprendizaje de unidades multifono Un algoritmo iterativo ascendente Comienza con fonos individuales Combina iterativamente pares de unidades para formar unidades más largas El criterio para combinar pares de unidades se basa en la información mutua de pesos (MI w ) de un par: p( u, u ) 1 2 w ( 1, 2) ( 1, 2)log p ( u1 ) p ( u2 ) MI u u p u u En cada iteración, se combinan los pares n con el MIw más alto El número de unidades multifono derivado depende del número de iteraciones Un subproducto es un análisis completo de todas las palabras del vocabulario en función de las unidades aprendidas Modelado OOV 22

Resultados MMI El conjunto inicial de unidades es el conjunto del fono (62 fonos) El tamaño del inventario de la unidad final es de 1.977 unidades (después de 200 iteraciones y 10 combinaciones por iteración) La perplejidad del modelo OOV desciende desde 14'0 para el conjunto del fono inicial hasta 7'1 para el conjunto multifono derivado El 67% de las unidades derivadas son sílabas inglesas legales La longitud media de una unidad derivada es de 3'2 fonos Ejemplos: Palabra Pronunciación whisperers (w_ih) (s) (p_ax_r) (axr_z) yugoslavian (y_uw) (g_ow) (s_l_aa) (v_iy) (ax_n) shortage (sh_ao_r) (tf_ax) (jh) Modelado OOV 23

Comportamiento del agrupamiento MMI MI Categoría del par Niveles MI externos para pares de clasificación superior; después de varias iteraciones (puede ser útil como criterio de parada) Modelado OOV 24

Resultados de detección del modelo de OOV MMI Índice de detección OOV (%) 100 90 80 70 60 50 40 30 20 10 0 Corpus Oráculo Diccionario MMI 0 1 2 3 4 5 6 7 8 9 10 Índice de falsa alarma (%) En un índice de detección del 70%, el índice de falsa alarma es reducido a un 3'2% El índice de error fonético es reducido de un 37'8% a un 31'2% Modelado OOV 25

Figura de mérito de la detección de OOV La figura de mérito (FOM) mide el área bajo el primer 10% y el 100% total de la curva ROC La FOM aleatoria muestra el rendimiento para un modelo OOV aleatoriamente adivinatorio (ROC es la diagonal y=x) Modelo de OOV 100% FOM 10% FOM Corpus Diccionario MMI Oráculo Aleatorio 0.89 0.93 0.95 0.97 0.50 0.54 0.64 0.70 0.80 0.10 Modelado OOV 26

Un modelo de OOV multiclase Motivación: modelado superior de clases de palabras desconocidas En el nivel fonético: estructura fonotáctica semejante En el nivel del modelo de lenguaje: patrones de uso lingüístico similar NOMBRE PROPIO SUSTANTIVO VERBO ADJETIVO ADVERBIO Weather (tiempo) Broadcast News(parte meteorológico) Enfoque: extender el marco de OOV para modelar categorías múltiples de palabras desconocidas Una colección de redes de OOV en paralelo con la red IV La Gramática GN a nivel de palabras predice múltiples clases de OOV Modelado OOV 27

Experimentos multiclase Trabajos de clase en función de etiquetas de partes del discurso Derivado de un diccionario etiquetado de palabras (LDC COMLEX) Modelo de lenguaje a nivel de palabras entrenado con 8 clases POS Múltiples modelos de lenguajes de subpalabra para las distintas clases POS Trabajos de clase basados en el agrupamiento de perplejidad Crear un modelo de lenguaje de bigrama de fono a partir de grupos iniciales Usar el agrupamiento K-medias para cambiar palabras de un grupo a otro En cada iteración, cada palabra es trasladada al grupo de menor perplejidad (mayor probabilidad) Modelado OOV 28

Resultados de detección del modelo de OOV multiclase Índice de detección OOV (%) 100 90 80 70 60 50 40 30 20 10 0 Diccionario 8 clases (clases POS) 8 clases (Agrup. PP, Inic. POS) 0 1 2 3 4 5 6 7 8 9 10 Índice de falsa alarma (%) El método multiclase supera al modelo OOV de diccionario El modelo POS consigue el 81% de exactitud en la identificación de la clase El agrupamiento de perplejidad funciona mejor que las clases POS Modelado OOV 29

Contribución del modelo de lenguaje multi-oov Condición/FOM G 1 n-grama G 8 n-grama 1 red OOV 0.64 0.65 8 redes OOV 0.68 0.68 La mayor parte del beneficio proviene de redes múltiples OOV La fonotáctica es más importante que las restricciones del modelo de lenguaje El comportamiento puede ser distinto para otros dominios Modelado OOV 30

Derivando multiclases mediante agrupamiento El agrupamiento puede utilizarse para proponer multiclases iniciales Agrupamiento ascendente para inicializar el trabajo de clase de palabras Distancia métrica basada en la similitud del bigrama de fono Una medida de similitud media se utiliza para combinar grupos: 1 davg( Xm, Xn) d( wi, wj ) CmCn w X w X i m j n Un número arbitrario de clases pueden ser agrupadas Las clases se pueden suavizar con el agrupamiento de perplejidad FOM 0.74 0.72 0.7 0.68 0.66 0.64 (Agrupamiento PP(Inicialización del agrupamiento total) Modelo 1 2 4 8 16 32 Diccionario Clases POS PPClus (AggClus Init) PPClus (POS Init) Clsses 1 8 8 8 10% FOM 0.64 0.68 0.71 0.72 núm. clases Modelado OOV 31

Otras áreas de investigación relacionadas Medición del impacto en el reconocimiento de OOV para la comprensión Mejorar la exactitud fonética de OOV Extender el enfoque para modelar enunciados no pertenecientes al dominio Desarrollo de puntuaciones de seguridad específicas de OOV Mejorar la calidad de detección Modelar otros tipos de sonidos no pertenecientes al dominio (ej., ruido) Modelado OOV 32

Referencias A. Asadi, Automatic detection and modeling of new words in a large vocabulary continuous speech recognition system, tesis doctoral, Northeastern University, 1991. I. Bazzi, Modelling out-of-vocabulary words for robust speech recognition, tesis doctoral, MIT, 2002. G. Chung, Towards multi-domain speech understanding with flexible and dynamic vocabulary, tesis doctoral, MIT, 2001. L. Hetherington, The problem of new, out-of-vocabulary words in spoken language systems, tesis doctoral, MIT, 1994. Modelado OOV 33