UNL. Spanish Dictionary



Documentos relacionados
UNL. Spanish Analyzer

Agustiniano Ciudad Salitre School Computer Science Support Guide Second grade First term

iclef-2002 at Universities of Alicante and Jaen University of Alicante (Spain)

Este proyecto tiene como finalidad la creación de una aplicación para la gestión y explotación de los teléfonos de los empleados de una gran compañía.

SISTEMA DE GESTIÓN Y ANÁLISIS DE PUBLICIDAD EN TELEVISIÓN

Pages: 171. Dr. Olga Torres Hostench. Chapters: 6

Título del Proyecto: Sistema Web de gestión de facturas electrónicas.

Guideline to apply the ISO 90003:2004 Standard to SMEs of software development

e-respyme Sistema de Gestión Ética y Socialmente Responsable para la Pequeña y Mediana Empresa

Final Project (academic investigation)

PROGRAMA. Operaciones de Banca y Bolsa SYLLABUS BANKING AND STOCK MARKET OPERATIONS

Advanced Corporate Finance

Sistemas de impresión y tamaños mínimos Printing Systems and minimum sizes

Spanish opinions: grammar quest

Show your professionalism. de la Construc

Comité de usuarios de la RES

Representing Nouns in the Diccionario de Aprendizaje del Español como Lengua Extranjera (DAELE)

Centro Andaluz de Innovación y Tecnologías de la Información y las Comunicaciones - CITIC

Universidad Nueva Esparta Facultad de Ciencias de la Informática Escuela de Computación

MANUAL EASYCHAIR. A) Ingresar su nombre de usuario y password, si ya tiene una cuenta registrada Ó

Diseño de un directorio Web de diseñadores gráficos, ilustradores y fotógrafos.


Fundamentos de Pruebas de Software (Spanish Edition) Click here if your download doesn"t start automatically

TRABAJO EN EQUIPO MOZ/BRAZIL

From e-pedagogies to activity planners. How can it help a teacher?

LAC Modificación DIRECT ALLOCATIONS TO ISPs DISTRIBUCIONES INICIALES A ISPs

Facultad de Ingeniería y Computación Escuela Profesional de Ingeniería Industrial

SAFETY ROAD SHOW 2015 Paul Teboul Co Chairman HST México

Contents. Introduction. Aims. Software architecture. Tools. Example

Certificación en España según normas UNE-EN-ISO 9000 y 14000

XII JICS 25 y 26 de noviembre de 2010

Food Engineering Instrumentation on LEMDist Workspace

LA FIRMA THE FIRM QUIENES SOMOS ABOUT US

Sistema de Control Domótico

Powered by RELEASE NOTES. CSS Business Intelligence. Versión Build

tema 2 - administración de proyectos escuela superior de ingeniería informática ingeniería del software de gestión

TEACHER TOOLS: Teaching Kids Spanish Vocabulary. An Activity in 4 Steps

Descripción de contenidos del E-FORM Capítulo Proyectos de cooperación europea

VI. Appendix VI English Phrases Used in Experiment 5, with their Spanish Translations Found in the Spanish ETD Corpus

ADAPTACIÓN DE REAL TIME WORKSHOP AL SISTEMA OPERATIVO LINUX

ELL Participation in District-Wide Assessments Systems

Introducción a la Ingeniería de Software. Diseño Interfaz de Usuario

IMPLANTACIÓN DE UNA SOLUCIÓN PLM QUE GARANTICE LAS CLAVES Y PRINCIPIOS RECOGIDOS POR EL SISTEMA DE GESTIÓN DE LA CALIDAD SIX SIGMA

FOR INFORMATION PURPOSES ONLY Terms of this presentation

DISPOSITIVO DE CONTROL PARA REDES DE DISTRIBUCIÓN ELÉCTRICA RESUMEN DEL PROYECTO

Por tanto, la aplicación SEAH (Sistema Experto Asistente para Hattrick) ofrece las siguientes opciones:

SIGUIENDO LOS REQUISITOS ESTABLECIDOS EN LA NORMA ISO Y CONOCIENDO LAS CARACTERISTICAS DE LA EMPRESA CARTONAJES MIGUEL Y MATEO EL ALUMNO DEBERA

UNIT ONE: Vocabulary and grammar-verb To Be. UNIT TWO : grammar; simple present- present progressive

APLICATIVO WEB PARA LA ADMINISTRACIÓN DE LABORATORIOS Y SEGUIMIENTO DOCENTE EN UNISARC JUAN DAVID LÓPEZ MORALES

Pages: 205. Authors: Dr. Carmen Bestué, Ph. D. Dr. Mariana Orozco Jutoran, Ph. D. Chapters: 6

Descripciones de los cursos de español programados para el semestre de Primavera 2014

Models de desenvolupament i Gestió de projectes Source Code Management

Soccer and Scouting in Your Organization A Worthwhile Combination

Prevencion es SPANISH PUBLIC SUPPORT SERVICE FOR MICROENTERPRISES. Marta Jiménez

PROYECTO INFORMÁTICO PARA LA CREACIÓN DE UN GESTOR DOCUMENTAL PARA LA ONG ENTRECULTURAS

Gaia en las universidades españolas y los centros de inves3gación

manual de servicio nissan murano z51

CUANDO LA MUSA SE HACE VERBO VERSOS CORTOS POEMAS DE AMOR POEMAS DE DESAMOR Y POEMAS CORTOS SPANISH EDITION

PROGRAMA PARA ANALIZAR DOCUMENTOS Y DETECTAR

FCC Information : Warning: RF warning statement:

ACTIVITIES 2014 CHILEAN MINING COMMISSION

Spanish 3V: Winter 2014

una solución para mejorar la toma de decisiones Performance Management Reporting & Analysis Data Warehouse

MAIN BACKGROUND OF THE EARLY WARNING SYSTEM ON NEW PSYCHOACTIVE SUBSTANCES - CHILE

Provisioning SQL Databases

Questionnaires for the Evaluation of Awareness in a Groupware Application

Certificado de Asistente de Oficina

ERP s Universitarios: soluciones, experiencias y tendencias. CrueTIC Universidad de La Rioja

INNOVACIÓN ABIERTA A UN CLICK OPEN INNOVATION AT ONE CLICK. Universidad Pública de Navarra

Instalación: Instalación de un agente en una máquina cliente y su registro en el sistema.

80 hm 3 de agua al año. 80 hm 3 water annually DESALINATION PLANT DESALADORA TORREVIEJA ALICANTE (ESPAÑA) ALICANTE (SPAIN)

La identidad en banca Gestión de Identidad en la banca on-line

LAC Modificación DIRECT ALLOCATIONS TO ISPs DISTRIBUCIONES DIRECTAS A ISPs

PROBLEMAS PARA LA CLASE DEL 20 DE FEBRERO DEL 2008

Tema: Study for the Analysis and the Conceptual Development of a European Port Access System. Ponente: Mario J. Moya Denia

La Tercera Historia. Demonstrative Adjectives: Este / Esta Estos /Estas Ese /Esa Esos /Esas Aquel / Aquella Aquellos / Aquellas

Pages: 118. Dr. Carmen Mangirón. Chapters: 6

MICROSOFT DYNAMICS NAV 2009

ESTUDIO Y PLANIFICACIÓN DE LOS FLUJOS DE INFORMACIÓN EN UNA EMPRESA PARA SU ALINEAMIENTO ESTRATÉGICO

CURSO DE CERTIFICACIÓN MCPD

SISTEMA DE DESARROLLO PARA UN MICROPROCESADOR ORIENTADO A APLICACIONES AEROESPACIALES

EP-2906 Manual de instalación

Funding Opportunities for young researchers. Clara Eugenia García Ministerio de Ciencia e Innovación

General Certificate of Education Advanced Level Examination June 2013

Some examples. I wash my clothes, I wash the dishes, I wash the car, I wash the windows. I wash my hands, I wash my hair, I wash my face.

NubaDat An Integral Cloud Big Data Platform. Ricardo Jimenez-Peris

ESTUDIO DE SOLUCIONES DE BUSINESS INTELLIGENCE

OSH: Integrated from school to work.

Universidad de Guadalajara

Flashcards Series 3 El Aeropuerto

The ADE Direct Certification User Guide is a tool for authorized ADE and school district personnel to use in conjunction with the ADE Direct

Adjectives. By Lic. Hector Chacon

UNIVERSIDAD NACIONAL DEL CALLAO

RTD SUPPORT TO AERONAUTICS IN SPAIN

SISTEMA DE IMPORTACIÓN DINÁMICA DE INFORMACIÓN WEB Y PRESENTACIÓN WAP (SIDIW-PW)

Dictionary * Diccionario

IMPLANTACIÓN DE UNA SOLUCIÓN PLM QUE GARANTICE LAS CLAVES Y PRINCIPIOS RECOGIDOS POR EL SISTEMA DE GESTIÓN DE LA CALIDAD SIX SIGMA

Objetivo: You will be able to You will be able to

ANX-PR/CL/ GUÍA DE APRENDIZAJE ASIGNATURA CURSO ACADÉMICO - SEMESTRE FECHA DE PUBLICACION

DISEÑO E IMPLEMENTACIÓN DE UN PROTOCOLO DE REDES PEER-TO-PEER

Transcripción:

UNL Spanish Dictionary Summary of the 1 st year Progress lines for the 2 nd year Goals for the 2 nd year Current state Madrid - May 98 This brief presentation of the Spanish Enconverter offers a general outline of the whole system, and of the work already done on the different modules that make up the Enconverter. We will finish stressing some of the benefits expected from such a system for the whole UNL project. 1

Summary of the 1 st year Setting up a methodology for building the Dictionary: a) close interaction with the Enconverter and Deconverter teams b) selection of contents keeping the proportion between the different parts of speech and the thematic areas b) use of publicly available resources The Enconverter is a software tool designed to provide: a) syntactic analysis of the input sentence b) semantic representation of sentence s meaning c) automatic conversion of that representation into UNL. The Enconverter s functionality has been divided into four modules. Each one completes a major step towards the translation of the input sentence into UNL. The Enconverter is a software assistant for its user, who: a) supervises the results proposed by the sub-system, and b) modifies and completes those results, if necessary. The intended user is not an NLP expert, but perhaps a person with a bachelor s degree in Linguistics or just a person with a sound training in Spanish grammar. As an interactive tool, several usability issues should be met: a) efficient analysis of the input sentence and quick response to user's command. b) employment of terminology and representation techniques wellknown in Linguistics. 2

Summary of the 1 st year Design and implementation of the Dictionary: a) computational independence from the other sub-systems b) implementation as a relational database supported by application programs. Contents: Over 100.000 pairs between Spanish headwords and UNL universal words. 3

Progress lines for the 2 nd year Continuation and reinforcement of the established methodology progress of the Dictionary according to the requirements posed by the Enconverter and the Deconverter Dictionary contents increment in quantity and quality We have established a set of nine basic categories (noun, adjective, verb, etc), most of them subdivided into more specific groups. For each category (and sub-category), a set of grammatical features have been defined in order to represent its grammatical properties. The grammatical features belong to three different classes: a) morphological: gender, number... b) syntactical: transitive, countable c) semantic: animate, human At the moment, we have written rules for nominal, determinant and adjectival phrases. Adverbial, pronominal and prepositional phrases are being currently defined, and we will turn to simple and complex sentences after that. The semantic model we plan to apply is based on: a) a set of primitive semantic objects (actions, entities, qualities, manners, propositions, etc.) b) a set of primitive semantic attributes or features that characterize these objects (animate, instrument, etc.) c) a set of primitive semantic relations (agent, theme, beneficiary, cause, etc.) that can be established between objects. This representation is the base for the automatic conversion of sentence s meaning (achieved in this module) into UNL. 4

Progress lines for the 2 nd year Turning to a definitive implementation of the Dictionary sub-system: Short-term reasons against 1 st year prototype: on-line connection with the Enconverter creation of visual tools for manipulating the contents Mid-term reasons: interoperability with third-party applications through a standard interface (ODBC) performance, robustness and support offered by commercial database management systems 5

Dictionary: goals for the 2 nd year Modification and enhancement of the previous design in order to: facilitate the integration with the DeCo automate the acquisition of new entries Contents growth: quantity:100.000 new pairs quality: refinement of the previous contents The implementation of an Enconverter along these guide-lines will have two major benefits. Point b) is regarded as very important during the development phase for an extensive and systematic testing of the Deconverter. 6

Dictionary: development lines Software architecture: DataBase ManagementTools NT Server Schema creation & updating Security Replication RDBMS NT Server ODBC Content Transfer Tools NT / 95 ODBC Dumping to DeCo format Interface with Enconverter Content ManipulationTools NT / 95 Inspection Validation Insertion Updating Benefits: robustness scalability performance standards compliance 7

Dictionary: development lines Maintaining 1 st year criteria regarding domain and part-of-speech balance. Increasing the use of publicly available resources and automatic cataloging tools Improving the semantic information attached to an entry applying KB s concepts. 8

Current state Definition (in close cooperation with Enconverter and Deconverter teams) of the new requirements, in particular: improvements in morphology definition of argument structures definition of new semantic information Design of the new database schema Implementation of the new design in SQL-Server over Windows NT 9

Current state Transference of the current contents to the new database Creation of several tools (queries, views, reports) for inspecting the data Classification of approximately 5.000 new entries 10

Lexical entries Morphological block Root Endings fontaner -o -a -os -as Sema ntic bloc k plum ber (fl d>p ipi ng) Link to Uw Pair (Spanish form, Uw) 11

UNL Dictionario Christèle Legeard Roberto Jiménez Luis Iraola Madrid - Noviembre 98 12

Diccionario: cumplimiento de tareas Tarea Plazo Productos Desarrollo del interfaz de aplicaciones 27/04/98-24/07/98 Biblioteca Dinámica de Interfaz 31/7/98 Manual de referencia del Interfaz con aplicaciones Desarrollo de la herramienta de volcado 6/07/98-2/10/98 Programa de Volcado a formato DeCo Manual de referencia del Programa de Volcado Creación de formularios de acceso a los datos 22/06/98-2/10/98 16/10/98 Formularios de manejo del Diccionario Documentación de los formularios Depuración de verbos 23/03/98-28/08/98 Informe de la depuración de verbos Depuración del resto de categorías Informe de anomalías de los datos 97 y transferencia 23/03/98-28/08/98 al formato 98 Introducción de nuevas entradas 4/05/98-31/07/98 6.757 sustantivos y 1.846 verbos 21/08/98 Informe de la tarea 5.1 Catalogación semántica 308 nuevas entradas, 789 revisadas 22/06/98-2/10/98 Propuesta de una ontología para el proyecto UNL 16/10/98 Informe de la tarea 5.2 Integración 5/19/98 30/10/98 4/11/98 Adaptación de los programas de volcado e interfaz con aplicaciones Correcciones al Diccionario 13

Diccionario: nuevos sustantivos Periodo temporal Sustantivos nuevos, no catalogados hasta entonces. Sustantivos catalogados previamente, pero emparejados con distinta UW Sustantivos ya catalogados previamente y emparejados con la misma UW Año 97 (meses de octubre y noviembre) 3.276 1.230 1.369 Año 98 (primera quincena de junio) 3.481 1.446 0 El número total de pares <palabra española, palabra universal> asciende a: 20.284 14

Diccionario: nuevos verbos Verbos catalogados Nuevas palabras universales Entradas léxicas Pares: <forma verbal, UW> 1.846 1.503 2.762 179.530 El número total de pares (sustantivos y verbos) es de: 199.814 15

Diccionario: cifras globales 97+98 Entradas en forma de cita: 15.900 Sustantivos: 11.558 Verbos: 2.414 Adjetivos: 1.738 Adverbios: 272 Palabras universales básicas: 18.331 Palabras universales: 21.771 Entradas léxicas completas (enlaces Hw-Uw): 23.912 16