AsignacionAutomaticadeEtiquetasdeDominiosenWordNet. Resumen:Enesteartculosedescribeunprocedimientoparaasignardeforma



Documentos relacionados
Introducción al Procesamiento de Lenguaje Natural Febrero de 2015

Método de desambiguación léxica basada en el recurso léxico Dominios Relevantes

Gramática Sintagmática Nuclear. HPSG: Head-driven Phrase Structure Grammar

Método de desambiguación léxica basada en el recurso léxico Dominios Relevantes

Gramática Sintagmática Nuclear. HPSG: Head-driven Phrase Structure Grammar

HPSG: Head-driven Phrase Structure Grammar. Gramática Sintagmática Nuclear

Gramática Sintagmática Nuclear. HPSG: Head-driven Phrase Structure Grammar

Introducción a la Secuencia En esta secuencia los alumnos aprenderán el vocabulario específico

Instruction Manual 1408 / 1409 Manual de Instrucciones Manuel d'instruction

CONSEJERÍA DE CULTURA Archivo Histórico Provincial de Huelva

Martín Pinzón Navarro, MD*, Ricardo Guerra Fuentes, MD**, Carlos García Hurtado, MD***

Estructura 3D de proteínas (2)

Gramática Sintagmática Nuclear Semántica. HPSG: Head-driven Phrase Structure Grammar

Leonidas Borrero Borrero MD*

Qué es la Ecología? οἰκο = casa o hábitat lŏgus = estudio

CENTRO UNIVERSITARIO SANTA ANA Centro adscrito a la UEx.- Almendralejo GRADO EN INGENIERÍA DE LAS INDUSTRIAS AGRARIAS Y ALIMENTARIAS

Universidad Central Del Este U C E Facultad de Ciencias Administrativas y de Sistemas Escuela de Mercadeo

Resolución de Correferencias entre Fuentes de Opiniones en Español

Resolución de triángulos rectángulos

LOCALIZACIÓN E IDENTIFICACIÓN DE GUÍAS DE PRÁCTICA CLÍNICA EN ESPAÑOL. Antoni Parada

Reparaciones del habla en el corpus DIME


ASIGNATURA SISTEMAS DE PROPULSIÓN Y COMBUSTIBLES ALTERNATIVOS, MEDIOAMBIENTE Y REGLAMENTACIÓN

Descripción del Diccionario y Catálogo de Objetos Del Instituto Geográfico Nacional Versión 1.0. República Argentina

FACULTAD DE CIENCIAS DE LA EDUCACIÓN CUADRO HORARIOS-CURSO ACADÉMICO 2015/2016 GRADO EN MAESTRO/A DE EDUCACIÓN INFANTIL

Randomika Group es una empresa de carácter abierto orientada hacia el uso de tecnologías libres y Open Source. r

Ingeniería de Software II

Clear Channel y Grupo ACIR de México se unen

INTERVENCIONES S.P.E.T.P

UNIVERSIDAD DEL CARIBE UNICARIBE. Escuela de Mercadeo. Programa de Asignatura

: DIBUJO ARQUITECTONICO I CODIGO

UNIVERSIDAD DEL CARIBE. Escuela de Mercadeo. Programa de Asignatura

Universidad Central Del Este U.C.E. Facultad de Ciencias Administrativas y de Sistemas Escuela de Mercadeo

ELEMENTOS DE UN DICCIONARIO.

Sumario... 5 Prólogo Unidad didáctica 1. Introducción a la minería de datos Objetivos de la Unidad... 10

Contribución de la información semántica en un sistema de aprendizaje automático para resolver la implicación textual

REMO MAIZ. ANALISIS DE DATOS Ensayos comparativos de rendimiento RED DE TERCEROS Campaña Cosecha OESTE ARENOSO

SÍLABO DEL CURSO DE MATEMATICA FINANCIERA

Integración de recursos semánticos basados en WordNet Integration of semantic resources based on WordNet

Facultad de Derecho. Grado en Derecho

conglo merado edito rial

PROCESO DE PLANIFICACIÓN DOCENTE FICHAS DE CLIENTES

Evaluación de Usabilidad en Herramientas Educativas: Una revisión sistemática

ENTOMOLOGÍA APLICADA

Ín d i c e. Pr e s e n ta c i ó n... 1

Inciice de Materias Pág. Cap.

Jordi Carrera (UPC) Irene Castellón (UB) Marina Lloberes (UB) Lluís Padró (UPC) Nevena Tinkova (UB)

DEPARTAMENTO AREA TECNOLOGÍA DE ALIMENTOS PROGRAMA DE GESTION DE CALIDAD DE ALIMENTOS

MARCO PARA LA BUENA ENSEÑANZA DE EDUCACIÓN PARVULARIA

Código: ING-143. Horas Semanales: 4

Generación de metadatos en gvsig. Cristian Martín Reinhold

Máster Universitario en Dirección de Empresas MBA. Programa de la Asignatura: CUADRO DE MANDO E INFORMACIÓN DE GESTIÓN

Asignatura: SISTEMAS DE INFORMACION Guía del Proyecto Final. Redacción del documento final

MERCADOS FINANCIEROS EN COLOMBIA CODIGO ECON 3741 Sección 1 ANA FERNANDA MAIGUASHCA amaiguol@banrep.gov.co

Técnicas de Expansión de Consultas en Redes Sociales (Twitter)

GUÍA DOCENTE. Relaciones Laborales y Recursos Humanos Doble Grado: Gestión administrativa del trabajo

webir /08/2018

Aprendizaje inductivo

(ASIGNATURA EXTINGUIDA)

Contents. Preface. Para empezar: Los cinco amigos 1. Cara a cara 2. Puntos clave: Introducción 6. Descripción 7. Comparación 8

Área abierta 0% 0% 20% 14%

Nexos Económicos, Inc. Economic Research & Digital Business Transformation

Programa resumido de la asignatura PROPIEDAD INTELECTUAL E INDUSTRIAL MÁSTER UNIVERSITARIO EN DERECHO PRIVADO


CLASE 9. NOVENA CLASE Principiantes 2

LIBROS DE TEXTO Y MATERIALES CURRICULARES. PR 7404 MD Rev: 4 Pág 1 de 7

descubre la segmentación con Orange Advertising Network

Referencias bibliográficas

Universidad Central Del Este U.C.E. Facultad de Ciencias Administrativas y de Sistemas Escuela de Mercadeo

Uso de información de geolocalización, temporal y de usuario para el filtrado de información en Twitter

Curso ICA de: TÉCNICO EN PUBLICIDAD

Ampliación de WordNet mediante extracción léxica a partir de un diccionario de sinónimos

HOJA DE DATOS EN LÍNEA. MOC3SA-AAB43D31 Speed Monitor CONTROLADORES DE SEGURIDAD MOTION CONTROL

Llamadas telefónicas internacionales. Manual práctico para hacer llamadas telefónicas con éxito en siete idiomas

LENGUAJES DE PROGRAMACIÓN WEB (PHP1, HTML52)

Mediación. Título: Máster universitario en prevención e intervención psicológica en problemas de conducta en la escuela

Luisa Fernanda Londoño Fandiño Marisol Carantón Agudelo

Seguridad en el Trabajo I

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

DISEÑO Y ELABORACIÓN DE PRÁCTICAS DE LABORATORIO PARA ROBÓTICA INDUSTRIAL UTILIZANDO MANIPULADORES ROBÓTICOS KUKA


The Critical Need of Value

Esta información está destinada al uso en reuniones de carácter científico y no promocional o para la formación de profesionales sanitarios.

El proyector compatible con todas las lámparas

Máster Universitario en Dirección de Empresas MBA. Modelos de Negocios en Finanzas

La Necesidad de Modelar. Diseño de Software Avanzado Departamento de Informática

UNIVERSIDAD CENTRAL DEL ESTE U C E Facultad de Ciencias y Humanidades Escuela de Psicología

UNIVERSIDAD NACIONAL CENTRO DE INVESTIGACIÓN Y DOCENCIA EN EDUCACIÓN MAESTRIA EN EDUCACIÓN DIVISIÓN DE EDUCOLOGÍA

FAMILIA HERNÁNDEZ. Ingresos/mes Ingresos/día /día/persona GASTOS MENSUALES PARA UNA FAMILIA DE 4 MIEMBROS

I. DATOS DE IDENTIFICACIÓN

MASTER EN BIODIVERSIDAD: CONSERVACIÓN Y EVOLUCIÓN

CONSULTA EN BASES DE DATOS

Minería de Datos Web. 1 er Cuatrimestre Página Web. Prof. Dra. Daniela Godoy.

Liderazgo. UNIVERSIDAD AUTÓNOMA DE SAN LUIS POTOSÍ Facultad de Contaduría y Administración PROGRAMA ANALÍTICO A) NOMBRE DEL CURSO:

2 Representación y Análisis Semántico. 3 Semántica Léxica. 4 Recuperación de Información. 5 Extracción de Información

TRATAMIENTO FISCAL DE LOS DIVIDENDOS DE SOCIEDADES ARGENTINAS

UNIVERSIDAD CAMILO JOSÉ CELA ... DISEOS DE INVESTIGACION EN PSICOLOGIA

Epidemiología Laboral

Universidad Central Del Este U C E Facultad de Ciencias Administrativas y de Sistemas Escuela de Administración de Empresas

Transcripción:

AsignacionAutomaticadeEtiquetasdeDominiosenWordNet MauroCastillo,FrancisReal UniversidadPolitecnicadeCatalu~na JordiGironaSalgado1-3 08034Barcelona fcastillo,fjrealg@lsi.upc.es GermanRigau UniversidaddelPasVasco 649PostaKutxa 20080Donostia rigau@si.ehu.es Resumen:Enesteartculosedescribeunprocedimientoparaasignardeforma automaticaetiquetasdedominioalasglosasdewordnet.unadelasmotivaciones principalesdeltrabajoesenriquecerfuenteslexicasconinformaciondewordnet. Paraello,seutilizanlosWordNetDomains.Finalmente,seproponenycorrigen etiquetasdedominiosparalapartenominalyverbaldewordnet. Palabrasclave:WordNet,WordNetDomains,EtiquetajeAutomatico. Abstract:Thispaperdescribesaprocesstoautomaticallyassignwordnetdomain labelstowordnetglosses.oneofthemaingoalsofthisworkistoenrichlexical sourceswithwordnetinformation.wornetdomainsareusedasknowledgesource. Finally,Domainlabelsfornounsandverbsaresuggestedandveried. Keywords:WordNet,WordNetDomains,AutomaticLabeling. 1Introduccion AunquelaimportanciadeWordNethatranscendidoampliamentelospropositosparalos quefuecreado(milleretal.,1990),yesahora unrecursoimprescindibleparamuchasapro- ximacionesalprocesamientosemantico(mc- Carthy,2001;AgirreyMartinez,2002),en suestadoactual,siguesinserunrecursosu- cientementericocomopara,directamente, darsoporteamuchasaplicacionesconceptualesavanzadas(harabagiu,pasca,ymaiorano,2000). Sinembargo,inclusoahora,desarrollarBasesdeConocimientosucientementegrandesyricascomoparaprocesar semanticamentetextonorestringido,sigue siendounatareatitanicaquesolopueden abordargrandesgruposdetrabajoalolargodelargosperiodosdetiempo(fellbaum, 1998;Atseriasetal.,1997;Bentivogli,Pianta,yGirardi,2002). UnadelasmotivacionesprincipalesdeestetrabajoesenriquecerWordNet(ocualquierotrorecursolexico,comodiccionarios, etc.)deformasistematicaconlasetiquetas dedominiosemanticodewordnetdomains (MagniniyStrapparava,2002).Esterecur- sohaprovadosuecaciaenladesambigua- Esteartculohasidonanciadoparcialmentepor lacomisioneuropea(meaningist-2001-34460), GeneralitatdeCatalunya(2002FI00648)yUniversidadTecnologicaMetropolitana-Chile. ciondelosdominiosdelaspalabras(eningles WordDomainDisambiguation)(Magniniy Cavaglia,2000), Enestetrabajoexploramoseletiquetaje semanticoderecursoslexicos,asignandode formaautomaticaysistematicaetiquetasde dominioaglosasydenicionesdediccionariosċomoveremos,elmetodopropuestotambienpuedeservirparacorregiryvericarel etiquetajepropuestoydaralgunasrecomendacionesparaasignaretiquetasdedominio enunadeniciondeundiccionarioountextolibre. Elartculoseorganizadelasiguientemanera.Enlaseccion2sedescribeWN.AcontinuacionsedescribenlosWorNetDomains ysusposiblesaplicaciones.enlaseccion4 sedetallalaexperimentacionrealizada.luego,enlaseccion5sedetallanlaevaluacion yresultados.enlaseccion6sepresentala discusionyanalisisdelosresultados.finalmentesepresentanlasconclusionesytrabajo futuro. 2WordNet WordNetesunabasededatoslexicaparael inglesquefuedesarrolladoenlauniversidad deprinceton.esunabasededatosconceptualestructuradaenformaderedsemantica, quecontienenombres,verbos,adjetivosyadverbios.elsynset(synonymsetsoconjuntos

nimia,antonimia,hiponimia/holonimia,me- ronimia/holonimia,implicacionycausa.la deestetrabajoseconsideralawn1.6debido aladisponibilidaddeloswornetdomains. representaunconceptolexicalizado.lasre- versionactualdewnesla1.7.1.aefectos desinonimos)eslaunidadbasicadewnque lacionessemanticasentresynsetsson:sino- LaversiondeWN1.6contiene99.638synsets y121.962palabrasdiferentes.enwnsedeneunoomassentidosporcadapalabra.unrrolladoenitc-irstpor(magniniycava- tienedosomassentidos. 3WordNetDomains WordNetDomainsesunrecursolexicodesa- palabrapuedesermonosemicacuandosolo poseeununicosentidoypolisemicacuando puedeapreciarcomolagranmayoradelos synsetsoloposeenunaetiquetadedominio. glia,2000)dondelossynsetshansidoanota- riasetiquetasdedominiodeunconjuntode 165etiquetasorganizadasjerarquicamente. deetiquetasqueposeecadasynset.enellase dosdeformasemiautomaticaconunaova- Latabla1muestraladistribuciondelnumero #nomveradjadv% Tabla1:DistribuciondelnumerodeetiquetasdedominiosporsynsetenWordNet 28104743111310910.105 312518811361.4632 42108 52 1 80 00.2268 1564581128716681346088.202 tanconlainformacioncontenidaenword- Lasetiquetasdedominiossecomplemen- 00.0030 tirdediferentessubjerarquasdewn:por denombresyverbos. MEDICINEpuedecontenersentidosapartir Net.Undominiopuedeincluirsynsetsde diferentescategorassintacticas:porejemplo otros. tidosdeunapalabraenclaseshomogeneas, object#n#1,act#n#2,location#n#1entre ejemplosportcontienediferentessentidosderivadosdesdelifeform#n#1,physical- Ademaslosdominiospuedenagruparsen- Undominiopuedeincluirsentidosapar- ideaveamosunejemploextradode(b.mag- conlanalidaddereducirlapolisemiadelas palabrascontenidasenwn.parailustrartal nini,2001),paralapalabra\bank"queposee 10sentidosenWN. NroSF #1group #2objectGeographyGeology #3possession #4artifactArchitectureEconomy #5group #6artifact Dominio Factotum Tabla2:Sentidosde\bank"enWNconSemanticFile(SF)yetiquetasdeDominios disminuirlapolisemia. dominios.ademassiconsideramoselsemanticfiledecadasynsetclaramentepodemos palabra\bank"comonombre,loscualesse puedenreducira7sentidossiseagrupapor enmasdeunaetiquetadedominio,nopare- Latabla2muestralos10sentidosdela #10act #7objectGeographyGeology #8possession #9object EconomyPlay Transport censeguirningunapatronregular,porejem- plo: 1.sultana#n#1(paleyellowseedless Porotroladoenaquellossynsetquepose- 3.canicolafever#n#1(anacutefeverishdiseaseinpeopleandindogsmarked BotanyGastronomy 2.morocco#n#2(asoftpebblegrained grapeusedforraisinsandwine) bygastroenteritisandmildjaundice) MedicinePhysiologyZoology shoesandbookbindingsetc.) AnatomyZoology leathermadefromgoatskin;usedfor 4.blue#n#1blueness#n#1(thecolor oftheclearskyinthedaytime;"hehad defactotum. logy.enelejemplo4lasetiquetasdependen elejemplo2lasetiquetasdependendebioquasdedominiosdiferentes.encambioen Elejemplo1y3dependendesubjera- eyesofbrightblue") Estehecho,seguramentedependeengran ColorQuality medidadelprocesoquesemiautomaticoque sesiguioparasuconstruccion.muchasde

lasetiquetasfueronasignadasennivelesaltosdelasjerarquasdewnyfueronpropagadasautomaticamenteatravesdelajerarqua dehiponimosytroponimos.debemosdestacar,quehastaelmomentonoseharealizado unavericacioncompleta,yaseamanualo automaticadetodaslasasignacionesdedominiosasynsets. 3.1Factotum SeconsideralaetiquetadedominioFactotum paraaquellossynsetsquenopertenecenaun dominioespecco,peropuedenapareceren muchosdeellos.estaetiquetadedominio incluyedostiposdesynsets: Synsetsgenericos:Seutilizaparamarcar lossentidosdewnquenopertenecena undominioespecco.comoporejemplo:persona,dadeunmes,etc. StopSenses:Aquellossynsetsqueaparecenconfrecuenciaendiversoscontextos, comoporejemplo:numeros,dasdela semana,colores,etc. 3.2Jerarquadedominios Existen165etiquetasdedominiosorganizadasencuatronivelesenformajerarquica, dondecadanivelesdeacuerdoalgradode especicacion(vergura1). pure_science biology botany zoology anatomy entomology......... TOP Figura1:PartedelaJerarquadeDominios dewordnet Enelnivelunodelajerarquadedominios econtramossescategoras: Doctrines:fart,archaeology,astrology,literature,linguistics...g Freetime:fplay,sportg AppliedScience:fagriculture,alimentation,architecture,medicine,...g PureScience:fastronomy,mathematics,biology,earth,chemistry,...g SocialScience:fanthoropology,law, military,pedagogy,sociology,...g Factotum:fnumber,color,person,...g 3.3AplicacionesdeWordNet Domains Laimportanciadelasetiquetasdedominios dewnhasidotratadaenvariostrabajosen losultimosa~nos.entareasdewordsensedisambiguation(wsd),(gonzaloetal., 1998)enfatizaelroldelosdominiosenWSD. (MagniniyStrapparava,2000)introducen WordDomainDisambiguation(WDD)como unavariantedewsddondeparacadapalabraenuntextoseeligelaetiquetadedominio envezdelaetiquetadesentido.ademasen tareascomo\textcategorization"(tc)se hautilizadowordnetdomains(magniniet al.,2002),entreotras. 4Experimentacion Apesardeserunrecursomuyvalioso, WordNetDomainsalhaberseconstruidodeformasemiautomatica,requierede unprocesodevericacion,yaseamanualo automatico,quenospermitavalidarlasasignacionesrealizadasdeetiquetasdedominioa synsetsdewordnet1.6.masaun,nosplanteamosadquirirlosmodelosimplcitosdeasignaciondedominiosaglosas,parapoderetiquetardeformaautomaticaotrosrecursos, diccionariosyversionesdewordnetqueno sehayanactualmenteenriquecidasconetiquetasdedominio.portanto,losprimeros experimentosrealizadossehancentradoen: Laasignacionautomaticadedominios aglosasdewordnet1.6(uotrasver- sionesanterioresoposterioresdeword- Net),uotrasdenicionesdediccionarios genericos. Lavalidaciondelaconsistenciadelas asignacionesdedominiosawordnet1.6 yenparticularvericarquelasetiquetas Factotumhansidoasignadasdeforma sistematica. Latabla3muestraelporcentajedeetiquetasfactotumparanombres,verbos,adjetivos

POSconFacsinFac%Fac noun660255825211.77 verb12127442563.51 adj 17915691061.42 adv 3575103970.93 Tabla3:DistribuciondeSynsetsconysin etiquetasdedominiosfactotumenwn1.6 yadverbiosenwn1.6.existeunporcentaje elevadodesynsetsetiquetadoscomofactotum,exceptoenelcasodelosnombres. Paranuestrosexperimentosseselecciono aleatoriamenteel1%delossynsetsdecada POSpararealizareltestyelrestoparael entrenamiento(vertabla4). POSSFCF%Fac noun57264711.90 verb4312160.33 Tabla4:Corpusdetestparanombresyverbossinfactotum(SF)yconfactotum(CF) 4.1Metododeetiquetado Elmetododeetiquetadoautomatico,quese detallaacontinuacion,estabasadoen(rigau,atserias,yagirre,1997): Calculodelamatrizdepesos:setoma enconsideracionlaspalabrasqueconformanelsynsetdelcorpusdeentrenamiento,esdecir,losvariantosinonimos ylaglosa.sedeterminalafrecuenciade cadapalabraconrespectoalaolasetiquetasdedominioqueposeeelsynset. Luegosegeneraunvectordepesospara cadapalabra,utilizandolasmedidasdescritasen4.2.comoejemplo(vertabla5) sepresentapartedelvectordepesosparalosnombressoccer(monosemico)y orange(polisemico). Ajustedeparametros:Losparametros quesetomaronenconsideracionfueron entreotros,elporcentajedelosvariant (70%)ypalabrasdelaglosa(30%).Se normalizolosvectoresobtenidosparacadasynsetyseconsiderocomoetiquetas propuestasaquellasqueestuvieranenel 15%superior(rangodeumbral[1..0,85]). soccer orange pesoetiquetapesoetiqueta 2.826soccer8.181botany 2.183play5.129gastronomy 1.987football3.019color 1.917sport1.594entomology 0.998rugby1.205jewellery............ Tabla5:Vectordepesosparanombrescon factotum(cf) 4.2Medidas Paracalcularlospesosdelaspalabrasasignadasaundominiohemosprobadotresfuncionesdistintas: M1:Formuladelarazcuadrada f(x;y)?1 Nf(x)f(y) pf(x;y) M2:AssociationRatio Pr(w=SC)log2(Pr(w=SC) Pr(w)) M3:Formuladellogaritmo log2(nf(x;y) f(x)f(y)) 5Evaluacionyresultados Lasmedidasdeevaluacionutilizadasenlos distintosexperimentossedetallanacontinuacion: MiAMedidai-esimaalconsiderarlosaciertosentrelaetiquetapropuestaylaetiquetacorrecta MiDMedidai-esimaalconsiderarlosaciertosderivadosdelajerarquadedominios.PorejemplosilaetiquetapropuestaesZoologyylacorrectaesBiologogy, seconsideracomounacierto. APAccuracyparalaprimeraetiquetapropuesta AP=aciertosdelaprimeraetiqueta totaldesynset

ATAccuracyparatodaslasetiquetaspropuestas AT=aciertosdetodaslasetiquetas totaldesynset Precision P=(etiquetaspropuestasycorrectas) (totaletiquetaspropuestas) Recall R=(etiquetaspropuestasycorrectas) totaletiquetascorrectas F1 F1=2PR (P+R) NAPATPRF1 M1A70.9479.7564.7468.2566.45 M1D74.5084.8568.8872.6270.70 M2A45.7550.3942.7343.1242.92 M2D52.0957.5048.7549.2148.98 M3A66.7774.5060.8663.7662.27 M3D71.5681.4566.5469.7168.09 Tabla6:Resultadosparanombresconsiderandofactotum(CF) NAPATPRF1 M1A73.9581.8266.8168.6867.73 M1D78.5087.2471.2473.2472.23 M2A52.4557.5249.3248.2448.77 M2D59.4465.2155.9454.7155.32 M3A74.4882.6968.4169.4168.91 M3D78.8588.6473.3374.4173.87 Tabla7:Resultadosparanombressinconsiderarfactotum(SF) Paralosnombresserealizaronexperimentosqueentrenabanconfactotumytesteabanconfactotum,losresultadosobtenidos semuestranenlatabla6.enlatabla7 semuestranlosresultadosalrealizarunentrenamientoytestdenombressinfactotum. Losmejoresresultadosenpromedioobtenidosenambosexperimentosseobtuvieroncon VAPATPRF1 M1A51.2457.0247.2650.7448.94 M1D51.2457.0247.2650.7448.94 M2A13.2214.8812.6813.2412.95 M2D16.5319.8316.9017.6517.27 M3A23.1428.1021.9425.0023.37 M3D24.7929.7523.2326.4724.74 Tabla8:Resultadosparaverbosconsiderandofactotum(CF) VAPATPRF1 M1A69.7776.7464.7155.9360.00 M1D74.7283.7269.2361.0264.86 M2A20.9325.5819.6418.6419.13 M2D41.8651.1638.6037.2937.93 M3A41.8655.8139.3440.6840.00 M3D53.4967.4446.7749.1547.93 Tabla9:Resultadosparaverbossinconsiderarfactotum(SF) lamedidam1.destacandoquemasdel70% delasprimerasetiquetaspropuestascoincidenconloswornetdomains. Enlatabla8semuestranlosresultados alrealizarunentrenamientoytestdeverbos confactotum.mientrasquelatabla9muestralosresultadosdeentrenamientoytestde verbossinfactotum.enamboscasosseobtienenpeoresresultadosqueparalosexperimentosconnombres.unadelasrazones puedeserelaltonumerodesynsetsdeverbosetiquetadosconfactotum(vertabla4). Peroenelcasodelosverbossinfactotum seapreciaunamejoradecercadel70%de etiquetascorrectascomoprimerapropuesta. TrainCF TestCF TestSF PRPR M1A64.7468.2586.1582.35 M1D68.8872.6289.2385.29 Tabla10:Entrenamientoconfactotumpara nombresusandomedidam1 Enlatabla10sehaceunacomparacion paralosnombresalrealizarunentrenamientoconfactotumyuntestcondiferentescor-

TrainSF TestCF TestSF PRPR M1A76.3775.6666.8168.68 M1D79.0478.3171.2473.24 Tabla11:Entrenamientosinfactotumpara nombresusandomedidam1 pus(cfysf).sepuedeapreciarunamejora considerablealentrenarconfactotumyhaceruntestsinfactotum,llegandoal86.15% deprecisionenlaprimeraasignacion,locual puededeberseaquelasetiquetasdistintasde factotumestancorrectamenteasignadas. Encambioalhacerelexperimentodeentrenarsinfactotumyhacertestvariados(CF ysf),comosemuestraenlatabla11,podemosdarnoscuentaquesucedelocontrario alcasoanterior.larazonpuededebersea quenuevamentelaetiquetasdiferentesafactotumestanbienetiquetadas. Peroalcompararlosresultadosdelastablas10y11podemosdecirquesealcanza enpromediounaprecisioncercanaal80%en lasetiquetaspropuestasenprimerlugar. 6Discusion Aunquelosresultadosobtenidossonalentadores,sirealizamosunanalisismasdetalladodelasasignacioneserroneasrealizadaspor elmetodoautomatico,comprobamosademas queenlamayoradeloscasos,lasetiquetas propuestasresultanserbastanteparecidas. Estosugiereciertafaltadesistematicidaden laasignaciondeetiquetas.ademas,enaquelloscasosdondeseconsideralajerarquade dominiosenlaasignacion(mid),seobtiene tambien,enlamayoradeloscasos,unosmejoresresultados. Amododeilustracion,semuestran acontinuacionalgunossynsetdondela etiquetapropuestafueconsideradacomo erroneaenlaevaluacion,peroalanalizar laglosarespectiva,podemosintuirqueen muchoscasospodraserconsideradacomo unaetiquetacorregida. 1.Palabrasmonosemicas.Aquellaspalabrasdelaglosaqueseanmonosemicas puedenayudaraencontrareldominio masadecuado. creditapplication#n#1(anapplicationforalineofcredit) EtiquetadoconSCHOOL Propuesta1:Banking Propuesta2:Economy OBS:lineofcredit#n#1esmonosemicoyestaetiquetadocomo Banking. plaguespot#n#1(aspotontheskin characteristicoftheplague) EtiquetadoconARCHITECTURE Propuesta1:Physiology Propuesta2:Medicine OBS:plague#n#1esmonosemicoyestaetiquetadocomo Physiology-Medicine.Yskin#n posee6sentidoscomonombreetiquetadoscomoanatomy,transport yfactotum. 2.RelacionentreEtiquetas.Existeuna relaciondirectaenlajerarquadedominiosentrelasetiquetaspropuestasylas correctas. academicprogram#n#1(aprogramofeducationinliberalarts andsciences(usuallyinpreparation forhighereducation)) EtiquetadoconPEDAGOGY Propuesta1:School Propuesta2:University OBS:Pedagogyespadrede SchoolydeUniversity. shopping#n#1(searchingforor buyinggoodsorservices) EtiquetadoconECONOMY Propuesta1:Commerce OBS:Enlajerarquadedominios, CommerceyEconomydependen directamentedesocialscience. authorisation#n#1(theactofauthorizing) EtiquetadoconPOLITICS Propuesta1:Law OBS:EnestecasoLawyPoliticsdependenenformadirectade Socialscience.

recontrolradar#n#1(radarthat controlsthedeliveryofreona militarytarget) Etiquetado con MER- CHANTNAVY Propuesta1:Military OBS:Merchantnavydepende detransport.mientrasquemilitaryytransportdependende Socialscience. 3.RelacionesenWN.Enalgunoscasos lossynsetestanrelacionadosconpalabrascontenidasenlaglosa. bowling#n#2(agameinwhichballs arerolledatanobjectorgroupof objectswiththeaimofknocking themoverplay) EtiquetadoconBOWLING Propuesta1:Play OBS:game#n#2eshiperonimoyestaetiquetadocomoPlay. Ademasplay#n#16etiquetado comoplay-sport,estarelacionado porholonimiacongame#n#2. Ademasenlajerarquadedominios,PlayySportsonhermanos;y BowlingdependedeSport. costanalysis#n#1(breakingdown thecostsofsomeoperationand reportingoneachfactorseparately) EtiquetadoconFACTOTUM Propuesta1:Economy OBS:Lapalabra\cost"pertenecientealaglosaposee3sentidos, etiquetadoseconomy,moneyy Qualityrespectivamente. 4.Casosinciertosydudosos.Existen casosendondelaetiquetapropuestano respondeaningunpatron,peroquepuedeserconsideradacomolaetiquetacorrecta. birthmark#n#1(ablemishonthe skinformedbeforebirth) EtiquetadoconQUALITY Propuesta1:Medicine bardolatry#n#1(idolizationofwilliamshakespeare) EtiquetadoconRELIGION Propuesta1:history Propuesta2:literature 7Conclusionesytrabajofuturo Comosehavistoenlosresultados,elprocedimientoparaasignaretiquetasdedominioa glosasdewordnetesbastantealentador,sobretodosiconsideramosqueesunproblema difcil,altenerenconsideracionlapolisemia existenteenwnylaformaenquefuerongeneradaslasetiquetasdedominios,generadas atravesdeunprocesodepropagacionsemiautomaticoatravesdelasrelacionesexistentesenwn. Elprocedimientoesbastanteableenlas etiquetasqueproponecomoprimeraprioridad,alcanzandomasdel70%decoincidencia conlasetiquetasdedominiopropuestaspor (MagniniyCavaglia,2000). Tambienhemosrealizadounprimerestudiosobrelatipologadeloserroresdel metodoquesugierequeenciertoscasospodramosa~nadirnuevasetiquetascorrectas alsynsetencuestionocorregirlas,substituyendolas. Tambienhemosvistoquelossynsetsactualmenteetiquetadoscomofactotum,puedenser,etiquetadosconunaetiquetadedominio. Comotrabajofuturo,planeamosrealizar ciertasmejorasyadaptacionesalalgoritmo paraetiquetarotrasversionesdewordnet yparalograretiquetaruntextolibre(p.e. SemCor)conlasetiquetasdedominiosde WN. Hemosplanicadotambienrealizarunextensiondelmetodoconsiderandolasglosasde synsetsrelacionadasconelsynsetetiquetado (medianterelacionesdehiponimiaomeronimia). Porultimo,tambienqueremosrealizarun estudiosobrelabondaddecadaasignacion automatica,proporcionandocredibilidadsolo aaquellasquesuperenunciertoumbral,o cumplandeterminadaspropiedades. Bibliografa Agirre,E.yD.Martinez.2002.Integratingselectionalpreferencesinwordnet. EnProceedingsoftherstInternational WordNetConferenceinMysore,India,21-25January.

Atserias,J.,S.Climent,X.Farreres,G.Rigau,yH.Rodrguez.1997.Combining multiplemethodsfortheautomaticconstructionofmultilingualwordnets.en ProcceedingofRANLP'97,paginas143{ 149,Bulgaria.AlsotoappearinaBook. B.Magnini,G.Cavaglia,G.Pezzulo A.Gliozzo.2001.UsingDomainInformationforWordSenseDisambiguation. ProceedingnsofSENSEVAL-2,France. Bentivogli,L.,E.Pianta,yC.Girardi.2002. Multiwordnet:developinganalignedmultilingualdatabase.EnFirstInternational ConferenceonGlobalWordNet,Mysore, India. Fellbaum,C.,editor.1998.WordNet.An ElectronicLexicalDatabase.TheMIT Press. Gonzalo,J.,F.Verdejo,C.Peters,yN.Calzolari.1998.Applyingeurowordnetto cross-languagetextretrieval.computers andhumanities. Harabagiu,S.,M.Pasca,yS.Maiorano. 2000.Experimentswithopen-domaintextualquestionanswering.EnProceedings ofcoling-2000,saarbrukengermany. Magnini,B.yG.Cavaglia.2000.Integratingsubjecteldcodesintowordnet. EnInProceedingsoftheSecondInternatgionalConferenceonLanguageResources andevaluationlrec'2000,athens.greece. Magnini,B.yC.Strapparava.2000.ExperimentsinWordDomainDisambiguation forparalleltexts.proceedingnsofacl, HomgKong. Magnini,B.yC.Strapparava.2002.User modellingfornewswebsiteswithcontent- basedtechniques.enproceedingswww- 2002,theEleventhInternationalWorld WideWebConference,Postersession, Honululu,Hawaii,USA,. Magnini,B.,C.Strapparava,G.Pezzulo,y A.Gliozzo.2002.ComparingOntology- BasedandCorpus-BasedDomainAnnotationsinWordNet.InProceedingsofFirst InternationalWordNetConference. McCarthy,D.2001.LexicalAcqusitionatthe Syntax-SemanticsInterface:DiathesisAlternations,SubcategorizationFramesand SelectionalPreferences.Ph.D.tesis,UniversityofSussex. Miller,G.,C.Beckwith,D.Fellbaum, D.Gross,yK.Miller.1990.Fivepapers onwordnet.cognitivesciencelaboratory,princetonuniversity,report43. Rigau,G.,J.Atserias,yE.Agirre.1997. Combiningunsupervisedlexicalknowledgemethodsforwordsensedisambiguation.EnProceedingsofjoint35thAnnualMeetingoftheAssociationforComputationalLinguisticsand8thConferenceoftheEuropeanChapteroftheAssociationforComputationalLinguistics ACL/EACL'97,Madrid,Spain.