Resolución de Correferencias entre Fuentes de Opiniones en Español

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Resolución de Correferencias entre Fuentes de Opiniones en Español"

Transcripción

1 WPLN 2012 Facultad de Ingeniería, Universidad de la República Montevideo, Uruguay Resolución de Correferencias entre Fuentes de Opiniones en Español Fernando Acerenza, Macarena Rabosto, Magdalena Zubizarreta Aiala Rosá, Dina Wonsever

2 Contenido Contexto Motivación y Propuesta Sistema de Resolución de Correferencias Algoritmo Ejemplo Evaluación Conclusiones

3 Contexto Artículos de prensa en formato digital Gran cantidad y fácil acceso Frecuentemente introducen diferentes participantes y sus opiniones Obtener información de forma automática A partir de sistema que identifica opiniones en textos de prensa en español

4 Motivación y Propuesta Obtener información a partir de textos con opiniones Identificar opiniones que fueron emitidas por la misma fuente Expresiones Correferentes Opiniones con fuente omitida Fuente no reconocida dentro de opinión Herramienta para el idioma español

5 Sistema de Resolución de Correferencias Entrada - Artículos de prensa en español en formato digital Opiniones y sus elementos identificados Información morfosintáctica de Freeling 1 Grupos nominales identificados Nombre Común Lema Género: Masculino Número: Singular Tercera persona 1 - nlp.lsi.upc.edu/freeling

6 Sistema de Resolución de Correferencias Herramientas Spanish WordNet. Base de datos léxica que organiza sustantivos, verbos y adjetivos en conjuntos de sinónimos e indica las relaciones semánticas entre ellos. Python Arquitectura Salida XML anotado con cadenas de correferencia de fuentes de opiniones

7 Sistema de Resolución de Correferencias Heurísticas A partir de información morfosintáctica y semántica Definidas de acuerdo a dominio específico y características de los textos Utilizan información de Spanish WordNet Algoritmo Construcción de cadenas de correferencia Identificación de correferencias utilizando sistema de puntajes

8 Algoritmo Analiza la fuente de cada opinión en el texto, determinando para cada una si Comienza una nueva cadena de correferencias por ser la primera mención de la fuente en el texto Se agrega la fuente a una cadena ya existente La decisión se toma a partir de la asignación de puntajes Sobre la fuente actual como candidata a primera mención Sobre las fuentes anteriores como candidatas a correferir con la fuente actual

9

10 El ex ministro de Economía, Danilo Astori

11 Jorge Drexler

12

13 El presidente

14 Una persona

15 Ese niño

16

17

18 el presidente el mandatario

19 la mujer los ministros

20

21 Jorge Drexler - Drexler

22 el presidente el mandatario

23 Ejemplo de cadenas de correferencia El diputado nacionalista Jorge Gandini informóa Montevideo Portal que el Partido Nacional interpelaráa la ministra de Salud Pública, María Julia Muñoz. ( ) F2 Primera mención La ministra Muñoz reafirmósu apoyo al director del Hospital Maciel, Daniel Parada. ( ) F3 - Correfiere con F1 No queremos debatir por los medios de comunicación, agregóel legislador. ( ) Se podría haber comprado F4 Correfiere con una F1 ambulancia, con camillas y medicamentos, afirmó Gandini. Cadena 1 El diputado nacionalista Jorge Gandini El legislador Gandini F1 Primera mención Cadena 2 La ministra Muñoz

24 Evaluación Como medidas de análisis se utilizaron Recally Precision Recall: 85,6% s resueltas exitosamente sobre correferencias posibles de resolver Precision: 82,8% s resueltas exitosamente sobre correferencias resueltas Se recuperó 61.1% de fuentes omitidas Comparación con otros trabajos Resolución de correferencias entre fuentes de opiniones para el inglés 1 : 60% recall, 77% precision. Aprendizaje Automático. Resolución de correferencias entre nombres de personas en textos de prensa 2 : 91% recall, 98.4% precision. Basado en Reglas. 1 - V. Stoyanov y C. Cardie, Partially Supervised Coreference Resolution for Opinion Summarization through Structured Rule Learning 2 - M. García y P. Gamallo, Resolución de Correferencia de Nombres de Persona para Extracción de Información Biográfica

25 Conclusiones Solución Con buenos resultados tanto de cubrimiento como de precisión Sistema fácilmente integrable Agrega información sobre textos con opiniones Recupera fuentes omitidas Indica grupos de opiniones que fueron emitidas por la misma fuente Aportes para el Estado del Arte Resolución de correferencias entre distintos tipos de grupos nominales Desarrollo de una herramienta para el idioma español

26 Muchas Gracias!!