Capítulo 5. Conclusiones

Documentos relacionados
Complejidad computacional (Análisis de Algoritmos)

Guía práctica de estudio 03: Algoritmos

TEMA 7: INGENIERIA DEL SOFTWARE.

Tema 2 Introducción a la Programación en C.

7. Poblar base de datos a partir de documentos XML validados con esquemas XML

Inicio. Cálculos previos GRASP. Resultados. Fin. Figura 5.1: Diagrama de flujo del algoritmo.

Guía práctica de estudio 03: Algoritmos

Algoritmos. Medios de expresión de un algoritmo. Diagrama de flujo

Versión 1.0. Subdirección de Informática

Como buscar información en la Biblioteca Virtual de Gartner?

Aprendizaje Automatizado

Laboratorio de Visión para Robots. Práctica 2

CAPÍTULO I. INTRODUCCIÓN. Cuando se requiere obtener información de una población, y se desean obtener los mejores

QUÉ SON LOS INSUMOS?

CAPÍTULO 4 RECOPILACIÓN DE DATOS Y CÁLCULO DEL VPN. En el presente capítulo se presenta lo que es la recopilación de los datos que se tomarán

MODULO VIII. Semana 1 ASPECTOS DE EVALUACIÓN FINANCIERA, ECONÓMICA, SOCIAL Y AMBIENTAL.

Código Activación y Reseteo Contraseña

Universidad Tec Milenio: Profesional IO04001 Investigación de Operaciones I. Tema # 9

El TAD Grafo. El TAD Grafo

: Algorítmica y Estructura de Datos I

Micro y Macroeconomía

Devolución a Proveedores

MICROSOFT EXCEL 2010

Cartilla de Usuario: Como hacer Anexos Adicionales

ESTRUCTURA DE NAVEGACIÓN MÓDULO ALMACENES - REPORTES TABLA DE CONTENIDO

CAPITULO 6. Análisis Dimensional y Semejanza Dinámica

Microsoft Excel 2003 (Completo)

Microsoft Excel 2003 (Completo)

UNIDAD 4: FUNCIONES POLINOMIALES Y RACIONALES

Computación Paralela Móvil

Fuentes de Información

Gestión por Competencias

Tema 15: Combinación de clasificadores

BLOQUE IV. CLASIFICACIÓN

RESUMEN. Para una mejor comprensión del trabajo, a continuación se detalla la estructura:

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

ESCUELA SECUNDARIA Y PREPARATORIA JOSÉ IBARRA OLIVARES MONOGRAFIA

TIPOS DE CAMPOS Cada Sistema de Base de Datos posee tipos de campos que pueden ser similares o diferentes.

El Espectro Electromagnético Radiación Ionizante y NO Ionizante

CLASIFICACIÓN DE LA IMAGEN. Escuela de Ingeniería Civil y Geomática Francisco Luis Hernández Torres

PROGRAMACIÓN UNIDADES

Inteligencia Artificial II Propuesta de trabajo Detección de correo basura (anti-spam) mediante técnicas de Inteligencia Artificial

FÍSICA Y QUÍMICA 3º ESO. OBJETIVOS, CONTENIDOS Y CRITERIOS DE EVALUACIÓN 1ª Evaluación: Unidad 1. La medida y el método científico.

Metodología Belbin de roles de equipo

ESCUELA DE INFORMÁTICA

CONTABILIDAD GERENCIAL

I. Complejidad de Problemas

Otra característica poblacional de interés es la varianza de la población, 2, y su raíz cuadrada, la desviación estándar de la población,. La varianza

Aritmética de Enteros

A6.- LOS SISTEMAS DE TENSIONES EN ESPAÑA

METODOLOGÍA DE CONSTRUCCIÓN DE GRUPOS SOCIOECONÓMICOS Pruebas SIMCE 2012

Asignaturas antecedentes y subsecuentes

a) Factoriza el monomio común. En este caso 6 se puede dividir de cada término:

CRITERIOS DE SELECCIÓN DE MODELOS

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)

CAPÍTULO 4 TÉCNICA PERT

Técnicas de Programación

ORIENTACIONES PARA LA DETECCIÓN

1. SIGNIFICADO PSICOLÓGICO DE UNA MUJER MENOPÁUSICA. Se encontró que los participantes de ambos grupos utilizaron un total de 193

Elementos esenciales de Power- Point

Universidad Tec Milenio: Profesional HG04002 Análisis de Decisiones I

CÁLCULO DE INCERTIDUMBRE EN LAS MEDICIONES

ANÁLISIS CUANTITATIVO POR WDFRX

Universidad Autónoma de Guerrero

1) Buscar productos, ver sus precios, características técnicas e imagen

UNIDAD 10: ECUACIONES DE SEGUNDO GRADO.

7.1 Consideraciones. Considere la búsqueda de un libro en una biblioteca. Considere la búsqueda de un nombre en el directorio telefónico.

Criterio: Relación entre Clasificaciones de Riesgo de Corto y Largo Plazo

Identificación de polaridad en textos en español basada en la creación de un léxico afectivo

Guía de Problemas. CINEMÁTICA de la MARCHA. Introducción

Un fenómeno psicológico puede ser abordado desde distintos enfoques. Así, la conducta verbal puede ser estudiada en término de procesos cognitivos

Problema, Objetivos y Justificación. Corina Flores Villarroel Programa MEMI

UNIVERSIDAD DEL VALLE DE MÉXICO PROGRAMA DE ESTUDIOS DE LICENCIATURA EJECUTIVA

ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA

White paper Un método para hacer corresponder entre candidatos y un puesto de trabajo Posiciones basadas en un modelado predictivo Presentado por:

NOMBRE DEL CURSO: Excel 2010 Intermedio

Gestión de los Riesgos del Proyecto

Programación NO Lineal (PNL) Optimización sin restricciones

COIE UNIVERSIDAD COMPLUTENSE. coie UNIVERSIDAD COMPLUTENSE DE MADRID PERFIL PROFESIONAL LICENCIATURA DE BIOLOGÍA

Capítulo 4 Exploración del ambiente.

1. Crawler. 1.1 Qué es un Crawler. 1.2 Cómo trabaja

I FORO CIUDADANO GANDIA. Cómo comunicar mejor para transmitir mis valores?

1. Introducción Acceso al e-tax Solicitud de Inscripción Persona Natural... 7

Validación Cruzada (cross-validation) y Remuestreo (bootstrapping)

Sintaxis del Analizador de consultas Lucene

El Espectro Electromagnético Radiación Ionizante y NO Ionizante

Tema 3 SUBRUTINAS. Estructura de Computadores OCW_2015 Nekane Azkona Estefanía

Catálogo Público ilink

Si todo está compuesto de energía, No cree conveniente tomarlo en cuenta en su trabajo?

SIG. CIAF Centro de Investigación y Desarrollo en Información Geográfica. Fundamentos de Sistemas de Información Geográfica C U R S O.

SOLUCIÓN NUMÉRICA DE ECUACIONES ALGEBRAICAS Y TRASCENDENTES

ANÁLISIS TRIDIMENSIONAL DE ESTABILIDAD DE TALUDES DE UN DEPÓSITO DE DESMONTE DE MINA

Divisores Binarios. D = d *Q + R. con la condición de que el resto sea menor que el divisor, es decir 0 R d.

Alba Lucia Londoño Raul martinez. A. Conocimiento y comprensión

Contenido. Dirección General de Institucionalización de la Perspectiva de Género

CAPACITANCIA Introducción

Excel 2013 Completo. Duración: Objetivos: Contenido: 80 horas

4.2 Números primos grandes. MATE 3041 Profa. Milena R. Salcedo Villanueva

Aunque cada servicio es diferente, por lo general hay varios niveles de privacidad para elegir. A veces se les llama niveles de acceso.

Transcripción:

Capítulo 5 Conclusiones En este trabajo se desarrolló un sistema capaz de clasificar enunciados dependiendo de la opinión que cada uno expresa acerca de una película. Se cumplió entonces con el objetivo principal y con los objetivos específicos: Se extrajo la información desde la Web y se preprocesó para ser usada posteriormente en los procesos de agrupamiento, búsqueda de oraciones subjetivas y clasificación. Se agruparon automáticamente los enunciados usando un vector de rasgos constituido de unigramas, trigramas y adjetivos. Esto ocasionó que los enunciados se agruparan por compartir una opinión similar y no por el tema del que hablan (la película comentada). Se hizo un esfuerzo por separar las oraciones objetivas de las subjetivas mediante la detección de adjetivos y adverbios. También mediante la detección de disparadores de presuposición y mediante la detección de adjetivos, adverbios o disparadores. Se entrenó un clasificador bayesiano ingenuo con las oraciones cuya clase ya era conocida previamente (provenientes del agrupamiento FNM y de la detección de oraciones subjetivas). Después se probó con oraciones no vistas antes por el clasificador. Finalmente se evaluaron los resultados arrojados por las pruebas de cada clasificador. 72

Los resultados entregados por el clasificador superaron, como se mencionó antes, el baseline de una clasificación aleatoria. Los resultados de exactitud obtenidos en este trabajo se podrían comparar con los obtenidos en [47] para un clasificador de tipo Bayes ingenuo. Sin embargo, los métodos seguidos en ese trabajo difieren de los seguidos en esta tesis. En ese trabajo la mejor exactitud obtenida para este tipo de clasificadores fue de 81.6 %, trabajando, como se dijo antes, con unigramas concatenados a su etiqueta PoS. Aunado a la diferente metodología usada en [47], otras diferencias importantes entre este trabajo y aquel son: No se utilizó el mismo corpus de entrenamiento. Se extrajo uno desde el sitio web de IMDb y se procesó de forma que no es igual a la forma usada en el trabajo de referencia. Se clasificaron oraciones y no reseñas completas. A pesar de que, computacionalmente, una oración se podría considerar igual a una reseña completa (considerando una reseña completa como una sola línea de texto), una reseña completa contiene, obviamente, más palabras. Esta mayor cantidad de palabras podría ofrecer más información acerca de la orientación de la película, mientras que la cantidad reducida de palabras dentro de una oración podría ofrecer menos información acerca de la opinión de esa oración. No se realizaron algunos pasos tomados en el trabajo referido, como es el uso de palabras negadas y el uso de signos de puntuación como palabras separadas. También se evito el uso de listas de paro. A lo largo de la metodología de esta tesis se realizaron pasos que podrían mejorarse en el futuro. El primero de estos casos se encuentra en el proceso de extracción de información desde IMDb mediante el Web crawler. El Web crawler, al no ser una implementación propia de IMDb, está a merced de la continuidad del estilo y del formato HTML del sitio web. De hecho, en diciembre y enero de 2010 y 2011, el sitio de IMDb cambió considerablemente. De esta manera, si se quisiera repetir este experimento ahora, se tendrían que realizar modificaciones al Web crawler 73

creado en esta tesis. Sin embargo este problema es común en todos los módulos de este tipo y realmente se escapa del control del programador. Durante el proceso de agrupamiento con FNM, se tomó un paso poco convencional: el uso exclusivo de trigramas y más aun, de aquellos sin sustantivo en la segunda posición. Como se dijo en la metodología, esta medida parece arbitraria, pero surge de la etapa de exploración del corpus, ya que durante la experimentación se vio que los trigramas, con esa limitación, son los que ofrecen mayor cantidad de frases juiciosas. De hecho, en los resultados experimentales, se observó una ligera mejoría en la exactitud con el uso de estas limitantes. Aun así, convendría hacer un análisis con mayor profundidad acerca de las diferencias existentes en el uso de diferentes n-gramas. También en el mismo proceso, se decidieron experimentalmente los parámetros del algoritmo de factorización FNM. Estos valores son: r: Indica el número de grupos deseados. tolerancia: Indica qué tanto pueden ser diferentes el producto de las dos matrices encontradas y la matriz original. Número máximo de iteraciones: Indica cuántas iteraciones el algoritmo podrá realizar antes de detenerse. Límite de tiempo: Indica cuánto tiempo podrá llevarse a cabo la ejecución del algoritmo antes de detenerse. Sería conveniente realizar pruebas más extensas acerca de la selección de parámetros. Sin embargo, para realizar estas pruebas es necesario dividir los datos de entrenamiento no en dos, entrenamiento y pruebas, sino en tres partes: entrenamiento, estimación de parámetros y pruebas. Este paso resultó imposible de realizar debido al poco tiempo disponible. Se intentó detectar oraciones subjetivas por medio de disparadores de presuposición, lo cual no funcionó como se esperaba. A pesar de estas limitantes, el sistema creado en este trabajo posee varias ventajas. 74

Como se mencionó, la detección de oraciones subjetivas por medio de disparadores de presuposición no funcionó como se esperaba, pero con este experimento se podría descartar su uso en la detección de opiniones. De todas maneras, antes de descartarlo valdría la pena explorar otros tipos de disparadores o si alguno de los usados es mejor que los demás. Se usaron los adjetivos y adverbios y se confirmó que sí contienen información importante acerca de la orientación de una opinión. Aunque los adjetivos ciertamente dependen del contexto de la oración en la que se encuentran, ya que, como se observo en los resultados de [47], solos no son igual de efectivos. La información generada y analizada durante la ejecución de los procesos del sistema puede ser reutilizada para otro tipo de proyectos o sistemas ya que a lo largo de las etapas del sistema, se almacena en archivos XML la información procesada, como es el caso de los archivos peliculas.xml y rese~nas.xml. También se utilizaron archivos planos para almacenar las oraciones ya separadas por orientación. El desarrollo de este sistema requirió de la elaboración de dos procesos que podrían ser utilizados en trabajos futuros, estos procesos son el agrupamiento mediante FNM y el clasificador bayesiano ingenuo. Cabe destacar que el método de FNM es de reciente aplicación con documentos y se ha demostrado ser más útil que otras técnicas de factorización de matrices [39]. Estos dos procesos son módulos independientes, es decir, no requieren de otras partes del sistema para funcionar y se pueden alimentar directamente con otros datos que necesiten ser agrupados o clasificados. En los apéndices C y D se explican los detalles de estos dos módulos de Python. Este trabajo sirvió también como una introducción a los procesos de pruebas y validación, necesarios en casi cualquier tipo de sistema de minería de textos. Asimismo, existen varias mejoras que se pueden realizar al sistema: cambiar el algoritmo de clasificación, utilizar uno más robusto como una máquina de vectores de soporte, el de esperanza-maximización, entre otros. También sería ideal ahondar mucho más en la identificación de las oraciones subjetivas dentro de un texto, y también encontrar, dentro de una oración subjetiva, aquellas que realmente hablen del tema del cual se ofrece la opinión. La detección de ironía también sería de gran utilidad para la clasificación de opiniones, ya que ayudaría a 75

asignar la clase negativo a comentarios negativos que podrían parecer positivos (irónicos). Realizar una clasificación de opiniones no solo binaria (negativa o positiva), sino agregando también la clase neutral, podría aumentar la exactitud en la prediccíon de casos positivos y negativos y también permitiría identificar casos neutrales. Finalmente, la minería de opiniones es un área de investigación relativamente nueva que hoy en día goza de alta popularidad. Es usada ya en múltiples sitios en la Web dado que existen intereses personales, empresariales y hasta gubernamentales por conocer lo que se opina sobre algún tema. Sin embargo, la minería de opiniones está lejos de ser resuelta, aún representa múltiples retos para el procesamiento del lenguaje natural y para la minería de textos. 76