Clasificación Automática del Sentido de los Mensajes en Twitter: Comparando Entrenamiento específico y contextual.

Transcripción

1 1 Clasificación Automática del Sentido de los Mensajes en Twitter: Comparando Entrenamiento específico y contextual. Felipe Oliva Escuela de Ingeniería Informática de la Pontificia Universidad Católica de Valparaíso Valparaíso, Chile felipe.oliva.v@hotmail.com Resumen Las redes sociales en la actualidad juegan un papel importante en la vida de las personas y de la sociedad, Twitter es una red social que permite enviar y compartir mensajes cortos de un máximo de 14 caracteres. Este artículo estudia el comportamiento de las representaciones y clasificadores en distintos escenarios para marcas de empresas de retail. Se proponen diferentes formas de representar los textos y algoritmos clasificadores para observar el desempeño de la clasificación automática según el sentido de los mensajes de Twitter. Se concluye que el entrenamiento con mensajes del contexto permite clasificar menos mensajes de temas específicos. Rodrigo Alfaro Escuela de Ingeniería Informática de la Pontificia Universidad Católica de Valparaíso Valparaíso, Chile. rodrigo.alfaro@ucv.cl realiza para cada marca independientemente. La tercera hipótesis habla sobre la clasificación de una marca por sentido serviría para clasificar otra marca dentro de la misma industria. Finalmente, la última hipótesis hace relación sobre la representación, ver si ésta influye en la precisión de la clasificación. Todas estas hipótesis se esquematizan en la figura 1. Keywords Sentido, Representación, Clasificación Automática de Textos, Twitter. I. INTRODUCCIÓN La minería de opinión y la clasificación automática han ido trabajando de la mano en los últimos años, mostrando buenos resultados [1]. El análisis se realiza sobre textos completos, como también sobre pequeñas oraciones, por lo que la red social Twitter es una buena elección, ya que permite a los usuarios escribir mensajes con un máximo de 14 caracteres. En el aprendizaje supervisado la clasificación automática requiere de mensajes clasificados manualmente. Cuando es necesario clasificar mensajes de temas de los cuales no se tienen mensajes clasificados manualmente se puede probar el desempeño del clasificador entrenándolo con mensajes del mismo contexto del tema. Para este caso, se prueba si clasificar mensajes de una marca con entrenamiento de mensajes de la industria entrega resultados similares al del entrenamiento de la misma marca. Las hipótesis que se plantean son 4 en total, donde se desea conocer la mejor forma que se pueden utilizar los datos para obtener buenos resultados en la clasificación automática, por lo que la primera hipótesis es que si se clasifican marcas de un determinado rubro, como el retail, sirve para clasificar marcas que se encuentren dentro del mismo rubro. La segunda hipótesis consiste en que la clasificación es mejor que la anterior si se Fig. 1. Escenarios para las Hipótesis. En este trabajo se propone estudiar el sentido dicotómico, Positivo y Negativo, así como también en tres sentidos, Positivo, Negativo y Neutro, todos ellos en mensajes de la red social Twitter pertenecientes a las menciones de dos marcas de empresas del retail: Falabella y Ripley. Se proponen 5 representaciones para los mensajes y se experimenta con tres clasificadores: Näive Bayes, Máquinas de Soporte Vectorial y Árboles de Decisión.

2 2 II. PROBLEMA La necesidad de saber qué es lo que la gente piensa u opina ha sido tema de investigación durante mucho tiempo, en especial sobre la toma de decisiones de las empresas, por lo cual el conocer si lo que se está diciendo sobre una determinada marca es positivo o negativo es de gran importancia. La forma en que se representan los mensajes que se escriben en Twitter influye en el desempeño y/o comportamiento [2] y pueden significar diferencias en el rendimiento de los clasificadores. En consideración al gran volumen de mensajes y la necesidad de analizarlos, es que el uso de máquinas de aprendizaje es fundamental para que la clasificación se realice de manera automática. Es por eso que se desea realizar una comparación de rendimiento de los diferentes algoritmos (SVM, Naive Bayes y Árboles de Decisión), para así poder definir cuál de estos presenta mejores resultados y se desenvuelve mejor en un problema de clasificación de mensajes cortos, como es el caso de los mensajes en las redes de microblogging. III. ANÁLISIS DE SENTIMIENTOS El Análisis de Sentimientos ha sido abordado desde diferentes perspectivas, como análisis de subjetividad, minería de opinión, y extracción de evaluación, con algunas conexiones con la informática afectiva (reconocimiento computacional y la expresión de la emoción) [1]. Este campo por lo general estudia los elementos subjetivos, definidos como "expresiones lingüísticas de los estados particulares en contexto"[3]. Estas suelen ser palabras sueltas, frases u oraciones. A veces, los documentos enteros son estudiados como una unidad de sentimiento, pero es generalmente aceptado que el sentimiento reside en pequeñas unidades lingüísticas [4]. IV. PROPUESTA La propuesta consiste en comparar el desempeño de diferentes clasificadores automáticos que son alimentados con diferentes representaciones de mensajes de Twitter. Esto en diferentes escenarios de entrenamiento (training) y de pruebas (testing). Para ello se plantean las 4 hipótesis ya mencionadas para llevarlo a cabo. Las representaciones que se utilizan son: A. N-gramas Esta representación consiste en la separación de las palabras de las oraciones para su posterior clasificación, en primer lugar, los Unigramas es la frase como tal, cada palabra separada de la siguiente. Los Bigramas se conforman por pares de palabras que pertenecen a la frase, por ejemplo, Un día hermoso, se transforma en los pares Un-día día-hermoso. Finalmente, los Trigramas es la frase dividida en tríos de palabras, por ejemplo, Hay un día soleado afuera, se transforma en Hay-un-día un-día-soleado día-soleado-afuera. B. TF-IDF Esta representación es la más utilizada para la clasificación de textos, en donde la primera sección TF corresponde al valor de la frecuencia del término normalizado, multiplicado por IDF, que corresponde a la frecuencia inversa del término en la colección completa N., = En donde corresponde al número de documentos que contienen al término t, D i corresponde a un documento i, t j un término j y f ij es la frecuencia del t j en el D i [5]. C. TF-RFL Corresponde a la relevancia de la frecuencia de una categoría (etiqueta), el cual es una representación propuesta por [6], la que constituye una nueva representación para el problema de múltiples categorías, que puede ser utilizado en problemas multi-clase. = 2+, max (1,$%(,&' ( )) + En donde $%(,&' ( ) es el número promedio de documentos que contienen el término t para cada documento clasificado en categorías diferentes a l, f td es la frecuencia del término en el documento, conocido como TF, a t,l es el número de documentos en la clase l que contienen el término t y, es el número de documentos que contienen el término t en todas las demás categorías diferentes a l. Para la fase de clasificación se utilizarán los siguientes: A. Näive Bayes Éste consiste en estimar la probabilidad que un objeto de cada clase se encuentre en un valor discreto dentro de un vector variable X, luego se utiliza el teorema de Bayes para producir la clasificación [5]. B. Máquinas de Soporte Vectorial (SVM) Se encuentra basado sobre la Minimización del Riesgo Estructural (SRM), el cual es un principio de la teoría del aprendizaje computacional [5].

3 3 En términos geométricos, el problema que resuelve las SVM (Support Vector Machine) es identificar una frontera de decisión linear entre dos clases, a través de una línea que los separe, maximizando la distancia de los objetos al hiperplano. C. Árboles de Decisión Los árboles de decisión se construyen desde un grupo de datos de entrenamiento usando el concepto de entropía de información. Los datos de entrenamiento se consideran S=s1, s2, de datos ya clasificados, cada uno si = x1, x2, es un vector, donde x i representan los atributos o características de los datos. Luego los datos de entrenamiento son aumentados con un vector C=c1, c2,, donde c i representa la clase a la cual pertenecen. En cada nodo que posee el árbol se escoge un atributo de los datos que discrimina de mejor manera el conjunto, dividiéndolo así en subconjuntos pertenecientes a una clase u otra, de esta forma, una vez entrenado los datos se procede a clasificar los nuevos datos a partir de las decisiones que tenga que ir tomando en cada nodo, llegando así a determinar a qué clase debe pertenecer. V. EXPERIMENTOS En esta sección se presentan la descripción del conjunto de datos utilizado y como fueron realizadas las pruebas. A. Conjunto de Datos El conjunto de datos utilizados en este trabajo se encuentra compuesto por 18 mensajes clasificados de forma manual. mensajes. El conjunto de datos se encuentra dividido en 3 tweets positivos, 3 negativos y 3 neutros pertenecientes a la empresa Falabella, en igual cantidad también los hay para la empresa Ripley, logrando un total de 1 mensajes cuando se utilizan dos sentidos (positivo y negativo) y 18 mensajes cuando se utilizan tres sentidos (positivo, negativo y neutro). B. Representación Se utilizan las ya mencionadas, Unigramas, Bigramas, Trigramas, TF-IDF y TF-RFL. C. Clasificación La clasificación se realizará mediante la herramienta WEKA y se utilizarán los algoritmos de Naive Bayes, SVM y J48 que es una implementación de los Árboles de Decisión. VI. RESULTADOS Para evaluar los resultados se utilizó tres métricas de rendimiento: la precisión, el recall y el valor F 1, se mostrarán los resultados obtenidos por F 1 ya que proporciona la medida más global de entre los tres anteriores. A. Hipótesis 1 Primero se consideran los resultados para probar la hipótesis 1, sobre clasificar para marcas de una industria sirve para ellas mismas. Los tweets se encuentran en su totalidad en idioma español y pertenecen a las marcas de retail: Falabella y Ripley, son menciones tomadas entre Octubre de 13 y Enero de 14. El conjunto de mensajes fue recuperado y proporcionado por la empresa Analitic S.A. Para el proceso de clasificación, como se hace en algunos corpus, participan varias personas para evitar un juicio sesgado al momento de decidir la categoría a a cual debía pertenecer un mensaje. Para este caso participaron 5 personas y se optó por tomar los mensajes que poseían un 8% y 1% de concordancia por la categoría clasificada. Dentro de las personas encargadas de clasificar se encontraba uno de los autores y con ello se iba supervisando el trabajo. Para el pre-procesamiento se eliminaron stopwords y algunas palabras que no servían para la clasificación como es el caso de los RT s que aparecen en los Fig. 2. F 1 de los clasificadores para las 5 representaciones utilizando dos sentidos para la hipótesis 1. Se puede observar en la figura 2 que para la representación de TF-RFL se logran los mejores resultados, todos sobre el 9%, destacando en este caso J48 quien obtiene un 98% de F 1 total. Las demás representaciones mediante SVM bordean el 8%

4 4 mostrando uniformidad en su desempeño en sus distintas representaciones Fig. 4. F 1 de los clasificadores para las 5 representaciones utilizando dos sentidos sólo para Falabella. Fig. 3. F 1 de los clasificadores para las 5 representaciones utilizando tres sentidos para la hipótesis 1. Al agregar un tercer sentido, los clasificadores tienden a bajar el desempeño como se puede observar en la figura 3, todos disminuyen alrededor de un 1% en comparación a la prueba realizada sólo usando sentidos positivos y negativos. Nuevamente el mayor desempeño se logra utilizando TF-RFL, logrando en sus 3 clasificaciones un valor que supera el 8%, en las demás representaciones se aprecia que es la SVM quien logra los mejores resultados, siempre cercanos al 65% - 7%. J48 es quien presenta las mayores variaciones según la representación que se obtiene, ya que va desde el 47.7% obtenido por los trigramas, hasta el 9.9% obtenido por TF-RFL, augurando que la representación si es importante según el algoritmo para clasificar que se vaya a utilizar. De las dos figuras, 2 y 3, se puede concluir que la Hipótesis 1 es correcta, clasificar para la industria o rubro sirve para clasificar las marcas de aquella industria, en este caso clasificar mensajes de Falabella y Ripley como conjunto de entrenamiento sirven para probar aquellas marcas y dan buenos resultados, tanto en dos o tres sentidos y utilizando la representación de TF-RFL se logran valores por sobre el 9%. B. Hipótesis 2 A continuación se presentan los resultados obtenidos para probar la Hipótesis 2, en ésta se prueban las marcas de manera independiente, es decir Falabella por si sola y Ripley por si sola. Los resultados que se muestran en la figura 4 representan al valor F 1 obtenida al clasificar una marca de manera independiente, en este caso Falabella, los valores son similares a la hipótesis 1, por lo cual no existiría en primera instancia un real diferencia entre ambos escenarios, sin embargo cabe destacar que nuevamente la representación de TF-RFL muestra los mejores resultados con resultados sobre el 92% Fig. 5. F 1 de los clasificadores para las 5 representaciones utilizando dos sentidos sólo para Ripley. En el escenario de Ripley con dos sentidos, como se aprecia en la figura 5, TF-RFL muestra excelentes resultados, logrando un 96.1% con Naive Bayes y logrando un 99.5% mediante J48. El valor F 1 obtenido para el caso de Ripley es ligeramente mayor a los obtenidos por la clasificación de la primera hipótesis. Los resultados anteriores pertenecían a la configuración de dos sentidos, por lo que a continuación se muestran los valores obtenidos para tres sentidos.

5 Fig. 6. F 1 de los clasificadores para las 5 representaciones utilizando tres sentidos sólo para Falabella. Como se puede apreciar en la figura 6, al igual que la clasificación obtenida de la primera hipótesis los valores no poseen demasiada variación para Falabella, las primera cuatro representaciones bordean el 5% - 7%, mientras que TF-RFL logra valores cercanos al 9% Fig. 8. F 1 de los clasificadores para las 5 representaciones utilizando dos sentidos entrenando con Falabella y testeando con Ripley. Los valores disminuyen considerablemente en este caso con dos sentidos, en donde el promedio se encuentra en el 65% para todas las representaciones y los distintos clasificadores, por lo que si se compara con los escenarios anteriores se encuentra bastante por debajo. Esto se puede apreciar en la figura Fig. 7. F 1 de los clasificadores para las 5 representaciones utilizando tres sentidos sólo para Ripley. Finalmente en la figura 7, se muestran los resultados obtenidos para tres sentidos en la marca Ripley, estos obtienen resultados similares a la primera hipótesis, SVM se comporta bien en las primeras 4 representaciones, mientras que para TF-RFL, J48 obtiene el mejor desempeño con un 93.8%. Por lo que se puede concluir para la Hipótesis 2 es que también es correcta, clasificar para una marca específica suele ser mejor que el caso general de clasificar para toda la industria. C. Hipótesis 3 Luego se presentará la tercera hipótesis, la cual busca demostrar si clasificar para una marca se puede utilizar en otra dentro de la misma industria. Fig. 9. F 1 de los clasificadores para las 5 representaciones utilizando tres sentidos entrenando con Falabella y testeando con Ripley. Para el caso de tres sentidos, el panorama empeora, ya que solo se obtienen valores entre 32%-5% para F 1, por lo cual se descarta esta posibilidad de clasificación. A continuación en las figuras 1 y 11, presentan el caso a la inversa, es decir entrenar con datos de Ripley y testear con mensajes de Falabella. Para el caso de dos sentidos presentan una mayor uniformidad en los valores de F 1, cercanos al 55%-65%, sin embargo, si se comparan con los otros escenarios, estos valores son bajos. El primer caso corresponde al proceso de entrenar con datos de Falabella y testearlos con datos de Ripley.

6 6 F1 / HIPOTESIS 1 F1 / HIPOTESIS 2 F1 / HIPOTESIS 3 NB SVM J48 NB SVM J48 NB SVM J48 NB SVM J48 NB SVM J48 PROMEDIO UNIGRAMAS 71,6 82, ,9 77,9 68,1 75,7 81,3 73,8 63,6 61,3 63, ,1 7,29 BIGRAMAS 69,1 8,9 62,3 7,7 75,5 63,9 74, , ,4 52,4 62,8 66,5 62,1 67,43 TRIGRAMAS 7,9 78,7 56, ,7 55,4 68,4 82,2 7,4 6,5 63,6 51,4 63,3 66,7 59,9 65,61 TF-IDF 71,6 82,6 68,6 71,9 77,9 68,1 75,8 81,2 73,8 63,5 61,3 63,5 65, ,1 7,25 TF-RFL 94,8 91, ,6 92,1 95,1 96,1 89,2 99,5 57,2 65,5 57,3 72,5 65,8 7,8 82,76 Fig. 1. F 1 de los clasificadores para las 5 representaciones utilizando dos sentidos entrenando con Ripley y testeando con Falabella Tabla 1. Valores de F 1 para los clasificadores en sus distintas representaciones la tabla 1 se muestran los resultados obtenidos cuando se prueban con dos sentidos. Se aprecian claras diferencias entre unos y otros, tanto por separado como en su promedio, en donde se ve claramente que la representación de TF-RFL obtiene los mejores valores y por ende el mejor desempeño, sin embargo para lograr apreciar con mayor claridad la veracidad de la hipótesis se realizó un test estadístico utilizando la prueba t-student entre las distintas representaciones, ellas se ven reflejadas en la tabla 2. U B T TF-IDF TF-RFL U, ,352978, , B, , ,1276 T,36816,3973 TF-IDF,15737 TF-RFL Tabla 2. Prueba para dos colas con T-Student para las representaciones Fig. 11. F 1 de los clasificadores para las 5 representaciones utilizando dos sentidos entrenando con Ripley y testeando con Falabella. Al igual que el caso inverso de tres sentidos, los valores obtenidos son bajos y no merecen ser considerados para clasificación. Para el caso de la hipótesis tres, podemos decir que no es conveniente y no obtiene buenos resultados el clasificar para una determinada marca y utilizarla para otra, por lo que este escenario se descarta, al menos para las representaciones y clasificadores utilizados. D. Hipótesis 4 La Hipótesis 4 plantea el modo de representar los mensajes de texto importa para el clasificador que se utilice, para ello se muestra los valores F 1 obtenidos para los distintos clasificadores y representaciones. En Como se aprecia en la tabla 2, las pruebas estadísticas concluyen que las diferentes representaciones obtienen desempeños diferentes estadísticamente significativos. Con esto se puede concluir que la representación si influye en el desempeño de los clasificadores. VII. CONCLUSIONES Y TRABAJO FUTURO El trabajo presentado en este artículo describe la problemática en torno a la clasificación de los mensajes de Twitter por sentido y cómo representar los mensajes para probar los distintos escenarios que se plantearon. La clasificación manual previa permite evaluar la clasificación automática. La etapa de pre-procesamiento, al igual que en el proceso de minería de datos, forma un papel principal para la obtención de buenos resultados. Transformar los mensajes, realizar limpieza a los datos, convertirlos para que el clasificador entienda el texto es un punto fundamental.

7 7 Con respecto a los resultados y las hipótesis se puede concluir que, para el primer escenario los valores obtenidos mediante la representación de TF-RFL logra muy buenos resultados, siempre por sobre el 9%, mientras que si se quiere optar por otra representación se debe preferir como algoritmo clasificador a las SVM, ya que predominan con los mejores resultados. Por ello es que la primera hipótesis se logra demostrar, clasificar para una industria sirve para las marcas que la componen y además se obtienen buenos resultados. Sobre la segunda hipótesis, se obtienen también buenos resultados, por lo que clasificar para una marca en particular sirve para clasificar aquella misma marca a futuro, mostrando una leve mejoría en desempeño que el primer escenario. Acerca de la tercera hipótesis, se mostró que con las representaciones y algoritmos utilizados no se obtienen buenos resultados, por lo que no es recomendable utilizar este escenario. Y finalmente, sobre la cuarta y última hipótesis, sobre la importancia y relevancia de la representación se puede decir que es verdadera, ya que influye en el desempeño de los clasificadores, según el algoritmo que se utilice, existirá una representación que más se le acomode y obtenga mejores resultados. A modo general se opta por elegir a TF-RFL como representación de los mensajes y a SVM como clasificador. Como trabajo futuro se puede abordar la tercera hipótesis y buscar nuevas formas de representaciones o algoritmos que permitan obtener mejores resultados. REFERENCIAS [1] Pang B. and Lee L.Opinion mining and sentiment analysis. Foundation and Trends in Information Retrieval, 2(1-2): [2] Fink, E, Automatic Evaluation and Selection of Problem-Solving Methods: Theory and Experiments (4). Computer Science Department. Paper 6. [3] Wiebe, J. M., Wilson, T., Bruce, R., Bell, M., and Martin, M. (4). Learning subjective language. Computational Linguistics, 3: [4] Turney, P. D. and Littman, M. L. (3). Measuring praise and criticism: Inference of semantic orientation from association. ACM Transactions on Information Systems (TOIS), 21(4): [5] Holts A., Riquelme C., Alfaro R. (1), Automated Text Binary Classification using Machine Learning Approach. XXIX International Conference of the Chilean Computer Science Society. [6] Alfaro R., Allende H. (1), Text Representation in Multi-label Classification: Two New Input Representations 1th International Conference on Adaptive and Natural Computing Algorithms (ICANNGA'11).