APLICACIÓN DE UNA RED NEURONAL ARTIFICIAL PARA LA CLASIFICACIÓN AUTOMÁTICA DE TUITS EN ESPAÑOL (ARTIFICIAL NEURAL NETWORK APPLICATION FOR AUTOMATIC CLASSIFICATION OF TWEETS IN SPANISH)

Andrea Gidalti García Pérez, Ana Bertha Ríos Alvarado, Edgar Tello Leal, José Hugo Barrón Zambrano, Alan Díaz Manríquez

Resumen


Las plataformas sociales como Twitter se han convertido en formas muy populares de transmitir información. Los usuarios de Twitter crean y usan hashtags en sus tuits para categorizarlos de acuerdo a un tema y dar su opinión al respecto, permitiendo crear tendencias mediante hashtags, así como agrupar y vincular la información con otros usuarios a través de búsquedas. En este trabajo se propone un modelo de clasificación de tuits en español para tres clases: 1) Situación de riesgo (SDR), 2) Servicio de agua y 3) Política, mediante la implementación de una red neuronal de tipo perceptrón multicapa. Para la recolección de tuits se han utilizado las etiquetas o palabras clave que representan los temas mencionados. Adicionalmente, se implementó un modelo de clasificación bayesiano para evaluar y comparar su desempeño mediante validación cruzada de k grupos. Los resultados muestran que la red neuronal presenta mejor exactitud en la clasificación de tuits en español.

Social platforms like Twitter have become very popular ways of transmitting information. Twitter users create and use hashtags in their tweets to categorize them according to a topic and give their opinions about it, allowing to create trends through hashtags, as well as grouping and linking the information with other users through searches. In this paper we propose a classification model for Twitter publications in Spanish about three classes: 1) Risk situation, 2) Water service and 3) Politics through the implementation of a multilayer perceptron, a type of artificial neural network. For collecting tweets, the hashtags or keywords that represents mentioned topics were used. Additionally, a classification model based on the Bayes theorem was implemented to evaluate and compare its performance by k-fold cross-validation. The results show that the neural network presents better accuracy in the classification of Spanish tweets.


Texto completo:

508-524 PDF

Referencias


Aggarwal C, Zhai C. 2012. A Survey of Text Classification Algorithms. Min. Text Data: 163–222.

Cheng B, Titterington DM. 1994. Neural Networks: A Review from a Statistical Perspective. Stat. Sci. 9: 2–30.

Duncan B, Zhang Y. 2015. Neural networks for sentiment analysis on Twitter. 2015 IEEE 14th Int. Conf. Cogn. Informatics Cogn. Comput.: 275–278.

Haykin S. 1998. Neural networks: A Comprehensive Foundation, 2nde. Upper Saddle River, NJ, USA: Prentice Hall PTR. S0269888998214044 p.

Jianqiang Z, Xiaolin G. 2018. Deep Convolution Neural Networks for Twitter Sentiment Analysis. IEEE Access 3536.

Kuang S, Davison B. 2017. Learning Word Embeddings with Chi-Square Weights for Healthcare Tweet Classification. Appl. Sci. 7: 846.

Carrillo Ruiz, M., López López, A. Una Representación Vectorial para Contenido de Textos en Tratamiento de Información, Servidor y biblioteca de modelos de recuperacion de informacion, 2002.

Martinc M, Škrjanec I, Zupan K, Pollak S. 2017. PAN 2017: Author profiling - Gender and language variety prediction: Notebook for PAN at CLEF 2017. CEUR Workshop Proc. 1866.

Pla F, Hurtado L-F. 2013. TASS-2013: Análisis de Sentimientos en Twitter. Proc. TASS Work. SEPLN 2013: 1–8.

Rangel F, Rosso P. 2013. Use of Language and Author Profiling: Identification of Gender and Age. Proc. 10th Work. Nat. Lang. Process. Cogn. Sci.: 177.

Rosá A, Chiruzzo L, Etcheverry M, Castro S. 2017. RETUYT in TASS 2017: Sentiment Analysis for Spanish Tweets using SVM and CNN. 2017.

Rosenthal S, Farra N, Nakov P. 2017. SemEval-2017 Task 4: Sentiment Analysis in Twitter. Proc. 11th Int. Work. Semant. Eval.: 502–518.

Shrestha P, Sierra S, González FA, Rosso P, Montes-Y-Gómez M, Solorio T. 2017. Convolutional Neural Networks for Authorship Attribution of Short Texts. Proc. 15th Conf. Eur. Chapter Assoc. Comput. Linguist. 2: 669–674.

Wehrmann J, Becker WE, Barros RC. 2018. A Multi - Task Neural Network for Multilingual Sentiment Classification and Language Detection on Twitter. 8.

Wong TT, Yang NY. 2017. Dependency Analysis of Accuracy Estimates in k-Fold Cross Validation. IEEE Trans. Knowl. Data Eng. 29: 2417–2427.






URL de la licencia: https://creativecommons.org/licenses/by/3.0/deed.es

Barra de separación

Licencia Creative Commons    Pistas Educativas está bajo la Licencia Creative Commons Atribución 3.0 No portada.    

TECNOLÓGICO NACIONAL DE MÉXICO / INSTITUTO TECNOLÓGICO DE CELAYA

Antonio García Cubas Pte #600 esq. Av. Tecnológico, Celaya, Gto. México

Tel. 461 61 17575 Ext 5450 y 5146

pistaseducativas@itcelaya.edu.mx

http://pistaseducativas.celaya.tecnm.mx/index.php/pistas