APLICACIÓN DE UNA RED NEURONAL ARTIFICIAL PARA LA CLASIFICACIÓN AUTOMÁTICA DE TUITS EN ESPAÑOL (ARTIFICIAL NEURAL NETWORK APPLICATION FOR AUTOMATIC CLASSIFICATION OF TWEETS IN SPANISH)
Resumen
Las plataformas sociales como Twitter se han convertido en formas muy populares de transmitir información. Los usuarios de Twitter crean y usan hashtags en sus tuits para categorizarlos de acuerdo a un tema y dar su opinión al respecto, permitiendo crear tendencias mediante hashtags, así como agrupar y vincular la información con otros usuarios a través de búsquedas. En este trabajo se propone un modelo de clasificación de tuits en español para tres clases: 1) Situación de riesgo (SDR), 2) Servicio de agua y 3) Política, mediante la implementación de una red neuronal de tipo perceptrón multicapa. Para la recolección de tuits se han utilizado las etiquetas o palabras clave que representan los temas mencionados. Adicionalmente, se implementó un modelo de clasificación bayesiano para evaluar y comparar su desempeño mediante validación cruzada de k grupos. Los resultados muestran que la red neuronal presenta mejor exactitud en la clasificación de tuits en español.
Social platforms like Twitter have become very popular ways of transmitting information. Twitter users create and use hashtags in their tweets to categorize them according to a topic and give their opinions about it, allowing to create trends through hashtags, as well as grouping and linking the information with other users through searches. In this paper we propose a classification model for Twitter publications in Spanish about three classes: 1) Risk situation, 2) Water service and 3) Politics through the implementation of a multilayer perceptron, a type of artificial neural network. For collecting tweets, the hashtags or keywords that represents mentioned topics were used. Additionally, a classification model based on the Bayes theorem was implemented to evaluate and compare its performance by k-fold cross-validation. The results show that the neural network presents better accuracy in the classification of Spanish tweets.
Texto completo:
508-524 PDFReferencias
Aggarwal C, Zhai C. 2012. A Survey of Text Classification Algorithms. Min. Text Data: 163–222.
Cheng B, Titterington DM. 1994. Neural Networks: A Review from a Statistical Perspective. Stat. Sci. 9: 2–30.
Duncan B, Zhang Y. 2015. Neural networks for sentiment analysis on Twitter. 2015 IEEE 14th Int. Conf. Cogn. Informatics Cogn. Comput.: 275–278.
Haykin S. 1998. Neural networks: A Comprehensive Foundation, 2nde. Upper Saddle River, NJ, USA: Prentice Hall PTR. S0269888998214044 p.
Jianqiang Z, Xiaolin G. 2018. Deep Convolution Neural Networks for Twitter Sentiment Analysis. IEEE Access 3536.
Kuang S, Davison B. 2017. Learning Word Embeddings with Chi-Square Weights for Healthcare Tweet Classification. Appl. Sci. 7: 846.
Carrillo Ruiz, M., López López, A. Una Representación Vectorial para Contenido de Textos en Tratamiento de Información, Servidor y biblioteca de modelos de recuperacion de informacion, 2002.
Martinc M, Škrjanec I, Zupan K, Pollak S. 2017. PAN 2017: Author profiling - Gender and language variety prediction: Notebook for PAN at CLEF 2017. CEUR Workshop Proc. 1866.
Pla F, Hurtado L-F. 2013. TASS-2013: Análisis de Sentimientos en Twitter. Proc. TASS Work. SEPLN 2013: 1–8.
Rangel F, Rosso P. 2013. Use of Language and Author Profiling: Identification of Gender and Age. Proc. 10th Work. Nat. Lang. Process. Cogn. Sci.: 177.
Rosá A, Chiruzzo L, Etcheverry M, Castro S. 2017. RETUYT in TASS 2017: Sentiment Analysis for Spanish Tweets using SVM and CNN. 2017.
Rosenthal S, Farra N, Nakov P. 2017. SemEval-2017 Task 4: Sentiment Analysis in Twitter. Proc. 11th Int. Work. Semant. Eval.: 502–518.
Shrestha P, Sierra S, González FA, Rosso P, Montes-Y-Gómez M, Solorio T. 2017. Convolutional Neural Networks for Authorship Attribution of Short Texts. Proc. 15th Conf. Eur. Chapter Assoc. Comput. Linguist. 2: 669–674.
Wehrmann J, Becker WE, Barros RC. 2018. A Multi - Task Neural Network for Multilingual Sentiment Classification and Language Detection on Twitter. 8.
Wong TT, Yang NY. 2017. Dependency Analysis of Accuracy Estimates in k-Fold Cross Validation. IEEE Trans. Knowl. Data Eng. 29: 2417–2427.
URL de la licencia: https://creativecommons.org/licenses/by/3.0/deed.es
Pistas Educativas está bajo la Licencia Creative Commons Atribución 3.0 No portada.
TECNOLÓGICO NACIONAL DE MÉXICO / INSTITUTO TECNOLÓGICO DE CELAYA
Antonio García Cubas Pte #600 esq. Av. Tecnológico, Celaya, Gto. México
Tel. 461 61 17575 Ext 5450 y 5146
pistaseducativas@itcelaya.edu.mx