COLLABORATIVE WEB-BASED TAGGER FOR NAMED ENTITIES IN THE TASK OF INFORMATION EXTRACTION (ETIQUETADOR COLABORATIVO BASADO EN WEB PARA ENTIDADES NOMBRADAS EN LA TAREA DE EXTRACCIÓN DE LA INFORMACIÓN)

David Efraín Muñoz Morales, Fernando Pérez Téllez, David Eduardo Pinto Avendaño

Resumen



Abstrac

Nowadays, there exists a huge amount of information on the World Wide Web and since every day is mainly generated a lot of text data, the problem of information overload arise. In this way, the task of extracting meaningful information from text has gained the significant attention of researchers. In this paper, we propose a collaborative tagging system to help users in the task of highlighting important information in plain text files. Additionally, it allows converting tagged texts into a structured format. The web-based system is proposed in order to exploit the relevant content information provided by tagger users, since actual collaborative tagging systems suffer from issues such as tag scarcity or ambiguous labeling. Approaches such as the proposed here can facilitate to obtain better quality in tags and in any domain, allowing to achieve significant improvements in information extraction through named entities extraction, avoiding the noise of information overload.


Resumen

Hoy en día existe una gran cantidad de información en Internet y ya que cada día se genera mucha información principalmente en forma de texto, el problema de sobrecarga de información se hace presente. En este sentido, la tarea de extraer información significativa de los textos ha ganado la atención de investigadores. En este artículo, proponemos un sistema de etiquetamiento colaborativo para ayudar a los usuarios en la tarea de resaltar información importante en archivos de texto plano. Adicionalmente, el sistema permite convertir textos etiquetados a un formato estructurado. El sistema basado en web es propuesto con el fin de explotar el contenido relevante de la información proporcionada por los usuarios etiquetadores, ya que los sistemas de etiquetamiento colaborativos actuales sufren de algunos problemas tales como la escasez de etiquetas o el etiquetado ambiguo. Enfoques como el propuesto aquí pueden facilitar la obtención de etiquetas con mejor calidad y en cualquier dominio, permitiendo lograr mejoras significativas en la extracción de información a través de la extracción de entidades nombradas, evitando el ruido en la sobrecarga de información.


Texto completo:

877-893 PDF

Referencias


Abzianidze, L. & Bos, J. Towards Universal Semantic Tagging. International Conference on Computational Semantics, 2017.

Allahyari, M., Safaei, S., Pouriyeh, S., Trippe, E., Kochut, K., Assefi, M. & Gutierrez, J. A brief survey of text mining: classification, clustering and extraction techniques. KDD Bigdas, 2017.

Bird, S., Klein E. & Loper, E. Natural Language Processing with Python. O’Reilly, 109-112, 261-285, 2009.

Bischoff, K., Firan, C., Nejdl, W., & Paiu, R. Can all tags be used for search? in Proceedings of the 17th acm conference on information and knowledge management, 193-202, 2008.

Chang, C., Kayed, M., Girgis, M. R. & Shaalan, K. F., A Survey of Web Information Extraction Systems, vol. 18, 1411-1428, 2006.

Chang, C.-H., Hsu C.-N. & Lui S.-C., Automatic Information Extraction from Semi-Structured Web Pages by Pattern Discovery. Decision Support Systems J., vol. 35, NO. 1, pp. 129-147, 2003.

Chavaltada, C., Pasupa, K., & Hardoon, D. A comparative study of machine learning techniques for automatic product categorization. Springer international publishing, 10-17, 2017.

Font, F., Serrà, J. & Serra, X. Folksonomy-based tag recommendation for collaborative tagging systems. International Journal on Semantic Web and Information Systems, 1-27, 2013.

Halpin, H., Robu, V. & Shepherd, H. The complex dynamics of collaborative tagging. WWW 2007, 211-220, 2012.

Lafferty, J., McCallum, A. & C.N. Pereira, F., Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data, in Proceedings of the 18th International Conference on Machine Learning, 282-289, 2001.

Nanopoulos, A. Item recommendation in collaborative tagging systems. IEEE transactions on systems, man, and cybernetics, NO. 4, 760-771, 2011.

NLP. Stanford Named Entity Recognizer. The Stanford natural language processing group. Accessed online on May, 2018. https://nlp.stanford.edu/software/CRF-NER.html

Saquib, S., Siddiqui, J. & Ali, R. Classifications of Recommender Systems: A review. Journal of engineering and technology review, 132-153, 2017.

Sheshasaayee, A. & Thailambal, G. Comparison of Classification Algorithms in Text Mining. International journal of pure and applied mathematics, 425-433, 2017.






URL de la licencia: https://creativecommons.org/licenses/by/3.0/deed.es

Barra de separación

Licencia Creative Commons    Pistas Educativas está bajo la Licencia Creative Commons Atribución 3.0 No portada.    

TECNOLÓGICO NACIONAL DE MÉXICO / INSTITUTO TECNOLÓGICO DE CELAYA

Antonio García Cubas Pte #600 esq. Av. Tecnológico, Celaya, Gto. México

Tel. 461 61 17575 Ext 5450 y 5146

pistaseducativas@itcelaya.edu.mx

http://pistaseducativas.celaya.tecnm.mx/index.php/pistas