CATEGORIZACIÓN DE RESÚMENES DE PUBLICACIONES CIENTÍFICAS BASADA EN SIMILITUD SEMÁNTICA

José Alejandro Reyes Ortíz, Maricela Claudia Bravo Contreras

Resumen


Los resúmenes de las publicaciones científicas se encuentran disponibles de manera abierta, es decir en repositorios con acceso libre. En el área de las ciencias computacionales, estos repositorios no están organizados con temáticas de dominio específicas, esto lleva a que una tarea de localización de una publicación de interés requiere de un trabajo exhaustivo por parte de las personas interesadas. En este artículo se describe un enfoque para la categorización de resúmenes de publicaciones científicas utilizando mediciones de similitud basadas en conocimiento semántico para obtener el grado de relación entre los textos. Una experimentación ha sido presentada en términos de Precisión, Exhaustividad y medida F, la cual muestra resultados prometedores para la categorización de resúmenes en el dominio de las ciencias computacionales.

Texto completo:

1544-1560 PDF

Referencias


G. A. Miller, “WordNet: a lexical database for English”. Communications of the ACM. Vol. 38. No. 11. 1995. Pp. 39-41.

L. D. Baker, A. K. McCallum, “Distributional clustering of words for text classification”. Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. 1998. Pp. 96-103.

T. Joachims, “Text categorization with support vector machines: Learning with many relevant features”. European conference on machine learning. Springer Berlin Heidelberg. 1998. Pp. 137-142.

F. Sebastiani, “Machine learning in automated text categorization”. ACM computing surveys. Vol. 34. No. 1. 2002. Pp. 1-47.

L. H. Lee, C. H. Wan, R. Rajkumar, D. Isa, “An enhanced support vector machine classification framework by using Euclidean distance function for text document categorization”. Applied Intelligence. Vol. 37. No. 1. 2012. Pp. 80-99.

B. Tang, H. He, P. M. Baggenstoss, S. Kay, “A Bayesian classification approach using class-specific features for text categorization”. IEEE Transactions on Knowledge and Data Engineering. Vol. 28. No. 6, 2016. Pp. 1602-1606.

R. Johnson, T. Zhang, “Semi-supervised convolutional neural networks for text categorization via region embedding”. Advances in neural information processing systems. 2015. Pp. 919-927.

R. Johnson, T. Zhang, “Supervised and Semi-Supervised Text Categorization using LSTM for Region Embeddings”. Proceedings of The 33rd International Conference on Machine Learning. 2016. Pp. 526-534.

C. Corley, R. Mihalcea, “Measuring the Semantic Similarity of Texts”. Proceedings of the ACL Workshop on Empirical Modeling of Semantic Equivalence and Entailment. 2005. Pp. 1318.

D. Pinto, H. Jiménez-Salazar, P. Rosso, “Clustering abstracts of scientific texts using the transition point technique”. International Conference on Intelligent Text Processing and Computational Linguistics. Springer. 2006. Pp. 536-546.

M. Alexandrov, A. Gelbukh, P. Rosso, “An approach to clustering abstracts”. International Conference on Application of Natural Language to Information Systems. Springer. 2005. Pp. 275-285.

L. Waltman, N. J. Eck, “A new methodology for constructing a publication‐level classification system of science”. Journal of the American Society for Information Science and Technology. Vol. 63. No. 12. 2012. Pp. 2378-2392.

Z. Wu, M. Palmer, "Verbs semantics and lexical selection". Proceedings of the 32nd annual meeting on Association for Computational Linguistics. Association for Computational Linguistics. 1994. Pp. 133-138.

D. Lin, "An information-theoretic definition of similarity." ICML. Vol. 98. 1998. Pp. 296- 304.

C. Leacock, M. Chodorow, "Combining local context and WordNet similarity for word sense identification". WordNet: An electronic lexical database. Vol 49. No. 2. 1998. Pp. 265-283.

S. Banerjee, T. Pedersen, "An adapted Lesk algorithm for word sense disambiguation using WordNet". Computational linguistics and intelligent text processing. Springer Berlin Heidelberg. 2002. Pp. 136-145.

P. Resnik, “Using information content to evaluate semantic similarity”. Proceedings of the 14th International Joint Conference on Artificial Intelligence. Montreal, Canada. 1995.

J. Jiang and D. Conrath, “Semantic similarity based on corpus statistics and lexical taxonomy”. Proceedings of the International Conference on Research in Computational Linguistics. Taiwan. 1997.

S. Helmut “Improvements in Part-of-Speech Tagging with an Application to German”. Proceedings of the ACL SIGDAT-Workshop, Dublin. 1995. Pp. 47-50.

H. Cunningham, “GATE, a general architecture for text engineering”. Computers and the Humanities. Vol. 36. No. 2. 2002. Pp. 223-254.






URL de la licencia: https://creativecommons.org/licenses/by/3.0/deed.es

Barra de separación

Licencia Creative Commons    Pistas Educativas está bajo la Licencia Creative Commons Atribución 3.0 No portada.    

TECNOLÓGICO NACIONAL DE MÉXICO / INSTITUTO TECNOLÓGICO DE CELAYA

Antonio García Cubas Pte #600 esq. Av. Tecnológico, Celaya, Gto. México

Tel. 461 61 17575 Ext 5450 y 5146

pistaseducativas@itcelaya.edu.mx

http://pistaseducativas.celaya.tecnm.mx/index.php/pistas