SISTEMAS PARA LA EXTRACCIÓN DE FRASES CLAVE EN DOCUMENTOS CIENTÍFICOS

Gerardo Flores Petlacalco, Mireya Tovar Vidal, Hilda Castillo Zacatelco, José A. Reyes-Ortiz

Resumen


Resumen

En este documento se describen dos sistemas para la extracción de frases clave en textos científicos. El primer sistema usa la generación de n-gramas y posteriormente se realiza la discriminación de términos candidatos usando reglas empíricas. El segundo sistema se basa en la construcción de patrones para la eliminación de frases candidatas. Además, se hace una comparación de estos sistemas con otros propuestos que realizan la misma tarea y se muestran los resultados obtenidos en la evaluación.

Palabras Claves: Frases clave, n-gramas, patrones.

 

SYSTEMS FOR THE EXTRACTION OF KEY PHRASES IN SCIENTIFIC DOCUMENTS


Abstract

In this document, we describe two systems for keyphrase extraction on scientific texts. The first system use n-gram generation and candidate term discrimination using empirical rules. The second system is based in the patterns construction for candidate phrases elimination. Further, we do a systems comparison with other approaches that perform the same task and we show the evaluation results.

Keywords: keyphrases, n-grams, patterns.


Texto completo:

473-486 PDF

Referencias


Augenstein, I., Riedel, S., Vikraman, L., McCallum, A., & Das, M., SemEval-2017 task 10: Extracting keyphrases and relations from scientific publications. The 11th International Workshop on Semantic Evaluation (SemEval-2017). Vancouver, Canada: Association for Computational Linguistics, 2017.

Matsuo, Y., & Ishizuka, Keyword Extraction from a Single Document using Word Co-occurrence Statistical Information. FLAIRS, pp. 392-396, 2003.

Ortiz, R., David, P., Tovar, M., & Jiménez-Salazar, H., BUAP: An Unsupervised Approach to Automatic Keyphrase Extraction from Scientific Articles. Proceedings of the 5th International Workshop on Semantic Evaluation, pp. 174-177, 2003.

Ouyang, Y., Li, W., & Zhang, R., 273. Task 5. Keyphrase Extraction Based on Core Word Identification and Word Expansion. Proceedings of the 5th International Workshop on Semantic Evaluation, pp. 142–145, 2010.

Park, J., Gun Lee, J., & Daille, B., UNPMC: Naïve Approach to Extract Keyphrases from Scientific Articles. Proceedings of the 5th International Workshop on Semantic Evaluation, pp. 178–181, 2010.

Rodriguez , F. J., Nuevas fuentes de información para entrenamiento de etiquetados gramaticales. Buenos Aires: Universidad de Buenos Aires, 2013.

Siqueira, C., ¿Cómo encontrar las palabras clave en un texto?, 22 de Diciembre de 2005. Obtenido de Universia.net: https://goo.gl/q1JgPy

Stuart, R., Dave, E., Nick Cramer, & Wendy Cowley, Automatic keyword extraction from individual documents. Text Mining: Applications and Theory, pp. 1-20, 2010.

Thuy Dung, N., & Minh-Thang, L., WINGNUS: Keyphrase Extraction Utilizing Document Logical Structure. Proceedings of the 5th International Workshop on Semantic Evaluation, pp. 166-169, 2010.

Tolosa, G. H., & Bordignon, F. R., Introducción a la Recuperación de Información. Buenos Aires : Tolosa y Bordignon, 2008.

Toutanova, K., Klein, D., Manning, C., & Singer, Y., Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network. In Proceedings of HLT-NAACL 2003, pp. 252-259, 2003.






URL de la licencia: https://creativecommons.org/licenses/by/3.0/deed.es

Barra de separación

Licencia Creative Commons    Pistas Educativas está bajo la Licencia Creative Commons Atribución 3.0 No portada.    

TECNOLÓGICO NACIONAL DE MÉXICO / INSTITUTO TECNOLÓGICO DE CELAYA

Antonio García Cubas Pte #600 esq. Av. Tecnológico, Celaya, Gto. México

Tel. 461 61 17575 Ext 5450 y 5146

pistaseducativas@itcelaya.edu.mx

http://pistaseducativas.celaya.tecnm.mx/index.php/pistas