MINERÍA DE DATOS EN UN SERVIDOR LOCAL PARA CLASIFICAR PALABRAS POR EL MÉTODO DE LOS COSENOS (DATAMINING IN A LOCAL SERVER TO CLASSIFY WORDS BASED ON COSINE METHOD)

Salvador Manuel Malagon Soldara, Juan Paulo Maldonado Rodriguez, Jose Vladimir Maldonado Espino

Resumen


Resumen
En el presente artículo se muestra un algoritmo de minería de datos capaz de clasificar palabras. El método utilizado para la clasificación es el método de los cosenos. Adicionalmente, se utiliza una librería para eliminar los stopwords que puedan causar ruido en la clasificación. El lenguaje de programación empleado es Python en el sistema operativo Windows. Por otra parte, la base de datos es conformada por varios archivos de texto con oraciones de distintas temáticas. Los resultados obtenidos permiten obtener un grado de similitud entre los archivos, y por lo tanto, identificar temas en común entre ellos. Esta aplicación es bastante útil cuando se tienen grandes cantidades de datos, ya que se puede identificar un posible cliente entre comentarios en una página de internet. Por último, para identificar mejor las clasificaciones encontradas por la minería de datos, los resultados fueron exhibidos en diagramas de Venn, clustering de documentos y gráficos de similitud.
Palabras Clave: clasificador de palabras, método de los cosenos, minería de datos.

Abstract
This article presents a data mining algorithm capable of classifying words. The method used for classification is the cosine method. Additionally, a library is used to eliminate stopwords that can cause noise in the classification. The programming language used is Python in the Windows operating system. On the other hand, the database is made up of several text files with sentences on different topics. The results obtained allow obtaining a degree of similarity between the files, and therefore, identify common themes between them. This application is quite useful when you have large amounts of data, since a possible client can be identified between comments on an internet page. Finally, to better identify the classifications found by data mining, the results were displayed in Venn diagrams, document clustering, and similarity graphs.
Keywords: classify words, cosine method, demining.

Texto completo:

379-386 PDF

Referencias


Ahmed, C. F. Tanbeer, S. K. Jeong B. and Lee, Y. "Efficient Tree Structures for High Utility Pattern Mining in Incremental Databases," in IEEE Transactions on Knowledge and Data Engineering, vol. 21, no. 12, pp. 1708-1721, Dec. 2009.

Xu, L. Jiang, C. Wang, J. Yuan J. and Ren, Y. "Information Security in Big Data: Privacy and Data Mining," in IEEE Access, vol. 2, pp. 1149-1176, 2014.

Middelfart, M. Pedersen T. B. and Krogsgaard, J. "Efficient Sentinel Mining Using Bitmaps on Modern Processors," in IEEE Transactions on Knowledge and Data Engineering, vol. 25, no. 10, pp. 2231-2244, Oct. 2013.

Adil, S. H. Ebrahim, M. Raza, K. Azhar Ali S. S. and Ahmed Hashmani, M. "Liver Patient Classification using Logistic Regression," 2018 4th International Conference on Computer and Information Sciences (ICCOINS), Kuala Lumpur, 2018, pp. 1-5.






URL de la licencia: https://creativecommons.org/licenses/by/3.0/deed.es

Barra de separación

Licencia Creative Commons    Pistas Educativas está bajo la Licencia Creative Commons Atribución 3.0 No portada.    

TECNOLÓGICO NACIONAL DE MÉXICO / INSTITUTO TECNOLÓGICO DE CELAYA

Antonio García Cubas Pte #600 esq. Av. Tecnológico, Celaya, Gto. México

Tel. 461 61 17575 Ext 5450 y 5146

pistaseducativas@itcelaya.edu.mx

http://pistaseducativas.celaya.tecnm.mx/index.php/pistas