APLICACIÓN DE TÉCNICAS DE APRENDIZAJE NO SUPERVISADO PARA LA AGRUPACIÓN DE TRAZAS EN EL DOMINIO DE MINERÍA DE PROCESOS (APPLICATION OF UNSUPERVISED LEARNING TECHNIQUES FOR CLUSTERING TRACES IN THE PROCESS MINING DOMAIN)

Jaciel David Hernández Reséndiz, Edgar Tello Leal, Heidy Marisol Marín Castro, Gerardo Romero Galván

Resumen


Resumen

La minería de procesos tiene como objetivo el descubrir, monitorear y mejorar los modelos de procesos de una organización a través de la extracción del conocimiento a partir de los datos contenidos en los registros de eventos. En algunos casos, dentro de la tarea de descubrimiento de modelos de procesos, el modelo minado puede ser difícil de comprender e interpretar debido a la diversidad de comportamientos identificados. En este artículo se presenta un enfoque basado en técnicas de aprendizaje no supervisado para la agrupación de trazas para generar modelos más simples y compresibles. Los algoritmos implementados para la agrupación son K-medias, jerárquico aglomerativo y agrupamiento espacial basado en densidad de aplicaciones con ruido (DBSCAN). En nuestra propuesta se realiza la sintonización o selección de los mejores parámetros para cada algoritmo de aprendizaje no supervisado, usando la métrica Silhouette para mejorar el agrupamiento de trazas, con lo cual se pueden descubrir modelos de procesos simples con una aptitud media aceptable. Para la validación de nuestra propuesta, las pruebas realizadas se centraron en un caso de estudio del sistema de facturación del hospital AMC, obteniendo al algoritmo jerárquico con mejor desempeño y obtenido una aptitud media de 0.7876.

Palabras Claves: Agrupamiento de trazas, minería de procesos, modelos espagueti, registro de eventos.

 

Abstract

Process mining techniques aim to discover, monitor and improve the processes performed by an organization through the extraction of knowledge from the data contained in the event logs. In some cases, within the task of discovery of business process models discovered can be difficult to understand and interpret because of the large number of behaviors identified. This article presents an approach based on unsupervised learning techniques for clustering trace to generate simpler and more compressible models. The algorithms implemented for clustering are K-means, hierarchical agglomerative and density-based spatial clustering of applications with noise (DBSCAN) algorithms. In our proposal, the best parameters for each unsupervised learning algorithm are tuned or selected, using the Silhouette metric to improve the clustering of traces, with which models of simple processes with an acceptable aptitude can be discovered. For the validation of our proposal, the tests performed focused on a case study of the AMC hospital billing system, obtaining the hierarchical algorithm with the best performance and obtained an average aptitude of 0.7876.

Keywords: Clustering trace, event log, process mining, spaghetti models.


Texto completo:

356-374 PDF

Referencias


Aggarwal, C. C. (2015). Data mining: the textbook. Springer.

Diamantini, C., Genga, L., Potena, D., & Storti, E. Discovering behavioural patterns in knowledge-intensive collaborative processes. International Workshop on New Frontiers in Mining Complex Patterns. Springer, Cham, 2014.

Dumas, M., La Rosa, M., Mendling, J., & Reijers, H. A. Fundamentals of Business Process Management. doi:10.1007/978-3-662-56509-4. 2018.

Gaonkar, M. N., & Sawant, K. AutoEpsDBSCAN: DBSCAN with Eps automatic for large dataset. International Journal on Advanced Computer Theory and Engineering, 2(2), 11-16. 2013.

Han, J., Pei, J., & Kamber, M. Data mining: concepts and techniques. Elsevier. 2011.

Koschmider, A. Clustering event traces by behavioral similarity. International Conference on Conceptual Modeling. Springer, Cham, 2017.

Mans, R. S., Schonenberg, M. H., Song, M., van der Aalst, W. M., & Bakker, P. J. Application of process mining in healthcare–a case study in a dutch hospital. In International joint conference on biomedical engineering systems and technologies (pp. 425-438). Springer, Berlin, Heidelberg. 2008.

Mitra, S., & Nandy, J. KDDclus: A simple method for multi-density clustering. In Proceedings of International Workshop on Soft Computing Applications and Knowledge Discovery (SCAKD 2011), Moscow, Russia (pp. 72-76). 2011.

Pandit, S., & Gupta, S. A comparative study on distance measuring approaches for clustering. International Journal of Research in Computer Science, 2(1), 29-31. 2011.

Rousseeuw, P.J. Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, pp.53-65. 1987.

Rojas, E., Munoz, J., Sepúlveda, M., & Capurro, D. Process mining in healthcare: A literature review. Journal of biomedical informatics, 61, 224-236. 2016.

Song, M., Günther, C. W., & Van der Aalst, W. M. Trace clustering in process mining. International Conference on Business Process Management. Springer, Berlin, Heidelberg, 2008.

Song, M., Yang, H., Siadat, S. H., & Pechenizkiy, M. A comparative study of dimensionality reduction techniques to enhance trace clustering performances. Expert Systems with Applications, 40(9), 3722-3737. 2013.

Van der Aalst, W., & Mining, W. P. Discovery, Conformance and Enhancement of Business Processes. 2011.

Van der Aalst, W. Process Mining: Data Science in Action, 2nd edn. Springer.New York, USA. 2016.

Van der Aalst, W. M., Reijers, H., Weijters, A., van Dongen, B., De Medeiros, A., Song, M., & Verbeek, H. M. W. Business process mining: An industrial application. Information Systems, 32(5), 713-732. 2007.

Van der Aalst, W., Guo, S., & Gorissen, P. Comparative process mining in education: An approach based on process cubes. In International Symposium on Data-Driven Process Discovery and Analysis (pp. 110-134). Springer, Berlin, Heidelberg. 2013.

Van Dongen, B.F. Real-life event logs - Hospital log. Eindhoven University of Technology. Dataset. https://doi.org/10.4121/uuid:d9769f3d-0ab0-4fb8-803b-0d1120ffcf54. 2011.

Verbeek, H. M. W., Buijs, J. C. A. M., Van Dongen, B. F., & van der Aalst, W. M. Prom 6: The process mining toolkit. Proc. of BPM Demonstration Track, 615, 34-39. 2010.

Weijters, A., van der Aalst, W. M. P., & de Medeiros, A. K. A. Process mining with the heuristics miner algorithm. In BETA working paper series WP 166. Eindhoven University of Technology: Eindhoven. 2006.






URL de la licencia: https://creativecommons.org/licenses/by/3.0/deed.es

Barra de separación

Licencia Creative Commons    Pistas Educativas está bajo la Licencia Creative Commons Atribución 3.0 No portada.    

TECNOLÓGICO NACIONAL DE MÉXICO / INSTITUTO TECNOLÓGICO DE CELAYA

Antonio García Cubas Pte #600 esq. Av. Tecnológico, Celaya, Gto. México

Tel. 461 61 17575 Ext 5450 y 5146

pistaseducativas@itcelaya.edu.mx

http://pistaseducativas.celaya.tecnm.mx/index.php/pistas