CLASIFICACIÓN DE CLIENTES DE LA INDUSTRIA BANCARIA POR MÉTODOS ESTADÍSTICOS Y REDES NEURONALES ARTIFICIALES USANDO R (CLASSIFICATION OF CUSTOMERS BELONGING TO BANKING INDUSTRY BY STATISTICAL METHODS AND ARTIFICIAL NEURAL NETWORKS USING R)

Carlos Eduardo Belman López, José Alfredo Jiménez García, José Antonio Vázquez López

Resumen


Resumen

Esta investigación aborda el problema de la clasificación de clientes pertenecientes al sector bancario utilizando tres métodos diferentes de clasificación supervisada. Los métodos estadísticos utilizados fueron la regresión logística binaria y el análisis discriminante lineal. Adicionalmente, se utilizó un método de Inteligencia Artificial, como son, las redes neuronales artificiales.  Se utilizó lenguaje R como herramienta para la construcción y validación de los métodos estadísticos y de Inteligencia Artificial. Como estrategia de validación se dividió el total de conjunto de observaciones en varios subconjuntos para entrenamiento y validación de los modelos ajustados, realizando en cada corrida una prueba de hipótesis que permite comparar las proporciones de clasificaciones correctas y determinar si existe evidencia estadística de que algún método es mejor. Finalmente se presentaron resultados y conclusiones enfocándose en la exactitud de la predicción de la clasificación, las pruebas de hipótesis y los tamaños de muestra utilizado durante el entrenamiento.

Palabras Clave: análisis discriminante, clasificación, lenguaje R, redes neuronales artificiales, regresión logística.

 Abstract

This research addressed the problem of the accuracy of the customer classification of customer belonging to the banking sector using three different methods of supervised classification. The statistical methods used were binary logistic regression and linear discriminant analysis. Additionally, an Artificial Intelligence method was used, such as artificial neural networks. R language was used as a tool for the construction and testing of both statistical and Artificial Intelligence methods. As a validation strategy, the total set of observations was divided into several subsets for training and validation of the adjusted models (cross validation), performing in each run a hypothesis test that allows to compare the proportions of correct classifications and determine if there is statistical evidence that some method was better. Finally, results and conclusions were presented focusing on the prediction accuracy in the classification, the hypothesis tests and the sample size used during the training.

Keywords: artificial neural networks, classification, discriminant analysis, logistic regression, R language.


Texto completo:

43-63 PDF

Referencias


Adebiyi, A., Adewumi, A., & Ayo, C. (2014). Comparison of ARIMA and Artificial Neural Networks Models for Stock Price Prediction. Journal of Applied Mathematics, 1-6. doi:http://dx.doi.org/10.1155/2014/614342

Alice, M. (23 de Septiembre de 2015). R-Bloggers. Obtenido de R-Bloggers: https://www.r-bloggers.com/fitting-a-neural-network-in-r-neuralnet-package/

Brummelhuis, R., & Luo, Z. (2017). Cds rate construction methods by Machine Learning Techniques. Data Science Central, 1-51. Obtenido de https://www.datasciencecentral.com/profiles/blogs/choice-of-k-in-k-fold-cross-validation-for-classification-in

Coghlan, A. (2017). A Little Book of R for Multivariate Analysis. Cambridge: Creative Commons.

Cuadras, C. (2014). Nuevos métodos de análisis multivariante. Barcelona: CMC Editions.

Du, K.-L., & Swamy, M. (2014). Neural Networks and Statistical Learning. London: Springer.

Fritsch, S., & Frauke, G. (2016). neuralnet: Training of Neural Networks. Obtenido de https://CRAN.R-project.org/package=neuralnet

Gorr, W., Nagin, D., & Szczypula, J. (1994). Comparative study of artificial neural network and statistical models for predicting student grade point averages. International Journal of Forecasting, 17-34. doi:https://doi.org/10.1016/0169-2070(94)90046-9

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning with Applications in R. New York: Springer.

Lantz, B. (2013). Machine Learning with R. Birmingham: Packt Publishing.

Martin del Brío, B., & Sanz Molina, A. (2002). Redes neuronales y sistemas difusos. (2a. ed.). Madrid, España: Alfaomega & RA-MA.

Mehri, M. (2013). A comparison of neural network models, fuzzy logic, and multiple linear regression for prediction of hatchability. Poultry Science Association Inc., 1138 - 1142.

Moro, S., Cortez, P., & Rita, P. (2014). A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems. Elsevier(62), 22-31. Obtenido de https://archive.ics.uci.edu/ml/datasets/bank+marketing#

Naved, I. (26 de Diciembre de 2016). iqbalnaved.wordpress.com. Obtenido de https://iqbalnaved.wordpress.com/2016/12/26/how-to-choose-the-number-of-hidden-layers-and-nodes-in-a-feedforward-neural-network/

Peña, D. (2002). Análisis de datos multivariantes. Madrid: McGraw-Hill / Interamericana de España, SA.

R Core Team. (2017). R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. Obtenido de The R Project for Statistical Computing: https://www.R-project.org/

Rencher, A. (2002). Methods of multivariate analysis (2da ed.). Canadá: John Wiley & Sons, Inc.

Ruelas Santoyo, E., & Laguna González, J. (2014). Predictive comparison based in neural network versus statistical methods to forecast sales. Ingeniería Industrial. Actualidad y Nuevas Tendencias, 91-105.

San Miguel Salas, J. (2016). Desarrollo con MATLAB de una red neuronal para estimar la demanda de energía eléctrica (Tesis de Maestría). Valladolid, España: Universidad de Valladolid.

Shi, H.-Y., Lee, K.-T., Lee, H.-H., Ho, W.-H., Sun, D.-P., Wang, J.-J., & Chiu, C.-C. (2012). Comparison of Artificial Neural Network and Logistic Regression Models for Predicting In-Hospital Mortality after Primary Liver Cancer Surgery. PLoS ONE, 1-6. doi:10.1371/journal.pone.0035781

Torras P., S., & Monte, E. (2013). Modelos neuronales aplicados en economía. Barcelona, España: Addlink.

Venables, W., & Ripley, B. (2002). Modern Applied Statistics with S. (Cuarta ed.). New York: Springer. Obtenido de http://www.stats.ox.ac.uk/pub/MASS4

Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012). Probabilidad y estadística para ingeniería y ciencias. Ciudad de México: PEARSON.

Williams, G. (2011). Data Mining with Rattle and R. New York: Springer.

Xu, L., & Duan, L. (2018). Big data for cyber physical systems in industry 4.0: a survey. Enterprise Information Systems, 1-23. doi:10.1080/17517575.2018.1442934






URL de la licencia: https://creativecommons.org/licenses/by/3.0/deed.es

Barra de separación

Licencia Creative Commons    Pistas Educativas está bajo la Licencia Creative Commons Atribución 3.0 No portada.    

TECNOLÓGICO NACIONAL DE MÉXICO / INSTITUTO TECNOLÓGICO DE CELAYA

Antonio García Cubas Pte #600 esq. Av. Tecnológico, Celaya, Gto. México

Tel. 461 61 17575 Ext 5450 y 5146

pistaseducativas@itcelaya.edu.mx

http://pistaseducativas.celaya.tecnm.mx/index.php/pistas