ANÁLISIS ESTADÍSTICO COMPARATIVO DE REGRESIÓN LINEAL MÚLTIPLE Y ANÁLISIS DE COMPONENTES PRINCIPALES EN UNA VARIABLE DE RESPUESTA EN PRESENCIA DE MULTICOLINEALIDAD (COMPARATIVE STATISTICAL ANALYSIS OF MULTIPLE LINEAR REGRESSION AND PRINCIPAL COMPONENTS ANALYSIS ON A RESPONSE VARIABLE IN THE PRESENCE OF MULTICOLINEARITY)
Resumen
Dentro de los procesos es de gran importancia analizar el efecto que tienen las distintas variables sobre estos. Las técnicas de regresión lineal múltiple (RLM) y análisis de componentes principales (ACP) permiten analizar e identificar las variables independientes que influyen sobre la variable de respuesta. En este artículo se comparan dos modelos utilizando conjuntos de datos simulados con 15 variables independientes, tomando en cuenta la influencia de la multicolinealidad inducida en los resultados. En un modelo se aplica RLM directamente mientras que en el otro se obtienen los componentes principales para aplicar RLM. Se comparan los estadísticos PRESS, R2, R2 ajustada y R2 de la predicción de los modelos. Los hallazgos de este estudio destacan la importancia de considerar la multicolinealidad al seleccionar y aplicar modelos estadísticos en el análisis de datos. Los resultados arrojan que el modelo de RLM es el modelo óptimo para realizar predicciones de mejor manera tanto para conjuntos de datos sin el efecto de la multicolinealidad como para conjuntos de datos que cuenten con ella.
Palabras clave: ACP, análisis de variables, modelos estadísticos, multicolinealidad, RLM.
Abstract
It is important to analyze the effect that the different variables have on the processes. The techniques of multiple linear regression (RLM) and principal component analysis (PCA) allow us to analyze and identify the independent variables that influence the response variable. In this article, two models are compared using simulated data sets, each set has 15 independent variables, and the influence of induced multicollinearity is considered on the results. In one model RML is applied directly to the data sets while in the other the principal components are obtained followed by RLM. The statistics compared for the models are PRESS, R2, adjusted R2 and R2 of prediction. The findings of this study highlight that RLM model is the optimal one to make predictions in a better way both for data sets without the effect of multicollinearity and for data sets that have it.
Keywords: MLR, multicollinearity, PCA, statistics models, variable analysis.
Texto completo:
837-849 PDFReferencias
Ahmed, N., Roy, S. R., & Islam, M. A. (2020). Forecasting Supply Chain Sporadic Demand Using Principal Component Analysis (PCA). https://api.semanticscholar.org/CorpusID:221680211
Banakara, K. B., Pandya, H. R., & Garde, Y. A. (2019). Pre-harvest forecast of kharif rice yield using PCA and MLR technique in Navsari district of Gujarat. 21(3).
Chan, J. Y.-L., Leow, S. M. H., Bea, K. T., Cheng, W. K., Phoong, S. W., Hong, Z.-W., & Chen, Y.-L. (2022). Mitigating the Multicollinearity Problem and Its Machine Learning Approach: A Review. Mathematics, 10(8), 1283. https://doi.org/10.3390/math10081283
Guillén-Casla, Vanesa & Rosales-Conrado, Noelia & León-González, María & Pérez-Arribas, Luis & Polo-Diez, LM. (2011). Principal component analysis (PCA) and multiple linear regression (MLR) statistical tools to evaluate the effect of E-beam irradiation on ready-to-eat food. Journal of Food Composition and Analysis. 24. 456-464. 10.1016/j.jfca.2010.11.010.
Gozá-León, O., Fernández-Águila, M., Rodríguez-Garcel, R. H., & Ojito-Magaz, E. (2020). Aplicación del Análisis de Componentes Principales en el proceso de purificación de un biofármaco. VacciMonitor, 29(1), 5-13.
Harrell, F. E. (2015). Regression modeling strategies: With applications to linear models, logistic and ordinal regression, and survival analysis (2da edición). Springer.
Jolliffe, I. T. (2013). Principal Component Analysis. Springer New York. https://books.google.com.mx/books?id=-ongBwAAQBAJ
Li, Q., Bessafi, M., & Li, P. (2023). Mapping Prediction of Surface Solar Radiation with Linear Regression Models: Case Study over Reunion Island. Atmosphere, 14(9), 1331. https://doi.org/10.3390/atmos14091331
Minoglou, M. y Komilis, D. (2018). Describing health care waste generation rates using regression modeling and principal component analysis. Waste Management, 78, 811–818. https://doi.org/10.1016/j.wasman.2018.06.053
Montgomery, D. C., Peck, E. A. y Vining, G. G. (2007). Introducción al análisis de regresión lineal (1a ed. en español, 3a ed. en inglés, 4a reimp). CECSA.
Sanguansat, P. (2012). Principal Component Analysis Engineering Applications. InTech.
Vervoort, S., & Wolff, M. (2020). Multivariate Spectra Analysis: PLSR vs. PCA + MLR. 7th International Electronic Conference on Sensors and Applications, 83. https://doi.org/10.3390/ecsa-7-08226.
URL de la licencia: https://creativecommons.org/licenses/by/3.0/deed.es
Pistas Educativas está bajo la Licencia Creative Commons Atribución 3.0 No portada.
TECNOLÓGICO NACIONAL DE MÉXICO / INSTITUTO TECNOLÓGICO DE CELAYA
Antonio García Cubas Pte #600 esq. Av. Tecnológico, Celaya, Gto. México
Tel. 461 61 17575 Ext 5450 y 5146
pistaseducativas@itcelaya.edu.mx