ANÁLISIS ESTADÍSTICO COMPARATIVO DE REGRESIÓN LINEAL MÚLTIPLE Y ANÁLISIS DE COMPONENTES PRINCIPALES EN UNA VARIABLE DE RESPUESTA EN PRESENCIA DE MULTICOLINEALIDAD (COMPARATIVE STATISTICAL ANALYSIS OF MULTIPLE LINEAR REGRESSION AND PRINCIPAL COMPONENTS ANALYSIS ON A RESPONSE VARIABLE IN THE PRESENCE OF MULTICOLINEARITY)

Andrea Villegas Guerrero, Armando Javier Ríos Lira, José Antonio Vázquez López, Moises Tapia Esquívias

Resumen


Resumen
Dentro de los procesos es de gran importancia analizar el efecto que tienen las distintas variables sobre estos. Las técnicas de regresión lineal múltiple (RLM) y análisis de componentes principales (ACP) permiten analizar e identificar las variables independientes que influyen sobre la variable de respuesta. En este artículo se comparan dos modelos utilizando conjuntos de datos simulados con 15 variables independientes, tomando en cuenta la influencia de la multicolinealidad inducida en los resultados. En un modelo se aplica RLM directamente mientras que en el otro se obtienen los componentes principales para aplicar RLM. Se comparan los estadísticos PRESS, R2, R2 ajustada y R2 de la predicción de los modelos. Los hallazgos de este estudio destacan la importancia de considerar la multicolinealidad al seleccionar y aplicar modelos estadísticos en el análisis de datos. Los resultados arrojan que el modelo de RLM es el modelo óptimo para realizar predicciones de mejor manera tanto para conjuntos de datos sin el efecto de la multicolinealidad como para conjuntos de datos que cuenten con ella.
Palabras clave: ACP, análisis de variables, modelos estadísticos, multicolinealidad, RLM.

Abstract
It is important to analyze the effect that the different variables have on the processes. The techniques of multiple linear regression (RLM) and principal component analysis (PCA) allow us to analyze and identify the independent variables that influence the response variable. In this article, two models are compared using simulated data sets, each set has 15 independent variables, and the influence of induced multicollinearity is considered on the results. In one model RML is applied directly to the data sets while in the other the principal components are obtained followed by RLM. The statistics compared for the models are PRESS, R2, adjusted R2 and R2 of prediction. The findings of this study highlight that RLM model is the optimal one to make predictions in a better way both for data sets without the effect of multicollinearity and for data sets that have it.
Keywords: MLR, multicollinearity, PCA, statistics models, variable analysis.

Texto completo:

PDF

Referencias


Ahmed, N., Roy, S. R., & Islam, M. A. (2020). Forecasting Supply Chain Sporadic Demand Using Principal Component Analysis (PCA). https://api.semanticscholar.org/CorpusID:221680211

Banakara, K. B., Pandya, H. R., & Garde, Y. A. (2019). Pre-harvest forecast of kharif rice yield using PCA and MLR technique in Navsari district of Gujarat. 21(3).

Chan, J. Y.-L., Leow, S. M. H., Bea, K. T., Cheng, W. K., Phoong, S. W., Hong, Z.-W., & Chen, Y.-L. (2022). Mitigating the Multicollinearity Problem and Its Machine Learning Approach: A Review. Mathematics, 10(8), 1283. https://doi.org/10.3390/math10081283

Guillén-Casla, Vanesa & Rosales-Conrado, Noelia & León-González, María & Pérez-Arribas, Luis & Polo-Diez, LM. (2011). Principal component analysis (PCA) and multiple linear regression (MLR) statistical tools to evaluate the effect of E-beam irradiation on ready-to-eat food. Journal of Food Composition and Analysis. 24. 456-464. 10.1016/j.jfca.2010.11.010.

Gozá-León, O., Fernández-Águila, M., Rodríguez-Garcel, R. H., & Ojito-Magaz, E. (2020). Aplicación del Análisis de Componentes Principales en el proceso de purificación de un biofármaco. VacciMonitor, 29(1), 5-13.

Harrell, F. E. (2015). Regression modeling strategies: With applications to linear models, logistic and ordinal regression, and survival analysis (2da edición). Springer.

Jolliffe, I. T. (2013). Principal Component Analysis. Springer New York. https://books.google.com.mx/books?id=-ongBwAAQBAJ

Li, Q., Bessafi, M., & Li, P. (2023). Mapping Prediction of Surface Solar Radiation with Linear Regression Models: Case Study over Reunion Island. Atmosphere, 14(9), 1331. https://doi.org/10.3390/atmos14091331

Minoglou, M. y Komilis, D. (2018). Describing health care waste generation rates using regression modeling and principal component analysis. Waste Management, 78, 811–818. https://doi.org/10.1016/j.wasman.2018.06.053

Montgomery, D. C., Peck, E. A. y Vining, G. G. (2007). Introducción al análisis de regresión lineal (1a ed. en español, 3a ed. en inglés, 4a reimp). CECSA.

Sanguansat, P. (2012). Principal Component Analysis Engineering Applications. InTech.

Vervoort, S., & Wolff, M. (2020). Multivariate Spectra Analysis: PLSR vs. PCA + MLR. 7th International Electronic Conference on Sensors and Applications, 83. https://doi.org/10.3390/ecsa-7-08226.






URL de la licencia: https://creativecommons.org/licenses/by/3.0/deed.es

Barra de separación

Licencia Creative Commons    Pistas Educativas está bajo la Licencia Creative Commons Atribución 3.0 No portada.    

TECNOLÓGICO NACIONAL DE MÉXICO / INSTITUTO TECNOLÓGICO DE CELAYA

Antonio García Cubas Pte #600 esq. Av. Tecnológico, Celaya, Gto. México

Tel. 461 61 17575 Ext 5450 y 5146

pistaseducativas@itcelaya.edu.mx

http://pistaseducativas.celaya.tecnm.mx/index.php/pistas