摘要:多元线性回归模型的经典假定之一是解释变量之间不存在线性关系。但在实际应用中,多元线性回归模型中的解释变量之间往往存在近似的线性关系,如果仍然用最小二乘法估计模型,会造成分析结果不准确甚至严重偏离变量间本来的依存关系。为此,首先总结了多重共线性的检验方法,然后探讨了多重共线性常用的修正方法,最后结合实例演绎了逐步回归法和主成分回归法的具体应用,为现实经济问题中多重共线性的检验与处理提供一定借鉴。
关键词:多重共线性;诊断;补救措施;逐步回归法;主成分回归;
Abstract:Therebeingnolinearrelationshipamonginterpretationvariablesisoneoftheclassicalassumptionsinmultiplelinearregressionmodel.However,inthepracticalapplication,thereisoftenanapproximatelinearrelation.Ifwestillusethemethodofordinaryleastsquarestoestimatethemodel,theresultmaybecomeincorrectandevenfarfromtheoriginalrelationshipamongthevariables.Therefore,thepaperfirstsummarizesthetestmethodsofMulticollinearity.Andthen,thepapersummarizesthecommomcorrectionmethodsofmulticollinearity.Finally,theapplicationofstepwiseregressionandprincipalcomponentregressionisdeducedbyusinganexample.Theresearchwillprovidesomereferenceforthetestandtreatmentofmulticollinearityinrealeconomicproblems.
Keyword:multicollinearity;diagnosis;remedialmeasures;stepwiseregression;principalcomponentregression;
多重共线性是指模型中解释变量间存在相关关系。如果解释变量之间存在完全线性相关关系,则称模型出现了完全多重共线性;如果解释变量之间近似线性相关,则称模型出现了不完全多重共线性。古典线性回归模型的假设之一是模型中不存在多重共线性。如果模型存在多重共线性,仍然采用普通最小二乘法估计模型参数,会产生以下后果:完全共线性下模型的普通最小二乘估计量不存在,无法得到参数的估计量;近似共线性下普通最小二乘估计量即使存在,但共线性使得参数估计量的方差增大,进而导致变量的显着性检验失去意义、模型的预测失效。在实际经济问题中,解释变量之间往往存在某种关联,多重共线性是多元回归模型中普遍存在的问题。那么,如何诊断多重共线性及其影响程度以及怎样处理模型中的多重共线性,显得尤为重要。关于多重共线性的诊断方法与解决方法,不少学者进行了研究。
本文综述了多重共线性的诊断方法和解决方法。在实际应用中,对于多重共线性的检验有时并不需要复杂的检验方法,而经验方法简单易行,本文结合实例给出了诊断共线性的经验方法。本研究可为现实经济问题中多重共线性的检验与处理提供一定借鉴。
1、多重共线性的诊断方法
1.1、经验方法
模型的可决系数R2值较高,但变量显着性检验(t检验)表明变量不显着,或模型的经济意义不合理,这是多重共线性的“典型”特征。也就是说如果R2较高,则模型显着性检验(F检验)通常会拒绝零假设,即方程整体显着,但t检验表明,没有或很少有斜率系数是显着不为零的。
1.2、简单相关系数检验法
对模型中任意两个不同的解释变量求简单相关系数。如果相关系数的绝对值较大,则认为这两个变量相关性较高。但是,相关系数检验法只能检验两个解释变量的相关性,对于3个或更多个解释变量的相关性检验不适用。
1.3、辅助回归模型检验[1]
将模型中每一个解释变量对其余解释变量进行回归。
如果某一种回归的拟合优度较大,说明Xj与其他解释变量之间存在共线性。
另一等价的检验是:在模型中排除某一解释变量Xj,重新估计模型,如果调整的可决系数(珚R2)与包含Xj时十分接近,则说明Xj与其他解释变量之间存在线性关系。
1.4、方差膨胀因子检验[2]
在多元线性回归模型中,第i个解释变量的方差膨胀因子为:
其中,Ri2是把第i个解释变量作为被解释变量,将其对其他k-1个解释变量作线性回归所得的可决系数。该方法其实和辅助回归模型检验一样,只不过利用可决系数构造了一个新的指标VIFi。方差膨胀因子越大,说明Ri2越接近1,则第i个解释变量与其他解释变量之间共线程度越强。
1.5、特征值、病态数与病态指数检验[2]
对于由k个解释变量、n个样本观察值组成的样本数据矩阵:
当模型存在完全共线性时,|X′X|=0;当模型存在严重共线性时,|X′X|≈0。设λ1,λ2,…,λk+1为矩阵X′X的k+1个特征值,若
则特征值λ1,λ2,…,λk+1中至少有一个近似等于0,表明模型存在严重的共线性。
病态数(CN)和病态指数(CI)是利用特征值构造的用于检验多重共线性的指标。其指标定义为
这两个指标数值越大,说明多重共线性越严重。一般经验是:CI大于10即可认为模型存在共线性,大于30即可认为模型存在严重的共线性。
2、多重共线性的解决方法
2.1、排除引起共线性的解释变量
找出引起多重共线性的解释变量,然后把它从模型中剔除出去,这是解决多重共线性最有效的方法。在实际应用中,解决方法有逐步回归法、利用粗糙集理论的属性约简方法和GMDH算法[3,4],其中逐步回归法应用最广泛。
逐步回归法是在模型中逐个引入解释变量,根据模型经济意义的检验、统计意义的检验以及珚R2的变化来判断新引入的变量是否引起了共线性。如果新引入的变量使得模型经济意义检验和统计意义检验都能通过,且又能提高模型的珚R2,则应引入;如果珚R2无显着变化,或者模型的经济意义检验通不过,或者变量的显着性检验没有通过,则无需引入[5]。利用逐步回归法可以剔除掉引起共线性的变量,但是,当排除了引起共线性的变量后,保留在模型中的变量的系数的估计值将会发生改变,其经济意义也将发生变化。
2.2、改变参数的约束形式
根据经济理论或其他信息,找出参数间的某种关系进行受约束回归。受约束回归模型减少了解释变量的个数,消除或削弱了多重共线性。这种方法的缺点在于外生的或先验的信息并不总是可获得的,即使能获得这一信息,但要假设外生的或先验的信息在当前样本中仍然有效并不总是能够实现。所以应用这种方法的关键在于获得这一信息,并检验约束条件在当前样本中的真伪。如果约束条件为真,则可以应用该方法。
2.3、变换模型的形式
对原设定的模型形式进行适当的变换,可以消除或削弱模型中解释变量之间的线性关系。具体有3种变换方式:一是变换模型中变量的形式;二是变换模型的函数形式,如将线性模型转换成非线性模型;三是改变变量的统计指标[6]。
2.4、减少参数估计量的方差
减少参数估计量的方差,可以使变量显着性检验的t值增大,使本来不显着的解释变量变得显着。在实际应用中,有增大样本容量和岭回归两种方法。
2.4.1、增大样本容量
在建立的计量经济学模型中,如果变量的样本数据太少,很容易产生多重共线性。对于多元线性回归模型,参数估计值^bi的方差为:
式中:σ2为随机误差项的方差;Xi为第i个解释变量的观察值;珡Xi为i个解释变量的均值;,Ri2表示第i个解释变量对模型中其他解释变量回归时的可决系数。
从式(7)可以看出,当样本容量增大时,将会增大,从而使var(^bi)变小,这对提高^bi的估计精度有益。
2.4.2、岭回归法
岭回归法是以引入偏误为代价来减少参数估计量方差的方法。岭回归法的参数估计量为
矩阵D一般选择为主对角矩阵。即
式中:l为大于0的常数;I为单位矩阵。关于l的取值,一般采用何瑞尔和肯纳德于1975年提出的方法。与最小二乘估计量相比,式(9)的估计量方差较小。
岭回归分析方法虽然能够减少参数估计量的方差,使回归结果更符合实际,但如果原模型的经济意义不合理,即使使用岭回归法也不一定使修正后的模型能通过经济意义的检验。因此在实际应用中并不是所有的共线性都可以用岭回归法来解决[7]。
2.5、主成份回归
主成分回归是运用降维的思想,在尽量减少信息损失的情况下,将多个指标通过正交旋转转化为几个综合指标的分析方法。其基本原理是:利用主成分分析将解释变量转换成若干个主成分,这些主成分从不同侧面反映了解释变量的综合影响[8,9]。因此,可以将解释变量对这些主成分进行回归,再根据主成分与解释变量之间的关系,求得原回归模型的估计方程。
3、实践应用
根据上述多重共线性的诊断方法及解决方法,本文将结合实际例子对多重共线性进行检验与修正,从而给出多重共线性检验与修正的具体操作方法,为相关研究与应用提供一定的借鉴。取中国民航客运量作为被解释变量(Y,万人)。选取的解释变量为居民消费支出(X1,亿元)、政府消费支出(X2,亿元)、来华旅游入境人数(X3,万人)、民航航线里程(X4,万公里)。收集整理的样本数据(表1)来源于1996-2019年的《中国统计年鉴》[10]。将居民消费支出和政府消费支出换算为以1995年为基期的不变价,建立中国民航客运量预测模型。
表11995-2018年中国民航客运量及其影响因素数据
表11995-2018年中国民航客运量及其影响因素数据
运用Eviews软件对中国民航客运量的多元线性回归模型进行最小二乘估计,结果如下:
式(10)中括号内的数字是各变量显着性检验对应的P值,下同。从模型的最小二乘估计结果可以看出,模型的整体拟合优度非常高,但除X4之外,其余解释变量的显着性检验都没有通过,并且变量X3经济意义检验没有通过,说明模型出现了严重的多重共线性。
为了消除或削弱多重共线性的影响,本文选择两种修正方法:第一种方法是逐步回归法,即排除引起共线性的变量的方法;第二种方法是主成分分析方法,该方法没有去掉任何变量便可以削弱共线性的影响,使模型经济意义合理。
3.1、逐步回归法
3.1.1、一元回归模型
根据相关系数和理论分析可知,中国民航客运量与民航航线里程关联程度最大,因此,设建立一元回归方程为:
3.1.2、最优回归模型的选择
通过逐步引入其他变量,确定最合适的多元回归方程。回归结果见表2。
表2中国民航客运量预测模型逐步回归结果
由表2可知,模型Y=f(X1,X4)中调整的判定系数较一元模型Y=f(X4)的高,模型经济意义合理,变量都通过了显着性检验,因此最终的预测模型为:
对比模型(10)和模型(12)可知,利用逐步回归法可有效解决多重共线性问题,但要剔除引起共线性的变量X2和X3。
3.2、主成分回归
利用Eviews软件对标准化的解释变量X1、X2、X3、X4进行主成分分析。分析结果见表3和表4。
表3特征值、累计贡献率等
表4特征向量
由表3可以看出,特征值最大为3.6214、最小为0.006。第1主成分的贡献率为90.53%,说明第一个主成分包含了原始数据90%以上的信息。由表4可知主成分为:
将标准化的Y(记为Yz)关于Z1进行回归,估计模型后发现模型存在一阶序列相关,用广义差分法重新估计模型,得到以下估计结果:
R2=0.9962,DW=1.81
模型(14)拟合优度高,且不存在序列相关性。
将式(13)代入式(14),得:
模型(15)中各变量均为标准化变量。将各变量还原,最终得到还原后的预测模型为:
模型(16)拟合优度高,模型的经济意义合理。从模型(16)中可以得到每个解释变量对民航客运量的影响。
尽管多重共线性的检验方法很多,但在实际应用中,经验方法是最常使用的方法。当模型总体拟合优度高,但多个变量的显着性检验不能通过甚至模型的经济意义不合理时,基本可以判定模型出现了多重共线性。至于修正方法,如果决策者不介意剔除引起共线性的变量,则逐步回归法是简单易行的,而且会彻底解决多重共线性带来的问题,但它无法得到剔除掉的影响因素对被解释变量的影响。主成分回归会削弱解释变量之间的共线程度,能求得各个影响因素对被解释变量的单独影响,但有时会遇到修正过的模型经济意义不合理的情况,这时决策者可以考虑其他修正方法,比如岭回归法,具体哪一种方法更优,则需具体试算并比较才可得知。
4、结语
本文对已有的多重共线性的诊断及处理方法进行了总结,并结合实际例子给出了多重共线性的检验与修正过程。需要指出的是,模型存在多重共线性并不意味着一定要采取补救措施,因为对多重共线性进行任何补救都可能会导致模型出现其他问题。如果模型存在多重共线性,而模型经济意义合理,变量的显着性检验也能通过,这时,无需采取任何补救措施。只有当多重共线性使得解释变量不显着或模型经济意义不合理时,才需要采取补救措施。
参考文献
[1]李子奈,潘文清.计量经济学[M].北京:高等教育出版社,2005.
[2]孙敬水.计量经济学教程[M].北京:清华大学出版社,2005.
[3]刘盾,胡培,施丽丽.基于粗集理论的线性回归方法及实证分析[J].统计与信息论坛,2008,23(6):30-34.
[4]鲁茂.几种处理多重共线性方法的比较[J].统计与决策,2007(7):8-10.
[5]李子奈.计量经济学-方法和应用[M].北京:清华大学出版社,2006.
[6]赵卫亚.计量经济学教程[M].上海:上海财经大学出版社,2003.
[7]杨楠.岭回归分析在解决多重共线性问题中的独特作用[J].统计与决策,2004(3):14-15.
[8]赵卫亚.利用EViews软件检验和处理模型的多重共线性[J].统计与决策,2008(6):147-148.
[9]丁磊.主成分回归在解决多重共线性问题中的应用[J].哈尔滨职业技术学院学报,2011(3):127-128.
[10]国家统计局.中国统计年鉴[M].北京:中国统计出版社,1996-2019.