线性回归模型中解释变量之间存在的精确相关关系或高度相关关系而使模型估计失真或难以准确估计的情况。一般来说,经济数据的限制会使模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。完全共线性并不多见,一般出现的多重共线性是近似共线性。
多重共线性multicollinearity
指[多变量回归模型]中解释变量之间存在线性相关的情况。
多重共线性最初的含义是指解释变量之间存在完全精确的线性关系,即对于有k个解释变量的回归模型,有k个不完全为零的数λ1,λ2,…,λk,使
λ1X1+λ2X2+…+λkXk=0
成立(教科书中有时把“无多重共线性”表达为rank(X)=k+1即此意)。这种情况下|X′X|=0,导致(X′X)
-1不存在,于是β根本无法求得。
但是解释变量之间这种完全精确的线性关系是很少见的。更多的情况是解释变量之间存在某种较高程度的线性关系,即把前面的表达式略加改动为
λ1X1+λ2X2+…+λkXk+vi=0
此处v
i为随机误差。此时rank(X)=k+1虽成立,β亦可求得,但参数估计量的方差偏大,估计量不准确。
当回归模型存在多重共线性时,一般表现为具有较高的R
2值,同时参数检验的t值有多个偏低。要进一步检验多重共线性,可以逐个用解释变量对其他解释变量作回归来完成。
克服多重共线性的方法有:剔除不重要的共线性变量;或改变模型的设定等。