
一、从OLS的基本原理谈起
对于多元回归模型(1):
OLS原理就是,选择参数估计值以使得残差平方和最小,即:
若定义目标函数为Q,则由上述最优化问题的一阶条件可形成一个包括k+1个正规方程的方程组。
求解上述正规方程组(3),即获得各个参数的OLS估计量。现在若我们引入向量与矩阵定义:
则多元回归模型(1)可表示为:
最优化问题(2)可表示为:
正规方程组(3)可表示为:
二、矩阵微分规则的引出与应用
我们考察式(6)。在这里,
与0是k+1维列向量。用式(6)来描述正规方程组(3),看似十分平凡,但其实隐含了一个关于矩阵微分的一般规则:一个标量对一个m维列向量求导,等价于该标量对这个m维列向量中的每一个元素求导,其求导结果是一个m维列向量。这是一个简单而重要的规则,接下来我们将反复利用此规则。最优化问题(5)的目标函数Q可进一步展开成:
由于标量Q只可能被分解成标量,式(7)中最后一个等号右边的四项均为标量,并且有:
根据式(8),我们需依次解决四个问题:(一)
,其不是
中任何元素的函数。因此,有:
从形式上看,式(9)与我们在《微积分》课程中所熟悉的微分规则
是一致的,其中
为常数,
为变量。这里的0是标量,而式(9)中的0是k+1维列向量。(二)
为标量,而
为k+1维列向量,我们可迅速判断
为k+1维行向量。若定义:
,则
。显然有:
从形式上看,式(10)与我们在《微积分》课程中所熟悉的微分规则
是一致的。关键的差别在于,在式(10)中,
不能同
那样,被直接置于等号右边——为了满足矩阵微分规则,我们还需对其进行转置处理,以使其变为一个列向量。(三)
故有:
当然,我们还可将标量
中的因式
定义为列向量
,从而有:
。因此,
。从形式上看,式(12)与我们在《微积分》课程中所熟悉的微分规则
是一致的。重要的是,在这里,
能同
那样,被直接置于等号右边。如此处理满足矩阵微分规则,原因在于
是一个列向量。(四)
中,
出现了两次。但非常幸运的是,对问题(一)、(二)与(三)的讨论已暗示,这个求导结果也应该与传统的微分规则具有一定的一致性。关于函数积的微分规则表明:
参照式(13)中第二个等号右边的表达式,我们可以猜测:
在这里,我们很容易注意到:
为列向量;
为行向量。为了满足矩阵微分规则,我们需要对行向量
取转置,以将其转化为列向量。在回答问题(一)、(二)与(三)时,我们对相应的矩阵微分规则进行了具体的验证。当然我们也可以验证式(14)是成立的,但由于比较复杂,在此略去。三、OLS估计量的“三步”记忆法及启示将式(9)、(10)、(12)、(14)带入式(8),并结合式(6),有:
进而有:
假定
的
逆存在,则有:
(一)“三步”记忆法
我们可通过如下“三步”来记忆式(17):Step1:
。注意,等式两边左乘
而不是
。考虑矩阵的维数,
显然是无意义的。Step2:
。前提是
存在。Step3:省略
,则有
。既然两者近似相等,那么就以
作为
的估计量。(二)启示
如果
能省略,那么意味着
。但这有何依据呢?为了回答此问题,我们来考察列向量
:
由式(18)可知,若式(19)成立,则省略
就是比较合理的。
那么,式(19)意味着什么呢?很容易发现,其意味着:第一,误差项的样本均值近似为零;第二,误差项与任何一个解释变量均近似地样本不相关。现在的问题是,上述两个结论成立吗?答案是,若“误差项期望值等于零”与“误差项与任意解释变量均不相关”这两大假定成立,则上述两个结论至少在大样本下是成立的。原因在于,这两大假定是两个总体矩条件,上述两个结论其实是相应的样本矩条件,而根据矩估计原理,样本矩是对总体矩的一致估计。根据上述讨论,我们可以获得两大启示:第一,给定上述两个假定成立,OLS估计本质上是矩估计的特例;第二,如果上述两个假定不成立,那么OLS估计量
就不会是对真实参数向量
比较“靠谱”的估计。反过来这意味着,上述两大假定成立,对于保证OLS估计量具有良好性质至关重要。四、如何保证
存在?
存在,表明
是一个的满秩方阵,亦即
×
:
。按照矩阵理论有:
,故这进一步意味着,
作为一个的矩阵,秩等于k+1,亦即
必须列满秩。
满足列满秩假定,意味着构成
的k+1个列向量线性无关——这k+1个列向量中的任何一个向量,均不能是其余列向量的线性组合。若此假定被违背,则出现完全共线情况,此时
不存在,OLS法失效。在此我们列举一个
不满足列满秩假定的例子。对于模型(20):
假设
,则矩阵
中的第一个列向量是后两个列向量的线性组合,故三个列向量完全共线,
不具有列满秩性质。此时一个与原模型等价的新模型是:
在这里,
为任意常数。
。现在我们不妨问这样一个问题,如果真能够将
对
与
进行回归,那么回归结果所估计的到底是式(20)还是式(21)呢?显然,我们无法确定。用计量经济学术语来讲,就是当
不满足列满秩假定时,模型(20)或者(21)是无法被识别的。值得指出的是,
不满足列满秩假定的一个特殊例子是,样本容量小于待估计参数的数量。例如,对于模型(20),其有三个参数需要估计。假定我们仅有两个观测值,那么
将是一个2×3的矩阵,其秩最大为2,故
不满足列满秩假定。其实,从直觉上很容易理解,模型(20)的样本回归方程代表一个平面,而要确定一个平面,至少需要3个点(观测值)。五、回到一元线性回归模型对于一元回归模型(22):
此时,矩阵
由列向量
与
构成,矩
列满秩假定成立表明:
,其中
为任意常数。亦即,变量
的N次观测值不能为一个常数。对于一元线性回归模型,斜率估计量的公式为:
显然,若变量
的N次观测值为一个常数,则
,而这是一个不定型。我们从直觉上很容易理解,当变量
的N次观测值为一个常数时,由于缺乏对照,变量
对
的影响是根本无法被识别的。·END·
