OLS估计量性质
高斯-马尔可夫定理:在线性模型的经典假设下,参数的最小二乘估计量是线性无偏估计量中方差最小的估计量(BLUE估计量)
1、线性特性
参数估计量β ^ pmb{hat{eta}}
β
^
β
^
β
^
既是因变量观测值Y YY的线性组合,也是随机误差项ε pmb{varepsilon}
ε
ε
ε的线性组合
β ^ = ( X τ X ) − 1 X τ Y = ( X τ X ) − 1 X τ ( X β + ε ) = ( X τ X ) − 1 X τ X β + ( X τ X ) − 1 X τ ε = β + ( X τ X ) − 1 X τ ε
β^β^=(XτX)−1XτY=(XτX)−1Xτ(Xββ+εε)=(XτX)−1XτXββ+(XτX)−1Xτεε=ββ+(XτX)−1Xτεε
β^β^=(XτX)−1XτY=(XτX)−1Xτ(Xββ+εε)=(XτX)−1XτXββ+(XτX)−1Xτεε=ββ+(XτX)−1Xτεε
β
^
β
^
β
^
=(X
τ
X)
−1
X
τ
Y
=(X
τ
X)
−1
X
τ
(X
β
β
β+
ε
ε
ε)
=(X
τ
X)
−1
X
τ
X
β
β
β+(X
τ
X)
−1
X
τ
ε
ε
ε
=
β
β
β+(X
τ
X)
−1
X
τ
ε
ε
ε
这里推导未使用任何假定,令A = ( X τ X ) − 1 X τ A=(X^{ au}X)^{-1}X^{ au}A=(X
τ
X)
−1
X
τ
,则β ^ = A Y = β + A ε pmb{hateta} =AY=pmb{eta} + Apmb{varepsilon}
β
^
β
^
β
^
=AY=
β
β
β+A
ε
ε
ε
其中,矩阵A AA由k kk行n nn列元素构成,k kk指解释变量个数包括截距项,n nn是指观测值个数
对于某个参数β ^ k hateta_k
β
^
k
是矩阵A AA的k kk行元素构成的行向量与因变量观测值Y YY的向量积
线性特性是确定参数估计量的分布性质和进行统计推断的重要基础
2、无偏性
参数估计量β ^ pmb{hat{eta}}
β
^
β
^
β
^
的期望等于总体参数
E ( β ^ ) = E ( β + A ε ) = E ( β ) + A E ( ε ) = β
E(β^β^)=E(ββ+Aεε)=E(ββ)+AE(εε)=ββ
E(β^β^)=E(ββ+Aεε)=E(ββ)+AE(εε)=ββ
E(
β
^
β
^
β
^
)
=E(
β
β
β+A
ε
ε
ε)
=E(
β
β
β)+AE(
ε
ε
ε)
=
β
β
β
这里用到了线性特性、假定1、假定3
3、方差最小性
OLS估计量的有效性,也称为“最小方差性”,即在模型参数的所有线性无偏估计量中OLS估计的方差最小
先求OLS估计量的协方差矩阵
V a r ( β ^ ) = E [ ( β ^ − E ( β ^ ) ) ( β ^ − E ( β ^ ) ) τ ] = E [ ( β ^ − β ) ( β ^ − β ) τ ] = E [ ( A ε ) ( A ε ) τ ] = E [ A ε ε τ A τ ] = A E ( ε ε τ ) A τ = A σ 2 I n A τ = σ 2 A A τ = σ 2 ( X τ X ) − 1 X τ X ( X τ X ) − 1 = σ 2 ( X τ X ) − 1
Var(β^β^)=E[(β^β^−E(β^β^))(β^β^−E(β^β^))τ]=E[(β^β^−ββ)(β^β^−ββ)τ]=E[(Aεε)(Aεε)τ]=E[AεεεετAτ]=AE(εεεετ)Aτ=Aσ2IInAτ=σ2AAτ=σ2(XτX)−1XτX(XτX)−1=σ2(XτX)−1
Var(β^β^)=E[(β^β^−E(β^β^))(β^β^−E(β^β^))τ]=E[(β^β^−ββ)(β^β^−ββ)τ]=E[(Aεε)(Aεε)τ]=E[AεεεετAτ]=AE(εεεετ)Aτ=Aσ2IInAτ=σ2AAτ=σ2(XτX)−1XτX(XτX)−1=σ2(XτX)−1
Var(
β
^
β
^
β
^
)
=E[(
β
^
β
^
β
^
−E(
β
^
β
^
β
^
))(
β
^
β
^
β
^
−E(
β
^
β
^
β
^
))
τ
]
=E[(
β
^
β
^
β
^
−
β
β
β)(
β
^
β
^
β
^
−
β
β
β)
τ
]
=E[(A
ε
ε
ε)(A
ε
ε
ε)
τ
]
=E[A
ε
ε
ε
ε
ε
ε
τ
A
τ
]
=AE(
ε
ε
ε
ε
ε
ε
τ
)A
τ
=Aσ
2
I
I
I
n
A
τ
=σ
2
AA
τ
=σ
2
(X
τ
X)
−1
X
τ
X(X
τ
X)
−1
=σ
2
(X
τ
X)
−1
这里因为( X τ X ) − 1 (X^{ au}X)^{-1}(X
τ
X)
−1
是对称矩阵,所以它的转置还是它本身,所以A τ = X ( X τ X ) − 1 A^{ au}=X(X^{ au}X)^{-1}A
τ
=X(X
τ
X)
−1
这里用到无偏性、线性特性、假定3、假定2
接下来就要证明上述OLS估计量的协方差矩阵是所有线性无偏估计量的协方差矩阵中是最小的(省略)
参数的OLS估计量β ^ pmb{hat{eta}}
β
^
β
^
β
^
的分布形式
我们在证明OLS估计量具有最佳线性无偏估计量性质的过程中仅使用了假定1、假定2、假定3,未使用到假定4和假定5,并且在证明过程中,我们也知道了OLS估计量的均值和方差,如果我们进一步知道OLS估计量分布形式,就可以进行统计推断了
根据假定5,可以推导出参数的OLS估计量β ^ pmb{hat{eta}}
β
^
β
^
β
^
也是服从正态分布的
根据线性特性β ^ = A Y = β + A ε pmb{hateta} =AY=pmb{eta} + Apmb{varepsilon}
β
^
β
^
β
^
=AY=
β
β
β+A
ε
ε
ε,说明参数的OLS估计量β ^ pmb{hat{eta}}
β
^
β
^
β
^
是随机误差项ε pmb{varepsilon}
ε
ε
ε的线性组合,而根据假定5随机误差项ε pmb{varepsilon}
ε
ε
ε服从正态分布,所以参数的OLS估计量β ^ pmb{hat{eta}}
β
^
β
^
β
^
也服从正态分布
因为E ( β ^ ) = β E(pmb{hateta})=pmb{eta}E(
β
^
β
^
β
^
)=
β
β
β,V a r ( β ^ ) = σ 2 ( X τ X ) − 1 Var(pmb{hateta}) =sigma^2(X^{ au}X)^{-1}Var(
β
^
β
^
β
^
)=σ
2
(X
τ
X)
−1
,所以参数的OLS估计量β ^ pmb{hat{eta}}
β
^
β
^
β
^
正态分布形式为
β ^ − N ( β , σ 2 ( X τ X ) − 1 ) pmb{hateta}-N(pmb{eta},sigma^2(X^{ au}X)^{-1})
β
^
β
^
β
^
−N(
β
β
β,σ
2
(X
τ
X)
−1
)
对于具体的某个估计量b j ^ hat{b_j}
b
j
^
的分布形式为b j ^ − N ( b j , σ 2 ( ( X τ X ) − 1 ) j j ) hat{b_j}-N(b_j,sigma^2((X^{ au}X)^{-1})_{jj})
b
j
^
−N(b
j
,σ
2
((X
τ
X)
−1
)
jj
)
随机误差项方差的估计
前文推导过程中,我们求出了参数的OLS估计量β ^ pmb{hat{eta}}
β
^
β
^
β
^
的具体数值,β ^ = ( X τ X ) − 1 X τ Y pmb{hateta} = (X^{ au}X)^{-1}X^{ au}Y
β
^
β
^
β
^
=(X
τ
X)
−1
X
τ
Y,我们求出了参数的OLS估计量β ^ pmb{hat{eta}}
β
^
β
^
β
^
的期望和方差,E ( β ^ ) = β E(pmb{hateta})=pmb{eta}E(
β
^
β
^
β
^
)=
β
β
β,V a r ( β ^ ) = σ 2 ( X τ X ) − 1 Var(pmb{hateta}) =sigma^2(X^{ au}X)^{-1}Var(
β
^
β
^
β
^
)=σ
2
(X
τ
X)
−1
,我们甚至求出了参数的OLS估计量β ^ pmb{hat{eta}}
β
^
β
^
β
^
的分布形式,β ^ − N ( β , σ 2 ( X τ X ) − 1 ) pmb{hateta}-N(pmb{eta},sigma^2(X^{ au}X)^{-1})
β
^
β
^
β
^
−N(
β
β
β,σ
2
(X
τ
X)
−1
)
但是,不难发现,上述表达式中,始终有个随机误差项的方差σ 2 sigma^2σ
2
的取值我们不得而知,事实上我们也无法计算,因为我们不知道总体回归模型和总体样本是如何
但是,我们可以对σ 2 sigma^2σ
2
进行估计,若计
σ ^ 2 = ∑ e i 2 n − k hat{sigma}^2= frac{sum{e_i^2}}{n-k}
σ
^
2
=
n−k
∑e
i
2
可以证明,E ( σ ^ 2 ) = σ 2 E(hat{sigma}^2)=sigma^2E(
σ
^
2
)=σ
2
,证明省略
那么,对于具体的某个估计量b j ^ hat{b_j}
b
j
^
的分布形式为b j ^ − N ( b j , σ ^ 2 ( ( X τ X ) − 1 ) j j ) hat{b_j}-N(b_j,hatsigma^2((X^{ au}X)^{-1})_{jj})
b
j
^
−N(b
j
,
σ
^
2
((X
τ
X)
−1
)
jj
)