在统计学中,自由度指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本含量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。自由度通常用于抽样分布中。
释义
统计学上的自由度是指当以样本的统计量来估计总体的参数时, 样本中独立或能自由变化的自变量的个数,称为该统计量的自由度。
2应用
首先,在估计总体的平均数时,由于样本中的 n 个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以其自由度为n。
在估计总体的方差时,使用的是离差平方和。只要n-1个数的离差平方和确定了,方差也就确定了;因为在均值确定后,如果知道了其中n-1个数的值,第n个数的值也就确定了。这里,均值就相当于一个限制条件,由于加了这个限制条件,估计总体方差的自由度为n-1。
例如,有一个有4个数据(n=4)的样本,其平均值m等于5,即受到m=5的条件限制,在自由确定4、2、5三个数据后, 第四个数据只能是9,否则m≠5。因而这里的自由度υ=n-1=4-1=3。推而广之,任何统计量的自由度υ=n-k(k为限制条件的个数)。
其次,统计模型的自由度等于可自由取值的自变量的个数。如在回归方程中,如果共有p个参数需要估计,则其中包括了p-1个自变量(与截距对应的自变量是常量1)。因此该回归方程的自由度为p-1。
这个解释,如果把“样本”二字换成“总体”二字也说得过去。
在一个包含n个个体的总体中,平均数为m。知道了n-1个个体时,剩下的一个个体不可以随意变化。为什么总体方差计算,是除以n而不是n-1呢?方差是实际值与期望值之差平方的期望值,所以知道总体个数n时方差应除以n,除以n-1时是方差的一个无偏估计。
自由度经常被解释为可以自由变化的变量数量。而在一些原本完全自由的变量上约束它们的通常是一些线性约束,那么自由度与线性约束到底是怎么在分布中发挥作用的呢?
我们可以从随机向量的标准化过程中遇到的麻烦看出其意义。
假设检验中喜欢构造统计量在原假设成立下服从某种标准化分布,这样多元随机变量的标准化就很重要了。
一元随机变量标准化形如而多元的随机向量则应当标准化为其中是单位矩阵。
标准化为这种形式的目的之一是之后容易导出服从卡方分布的统计量。回忆其定义若是多元正态分布的随机向量,则上述标准化后求平方和就直接是服从等于变量个数的自由度的卡方分布统计量。
若各分量渐进服从正态分布,也可能可以用此法搞出与前面同分布的统计量,如多项分布。那么如何到底如何进行标准化?
在协方差矩阵满秩的情况下,有分解为其中为特征向量按列排列的某一正交矩阵,为对应的特征值构成的对角矩阵。因为是对角矩阵,所以可以直接定义出它的唯一开方令由协方差在线性变换下的关系注意用到了正交矩阵等性质所以一个可以进行标准化的变换就是如果还是正态分布的话,,就是我们上面提到的各种标准化分布中的一个。
独立性检验之类的问题也容易转化到这上面来。然而这上面却有一个限制,协方差矩阵满秩。
这是必然的吗?当然不,随机变量之间的线性组合关系会直接反应在协方差矩阵的秩的下降上。
如给定这个线性约束。则。也就是说可以通过每行/列去减第n行/列,可以将第n行/列上的全部元素消为0。
作为初等行列变换,变换前后的矩阵具有相同的秩,则说明原来的协方差矩阵.。所以不满秩。协方差(对称)矩阵不满秩情况下,仍可以做分解,不过此时特征值矩阵对角线上有0。记为将特征值对角矩阵上所有非零元取倒数再取根号的结果。于是有其中是单位矩阵替换了右下个1为0的矩阵。定义变换矩阵为于是变换后协方差为也就是说,由于不满秩,我们转而只能使用这样对角线上“1数量不满”的矩阵作为标准化后的协方差矩阵。
此时与对应的形式为回过头来,协方差矩阵的某些行列全为0(如中右下角的元素就是如此)意味着什么呢。
这意味着对应的随机变量实际表示一个常数。
于是我们发现,受约束的随机变量向量的约束可以体现为协方差矩阵的秩的下降,而这又意味着标准化中会有几个随机变量只能被标准化为0常量,而不是本来想要的期望为0,方差为1的不相关随机变量。
这对于各种构造成服从或渐进服从卡方分布的统计量(以及包含这种统计量在内的其他服从t分布或F分布的随机函数)是决定性的——理想中,我们想把它们全标准化成不相关0,1随机变量,然后利用最自然的卡方分布(自由度等于标准化前的变量个数)——然而这个步骤做不下去,只能修正后采用其他自由度的卡方分布。