抽样分布、样本分布和总体分布
统计中用随机变量X的取值范围及其取值概率的序列来描述这个随机变量,称之为随机变量X的概率分布。如果我们知道随机变量X的取值范围及其取值概率的序列,就可以用某种函数来表述X取值小于某个值的概率,即为分布函数:F(X)=P(X≤z)。
例如,一个由N家工业组成的总体,X为销售收入。将总体所有的销售收入按大小顺序排队,累计出总体中销售收入小于某值x的数量并除以总体总数N,就可得到总体中销售收入小于x的的频率,也即抽取一个销售收入小于x的的概率。此频率或概率随着x值不同而变化形成一个序列,形成了销售收入X的概率分布。
总体分布是在总体中X的取值范围及其概率。
样本分布是在样本中X的取值范围及其概率。上例中,如果抽取n个作为样本,我们同样可以用这n个销售收入的取值范围及其概率描述其分布,也即样本分布。样本分布也称为经验分布,随着样本容量n的逐渐增大,样本分布逐渐接近总体分布。
抽样分布是指样本统计量的概率分布。采用同样的抽样方法和同等的样本量,从同一个总体中可以抽取出许许多多不同的样本,每个样本计算出的样本统计量的值也是不同的。样本统计量也是随机变量,抽样分布则是样本统计量的取值范围及其概率。仍以工业为例,我们设计了一个抽样方案并确定了样本量,这时可能抽取的样本是众多的,每抽取一个样本就可以计算出一个平均销售收入,所有可能形成的分布就是抽样分布。例中,样本统计量为随机变量,抽样分布是的概率分布。
研究概率分布对于抽样调查是十分重要的,因为只有知道概率分布,才能够利用抽样技术推断抽样误差。现实中,总体的分布状况通常是未知的,但我们也无需知道总体分布,而只需知道抽样分布。
当样本容量足够大的时候——通常是大于100,就可以把样本分布近似的服从正态分布。