统计描述是用统计指标、统计图或统计表描述资料的分布规律及其数量特征。
频数表是统计描述中经常使用的基本工具之一。
1.频数表(frequency table)的编制
在观察值个数较多时,为了解一组同质观察值的分布规律和便于指标的计算,可编制频数分布表,简称频数表。
(1)求全距(range):找出观察值中的最大值与最小值,其差值即为全距(或极差),用R表示。
(2)确定组段和组距:根据样本含量的大小确定“组段”数,一般设8-15个组段,观察单位较少时组段数可相对少些,观察单位较多时组段数可相对多些,常用全距的1/10取整做组距,以便于汇总和计算。第一组段应包括全部观察值中的最小值,最末组段应包括全部观察值中的最大值,并且同时写出其下限与上限。各组段的起点和终点分别称为下限和上限,某组段包含下限,但不包含上限,其组中值为该组段的(下限+上限)/2。相邻两组段的下限之差称为组距。
(3)列表划记:确定组段界限,列成表2.1的形式,采用计算机或用划记法将原始数据汇总,得出各组段的观察例数,即频数,表中的第(1)、(3)栏即所需的频数表。
频数表
2.频数分布的特征
由频数表可看出频数分布的两个重要特征:集中趋势(central tendency)和离散程度(dispersion)。身高有高有矮,但多数人身高集中在中间部分组段,以中等身高居多,此为集中趋势;由中等身高到较矮或较高的频数分布逐渐减少,反映了离散程度。对于数值变量资料,可从集中趋势和离散程度两个侧面去分析其规律性。
3.频数分布的类型
频数分布有对称分布和偏态分布之分。对称分布是指多数频数集中在中央位置,两端的频数分布大致对称。偏态分布是指频数分布不对称,集中位置偏向一侧,若集中位置偏向数值小的一侧,称为正偏态分布;集中位置偏向数值大的一侧,称为负偏态分布,如冠心病、大多数恶性肿瘤等慢性病患者的年龄分布为负偏态分布。临床上正偏态分布资料较多见。不同的分布类型应选用不同的统计分析方法。
4.频数表的用途
可以揭示资料分布类型和分布特征,以便选取适当的统计方法;便于进一步计算指标和统计处理;便于发现某些特大或特小的可疑值。