特征提取步骤
卡方检验
1. 统计样本集中文档总数(N)。
2. 统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率)、负文档不出现频率。
3.计算每个词的卡方值。
4.将每个词按卡方值从大到小排序,选取前k个词作为特征,k即特征维数。
信息增益
1. 统计正负分类的文档数:N1、N2。
2. 统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率)、负文档不出现频率。
3. 计算信息熵
4. 计算每个词的信息增益
5. 将每个词按信息增益值从大到小排序,选取前k个词作为特征,k即特征维数