文本分类问题
2020-12-05 05:50:01
经典的新闻主题分类,用朴素贝叶斯怎么做。
In [193]:
In [175]:
文本处理
1、把训练样本划分为训练集和测试集
2、统计了词频,按词频降序生成词袋
In [137]:
In [138]:
停用词文件去重
这个停用词文件不是很官方,所以需要清洗下
In [140]:
In [145]:
词袋中选取有代表性的特征词
第一步生成的词袋里有很多通用的、无意义的词语,需要去掉。
有代表性的词语很大概率是一些对最终类别区分有作用的词语。并且后面这些词语会作为特征作为模型的输入。
In [125]:
In [149]:
训练和测试集生成固定长度的词向量特征
这步为后面数据输入进贝叶斯模型训练做准备。
因为文本长度不一,所以每个样本需要固定好维度,才能喂给模型训练。
In [153]:
In [169]:
贝叶斯模型开始训练和预测
In [176]:
In [177]:
可视化
这步调参,查看不同的deleteNs对模型效果的影响
In [179]:
阅读剩余内容