毕业设计笔记(一):文本分类
文本分类实验流程设计:
1)下载搜狗语料 地址:http://www.sogou.com/labs/dl/c.html
2)下载中科院分词系统(ictclas)包 地址:http://ictclas.org/ictclas_download.aspx
3)对应每个分类选择部分搜狗语料作为训练集,使用ictclas包对该部分语料进行分词
4)编码对分词结果进行预处理,处理结果为各个单词的出现频率,并对各个分类进行数据库建表
5)剩下的搜狗语料作为测试集,重复步骤3~4
6)将训练集和测试集分别实例化,处理成arff文件
7)编码调用weka的api对训练集和测试集进行文本分类
8)根据结果得出对应结论

浙公网安备 33010602011771号