摘要:
文本分类实验流程设计:1)下载搜狗语料 地址:http://www.sogou.com/labs/dl/c.html2)下载中科院分词系统(ictclas)包 地址:http://ictclas.org/ictclas_download.aspx3)对应每个分类选择部分搜狗语料作为训练集,使用ictclas包对该部分语料进行分词4)编码对分词结果进行预处理,处理结果为各个单词的出现频率,并对各个分类进行数据库建表5)剩下的搜狗语料作为测试集,重复步骤3~46)将训练集和测试集分别实例化,处理成arff文件7)编码调用weka的api对训练集和测试集进行文本分类8)根据结果得出对应结论 阅读全文
posted @ 2012-03-09 15:56
林氏出品
阅读(291)
评论(0)
推荐(0)

浙公网安备 33010602011771号