摘要:
一、简介 此文是对利用jieba,word2vec,LR进行搜狐新闻文本分类的准确性的提升,数据集和分词过程一样,这里就不在叙述,读者可参考前面的处理过程 经过jieba分词,产生24000条分词结果(sohu_train.txt有24000行数据,每行对应一个分词结果) 1)TfidfVector 阅读全文
posted @ 2018-12-29 11:24
河水青山1
阅读(5048)
评论(2)
推荐(1)
摘要:
一、简介 1)jieba 中文叫做结巴,是一款中文分词工具,https://github.com/fxsjy/jieba 2)word2vec 单词向量化工具,https://radimrehurek.com/gensim/models/word2vec.html 3)LR LogisticRegr 阅读全文
posted @ 2018-12-29 11:21
河水青山1
阅读(14529)
评论(6)
推荐(3)

浙公网安备 33010602011771号