随笔档案「2018年12月29日」：基于jieba,TfidfVectorizer,LogisticRegres... - 河水青山1

2018年12月29日

基于jieba,TfidfVectorizer,LogisticRegression进行搜狐新闻文本分类

摘要：一、简介此文是对利用jieba,word2vec,LR进行搜狐新闻文本分类的准确性的提升，数据集和分词过程一样，这里就不在叙述，读者可参考前面的处理过程经过jieba分词，产生24000条分词结果（sohu_train.txt有24000行数据，每行对应一个分词结果） 1）TfidfVector 阅读全文

posted @ 2018-12-29 11:24 河水青山1 阅读(5052) 评论(2) 推荐(1)

利用jieba,word2vec,LR进行搜狐新闻文本分类

摘要：一、简介 1）jieba 中文叫做结巴，是一款中文分词工具，https://github.com/fxsjy/jieba 2）word2vec 单词向量化工具，https://radimrehurek.com/gensim/models/word2vec.html 3）LR LogisticRegr 阅读全文

posted @ 2018-12-29 11:21 河水青山1 阅读(14537) 评论(6) 推荐(3)

1直在路上1

公告