02 2019 档案

利用搜狐新闻语料库训练100维的word2vec——使用python中的gensim模块
摘要:关于word2vec的原理知识参考文章https://www.cnblogs.com/Micang/p/10235783.html 语料数据来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据 数据处理参考这篇文章 模型训练: 模型使用: 输出: 阅读全文

posted @ 2019-02-12 23:53 米仓山下 阅读(513) 评论(0) 推荐(0)

关键字提取算法TF-IDF和TextRank(python3)————实现TF-IDF并jieba中的TF-IDF对比,使用jieba中的实现TextRank
摘要:关键词: TF-IDF实现、TextRank、jieba、关键词提取数据来源: 语料数据来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据 数据处理参考前一篇文章介绍: 介绍了文本关键词提取的原理,tfidf算法和TextRank算法 利用sklearn实现tfi 阅读全文

posted @ 2019-02-12 20:23 米仓山下 阅读(22237) 评论(1) 推荐(3)

利用朴素贝叶斯分类算法对搜狐新闻进行分类(python)
摘要:数据来源 https://www.sogou.com/labs/resource/cs.php介绍:来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息格式说明:<doc><url>页面URL</url><docno>页面ID</docno>< 阅读全文

posted @ 2019-02-02 13:10 米仓山下 阅读(4239) 评论(2) 推荐(1)

导航