摘要:
这个案例是一个新闻标题分类的案例,NLPCC 2017 Shared Task也有一个类似的案例。因此我们先拿这个下手了。整个过程概括起来分为以下几步: 接下来我们对这4个部分的代码进行详细的讲解。 2.1 数据采集 从上面的代码中,我们可以看到获取数据很简单: 这里最重要的就是这个fetch_20 阅读全文
posted @ 2018-12-17 19:24
开拓者亮仔
阅读(443)
评论(0)
推荐(0)
摘要:
vectorizer = CountVectorizer() #构建一个计算词频(TF)的玩意儿,当然这里面不足是可以做这些transformer = TfidfTransformer() #构建一个计算TF-IDF的玩意儿tfidf = transformer.fit_transform(vect 阅读全文
posted @ 2018-12-17 18:34
开拓者亮仔
阅读(7042)
评论(0)
推荐(1)
摘要:
源自如http://qwone.com/~jason/20Newsgroups/。 20newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档,均匀分为20个不同主题的新闻组集合。一些新闻组的主题特别相似(e.g. comp 阅读全文
posted @ 2018-12-17 14:29
开拓者亮仔
阅读(1208)
评论(0)
推荐(0)

浙公网安备 33010602011771号