摘要: 对一个句子中的多处不同的词的替换,可以采用依次将句子中的每个词分别和词典进行匹配,匹配成功的进行替换来实现,可是这种方法直觉上耗时就很长,对于一个篇幅很长的文档,会花费很多的时间,这里介绍一种可以一次性替换句子中多处不同的词的方法,代码如下: 运行结果为: 可见,multiple_replace() 阅读全文
posted @ 2016-11-26 19:34 Newsteinwell 阅读(3993) 评论(0) 推荐(0) 编辑
摘要: 词向量作为文本的基本结构——词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐。良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等操作提供了便利,本文将详细介绍如何使用word2vec构建中文词向量。 一、中文语料库 本文采用的是搜狗实验室的搜狗新闻 阅读全文
posted @ 2016-11-06 19:27 Newsteinwell 阅读(61071) 评论(4) 推荐(2) 编辑