bubbleeee

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

Doc2bow是封装于Gensim中的方法,主要是实现bow模型

bow模型(词袋)模型使用一组单词(无序)来表示一个句子

先根据语料构建词典

每个句子可以用词典长度的一维向量来表示,向量不关心单词出现的顺序,只表示该位置的单词在样本中出现的频率。

gensim.corpora.Dictionary---根据语料库构建词典dictionary

dictionary.doc2bow---将每个句子样本表示成向量

similarity = gensim.similarities.Similarity('-Similarity-index', corpus, num_features=400)---构建相似度矩阵

使用:similarity[vector]---获取vector的相似度结果,之后可以进行排序,取前n个

 

posted on 2021-11-07 16:52  bubbleeee  阅读(1994)  评论(0编辑  收藏  举报