bag-of-words 词袋模型

https://blog.csdn.net/Jaster_wisdom/article/details/81539623

 

就是首先对于一个文章而言,把一个文章的所有单词提取出来,去重,得到所有出现的单词,这就是词袋。

然后对于一个句子,把句子里面的所有单词提取出来,然后在对应位置修改这些单词出现的频度

这样,对于一个句子,就抽象成为了一个map,例如:I have an egg, you have an apple. 可以看作:{{I:1},{you:1},{an:2},{have:2},{egg:1},{apple:1}}

 

对于一般的图像或者音频,首先分成一个个小段,但是这些小段可能太散了,直接抽象成单词会使得频度过小,没有意义

所以用聚类算法,把一些小段归为一类,这就得到了抽象以后的词袋。

然后和文章的处理一样就行了。

 

词袋算法有广泛应用,可以想到的是:

1.fhr扔给我的题,有这种影子。但也不完全一样。

2.论文查重,感觉不知道是不是也是一样的算法(句子中的语气词虚词什么的先略掉,然后再处理频度)

posted @ 2021-06-28 17:30  *Miracle*  阅读(83)  评论(0编辑  收藏  举报