词的量化

1 词袋模型(Bag of Words,简称BoW)

词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重.
词袋模型的三部曲:分词(tokenizing),统计修订词特征值(counting)与标准化(normalizing)。

词集模型(Set of Words,简称SoW) 和词袋模型唯一的不同是它仅仅考虑词是否在文本中出现,而不考虑词频

2. Hash Trick

词向量太大, 数据为多很高. 所以降纬. 使用hash值代替原始的值.

Hash Trick降维后的特征我们已经不知道它代表的特征名字和意义, 所以没有解释性.

posted on 2022-03-14 16:36  WillingCPP  阅读(85)  评论(0)    收藏  举报

导航