文章分类 -  NLP

词的量化
摘要:1 词袋模型(Bag of Words,简称BoW) 词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重. 词袋模型的三部曲:分词(tokenizing),统计修订词特征值(counting)与标准化(normalizing)。 词集模型(Set of Words,简称SoW 阅读全文

posted @ 2022-03-14 16:36 WillingCPP 阅读(85) 评论(0) 推荐(0)

分词基本原理
摘要:1. 语料库 语料库有所有的词到下一个词的概率 一个词(n个字)到另外一个词(n个字)都有概率 只依赖于前一个词的模型为二元模型(Bi-Gram model) , 也有三元模型、四元模型,五元模型 2. 根据语料库的概率, 计算一个句子可以实现的最大概率 3. 维特比算法与分词 分词的简化. 从前到 阅读全文

posted @ 2022-03-14 15:56 WillingCPP 阅读(90) 评论(0) 推荐(0)

TF-IDF与余弦相似性
摘要:1. 词频(TF) 2. 逆文档频率(IDF) 语料库(corpus) 3. TF-IDF 4. 余弦相似性 计算两个向量的夹角 阅读全文

posted @ 2022-03-14 15:38 WillingCPP 阅读(31) 评论(0) 推荐(0)

导航