随笔分类 - 数据挖掘
摘要:Bag-of-Words (BoW) 模型是NLP和IR领域中的一个基本假设。在这个模型中,一个文档(document)被表示为一组单词(word/term)的无序组合,而忽略了语法或者词序的部分。BOW在传统NLP领域取得了巨大的成功,在计算机视觉领域(Computer Vision)也开始崭露头
阅读全文
摘要:其实就是计算概率的时候,对于分子+1,避免出现概率为0。这样乘起来的时候,不至于因为某个量x,在观察样本库(训练集)中没有出现过,会导致整个实例的概率结果是0。在文本分类的问题中,当一个词语没有在训练样本中出现,该词语调概率为0,使用连乘计算文本出现概率时也为0。这是不合理的,不能因为一个事件没有观
阅读全文

浙公网安备 33010602011771号