摘要:
Bag-of-Words (BoW) 模型是NLP和IR领域中的一个基本假设。在这个模型中,一个文档(document)被表示为一组单词(word/term)的无序组合,而忽略了语法或者词序的部分。BOW在传统NLP领域取得了巨大的成功,在计算机视觉领域(Computer Vision)也开始崭露头 阅读全文
posted @ 2017-03-27 23:56
blcblc
阅读(217)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2017-03-27 23:29
blcblc
阅读(1)
评论(0)
推荐(0)
摘要:
其实就是计算概率的时候,对于分子+1,避免出现概率为0。这样乘起来的时候,不至于因为某个量x,在观察样本库(训练集)中没有出现过,会导致整个实例的概率结果是0。在文本分类的问题中,当一个词语没有在训练样本中出现,该词语调概率为0,使用连乘计算文本出现概率时也为0。这是不合理的,不能因为一个事件没有观 阅读全文
posted @ 2017-03-27 22:33
blcblc
阅读(4585)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2017-03-27 18:19
blcblc
阅读(1)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2017-03-27 17:59
blcblc
阅读(1)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2017-03-27 16:05
blcblc
阅读(1)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2017-03-27 15:12
blcblc
阅读(2)
评论(0)
推荐(0)
摘要:
https://www.zhihu.com/question/32275069 word embedding的意思是:给出一个文档,文档就是一个单词序列比如 “A B A C B F G”, 希望对文档中每个不同的单词都得到一个对应的向量(往往是低维向量)表示。比如,对于这样的“A B A C B 阅读全文
posted @ 2017-03-27 14:12
blcblc
阅读(147)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2017-03-27 00:14
blcblc
阅读(4)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2017-03-27 00:13
blcblc
阅读(5)
评论(0)
推荐(0)
摘要:
http://www.csdn.net/article/2015-09-30/2825828 基于Spark GraphX,弃GBDT和LR用FM 发表于2015-09-30 09:53| 9644次阅读| 来源CSDN| 7 条评论| 作者杨鹏 摘要:9月29日20:30-21:30,算法工程师杨 阅读全文
posted @ 2017-03-27 00:10
blcblc
阅读(638)
评论(0)
推荐(0)