2017 年 3月 27 日随笔档案 - blcblc

2017年3月27日

摘要： Bag-of-Words (BoW) 模型是NLP和IR领域中的一个基本假设。在这个模型中，一个文档(document)被表示为一组单词(word/term)的无序组合，而忽略了语法或者词序的部分。BOW在传统NLP领域取得了巨大的成功，在计算机视觉领域(Computer Vision)也开始崭露头阅读全文

posted @ 2017-03-27 23:56 blcblc 阅读(217) 评论(0) 推荐(0)

先验概率后验概率一道经典概率题

该文被密码保护。阅读全文

posted @ 2017-03-27 23:29 blcblc 阅读(1) 评论(0) 推荐(0)

拉普拉斯平滑处理 Laplace Smoothing

摘要：其实就是计算概率的时候，对于分子+1，避免出现概率为0。这样乘起来的时候，不至于因为某个量x，在观察样本库（训练集）中没有出现过，会导致整个实例的概率结果是0。在文本分类的问题中，当一个词语没有在训练样本中出现，该词语调概率为0，使用连乘计算文本出现概率时也为0。这是不合理的，不能因为一个事件没有观阅读全文

posted @ 2017-03-27 22:33 blcblc 阅读(4585) 评论(0) 推荐(0)

机器学习各种算法里面用到的损失函数loss function整理

该文被密码保护。阅读全文

posted @ 2017-03-27 18:19 blcblc 阅读(1) 评论(0) 推荐(0)

拉格朗日乘子法和KKT

该文被密码保护。阅读全文

posted @ 2017-03-27 17:59 blcblc 阅读(1) 评论(0) 推荐(0)

MF算法 & LDA算法 & SVD算法 & 特征值分解

该文被密码保护。阅读全文

posted @ 2017-03-27 16:05 blcblc 阅读(1) 评论(0) 推荐(0)

one-hot 独热编码的好处-模型结合部分有些没看懂，后面再看

该文被密码保护。阅读全文

posted @ 2017-03-27 15:12 blcblc 阅读(2) 评论(0) 推荐(0)

word embedding

摘要： https://www.zhihu.com/question/32275069 word embedding的意思是：给出一个文档，文档就是一个单词序列比如 “A B A C B F G”, 希望对文档中每个不同的单词都得到一个对应的向量(往往是低维向量)表示。比如，对于这样的“A B A C B 阅读全文

posted @ 2017-03-27 14:12 blcblc 阅读(147) 评论(0) 推荐(0)

很好的推荐系统两篇文章

该文被密码保护。阅读全文

posted @ 2017-03-27 00:14 blcblc 阅读(4) 评论(0) 推荐(0)

FM算法及在广告中的应用

该文被密码保护。阅读全文

posted @ 2017-03-27 00:13 blcblc 阅读(5) 评论(0) 推荐(0)

关于推荐的一个算法工程师访谈，有一些内容值得看看

摘要： http://www.csdn.net/article/2015-09-30/2825828 基于Spark GraphX，弃GBDT和LR用FM 发表于2015-09-30 09:53| 9644次阅读| 来源CSDN| 7 条评论| 作者杨鹏摘要：9月29日20:30-21:30，算法工程师杨阅读全文

posted @ 2017-03-27 00:10 blcblc 阅读(638) 评论(0) 推荐(0)

笨鸟居士的博客

公告