随笔分类 -  机器学习

摘要:1、信息熵: 一个随机变量 X 可以代表n个随机事件,对应的随机变为X=xi, 那么熵的定义就是 X的加权信息量。 H(x) = p(x1)I(x1)+...+p(xn)I(x1) = p(x1)log2(1/p(x1)) +.....+p(xn)log2(1/p(xn)) = -p(x1)log2 阅读全文
posted @ 2018-07-17 16:29 dylan9 阅读(1059) 评论(0) 推荐(0)
摘要:1 为什么gbdt+lr优于gbdt? 其实gbdt+lr类似于做了一个stacking。gbdt+lr模型中,把gbdt的叶子节点作为lr的输入,而gbdt的叶子节点相当于它的输出y',用这个y'作为lr的x,和stacking是类似的。但是这里和一般的stacking有些差别,stacking的 阅读全文
posted @ 2018-04-24 12:18 dylan9 阅读(971) 评论(0) 推荐(0)
摘要:这里讨论机器学习中L1正则和L2正则的区别。 在线性回归中我们最终的loss function如下: 那么如果我们为w增加一个高斯先验,假设这个先验分布是协方差为 的零均值高斯先验。我们在进行最大似然: 这个东西不就是我们说的加了L2正则的loss function吗? 同理我们如果为w加上拉普拉斯 阅读全文
posted @ 2018-04-04 13:47 dylan9 阅读(2139) 评论(1) 推荐(1)
摘要:CountVectorizer和Tf-idfVectorizer构建词向量都是通过构建字典的方式,比如在情感分析问题中,我需要把每一个句子(评论)转化为词向量,这两种方法是如何构建的呢?拿CountVectorizer来说,首先构建出一个字典,字典包含了所有样本出现的词汇,每一个词汇对应着它出现的顺 阅读全文
posted @ 2018-03-30 23:26 dylan9 阅读(955) 评论(0) 推荐(0)