最新评论

共332页: 1 2 3 4 5 6 7 8 9 下一页 末页 
Re:集成学习之Adaboost算法原理小结 yangjun_scut 2019-06-17 22:43  
老师你好,想问一下,为什么Adaboost方法不容易过拟合呢?
Re:最大熵模型原理小结 逍遥法外的大西瓜 2019-06-17 21:46  
请问第三章
3 . 最大熵模型损失函数的优化

L(P,w)≡−H(P)+.....

这个公式里面的P应该是指所有模型吧,而不是只符合两个期望相等的模型。

虽然min出来的肯定是最大熵里面的模型,但这个P应该是指所有的吧。。
老师您好!
关于程序运行结果有疑问:

这是某一次运行结果
这样走对吗,不过这样走不是永远在最后绕圈子了吗
Re:word2vec原理(三) 基于Negative Sampling的模型 木头人开开 2019-06-17 20:31  
博主你好,请问在skip-gram中的模型参数的数量(在迭代中貌似每个词对应的参数不一致),和词汇表的数量是一致的,那这个是不是比hierarchical方法的中的参数多了,因为树结构可能会有共享的节点参数。
Re:scikit-learn Adaboost类库使用小结 叶落锦 2019-06-17 20:11  
老师您好,我想问一个问题
每一个弱分类器的输入是原始数据的特征直接乘上更新后的权值吗?
比如,对于初始阶段,输入的每一个样本乘以 1/m,m是样本个数,然后使用第一个分类器分类?
刘老师好,这个式子不理解是怎么得到了,可以给讲一下吗
Re:线性判别分析LDA原理总结 Laurel1115 2019-06-17 11:07  
嗯嗯,这样修改之后就对了,谢谢您!
Re:线性判别分析LDA原理总结 刘建平Pinard 2019-06-17 10:35  
@ Laurel1115
你好!
1) 原式的最优特征向量w对应矩阵分解的矩阵是$S_w^{-1}S_b$,而转化成$w'$后最优特征向量$w'$对应矩阵分解的矩阵是$S^{−\frac{1}{2}}_wS_bS^{−\frac{1}{2}}_w$, 具体你可以看看第二节的瑞利商的介绍,$B^{-1/2}AB^{-1/2}$对应的特征向量是$x'$而不是$x$。

所以第三节这里成立的2个式子是:
$$(S_w^{-1}S_b)w=\lambda w$$
$$(S^{−\frac{1}{2}}_wS_bS^{−\frac{1}{2}}_w)w'=\lambda w‘’$$

2) 这是因为$S_b = \sum\limits_{j=1}^{k}N_j(\mu_j-\mu)(\mu_j-\mu)^T$,该矩阵的维度是$k \times k$,所以最大的秩就是k。
Re:线性判别分析LDA原理总结 Laurel1115 2019-06-17 08:23  
那请问您现在第三节最后一段的这个等式
为什么还能成立呀?
还有一个问题想请教您,为什么“因为Sb中每个μj−μ的秩为1,因此协方差矩阵相加后最大的秩为k”啊?Sb不是于不同类别的均值向量有关吗,它是怎么决定样本特征的协方差矩阵的秩的呢?
Re:线性判别分析LDA原理总结 刘建平Pinard 2019-06-16 18:11  
@Laurel1115
你好,第三节最后一段的w‘应该是w,我之前写错了。感谢指正。其实我在8楼已经说明了是w了,后来在修改一个特征向量关系的时候改错了这个地方。第4节也是类似的问题。
Re:局部线性嵌入(LLE)原理总结 刘建平Pinard 2019-06-16 17:58  
@ 彼岸hkx
你好,严格来说是少一个,只是这里的$\lambda$只是为了代表这个特征分解的系数,我们并不关注它。我把它改成$\lambda'吧$
Re:XGBoost算法原理小结 刘建平Pinard 2019-06-16 17:56  
@ listenviolet
你好!
1) 对, GBDT也考虑了泰勒公式的2阶展开,不过它只是用来求解叶子区域最优解,没有像XGBoost那样一开始就二阶泰勒展开。毕竟GBDT是开创性的,而XGBoost是后来出现的优化进阶,所以一阶泰勒展开对一个开创性的算法来说足够了。当然还有优化空间。

2) 对,使用了一阶泰勒展开的牛顿迭代法得到的近似解 与 函数使用了二阶泰勒展开求导得到的极小值点,在结果上是一致的。
Re:XGBoost算法原理小结 刘建平Pinard 2019-06-16 17:54  
@ 人猎鸟鸵hd
你好,这个主要看你的损失函数的定义,如果你定义的损失函数是交叉熵损失函数,那么一般标签值属于{0,1},如果你定义的是类似GBDT这样的对数损失函数,那么就要使用{-1,1}。对算法本身的影响主要通过损失函数简洁体现。
Re:用scikit-learn学习主成分分析(PCA) 刘建平Pinard 2019-06-16 17:51  
@ 期待幸福
你好,我这边可以啊,你换个环境比如手机上试一试?
Re:tensorflow机器学习模型的跨平台上线 刘建平Pinard 2019-06-16 17:50  
@ 帆小徐
你好,你看这个表达式:
shadow_variable=decay×shadow_variable+(1−decay)×variable
其实影子变量就是上一次迭代使用的变量,如果你为了保证每次迭代的时候变化不要太大,你可以把decay设置大一点,这样每次更新的变化部分(比如梯度)比例就会小。

其实他们都是原变量,只是在连续两轮迭代的值要一起参考而已。所以对上一轮迭代使用的变量起了一个名字“影子变量”

至于和动量优化器有什么差别,个人觉得影子变量主要左右是希望迭代更新的每次变化量不要太大而已。而你的优化器和学习率的设置则是控制你整个学习过程到达局部最优解的速度快慢。他们处理问题的角度不同。
Re:线性判别分析LDA原理总结 Laurel1115 2019-06-16 17:02  
还是按照第三节您讲的w`和w的关系
那在
第四步之后是不是应该将W乘上
Re:线性判别分析LDA原理总结 Laurel1115 2019-06-16 16:56  
按照您这里讲的
最后的最优特征向量w=S-1/2w`,但是周志华那里最优的w就是
,麻烦您解释一下吧
Re:局部线性嵌入(LLE)原理总结 彼岸hkx 2019-06-15 23:01  
按照楼主的公式,这里少了负号吧?
" 对Y求导并令其为0, ...., MY^T=λY^T"
Re:XGBoost算法原理小结 listenviolet 2019-06-15 14:53  
博主您好~
在GBDT中,叶子节点区域值的近似解表达式c如果也可以用 XGBoost的 w = G/(H + lambda)来解释的话,那也相当于 GBDT也考虑了泰勒公式的2阶展开,(因为w = G/(H + lambda)本身就是在函数进行二阶泰勒展开后的极小值点)。这样说来,为什么说GBDT仅考虑了一阶泰勒展开呢?

还有GBDT原论文中介绍的这个叶子节点区域值的近似解是用牛顿迭代法得到的,这是否也说明 (仅使用了一阶泰勒展开的)牛顿迭代法得到的近似解 与 函数使用了二阶泰勒展开求导得到的极小值点,在结果上是近似的?
Re:XGBoost算法原理小结 人猎鸟鸵hd 2019-06-15 14:36  
老师您好,请问二元分类的标签值属于{0,1}或者{-1,1}针对不同的分类算法是如何定义的,什么情况该定义成{-1,1},什么情况下该定义成{0,1},对算法的影响体现在哪里,谢谢老师
共332页: 1 2 3 4 5 6 7 8 9 下一页 末页