最新评论

共272页: 1 2 3 4 5 6 7 8 9 下一页 末页 
Re:机器学习研究与开发平台的选择 错位的优雅 2019-03-20 17:43  
博主你好,能介绍下spark离线训练好模型,在线上部署的流程吗
Re:深度神经网络(DNN)反向传播算法(BP) 软院斯坦森 2019-03-20 17:15  
老师您好,有个问题想请教。
在反向传播的计算中,什么时候应该用矩阵乘,什么时候用Hadamard积有什么规律可言吗?
Re:用scikit-learn学习DBSCAN聚类 木剑游侠小温华 2019-03-20 17:12  
刘老师,为什么在样本类别分布不均匀的时候,找最近邻的算法:由KD树改用球树?

是KD树在哪一方面表现不好呢?
Re:用scikit-learn学习DBSCAN聚类 木剑游侠小温华 2019-03-20 17:07  
刘老师,你好,
请问你对马氏距离直观上是怎么认为的呢?
比如,怎样的数据在马氏距离的度量方式中 是距离大,
怎样的数据 在马氏距离计算后 距离小。
Re:DBSCAN密度聚类算法 木剑游侠小温华 2019-03-20 16:53  
刘老师,问问题:
1.在大样本下,通过kd树找去找在 邻域 范围内的样本:
比如,对一个样本Xi,我们在kd树中找到一个最近邻的样本,计算距离判断是否大于Minpts,若不大于,则可以继续找下去,知道找到一个样本,其距离大于Minpts,则寻找结束,最后判断找到了多少个在邻域的样本,判断Xi是否为核心对象。

2. 文中提出的 第三个要考虑的问题: 是否因为在高维中,所以才有一个两本Xi在多个 核心对象的邻域内的情况?
Re:卷积神经网络(CNN)反向传播算法 小奥特曼 2019-03-20 11:19  
@ 刘建平Pinard
多谢博主,一直跟着您的博客看到现在,通俗易懂,受益匪浅!
Re:K-Means聚类算法原理 刘建平Pinard 2019-03-20 11:01  
@ mllearner
你好,如果你是十折交叉验证,可以直接随机把数据分成十份,每9份做KMeans聚类,最后1份做验证,一共10组实验。

然后你可以选择比如10个最可能的K值,然后每个K值做上面10组聚类实验,这样一共100组结果,选择一个你觉得验证效果较好的结果对应的K。

最优K的选择就要看聚类参考指标了,我介绍过最常用的轮廓系数Silhouette Coefficient和Calinski-Harabasz Index,在下一篇里。
https://www.cnblogs.com/pinard/p/6169370.html
Re:用Spark学习矩阵分解推荐算法 刘建平Pinard 2019-03-20 10:56  
@ IT浪人小乐
你好,funkSVD这样的方法,负采样不是必选的。如果发现负采样后对你的训练数据得到矩阵分解模型有提升,那么使用是可以的。
毕竟负采样这里假设了用户对某物品的不喜欢,这是一个不客观的假设。
@ guoxiwang
你好,q分布的形式参见第二节的1式和2式。没有q的话,肯定求不出右边的形式,因为这里需要使用指数分布族的形式。需要q的形式才能求出导数。
Re:梯度提升树(GBDT)原理小结 刘建平Pinard 2019-03-20 10:49  
@ 浩渺星空
你好,只能根据经验。看你的数据量,数据维度,数据的收敛情况,如果观察发现数据维度太高,数据量太大,收敛慢可以设置一个较小的值。否则设置大一些肯定更好。
Re:scikit-learn 支持向量机算法库使用小结 刘建平Pinard 2019-03-20 10:45  
@ 打不死的奥特曼
你好,SMO过程肯定是要的。sklearn的SVM包封装了libsvm,使用也是SMO家族的算法。

SVM多分类有很多种方法,sklearn支持one vs one,也就是如果有n个分类,那么可以得到n(n-1)/2个二分类问题。

https://scikit-learn.org/stable/modules/svm.html#svm-classification
1.4.1.1节
Re:支持向量机原理(五)线性支持回归 刘建平Pinard 2019-03-20 10:41  
@ 打不死的奥特曼
你好,对的,最后求出w,b就可以做回归预测了。
Re:支持向量机原理(四)SMO算法原理 刘建平Pinard 2019-03-20 10:36  
@ 打不死的奥特曼
你好!,L和H就是$\alpha$的下界和上界。不考虑约束条件,L就是0,H就是C了,由于图中的情况,L可能还要比0大一点,H可能还要比C小一点,也就是上面讨论的L和H的式子。
Re:卷积神经网络(CNN)反向传播算法 刘建平Pinard 2019-03-20 10:26  
@ 小奥特曼
你好,你理解的很对。⊙σ′(zl−1)取决于上一层的激活函数。如果是池化层,那肯定就是1了。
@ 打不死的奥特曼
你好,对的。不过对于SVM,SMO还是最常用的求解方法。
Re:K-Means聚类算法原理 mllearner 2019-03-20 09:51  
老师您好,请教一个问题,关于KMeans文中K的选取如果使用交叉验证法确定,那么每一折的样本应该怎么选取呢?如果是有监督学习,每一折的样本要保证类别平衡比较好理解,可是关于这种聚类问题应该怎么抽取呢?还有一个问题,选取最优的K的标准是什么呢,是根据每个点到最终得到的中心点的最近距离的平方和来衡量吗?
另外关于KNN的K的选取一般也是使用交叉验证来确定,这里选取最优的K一般使用分类误差率是吗?
感谢~
Re:用Spark学习矩阵分解推荐算法 IT浪人小乐 2019-03-19 22:01  
@ 刘建平Pinard
是这样的,推荐系统入门例子moiveslen,用user-items评分矩阵做LFM的输入,我是这样做的(做法1)。
但是我发现网上有些文章将user-items评分矩阵已评分位置设为1,然后在评分矩阵中负采样一些-1的数据,用这样的矩阵去做LFM(做法2)。
我是初学小白,看到这样的操作有些蒙,所以想请教一下是不是一般LFM、SVD++这些算法的输入是不是都需要这种负采样的操作?
还是说我钻牛角尖了,其实只是单纯的依据业务而定呢?
感谢博主的指点,请问下本文(16)式中等号左边下角标中的分布q()的具体形式是什么分布,如果不知道q()的具体分布,怎么能求出(16)式右边的具体结果?
Re:卷积神经网络(CNN)反向传播算法 小奥特曼 2019-03-19 15:52  
@ 刘建平Pinard
那我们是不是也得知道上一层是卷积层还是池化层我们才能完整的从写出δl与δl-1的递推关系啊,因为不管是哪个公式里面都包含最后⊙σ′(zl−1)这个,也就是上一层a与z的关系,,假如上一层是池化层,这个就为1,假若上一层为卷积层,这个就按正常求导来算!所以我们每一次递推时候既要知道当前层是什么,也要知道前一层是什么,还望博主指点,我的理解是这样的!
Re:用scikit-learn学习K-Means聚类 木剑游侠小温华 2019-03-19 15:04  
@ 刘建平Pinard
嗯哈,那我下周就能解惑了,我一章一章来,到时候不明白的话再做具体的提问。
共272页: 1 2 3 4 5 6 7 8 9 下一页 末页