随笔分类 -  数据挖掘

摘要:《计算广告学》 http://study.163.com/course/courseMain.htm?courseId=321007 书籍已下载,位置在: /Users/baidu/Documents/Data/Interview/计算广告/ 阅读全文
posted @ 2017-01-24 16:08 blcblc 阅读(622) 评论(0) 推荐(0)
摘要:数学上最漂亮的办法是最大熵(maximum entropy)模型,它相当于行星运动的椭圆模型。 "最大熵"这个名词听起来很深奥,但是它的原理很简单,我们每天都在用。说白了,就是要保留全部的不确定性,将风险降到最小。让我们来看一个实际例子。 有 一次,我去 AT&T 实验室作关于最大熵模型的报告,我带 阅读全文
posted @ 2017-01-24 12:12 blcblc 阅读(170) 评论(0) 推荐(0)
摘要:https://hit-scir.gitbooks.io/neural-networks-and-deep-learning-zh_cn/ 阅读全文
posted @ 2017-01-23 20:56 blcblc 阅读(159) 评论(0) 推荐(0)
摘要:http://blog.csdn.net/dark_scope/article/details/14103983 据说在Deep Learning出来之前,SVM和Adaboost是效果最好的 两个算法,而Adaboost是提升树(boosting tree),所谓“提升树”就是把“弱学习算法”提升 阅读全文
posted @ 2017-01-19 11:08 blcblc 阅读(320) 评论(0) 推荐(0)
摘要:看了这篇文章 http://blog.csdn.net/zouxy09/article/details/24971995/ 还是没怎么看懂。但是感觉蛮在理的。需要再看。 阅读全文
posted @ 2017-01-19 00:59 blcblc 阅读(224) 评论(0) 推荐(0)
摘要:http://www.cnblogs.com/CheeseZH/p/4096546.html 写的还不错。里面还引申了好几个概念,包括AdaBoost,L1/L2正则(范数)等。 提纲列一下: 1. 使用模型默认的损失函数 例如我在珍爱网做付费用户预测时,由于付费用户本身数量级就不大,所以我宁可误判 阅读全文
posted @ 2017-01-18 22:16 blcblc 阅读(337) 评论(0) 推荐(0)
摘要:http://www.cnblogs.com/CheeseZH/p/5283390.html 这个思路还是正确的: 首先处理大数据的面试题,有些基本概念要清楚: (1)1Gb = 109bytes(1Gb = 10亿字节):1Gb = 1024Mb,1Mb = 1024Kb,1Kb = 1024by 阅读全文
posted @ 2017-01-18 01:32 blcblc 阅读(227) 评论(0) 推荐(0)
摘要:参考这篇文章,写的不错。 http://www.cnblogs.com/heaad/archive/2010/12/23/1914725.html 另外上一篇文章说了模拟退火算法。 遗传算法 ( GA , Genetic Algorithm ) ,也称进化算法 。 遗传算法是受达尔文的进化论的启发, 阅读全文
posted @ 2017-01-16 13:11 blcblc 阅读(271) 评论(0) 推荐(0)
摘要:这篇文章写的不错: http://www.cnblogs.com/heaad/archive/2010/12/20/1911614.html 今天感觉写文章和学东西,有点发散,东一块西一块,呵呵。要逐渐收敛。 一. 爬山算法 ( Hill Climbing ) 爬山算法实现很简单,其主要缺点是会陷入 阅读全文
posted @ 2017-01-16 11:54 blcblc 阅读(272) 评论(0) 推荐(0)
摘要:看这一个系列里面的文章(写的不好,语言太晦涩了,不要看了): http://ifeve.com/getting-started-with-stom-index/ 下面这个系列很不错: http://www.cnblogs.com/xia520pi/category/735194.html http: 阅读全文
posted @ 2017-01-10 00:25 blcblc 阅读(139) 评论(0) 推荐(0)
摘要:总的来说,信息爆炸,产生了信息过载。解决的方法主要有两类:检索和推荐。检索是主动的有目的的、意图明确,推荐是非主动的、意图不明确。 推荐方面最经典的,就是协同过滤推荐了。我博客这里有两篇,一篇偏理论,一篇讲ALS实战。 《协同过滤 CF & ALS 及在Spark上的实现》 《协同过滤 & Spar 阅读全文
posted @ 2017-01-06 23:05 blcblc 阅读(502) 评论(0) 推荐(0)
摘要:说的通俗一点啊,最大似然估计,就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。例如:一个麻袋里有白球与黑球,但是我不知道它们之间的比例,那我就有放回的抽取10次,结果我发现我抽到了8次黑球2次白球,我要求最有可能的黑白球之间的比例时,就采取最大似然估计法: 我假设我抽到黑球的概 阅读全文
posted @ 2017-01-06 22:00 blcblc 阅读(12230) 评论(0) 推荐(0)
摘要:作为机器学习重要的评价指标,标题中的三个内容,在下面读书笔记里面都有讲: http://www.cnblogs.com/charlesblc/p/6188562.html 但是讲的不细,不太懂。今天又理解了一下。看了这篇文章: https://www.douban.com/note/24727114 阅读全文
posted @ 2017-01-05 16:10 blcblc 阅读(18947) 评论(0) 推荐(1)
摘要:http://www.cnblogs.com/peileyuan/p/4775453.html <浅谈机器学习的职业发展方向> http://blog.sina.com.cn/s/blog_a7c41f530102uxda.html 设计过程中该收集什么数据如何从登陆日志中挖掘尽可能多的信息 bay 阅读全文
posted @ 2017-01-05 14:53 blcblc 阅读(347) 评论(0) 推荐(0)
摘要:csdn上面有一篇ppt,但是下载分太贵了。里面东西看起来讲的还可以。看看能不能嵌入。 http://download.csdn.net/detail/u012289698/9371461 <iframe width='738' height='523' class='preview-iframe' 阅读全文
posted @ 2017-01-05 14:44 blcblc 阅读(376) 评论(0) 推荐(0)
摘要:SVM的文章可以看:http://www.cnblogs.com/charlesblc/p/6193867.html 有写的最好的文章来自:http://www.blogjava.net/zhenandaci/category/31868.html 这里面貌似也有一些机器学习文章:http://le 阅读全文
posted @ 2017-01-03 01:42 blcblc 阅读(3615) 评论(0) 推荐(0)
摘要:使用Spark进行ALS编程的例子可以看:http://www.cnblogs.com/charlesblc/p/6165201.html ALS:alternating least squares 关于协同过滤ALS原理的可以看这篇文章:http://www.docin.com/p-9388977 阅读全文
posted @ 2017-01-02 22:12 blcblc 阅读(3986) 评论(0) 推荐(0)
摘要:上次那个逻辑回归讲的很好,这次还是这个人的博客,讲了线性回归,分为梯度下降,和normal equation两部分: http://blog.csdn.net/dongtingzhizi/article/details/16884215 第一部分,Gradient Descent方法 (一)h函数 阅读全文
posted @ 2016-12-26 15:20 blcblc 阅读(520) 评论(0) 推荐(0)
摘要:参考这篇文章:http://blog.csdn.net/dongtingzhizi/article/details/15962797 这篇文章写的真好,把我之前那篇文章的困惑都解释了 http://www.cnblogs.com/charlesblc/p/6208688.html 对《机器学习实战》 阅读全文
posted @ 2016-12-24 23:29 blcblc 阅读(1173) 评论(0) 推荐(0)
摘要:参考了这个网页:http://blog.csdn.net/han_xiaoyang/article/details/49123419 数据用了 https://pan.baidu.com/s/1pKxJl1p#list/path=%2F 这里面的data1 (已经转存到自己的网盘) 代码如下: 运行 阅读全文
posted @ 2016-12-22 13:49 blcblc 阅读(1591) 评论(0) 推荐(0)