上一页 1 ··· 5 6 7 8 9
摘要: 机器学习分两大类,有监督学习(supervised learning)和无监督学习(unsupervised learning)。有监督学习又可分两类:分类(classification.)和回归(regression),分类的任务就是把一个样本划为某个已知类别,每个样本的类别信息在训练时需要给定,比如人脸识别、行为识别、目标检测等都属于分类。回归的任务则是预测一个数值,比如给定房屋市场的数据(面积,位置等样本信息)来预测房价走势。而无监督学习也可以成两类:聚类(clustering)和密度估计(density estimation),聚类则是把一堆数据聚成弱干组,没有类别信息;密度估计则是. 阅读全文
posted @ 2013-09-24 16:29 kobeshow 阅读(583) 评论(0) 推荐(0) 编辑
摘要: 现在貌似In Action很流行,各种技术抽象成工程商的Action,可以避开繁琐的内部原理,这本书从实践出发,通俗易懂的解释那些常用的机器学习算法,类似跟《集体智慧编程》。这本书中文出版后,我也立马买了一本读读,全书分别介绍了分类,回归,无监督学习以及降维等基本算法,最后还讲了一下Big Data in Machine Learning,利用MRJob写了SVM算法。代码也很规范,另外作者的代码网址https://github.com/pbharrin/machinelearninginaction。 关于本书的算法笔记,我转载了水木统计群里一位群友的笔记http://blog.csdn.. 阅读全文
posted @ 2013-09-24 15:48 kobeshow 阅读(567) 评论(0) 推荐(0) 编辑
摘要: 本章主要介绍了分类算法里面的一种最基本的分类器:朴素贝叶斯算法(NB),算法性能正如英文缩写的一样,很NB,尤其在垃圾邮件检测领域,关于贝叶斯的网上资料也很多,这里推荐那篇刘未鹏写的http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/,作者深入浅出的概述了贝叶斯背后的思想跟应用领域,关于其理论方面可以参考斯坦福大学NG的machine learning cs299的讲义,关于代码实现可以参考一些开源的包或者自己动手写(之前,闲来无事写了一个基于MRjob的MapReduce版本),关于成熟开源工具包可以参考scikit,ora. 阅读全文
posted @ 2013-09-23 16:06 kobeshow 阅读(578) 评论(0) 推荐(1) 编辑
摘要: 本章主要讲了对数据的一些基本探索,常见的six numbers,方差,均值等1 > data.file heights.weights heights summary(heights)5 Min. 1st Qu. Median Mean 3rd Qu. Max. 6 54.26 63.51 66.32 66.37 69.17 79.00 上面是six numbers:最小值,第一个四分位数,中位数(注意跟均值的区别),均值,第三个四分位数,最大值中位数跟均值的区别:中位数 就是指数据排序后处于中间的那个数,而均值就是算术平均值,在R中可以直接... 阅读全文
posted @ 2013-09-22 17:00 kobeshow 阅读(601) 评论(0) 推荐(1) 编辑
摘要: 开篇:首先这本书的名字很霸气,全书内容讲的是R语言在机器学习上面的应用,一些基本的分类算法(tree,SVM,NB),回归算法,智能优化算法,维度约减等,机器学习领域已经有很多成熟的R工具箱,毕竟这个领域被统计学称霸了十多年,常用R工具箱都可以在这里面找到http://www.rdatamining.com/docs,http://www.mloss.org/software/本书第一张介绍了R以及相应包的安装,同时拿了UFO数据集进行练手,数据集以及源码网上都有的首先加载数据集(博客园的插入代码不支持R语言!!!!)1 ufo good.rows length(which(!good.r.. 阅读全文
posted @ 2013-09-18 13:49 kobeshow 阅读(790) 评论(0) 推荐(0) 编辑
摘要: 无意间在部门的svn看到以前老员工的Hive优化文档,看看了,写的挺详细的,结合hadoop In action(陆) 一书的内容在这里做个汇总1,列裁剪 在读数据的时候,只读取查询中需要用到的列,而忽略其他列。例如,对于查询:1 SELECT a,b FROM T WHERE e 对,,。所以商品表的hdfs读只会是一次。问题5:先join生成临时表,在union all还是写嵌套查询,这是个问题。比如以下例子: 1 Select * 2 From 3 ( select * 4 From t1 5 Uion all 6 select * 7 From t4... 阅读全文
posted @ 2013-09-18 10:54 kobeshow 阅读(651) 评论(0) 推荐(0) 编辑
摘要: 以前在学校用的百度空间忘记了户名跟密码了,里面的200多篇文章都丢了。。。。现在开始在博客园安家了,记录技术生活点滴,开工~首先写machine learning for hackers读书笔记,本书是R语言在machine learning 方向的 action,尽管之前看过这本书的电子版本,但还是想系统的记录学习过程,GO~ 阅读全文
posted @ 2013-09-17 12:29 kobeshow 阅读(160) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9