会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
rongyux
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
下一页
2016年7月19日
Zeppelin的安装和SparkSQL使用总结
摘要: zeppelin是spark的web版本notebook编辑器,相当于ipython的notebook编辑器。 一Zeppelin安装 (前提是spark已经安装好) 1 下载https://zeppelin.apache.org/download.html(下载编译好的bin版) 2 解压运行:s
阅读全文
posted @ 2016-07-19 14:40 rongyux
阅读(5016)
评论(0)
推荐(0)
2016年7月11日
Hadoop(MapR)分布式安装及自动化脚本配置
摘要: MapR的分布式集群安装过程还是很艰难的,远远没有计划中的简单。本人总结安装配置,由于集群有很多机器,手动每台配置是很累的,编写了一个自动化配置脚本,下面以脚本为主线叙述(脚本并不完善,后续继续完善中)。 编写脚本需要shell基础的,还要掌握awk和sed等统计手段为佳。操作系统是CentOS7。
阅读全文
posted @ 2016-07-11 17:26 rongyux
阅读(2168)
评论(0)
推荐(0)
2016年7月5日
机器学习实战0:评论爬虫+贝叶斯模型标注恶意评论+分布式形式
摘要: 一 引言 本程序是一个完整的机器学习过程,先编写基于python的爬虫脚本,爬取目标论坛网站的评论到本地存储,然后使用贝叶斯分类模型对评论进行分类,预测新 的评论是否为垃圾评论。如果遇到大数据量的问题,可以把贝叶斯算法写成mapreduce模式,map负责把数据集划分成键值对格式,类序号为key,属
阅读全文
posted @ 2016-07-05 21:47 rongyux
阅读(2671)
评论(0)
推荐(3)
Hadoop和YARN :map+shuffle+reduce走读
摘要: 今天做了一个hadoop分享,总结下来,包括mapreduce,及shuffle深度讲解,还有YARN框架的详细说明等。 一 引言 1、海量日志数据,提取出某日访问百度次数最多的那个IP 算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可
阅读全文
posted @ 2016-07-05 20:38 rongyux
阅读(1672)
评论(4)
推荐(0)
2016年7月4日
机器学习实战5:k-means聚类:二分k均值聚类+地理位置聚簇实例
摘要: k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k。k均值是基于相似度的聚类,为没有标签的一簇实例分为一类。 一 经典的k-均值聚类 思路: 1 随机创建k个质心(k必须指定,二维的很容易确定,可视化数据分布,直观确定即可); 2 遍历数据集的每个实例,计算其到每个质心的相似度,这里也就是欧
阅读全文
posted @ 2016-07-04 21:55 rongyux
阅读(10249)
评论(0)
推荐(0)
2016年6月27日
机器学习实战4:Adaboost提升:病马实例+非均衡分类问题
摘要: Adaboost提升算法是机器学习中很好用的两个算法之一,另一个是SVM支持向量机;机器学习面试中也会经常提问到Adaboost的一些原理;另外本文还介绍了一下非平衡分类问题的解决方案,这个问题在面试中也经常被提到,比如信用卡数据集中,失信的是少数,5:10000的情况下怎么准确分类? 一 引言 1
阅读全文
posted @ 2016-06-27 22:56 rongyux
阅读(3982)
评论(4)
推荐(4)
2016年6月25日
机器学习实战3:逻辑logistic回归+在线学习+病马实例
摘要: 本文介绍logistic回归,和改进算法随机logistic回归,及一个病马是否可以治愈的案例。例子中涉及了数据清洗工作,缺失值的处理。 一 引言 1 sigmoid函数,这个非线性函数十分重要,f(z) = 1 / (1 + e^(-z) ), 画图如下: 这个函数可以很好的把数轴上的值映射到0,
阅读全文
posted @ 2016-06-25 21:35 rongyux
阅读(4493)
评论(1)
推荐(4)
2016年6月24日
机器学习实战2:关联规则:议会投票+毒蘑菇
摘要: 本人看过的关联规则博文,很少有清晰的把关联规则的算法说很明白的,希望读者读完本文可以有新的收获。本文是在默认读者有相关机器学习算法基础的,总结和提升对关联规则代码实现的理解,并介绍相关案例。语言:python 一 引言 关联规则起初是在购物篮分析中发现的,沃尔玛超市在美国某地区啤酒和尿布放在一起卖,
阅读全文
posted @ 2016-06-24 21:45 rongyux
阅读(3516)
评论(1)
推荐(3)
2016年6月20日
机器学习实战1:朴素贝叶斯模型:文本分类+垃圾邮件分类
摘要: 学习了那么多机器学习模型,一切都是为了实践,动手自己写写这些模型的实现对自己很有帮助的,坚持,共勉。本文主要致力于总结贝叶斯实战中程序代码的实现(python)及朴素贝叶斯模型原理的总结。python的numpy包简化了很多计算,另外本人推荐使用pandas做数据统计。 一 引言 让你猜测一个身高2
阅读全文
posted @ 2016-06-20 22:19 rongyux
阅读(25224)
评论(6)
推荐(3)
2016年6月17日
Hadoop实战1:MapR在ubuntu集群中的安装
摘要: 由于机器学习算法在处理大数据处理的时候在所难免的会效率降低,公司需要搭建hadoop集群,最后采用了商业版的Hadoop2(MapR)。 官网: http://doc.mapr.com/display/MapR/Installing+MapR+Software 一 前期有一些集群的准备工作: 请参考
阅读全文
posted @ 2016-06-17 15:01 rongyux
阅读(765)
评论(0)
推荐(1)
上一页
1
2
3
4
5
6
7
8
下一页
公告