07 2016 档案

摘要:理解一个新的技术,无疑就是使用它了,下面我们就通过一个可执行的demo来展现REST的原理和使用。 一 Demo 1.1 服务器端 1 主程序MainServer.java负责启动一个REST服务组件,并设置端口号,创建主路径/threshold及子路径(见步骤2),最后start启动即可。 2Th 阅读全文
posted @ 2016-07-19 17:24 rongyux 阅读(1694) 评论(0) 推荐(0)
摘要:zeppelin是spark的web版本notebook编辑器,相当于ipython的notebook编辑器。 一Zeppelin安装 (前提是spark已经安装好) 1 下载https://zeppelin.apache.org/download.html(下载编译好的bin版) 2 解压运行:s 阅读全文
posted @ 2016-07-19 14:40 rongyux 阅读(5015) 评论(0) 推荐(0)
摘要:MapR的分布式集群安装过程还是很艰难的,远远没有计划中的简单。本人总结安装配置,由于集群有很多机器,手动每台配置是很累的,编写了一个自动化配置脚本,下面以脚本为主线叙述(脚本并不完善,后续继续完善中)。 编写脚本需要shell基础的,还要掌握awk和sed等统计手段为佳。操作系统是CentOS7。 阅读全文
posted @ 2016-07-11 17:26 rongyux 阅读(2167) 评论(0) 推荐(0)
摘要:一 引言 本程序是一个完整的机器学习过程,先编写基于python的爬虫脚本,爬取目标论坛网站的评论到本地存储,然后使用贝叶斯分类模型对评论进行分类,预测新 的评论是否为垃圾评论。如果遇到大数据量的问题,可以把贝叶斯算法写成mapreduce模式,map负责把数据集划分成键值对格式,类序号为key,属 阅读全文
posted @ 2016-07-05 21:47 rongyux 阅读(2667) 评论(0) 推荐(3)
摘要:今天做了一个hadoop分享,总结下来,包括mapreduce,及shuffle深度讲解,还有YARN框架的详细说明等。 一 引言 1、海量日志数据,提取出某日访问百度次数最多的那个IP 算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可 阅读全文
posted @ 2016-07-05 20:38 rongyux 阅读(1671) 评论(4) 推荐(0)
摘要:k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k。k均值是基于相似度的聚类,为没有标签的一簇实例分为一类。 一 经典的k-均值聚类 思路: 1 随机创建k个质心(k必须指定,二维的很容易确定,可视化数据分布,直观确定即可); 2 遍历数据集的每个实例,计算其到每个质心的相似度,这里也就是欧 阅读全文
posted @ 2016-07-04 21:55 rongyux 阅读(10247) 评论(0) 推荐(0)