2016 年 7月随笔档案 - rongyux

REST实战：SeverClient项目+RESTful理论

摘要：理解一个新的技术，无疑就是使用它了，下面我们就通过一个可执行的demo来展现REST的原理和使用。一 Demo 1.1 服务器端 1 主程序MainServer.java负责启动一个REST服务组件，并设置端口号，创建主路径/threshold及子路径（见步骤2），最后start启动即可。 2Th 阅读全文

posted @ 2016-07-19 17:24 rongyux 阅读(1694) 评论(0) 推荐(0)

Zeppelin的安装和SparkSQL使用总结

摘要：zeppelin是spark的web版本notebook编辑器，相当于ipython的notebook编辑器。一Zeppelin安装 (前提是spark已经安装好) 1 下载https://zeppelin.apache.org/download.html（下载编译好的bin版） 2 解压运行：s 阅读全文

posted @ 2016-07-19 14:40 rongyux 阅读(5015) 评论(0) 推荐(0)

Hadoop(MapR)分布式安装及自动化脚本配置

摘要：MapR的分布式集群安装过程还是很艰难的，远远没有计划中的简单。本人总结安装配置，由于集群有很多机器，手动每台配置是很累的，编写了一个自动化配置脚本，下面以脚本为主线叙述（脚本并不完善，后续继续完善中）。编写脚本需要shell基础的，还要掌握awk和sed等统计手段为佳。操作系统是CentOS7。阅读全文

posted @ 2016-07-11 17:26 rongyux 阅读(2167) 评论(0) 推荐(0)

机器学习实战0：评论爬虫+贝叶斯模型标注恶意评论+分布式形式

摘要：一引言本程序是一个完整的机器学习过程，先编写基于python的爬虫脚本，爬取目标论坛网站的评论到本地存储，然后使用贝叶斯分类模型对评论进行分类，预测新的评论是否为垃圾评论。如果遇到大数据量的问题，可以把贝叶斯算法写成mapreduce模式，map负责把数据集划分成键值对格式，类序号为key，属阅读全文

posted @ 2016-07-05 21:47 rongyux 阅读(2667) 评论(0) 推荐(3)

Hadoop和YARN :map+shuffle+reduce走读

摘要：今天做了一个hadoop分享，总结下来，包括mapreduce，及shuffle深度讲解，还有YARN框架的详细说明等。一引言 1、海量日志数据，提取出某日访问百度次数最多的那个IP 算法思想：分而治之+Hash 1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理； 2.可阅读全文

posted @ 2016-07-05 20:38 rongyux 阅读(1671) 评论(4) 推荐(0)

机器学习实战5：k-means聚类：二分k均值聚类+地理位置聚簇实例

摘要：k-均值聚类是非监督学习的一种，输入必须指定聚簇中心个数k。k均值是基于相似度的聚类，为没有标签的一簇实例分为一类。一经典的k-均值聚类思路： 1 随机创建k个质心（k必须指定，二维的很容易确定，可视化数据分布，直观确定即可）； 2 遍历数据集的每个实例，计算其到每个质心的相似度，这里也就是欧阅读全文

posted @ 2016-07-04 21:55 rongyux 阅读(10247) 评论(0) 推荐(0)

rongyux

07 2016 档案

公告