随笔分类 -  hadoop/spark/storm

摘要:1、基本概念 2、Mapper代码 3、Reducer代码 4、序列化Bean代码 5、TestRunner代码 参考资料: http://www.cnblogs.com/robert-blue/p/4157768.html http://www.cnblogs.com/qlee/archive/2 阅读全文
posted @ 2016-09-06 16:18 junneyang 阅读(981) 评论(0) 推荐(0)
摘要:1、基本概念 2、YARN、MR交互流程 3、源码解读 阅读全文
posted @ 2016-09-06 11:32 junneyang 阅读(1419) 评论(0) 推荐(0)
摘要:1、基本概念 2、Mapper 3、Reducer 4、JobRunner 5、JAR 提交作业 到YARN 阅读全文
posted @ 2016-09-06 09:22 junneyang 阅读(766) 评论(0) 推荐(0)
摘要:StringTokenizer是一个用来分隔String的应用类,相当于VB的split函数。1.构造函数public StringTokenizer(String str)public StringTokenizer(String str, String delim)public StringTo 阅读全文
posted @ 2016-09-05 17:13 junneyang 阅读(1487) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2016-09-05 11:38 junneyang 阅读(161) 评论(0) 推荐(0)
摘要:1、open流程 2、get DFS流程: 3、获取block信息流程 阅读全文
posted @ 2016-09-05 11:30 junneyang 阅读(293) 评论(0) 推荐(0)
摘要:1、线程模型 2、参考资料: 源码级强力分析hadoop的RPC机制:http://weixiaolu.iteye.com/blog/1504898Hadoop RPC框架:http://blog.csdn.net/thomas0yang/article/details/41211259 Hadoo 阅读全文
posted @ 2016-09-05 09:49 junneyang 阅读(290) 评论(0) 推荐(0)
摘要:0、内容 1、hadoop中的RPC框架封装思想 2、Hadoop RPC 实现方法 3、服务调用动态转发和负载均衡的实现思考 4、协议代码: 5、服务端代码: 6、客户端代码: 阅读全文
posted @ 2016-09-05 09:24 junneyang 阅读(1399) 评论(0) 推荐(0)
摘要:1、原理、步骤 2、HDFS客户端示例代码 阅读全文
posted @ 2016-09-02 17:58 junneyang 阅读(1928) 评论(0) 推荐(0)
摘要:1、HDFS原理 2、元数据管理原理 阅读全文
posted @ 2016-09-02 12:04 junneyang 阅读(1018) 评论(0) 推荐(0)
摘要:Hadoop伪分布式环境搭建: 自动部署脚本: 运行脚本: ssh免密码登录过程: 阅读全文
posted @ 2016-09-01 11:18 junneyang 阅读(799) 评论(0) 推荐(0)
摘要:随着数据中心的增长和管理人员的缩减,对计算资源使用有效监视工具的需求变得比以往更加迫切。术语监视 在应用到数据中心时可能会让人混淆,因为它的含义会根据具体的说话者和听众而有所不同。例如: 在集群中运行应用程序的人员会思考:“我的作业什么时候运行?它什么时候会完成?以及与上一次相比,它是怎样执行的?” 阅读全文
posted @ 2016-08-26 16:18 junneyang 阅读(480) 评论(0) 推荐(0)
摘要:如何向小白介绍何谓机器学习和数据挖掘?买回芒果他就懂了 JasonZheng • 2013-01-07 22:18 买芒果 嘴馋的你想吃芒果了,于是你走到水果摊,挑了几个让老板过过秤,然后你再根据芒果的斤两付钱走人。 显然,买芒果你当然是挑着最甜、最熟的来买(因为你是根据重量而不是质量来掏钱的)。怎 阅读全文
posted @ 2016-07-14 17:40 junneyang 阅读(248) 评论(0) 推荐(0)
摘要:服务介绍 随着实时分析技术的发展及成本的降低,用户已经不仅仅满足于离线分析。目前我们服务的用户包括微博,微盘,云存储,弹性计算平台等十多个部门的多个产品的日志搜索分析业务,每天处理约32亿条(2TB)日志。 技术架构 简单介绍一下服务的技术架构: 这是一个再常见不过的架构了: (1)Kafka:接收 阅读全文
posted @ 2016-07-01 16:19 junneyang 阅读(9750) 评论(0) 推荐(0)
摘要:快速了解Scala技术栈 我无可救药地成为了Scala的超级粉丝。在我使用Scala开发项目以及编写框架后,它就仿佛凝聚成为一个巨大的黑洞,吸引力使我不得不飞向它,以至于开始背离Java。固然Java 8为Java阵营增添了一丝亮色,却是望眼欲穿,千呼万唤始出来。而Scala程序员,却早就在享受la 阅读全文
posted @ 2016-03-16 11:33 junneyang 阅读(811) 评论(0) 推荐(1)
摘要:参考资料: 与 Hadoop 对比,如何看待 Spark 技术?:https://www.zhihu.com/question/26568496 还要不要做大数据:http://sinofool.cn/blog/archives/198 别老扯什么Hadoop了,你的数据根本不够大:http://g 阅读全文
posted @ 2016-03-14 14:38 junneyang 阅读(364) 评论(0) 推荐(0)
摘要:Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。(注意这里是:“可能性”,而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值, 阅读全文
posted @ 2016-03-10 15:20 junneyang 阅读(9120) 评论(0) 推荐(1)