随笔分类 - hadoop/spark/storm
摘要:1、基本概念 2、Mapper代码 3、Reducer代码 4、序列化Bean代码 5、TestRunner代码 参考资料: http://www.cnblogs.com/robert-blue/p/4157768.html http://www.cnblogs.com/qlee/archive/2
阅读全文
摘要:1、基本概念 2、YARN、MR交互流程 3、源码解读
阅读全文
摘要:1、基本概念 2、Mapper 3、Reducer 4、JobRunner 5、JAR 提交作业 到YARN
阅读全文
摘要:StringTokenizer是一个用来分隔String的应用类,相当于VB的split函数。1.构造函数public StringTokenizer(String str)public StringTokenizer(String str, String delim)public StringTo
阅读全文
摘要:1、open流程 2、get DFS流程: 3、获取block信息流程
阅读全文
摘要:1、线程模型 2、参考资料: 源码级强力分析hadoop的RPC机制:http://weixiaolu.iteye.com/blog/1504898Hadoop RPC框架:http://blog.csdn.net/thomas0yang/article/details/41211259 Hadoo
阅读全文
摘要:0、内容 1、hadoop中的RPC框架封装思想 2、Hadoop RPC 实现方法 3、服务调用动态转发和负载均衡的实现思考 4、协议代码: 5、服务端代码: 6、客户端代码:
阅读全文
摘要:1、原理、步骤 2、HDFS客户端示例代码
阅读全文
摘要:1、HDFS原理 2、元数据管理原理
阅读全文
摘要:Hadoop伪分布式环境搭建: 自动部署脚本: 运行脚本: ssh免密码登录过程:
阅读全文
摘要:随着数据中心的增长和管理人员的缩减,对计算资源使用有效监视工具的需求变得比以往更加迫切。术语监视 在应用到数据中心时可能会让人混淆,因为它的含义会根据具体的说话者和听众而有所不同。例如: 在集群中运行应用程序的人员会思考:“我的作业什么时候运行?它什么时候会完成?以及与上一次相比,它是怎样执行的?”
阅读全文
摘要:如何向小白介绍何谓机器学习和数据挖掘?买回芒果他就懂了 JasonZheng • 2013-01-07 22:18 买芒果 嘴馋的你想吃芒果了,于是你走到水果摊,挑了几个让老板过过秤,然后你再根据芒果的斤两付钱走人。 显然,买芒果你当然是挑着最甜、最熟的来买(因为你是根据重量而不是质量来掏钱的)。怎
阅读全文
摘要:服务介绍 随着实时分析技术的发展及成本的降低,用户已经不仅仅满足于离线分析。目前我们服务的用户包括微博,微盘,云存储,弹性计算平台等十多个部门的多个产品的日志搜索分析业务,每天处理约32亿条(2TB)日志。 技术架构 简单介绍一下服务的技术架构: 这是一个再常见不过的架构了: (1)Kafka:接收
阅读全文
摘要:快速了解Scala技术栈 我无可救药地成为了Scala的超级粉丝。在我使用Scala开发项目以及编写框架后,它就仿佛凝聚成为一个巨大的黑洞,吸引力使我不得不飞向它,以至于开始背离Java。固然Java 8为Java阵营增添了一丝亮色,却是望眼欲穿,千呼万唤始出来。而Scala程序员,却早就在享受la
阅读全文
摘要:参考资料: 与 Hadoop 对比,如何看待 Spark 技术?:https://www.zhihu.com/question/26568496 还要不要做大数据:http://sinofool.cn/blog/archives/198 别老扯什么Hadoop了,你的数据根本不够大:http://g
阅读全文
摘要:Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。(注意这里是:“可能性”,而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,
阅读全文

浙公网安备 33010602011771号