随笔分类 -  hadoop/spark/storm

摘要: 阅读全文
posted @ 2016-09-13 18:40 junneyang 阅读(1712) 评论(0) 推荐(0)
摘要:客户端需要指定ns名称,节点配置,ConfiguredFailoverProxyProvider等信息。 代码示例: 阅读全文
posted @ 2016-09-13 18:32 junneyang 阅读(4717) 评论(0) 推荐(0)
摘要:Hadoop机架感知 1.背景 Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为本地一份, 同机架内其它某一节点上一份,不同机架的某一节点上一份。 这样如果本地数据损坏,节点可以从同一机架内的相邻节点拿到数据,速度肯定比从跨机架节点上拿数据要快; 同时,如果整 阅读全文
posted @ 2016-09-13 18:19 junneyang 阅读(2897) 评论(0) 推荐(0)
摘要:HDFS冗余数据块的自动删除 在日常维护hadoop集群的过程中发现这样一种情况: 某个节点由于网络故障或者DataNode进程死亡,被NameNode判定为死亡, HDFS马上自动开始数据块的容错拷贝; 当该节点重新添加到集群中时,由于该节点上的数据其实并没有损坏, 所以造成了HDFS上某些blo 阅读全文
posted @ 2016-09-13 17:47 junneyang 阅读(1511) 评论(0) 推荐(0)
摘要:hadoop datanode节点超时时间设置 datanode进程死亡或者网络故障造成datanode无法与namenode通信,namenode不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout,则超时时 阅读全文
posted @ 2016-09-13 17:42 junneyang 阅读(1043) 评论(0) 推荐(0)
摘要:在Mahout实现的机器学习算法见下表 算法类 算法名 中文名 分类算法 Logistic Regression 逻辑回归 Bayesian 贝叶斯 SVM 支持向量机 Perceptron 感知器算法 Neural Network 神经网络 Random Forests 随机森林 Restrict 阅读全文
posted @ 2016-09-09 16:39 junneyang 阅读(385) 评论(0) 推荐(0)
摘要:编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等。而且原文也会不定期的更新,望看到文章的朋友能够学到更多。 《Brief History of Machine Learning》 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Ad 阅读全文
posted @ 2016-09-09 14:48 junneyang 阅读(348) 评论(0) 推荐(0)
摘要:1、概念、架构 2、配置文件示例、部署步骤 阅读全文
posted @ 2016-09-09 11:43 junneyang 阅读(2230) 评论(0) 推荐(0)
摘要:Zookeeper部署笔记 阅读全文
posted @ 2016-09-09 10:17 junneyang 阅读(287) 评论(0) 推荐(0)
摘要:Hadoop HA 机制架构、要点、原理: 需要的机器(规划): 至少三台机器 阅读全文
posted @ 2016-09-09 10:15 junneyang 阅读(740) 评论(0) 推荐(0)
摘要:ZK实际应用场景、实例: 阅读全文
posted @ 2016-09-09 10:10 junneyang 阅读(179) 评论(0) 推荐(0)
摘要:Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。本文将从使用者角度详细介绍 Zookeeper 的安装和配置文件中各个配置项的意义,以及分析 Z 阅读全文
posted @ 2016-09-08 16:34 junneyang 阅读(281) 评论(0) 推荐(0)
摘要:Apache Oozie 是用于 Hadoop 平台的一种工作流调度引擎。该框架(如图 1 所示)使用 Oozie 协调器促进了相互依赖的重复工作之间的协调,您可以使用预定的时间或数据可用性来触发 Apache Oozie。您可以使用 Oozie bundle 系统提交或维护一组协调应用程序。作为本 阅读全文
posted @ 2016-09-08 10:50 junneyang 阅读(728) 评论(0) 推荐(0)
摘要:1、概念、方案 2、代码示例 InverseIndexOne InverseIndexTwo 参考资料: How to check if processing the last item in an Iterator?:http://stackoverflow.com/questions/96339 阅读全文
posted @ 2016-09-08 10:28 junneyang 阅读(949) 评论(0) 推荐(0)
摘要:1、果断先上结论 1.如果想增加map个数,则设置mapred.map.tasks 为一个较大的值。 2.如果想减小map个数,则设置mapred.min.split.size 为一个较大的值。 3.如果输入中有很多小文件,依然想减少map个数,则需要将小文件merger为大文件,然后使用准则2。 阅读全文
posted @ 2016-09-07 18:17 junneyang 阅读(11701) 评论(1) 推荐(3)
摘要:1、概念 2、Split机制 3、MR Shuffle过程 4、MR中REDUCE与MAP写作过程 5、MR全貌 阅读全文
posted @ 2016-09-07 18:03 junneyang 阅读(4539) 评论(0) 推荐(1)
摘要:1、概念 2、Hadoop默认分组机制--所有的Key分到一个组,一个Reduce任务处理 3、代码示例 FlowBean FlowGroup FlowGroupPartition 阅读全文
posted @ 2016-09-07 14:01 junneyang 阅读(2231) 评论(0) 推荐(0)
摘要:1、概念 2、代码示例 FlowSort FlowBean LineException 阅读全文
posted @ 2016-09-07 11:24 junneyang 阅读(1210) 评论(0) 推荐(0)
摘要:1、代码示例 2、参考资料: Java异常处理:http://fluagen.blog.51cto.com/146595/304197 Hadoop获取出错行:http://www.aboutyun.com/thread-13962-1-1.html http://blog.csdn.net/wuz 阅读全文
posted @ 2016-09-07 11:21 junneyang 阅读(657) 评论(0) 推荐(0)
摘要:1、概念 2、参考资料 提高hadoop的mapreduce job效率笔记之二(尽量的用Combiner) :http://sishuo(k).com/forum/blogPost/list/5829.html Hadoop学习笔记—8.Combiner与自定义Combiner:http://ww 阅读全文
posted @ 2016-09-07 11:17 junneyang 阅读(876) 评论(0) 推荐(0)