随笔分类 - hadoop/spark/storm
摘要:客户端需要指定ns名称,节点配置,ConfiguredFailoverProxyProvider等信息。 代码示例:
阅读全文
摘要:Hadoop机架感知 1.背景 Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为本地一份, 同机架内其它某一节点上一份,不同机架的某一节点上一份。 这样如果本地数据损坏,节点可以从同一机架内的相邻节点拿到数据,速度肯定比从跨机架节点上拿数据要快; 同时,如果整
阅读全文
摘要:HDFS冗余数据块的自动删除 在日常维护hadoop集群的过程中发现这样一种情况: 某个节点由于网络故障或者DataNode进程死亡,被NameNode判定为死亡, HDFS马上自动开始数据块的容错拷贝; 当该节点重新添加到集群中时,由于该节点上的数据其实并没有损坏, 所以造成了HDFS上某些blo
阅读全文
摘要:hadoop datanode节点超时时间设置 datanode进程死亡或者网络故障造成datanode无法与namenode通信,namenode不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout,则超时时
阅读全文
摘要:在Mahout实现的机器学习算法见下表 算法类 算法名 中文名 分类算法 Logistic Regression 逻辑回归 Bayesian 贝叶斯 SVM 支持向量机 Perceptron 感知器算法 Neural Network 神经网络 Random Forests 随机森林 Restrict
阅读全文
摘要:编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等。而且原文也会不定期的更新,望看到文章的朋友能够学到更多。 《Brief History of Machine Learning》 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Ad
阅读全文
摘要:1、概念、架构 2、配置文件示例、部署步骤
阅读全文
摘要:Zookeeper部署笔记
阅读全文
摘要:Hadoop HA 机制架构、要点、原理: 需要的机器(规划): 至少三台机器
阅读全文
摘要:ZK实际应用场景、实例:
阅读全文
摘要:Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。本文将从使用者角度详细介绍 Zookeeper 的安装和配置文件中各个配置项的意义,以及分析 Z
阅读全文
摘要:Apache Oozie 是用于 Hadoop 平台的一种工作流调度引擎。该框架(如图 1 所示)使用 Oozie 协调器促进了相互依赖的重复工作之间的协调,您可以使用预定的时间或数据可用性来触发 Apache Oozie。您可以使用 Oozie bundle 系统提交或维护一组协调应用程序。作为本
阅读全文
摘要:1、概念、方案 2、代码示例 InverseIndexOne InverseIndexTwo 参考资料: How to check if processing the last item in an Iterator?:http://stackoverflow.com/questions/96339
阅读全文
摘要:1、果断先上结论 1.如果想增加map个数,则设置mapred.map.tasks 为一个较大的值。 2.如果想减小map个数,则设置mapred.min.split.size 为一个较大的值。 3.如果输入中有很多小文件,依然想减少map个数,则需要将小文件merger为大文件,然后使用准则2。
阅读全文
摘要:1、概念 2、Split机制 3、MR Shuffle过程 4、MR中REDUCE与MAP写作过程 5、MR全貌
阅读全文
摘要:1、概念 2、Hadoop默认分组机制--所有的Key分到一个组,一个Reduce任务处理 3、代码示例 FlowBean FlowGroup FlowGroupPartition
阅读全文
摘要:1、概念 2、代码示例 FlowSort FlowBean LineException
阅读全文
摘要:1、代码示例 2、参考资料: Java异常处理:http://fluagen.blog.51cto.com/146595/304197 Hadoop获取出错行:http://www.aboutyun.com/thread-13962-1-1.html http://blog.csdn.net/wuz
阅读全文
摘要:1、概念 2、参考资料 提高hadoop的mapreduce job效率笔记之二(尽量的用Combiner) :http://sishuo(k).com/forum/blogPost/list/5829.html Hadoop学习笔记—8.Combiner与自定义Combiner:http://ww
阅读全文

浙公网安备 33010602011771号