hadoop/spark/storm - 随笔分类(第4页) - junneyang

摘要：阅读全文

posted @ 2016-09-13 18:40 junneyang 阅读(1712) 评论(0) 推荐(0)

摘要：客户端需要指定ns名称，节点配置，ConfiguredFailoverProxyProvider等信息。代码示例：阅读全文

posted @ 2016-09-13 18:32 junneyang 阅读(4717) 评论(0) 推荐(0)

摘要：Hadoop机架感知 1.背景 Hadoop在设计时考虑到数据的安全与高效，数据文件默认在HDFS上存放三份，存储策略为本地一份，同机架内其它某一节点上一份，不同机架的某一节点上一份。这样如果本地数据损坏，节点可以从同一机架内的相邻节点拿到数据，速度肯定比从跨机架节点上拿数据要快；同时，如果整阅读全文

posted @ 2016-09-13 18:19 junneyang 阅读(2897) 评论(0) 推荐(0)

【Hadoop】HDFS冗余数据块的自动删除

摘要：HDFS冗余数据块的自动删除在日常维护hadoop集群的过程中发现这样一种情况：某个节点由于网络故障或者DataNode进程死亡，被NameNode判定为死亡， HDFS马上自动开始数据块的容错拷贝；当该节点重新添加到集群中时，由于该节点上的数据其实并没有损坏，所以造成了HDFS上某些blo 阅读全文

posted @ 2016-09-13 17:47 junneyang 阅读(1511) 评论(0) 推荐(0)

【Hadoop】Hadoop DataNode节点超时时间设置

摘要：hadoop datanode节点超时时间设置 datanode进程死亡或者网络故障造成datanode无法与namenode通信，namenode不会立即把该节点判定为死亡，要经过一段时间，这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout，则超时时阅读全文

posted @ 2016-09-13 17:42 junneyang 阅读(1043) 评论(0) 推荐(0)

【机器学习】Mahout算法集

摘要：在Mahout实现的机器学习算法见下表算法类算法名中文名分类算法 Logistic Regression 逻辑回归 Bayesian 贝叶斯 SVM 支持向量机 Perceptron 感知器算法 Neural Network 神经网络 Random Forests 随机森林 Restrict 阅读全文

posted @ 2016-09-09 16:39 junneyang 阅读(385) 评论(0) 推荐(0)

【人工智能】人工智能、机器学习相关

摘要：编者按：本文收集了百来篇关于机器学习和深度学习的资料，含各种文档，视频，源码等。而且原文也会不定期的更新，望看到文章的朋友能够学到更多。《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Ad 阅读全文

posted @ 2016-09-09 14:48 junneyang 阅读(348) 评论(0) 推荐(0)

【Hadoop】Hadoop HA 部署详细过程（架构、机器规划、配置文件、部署步骤）

摘要：1、概念、架构 2、配置文件示例、部署步骤阅读全文

posted @ 2016-09-09 11:43 junneyang 阅读(2230) 评论(0) 推荐(0)

【Zookeeper】Zookeeper部署笔记

摘要：Zookeeper部署笔记阅读全文

posted @ 2016-09-09 10:17 junneyang 阅读(287) 评论(0) 推荐(0)

【Hadoop】Hadoop HA机制要点

摘要：Hadoop HA 机制架构、要点、原理：需要的机器（规划）：至少三台机器阅读全文

posted @ 2016-09-09 10:15 junneyang 阅读(740) 评论(0) 推荐(0)

【Zookeeper】Zookeeper 和他的小伙伴们

摘要：ZK实际应用场景、实例：阅读全文

posted @ 2016-09-09 10:10 junneyang 阅读(179) 评论(0) 推荐(0)

【Zookeeper】分布式服务框架 Zookeeper -- 管理分布式环境中的数据

摘要：Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。本文将从使用者角度详细介绍 Zookeeper 的安装和配置文件中各个配置项的意义，以及分析 Z 阅读全文

posted @ 2016-09-08 16:34 junneyang 阅读(281) 评论(0) 推荐(0)

【Hadoop】Hadoop MR Job工作流引擎

摘要：Apache Oozie 是用于 Hadoop 平台的一种工作流调度引擎。该框架（如图 1 所示）使用 Oozie 协调器促进了相互依赖的重复工作之间的协调，您可以使用预定的时间或数据可用性来触发 Apache Oozie。您可以使用 Oozie bundle 系统提交或维护一组协调应用程序。作为本阅读全文

posted @ 2016-09-08 10:50 junneyang 阅读(728) 评论(0) 推荐(0)

【Hadoop】Hadoop MR 如何实现倒排索引算法？

摘要：1、概念、方案 2、代码示例 InverseIndexOne InverseIndexTwo 参考资料： How to check if processing the last item in an Iterator?：http://stackoverflow.com/questions/96339 阅读全文

posted @ 2016-09-08 10:28 junneyang 阅读(949) 评论(0) 推荐(0)

【Hadoop】三句话告诉你 mapreduce 中MAP进程的数量怎么控制？

摘要：1、果断先上结论 1.如果想增加map个数，则设置mapred.map.tasks 为一个较大的值。 2.如果想减小map个数，则设置mapred.min.split.size 为一个较大的值。 3.如果输入中有很多小文件，依然想减少map个数，则需要将小文件merger为大文件，然后使用准则2。阅读全文

posted @ 2016-09-07 18:17 junneyang 阅读(11701) 评论(1) 推荐(3)

【Hadoop】MR 切片机制 & MR全流程

摘要：1、概念 2、Split机制 3、MR Shuffle过程 4、MR中REDUCE与MAP写作过程 5、MR全貌阅读全文

posted @ 2016-09-07 18:03 junneyang 阅读(4539) 评论(0) 推荐(1)

【Hadoop】Hadoop MR 自定义分组 Partition机制

摘要：1、概念 2、Hadoop默认分组机制--所有的Key分到一个组，一个Reduce任务处理 3、代码示例 FlowBean FlowGroup FlowGroupPartition 阅读全文

posted @ 2016-09-07 14:01 junneyang 阅读(2231) 评论(0) 推荐(0)

【Hadoop】Hadoop MR 自定义排序

摘要：1、概念 2、代码示例 FlowSort FlowBean LineException 阅读全文

posted @ 2016-09-07 11:24 junneyang 阅读(1210) 评论(0) 推荐(0)

【Hadoop】Hadoop MR异常处理

摘要：1、代码示例 2、参考资料： Java异常处理：http://fluagen.blog.51cto.com/146595/304197 Hadoop获取出错行：http://www.aboutyun.com/thread-13962-1-1.html http://blog.csdn.net/wuz 阅读全文

posted @ 2016-09-07 11:21 junneyang 阅读(657) 评论(0) 推荐(0)

【Hadoop】Hadoop MR 性能优化 Combiner机制

摘要：1、概念 2、参考资料提高hadoop的mapreduce job效率笔记之二（尽量的用Combiner）：http://sishuo(k).com/forum/blogPost/list/5829.html Hadoop学习笔记—8.Combiner与自定义Combiner：http://ww 阅读全文

posted @ 2016-09-07 11:17 junneyang 阅读(876) 评论(0) 推荐(0)

junneyang 的博客

随笔分类 - hadoop/spark/storm

公告