摘要: azkaban学习笔记——azkaban任务调度过程的介绍、配置、job示例。阅读全文
posted @ 2017-01-14 20:56 神话小小哥 阅读(121) 评论(0) 编辑
摘要: Hive学习笔记总结系列2——HQL基础知识,各种join操作实战,以及实战-级联求和(累计报表)阅读全文
posted @ 2017-01-12 23:53 神话小小哥 阅读(84) 评论(0) 编辑
摘要: Hive学习笔记总结系列1——介绍Hive,以及其基本操作:创建、查看、插入,join操作阅读全文
posted @ 2017-01-11 23:05 神话小小哥 阅读(213) 评论(0) 编辑
摘要: Hadoop学习笔记总结系列5——获取分片信息介绍,以及为何Hadoop不适合处理小文件阅读全文
posted @ 2016-12-10 11:55 神话小小哥 阅读(23) 评论(0) 编辑
摘要: Hadoop学习笔记总结系列4——MapReduce任务调度过程,以及分区、排序、规约、分组过程的总结。阅读全文
posted @ 2016-12-07 23:46 神话小小哥 阅读(24) 评论(0) 编辑
摘要: 之前一直不清楚MapReduce阶段System.out打印到哪儿去了。现在知道了,任务分发了节点后,是无法再客户端窗口查看的。要想查看,需要打开默认关闭的JobHistoryServer进程。存放在每个节点的Hadoop安装目录/logs/userlogs/…在Web UI中也能查看。下面是转载的阅读全文
posted @ 2016-12-06 15:20 神话小小哥 阅读(6) 评论(0)  编辑
摘要: Hadoop学习笔记总结系列3——YARN框架介绍,任务详细调度分配流程。阅读全文
posted @ 2016-12-05 23:26 神话小小哥 阅读(34) 评论(0) 编辑
摘要: Hadoop学习笔记总结系列2——HDFS文件剖析文件读取和写入流程解析,源码分析;副本存放机制。阅读全文
posted @ 2016-12-04 20:55 神话小小哥 阅读(9) 评论(0) 编辑
摘要: Hadoop学习笔记总结系列1——HDFS架构以及HA阅读全文
posted @ 2016-10-02 11:13 神话小小哥 阅读(25) 评论(0) 编辑
摘要: 发布在博客:http://blog.sina.com.cn/s/blog_d38e811c0101cpis.html阅读全文
posted @ 2014-04-21 22:15 神话小小哥 阅读(47) 评论(0) 编辑
摘要: 需求:写一个程序,分析一个文本文件中各个词出现的频率,并且把频率最高的10个词打印出来。文本文件大约是30KB~300KB大小。1.思路①数据结构:Word类封装单词String和频率count,并重写equals方法,以key(String)相同则认为Word对象相同。先从dictionary.txt一行一行读取字符串,使用正则表达式过滤出单词并存放在ArrayList中,遍历list,将每个string都封装成Word放入一个WordList中;再使用Collections工具类的sort()方法添加一个按照count值的comparator进行排序。2.分析使用YourKit Java 阅读全文
posted @ 2014-03-16 20:38 神话小小哥 阅读(186) 评论(0) 编辑
摘要: 第四章习题:二叉查找树类实现懒惰删除,注意findMin()和findMax()(递归) 算是发布的第一篇学习笔记。也不敢保证写的代码一定正确,错了的地方请大家指正,谢谢。 直接开始吧。先谈谈数据结构,二叉查找树懒惰删除较于一般的二叉查找树,多了一些域:theSize(剩下的节点数)、deletedSize(懒惰删除的节点数)、BinaryNode min,max(用于保留在findMin和findMax方法中递归查询到的flag!=1的最值点);在内部节点类中,多了一个byte型的flag变量(=1则表示被删除)。在这里,也可以使用一个count域,这在有重复项时很常用,初始的co...阅读全文
posted @ 2014-03-13 12:52 神话小小哥 阅读(343) 评论(0) 编辑