上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 45 下一页
摘要: 这里要查询的是去过的国家数(country)的次数ct大于2的人的名字 select name ,count(country) ct from sz03 where ct >2 group by name; ERROR 1054 (42S22): Unknown column 'ct' in 'wh 阅读全文
posted @ 2017-05-24 15:08 牵牛花 阅读(2024) 评论(0) 推荐(0)
摘要: hive中order by,sort by, distribute by, cluster by作用以及用法 阅读全文
posted @ 2017-05-24 14:46 牵牛花 阅读(168) 评论(0) 推荐(0)
摘要: 结果图 按照理解来说,应该只有一个1啊,难道这个sql有问题,自己没有理解对group by 的用法? 以上是hive的 下面的是mysql的 感觉这条sql写的是有问题啊 阅读全文
posted @ 2017-05-24 10:02 牵牛花 阅读(246) 评论(0) 推荐(0)
摘要: 解读:计数器Counter http://www.cnblogs.com/codeOfLife/p/5521356.html 这个讲的更详细 阅读全文
posted @ 2017-05-23 17:29 牵牛花 阅读(409) 评论(0) 推荐(0)
摘要: 之前环境一直好好的,由于玩坏了一个mini3只能复制一个了,但是复制之后就出现这个问题了 解决办法是 设置xshell向每一个窗口发消息http://mofansheng.blog.51cto.com/8792265/1683336 设置时间 date -s "2012-11-03 10:25:25 阅读全文
posted @ 2017-05-23 16:31 牵牛花 阅读(932) 评论(0) 推荐(0)
摘要: http://blog.sina.com.cn/s/blog_6f83c7470101b7d3.html http://blog.csdn.net/slq1023/article/details/49826081 当客户端提交更新数据请求时,是先写入edits,然后再写入内存的 阅读全文
posted @ 2017-05-23 10:08 牵牛花 阅读(221) 评论(0) 推荐(0)
摘要: 默认情况下,TextInputFormat对任务的切片机制是按照文件规划切片的,不管文件大小,都会有一个单独的切片,都会交给一个maptask,此时如果有很多小文件就会产生大量的maptask,导致处理效率低下 优化1 最好的办法,在数据处理系统的最前端(预处理/采集)就将小文件合并成大大文件再上传 阅读全文
posted @ 2017-05-23 08:59 牵牛花 阅读(439) 评论(0) 推荐(0)
摘要: MapReduce Input Split(输入分/切片)详解 public static long getMaxSplitSize(JobContext context) { return context.getConfiguration().getLong(SPLIT_MAXSIZE, Long 阅读全文
posted @ 2017-05-22 17:27 牵牛花 阅读(382) 评论(0) 推荐(0)
摘要: job.setPartitionerClass(myPartitioner.class);//设置了5个 job.setNumReduceTasks(2); 1.当分区数等于rducer数量时,正常运行, 2.当分区数等于5时,reduce为1时,正常运行,有一个结果文件 当reduce数量=2时报 阅读全文
posted @ 2017-05-22 14:53 牵牛花 阅读(214) 评论(0) 推荐(0)
摘要: http://qianshangding.iteye.com/blog/2259421 Hadoop之MapReduce的两种任务模式 阅读全文
posted @ 2017-05-21 10:23 牵牛花 阅读(235) 评论(0) 推荐(0)
上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 45 下一页