摘要: 在启动的时候,每台HRegion服务器都会检查自己的Hlog文件(Hlog是磁盘上的记录文件,它记录着所有的更新操作),看看最近一次执行flushcache之后有没有新的更新写入操作。如果没有更新,就表示所有的数据都已经更新到文件中了;如果有更新,服务器就会先把这些更新写入高速缓存,然后调用fuls 阅读全文
posted @ 2017-08-16 17:54 袁华超 阅读(95) 评论(0) 推荐(0) 编辑
摘要: group By操作 map端部分聚合。并不是所有的聚合操作都需要在reduce部分进行,很多聚合操作都可以先在map端进行部分聚合,然后在reduce端得出最终结果。 hive.map.aggr=true,用于设定是否在map端进行聚合,默认为True。hive.groupby.mapaggr.c 阅读全文
posted @ 2017-08-16 09:02 袁华超 阅读(135) 评论(0) 推荐(0) 编辑