摘要: 需求: 有如下访客访问次数统计表 t_access_times 访客 月份 访问次数 A 2015-01 5 A 2015-01 15 B 2015-01 5 A 2015-01 8 B 2015-01 25 A 2015-01 5 A 2015-02 4 A 2015-02 6 B 2015-02 阅读全文
posted @ 2017-04-29 20:33 DarrenChan陈驰 阅读(2187) 评论(1) 推荐(0)
摘要: 1. 保存select查询结果的几种方式: 1、将查询结果保存到一张新的hive表中 2、将查询结果保存到一张已经存在的hive表中(用load的时候,可以是into或者overwrite into,这里是into或者overwrite) 3、将查询结果保存到指定的文件目录(可以是本地,也可以是hd 阅读全文
posted @ 2017-04-29 20:29 DarrenChan陈驰 阅读(3990) 评论(0) 推荐(0)
摘要: 1. 文件的打开与关闭 <1>打开文件 在python,使用open函数,可以打开一个已经存在的文件,或者创建一个新文件 open(文件名,访问模式) 示例如下: 说明: <2>关闭文件 close( ) 示例如下: 2. 文件的读写 <1>写数据(write) 使用write()可以完成向文件写入 阅读全文
posted @ 2017-04-29 14:55 DarrenChan陈驰 阅读(548) 评论(0) 推荐(0)
摘要: 对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。 把表(或者分区)组织成桶(Bucket)有两个理由: (1)获得更高的查询处理 阅读全文
posted @ 2017-04-29 12:52 DarrenChan陈驰 阅读(2858) 评论(0) 推荐(0)