随笔分类 -  大数据

摘要:本机中avro为输出时端口号为目标主机的端口号,向hostname参数的主机的端口号发送数据 本机中avro为输入时端口号为自己的端口号,从本机端口号读取数据 阅读全文
posted @ 2019-08-10 16:23 啊啊啊啊鹏 阅读(308) 评论(0) 推荐(0)
摘要:1.from 2.join on 或 lateral view explode(需炸裂的列) tbl as 炸裂后的列名 3.where 4.group by (开始使用select中的别名,从group 开始往后都可用) 5.聚合函数 如Sum() avg() count(1)等 6.having 阅读全文
posted @ 2019-08-08 16:48 啊啊啊啊鹏 阅读(3691) 评论(0) 推荐(1)
摘要:对hdfs 上原始数据创建 外部表,然后通过查询插入的方式创建一张内部表,这样相当于复制一份表数据,而原始的数据并没有改变,不会干涉同事使用原始数据。 阅读全文
posted @ 2019-08-07 16:20 啊啊啊啊鹏 阅读(655) 评论(0) 推荐(0)
摘要:一、sql执行顺序 (1)from (3) join (2) on (4) where (5)group by(开始使用select中的别名,后面的语句中都可以使用)(6) avg,sum.... (7)having (8) select (9) distinct (10) order by 从这个 阅读全文
posted @ 2019-08-04 18:27 啊啊啊啊鹏 阅读(504) 评论(0) 推荐(0)
摘要:fs.defaultFS The name of the default file system. A URI whose scheme and authority determine the FileSystem implementation. The uri's scheme determine 阅读全文
posted @ 2019-02-21 14:09 啊啊啊啊鹏 阅读(3932) 评论(0) 推荐(0)
摘要:往hive分区表中插入数据时,如果需要创建的分区很多,比如以表中某个字段进行分区存储,则需要复制粘贴修改很多sql去执行,效率低。因为hive是批处理系统,所以hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。 1.创建一个单一字段分区表 1 hive> 2 c 阅读全文
posted @ 2019-02-18 16:46 啊啊啊啊鹏 阅读(28646) 评论(0) 推荐(5)
摘要:zookeeper的选举机制 1)半数机制:集群中半数以上机器存活,集群可用。所以zookeeper适合装在奇数台机器上。 2)Zookeeper虽然在配置文件中并没有指定master和slave。但是,zookeeper工作时,是有一个节点为leader,其他则为follower,Leader是通 阅读全文
posted @ 2019-01-25 20:22 啊啊啊啊鹏 阅读(235) 评论(0) 推荐(0)

1 2