随笔分类 -  Hive

摘要:内部表和外部表最主要的一个差别就是删除表或者删除分区时,底层的文件是否自动删除,内部表会自动删除,外部表不会自动删除,所以基础数据表一定要用外部表,即使误删表或分区之后,还可以很容易的恢复回来。 虽然外部表可以恢复,但是逐个分区恢复也很累,如果你的分区很多,或者有多级分区的时候 alter tabl 阅读全文
posted @ 2018-12-12 17:19 匠人先生 阅读(896) 评论(0) 推荐(1)
摘要:常用格式 textfile 需要定义分隔符,占用空间大,读写效率最低,非常容易发生冲突(分隔符)的一种格式,基本上只有需要导入数据的时候才会使用,比如导入csv文件; ROW FORMAT DELIMITED FIELDS TERMINATED BY '\u0001' LINES TERMINATE 阅读全文
posted @ 2018-12-12 17:18 匠人先生 阅读(2563) 评论(0) 推荐(0)
摘要:问题重现 select id from big_table where name = 'sdlkfjalksdjfla' limit 100; 首先看执行计划: hive> explain select * from big_table where name = 'sdlkfjalksdjfla' 阅读全文
posted @ 2018-12-12 16:41 匠人先生 阅读(2778) 评论(0) 推荐(0)
摘要:hive执行sql提交到yarn上的任务名字是被处理过的,通常只能显示sql的前边一段和最后几个字符,这样就会带来一些问题: 1)相近时间提交了几个相近的sql,相互之间无法区分; 2)一个任务有问题,想看下这个任务具体执行的是什么?是谁的任务? 通过以下方法可以查看: 1)如果任务正在runnin 阅读全文
posted @ 2018-12-07 16:40 匠人先生 阅读(6215) 评论(0) 推荐(1)
摘要:最近用yarn cluster方式提交spark任务时,有时会报错,报错几率是40%,报错如下: 18/03/15 21:50:36 116 ERROR ApplicationMaster91: User class threw exception: org.apache.spark.sql.Ana 阅读全文
posted @ 2018-11-02 15:01 匠人先生 阅读(2676) 评论(0) 推荐(0)