07 2015 档案

摘要:在使用spark sql创建表的时候提示如下错误: missing EOF at 'from' near ')' 可以看下你的建表语句中是不是create external table .... ,把external删除就好了,spark sql 不支持external 关键字 阅读全文
posted @ 2015-07-30 16:47 高兴的博客 阅读(1434) 评论(0) 推荐(0)
摘要:使用hive和spark对接的时候,当两个表做JOIN的时候,如果表的数据量很大一定要做set hive.auto.convert.join=false 阅读全文
posted @ 2015-07-30 16:45 高兴的博客 阅读(232) 评论(0) 推荐(0)
摘要:1: fileChannel 没有bufferedreader快, bufferedreader 可设置缓冲大小和编码 2: bufferedreader 的readline 遇到回车也换行 阅读全文
posted @ 2015-07-15 18:23 高兴的博客 阅读(167) 评论(0) 推荐(0)
摘要:spark的序列化主要使用了hadoop的writable和java的Serializable。 说到底就是使用hadoop的writable替换了java的默认序列化实现方式。 这个有个让人疑惑的地方是使用@transient 表示该值不会被序列化,我做个一个测试是可以的,为什么呢,因为spark 阅读全文
posted @ 2015-07-01 17:51 高兴的博客 阅读(3432) 评论(0) 推荐(0)