2017 年 11月 3 日随笔档案 - Kaivenblog

2017年11月3日

SparkHiveContext和直接Spark读取hdfs上文件然后再分析效果区别

摘要：最近用spark在集群上验证一个算法的问题，数据量大概是一天P级的，使用hiveContext查询之后再调用算法进行读取效果很慢，大概需要二十多个小时，一个查询将近半个小时，代码大概如下：主要是where之后的hive查询太过缓慢，于是试着直接spark用textFile读取文件然后在进行map和阅读全文

posted @ 2017-11-03 12:11 Kaivenblog 阅读(3633) 评论(0) 推荐(0)

凯文の博客

持之以恒、勿忘初心、沉默是金

公告