摘要: 最近用spark在集群上验证一个算法的问题,数据量大概是一天P级的,使用hiveContext查询之后再调用算法进行读取效果很慢,大概需要二十多个小时,一个查询将近半个小时,代码大概如下: 主要是where之后的hive查询太过缓慢,于是试着直接spark用textFile读取文件然后在进行map和 阅读全文
posted @ 2017-11-03 12:11 Kaivenblog 阅读(3627) 评论(0) 推荐(0)