会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
凯文の博客
持之以恒、勿忘初心、沉默是金
博客园
首页
新随笔
联系
订阅
管理
2017年11月3日
SparkHiveContext和直接Spark读取hdfs上文件然后再分析效果区别
摘要: 最近用spark在集群上验证一个算法的问题,数据量大概是一天P级的,使用hiveContext查询之后再调用算法进行读取效果很慢,大概需要二十多个小时,一个查询将近半个小时,代码大概如下: 主要是where之后的hive查询太过缓慢,于是试着直接spark用textFile读取文件然后在进行map和
阅读全文
posted @ 2017-11-03 12:11 Kaivenblog
阅读(3627)
评论(0)
推荐(0)
公告