随笔分类 -  spark

摘要:1、spark汇聚失败 出错原因,hive默认配置中parquet和动态分区设置太小 2.hive数据入hbase报错 出现报错原因: executor_memory和dirver_memory太小,在增大内存后还会出现连接超时的报错 解决连接超时:spark.network.timeout=140 阅读全文
posted @ 2018-01-23 15:16 成平艺君 阅读(9961) 评论(2) 推荐(0)
摘要:spark有自己的集群计算技术,扩展了hadoop mr模型用于高效计算,包括交互式查询和 流计算。主要的特性就是内存的集群计算提升计算速度。在实际运用过程中也当然少不了对一些数据集的操作。下面将通过以下练习来深化对spark的理解,所有练习将使用python完成,java、scala版本将后续完成 阅读全文
posted @ 2017-03-23 15:43 成平艺君 阅读(2041) 评论(0) 推荐(0)
摘要:修改hostname bogon 为localhost 查看ip地址 执行结果 此时python 版本为2.7 将python版本升级至3.0及以上 一、 下载欲升级python版本 Python-3.4.5,将包放于本机与虚似机的共享目录下,上传至虚似机的opt目录下 二、 解压 三、阅读READ 阅读全文
posted @ 2017-03-21 14:29 成平艺君 阅读(2571) 评论(0) 推荐(1)