Spark - 随笔分类 - 卡丽熙

Spark SQL

摘要：1.1. Spark SQL概述 1.1.1. 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 1.1.2. 为什么要学习Spark SQL 我们已经学习了Hive，它是将Hive 阅读全文

posted @ 2017-08-25 11:42 卡丽熙阅读(194) 评论(0) 推荐(0)

RDD的缓存，依赖，spark提交任务流程

摘要：1.RDD的缓存 Spark速度非常快的原因之一，就是在不同操作中可以在内存中持久化或缓存个数据集。当持久化某个RDD后，每一个节点都将把计算的分片结果保存在内存中，并在对此RDD或衍生出的RDD进行的其他动作中重用。这使得后续的动作变得更加迅速。RDD相关的持久化和缓存，是Spark最重要的特征之阅读全文

posted @ 2017-08-25 10:56 卡丽熙阅读(386) 评论(0) 推荐(0)

Spark的wordcount程序产生多少个RDD？

摘要：思考：在spark的wordcount过程一共产生多少个RDD？通过该命令（scala> rdd.toDebugString）可以查看RDD的依赖关系（6个，除了图中的五个，rdd.saveAsTextFile也还会产生一个RDD）接下来一步步分析（通过查看spark源码进行分析） (1) s 阅读全文

posted @ 2017-08-24 20:24 卡丽熙阅读(841) 评论(0) 推荐(0)

Spark shell超时

摘要：spark集群部署好之后，运行start-all.sh，可以成功运行，但是运行shell出错，显示超时由于netty是spark通信框架，通信超时所以产生问题。解决方法：1.ip6可能是一个可能原因，把：：1也就是ip6先注释掉试试（不行） 2.设置下超时时间（靠谱）：SparkConf: co 阅读全文

posted @ 2017-08-23 20:11 卡丽熙阅读(1193) 评论(0) 推荐(0)

卡丽熙

随笔分类 - Spark

公告