2017 年 9月随笔档案 - Easen.Cai

Spark学习笔记6：Spark调优与调试

摘要：1、使用Sparkconf配置Spark 对Spark进行性能调优，通常就是修改Spark应用的运行时配置选项。 Spark中最主要的配置机制通过SparkConf类对Spark进行配置，当创建出一个SparkContext时，就需要创建出一个SparkConf实例。 Sparkconf实例包含用户阅读全文

posted @ 2017-09-18 11:39 Easen.Cai 阅读(1797) 评论(0) 推荐(0)

Spark学习笔记5：Spark集群架构

摘要：Spark的一大好处就是可以通过增加机器数量并使用集群模式运行，来扩展计算能力。Spark可以在各种各样的集群管理器（Hadoop YARN , Apache Mesos , 还有Spark自带的独立集群管理器）上运行，所以Spark应用既能够适应专用集群，又能用于共享的云计算环境。 Spark运行阅读全文

posted @ 2017-09-18 08:51 Easen.Cai 阅读(1020) 评论(0) 推荐(0)

Spark学习笔记4：数据读取与保存

摘要：Spark对很多种文件格式的读取和保存方式都很简单。Spark会根据文件扩展名选择对应的处理方式。 Spark支持的一些常见文件格式如下：文本文件使用文件路径作为参数调用SparkContext中的textFile()函数，就可以读取一个文本文件。也可以指定minPartitions控制分区数。阅读全文

posted @ 2017-09-16 22:48 Easen.Cai 阅读(17165) 评论(0) 推荐(0)

Spark学习笔记3：键值对操作

摘要：键值对RDD通常用来进行聚合计算，Spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为pair RDD。pair RDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口。 Spark中创建pair RDD的方法：存储键值对的数据格式会在读取时直接返回由其键值对数据组成的pa 阅读全文

posted @ 2017-09-15 11:04 Easen.Cai 阅读(1097) 评论(0) 推荐(0)

Spark学习笔记2：RDD编程

摘要：通过一个简单的单词计数的例子来开始介绍RDD编程。使用Scala语言，IDE使用IntelliJ IDEA 。在IDEA上运行Spark应用需要添加Maven依赖。运行结果：运行Spark应用，首先需要导入Spark包，这里使用Maven来连接公共仓库中的Spark包。接下来创建一个Spar 阅读全文

posted @ 2017-09-14 16:04 Easen.Cai 阅读(718) 评论(0) 推荐(0)

Spark学习笔记1：Spark概览

摘要：Spark是一个用来实现快速而通用的集群计算的平台。 Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的，运行在多个工作机器或者是一个计算集群上的应用进行调度，分发以及监控的计算引擎。Sark核心引擎有着速度快和通用的特点，因此Spark支持为各种不同应用场景专门设计阅读全文

posted @ 2017-09-14 10:43 Easen.Cai 阅读(1039) 评论(0) 推荐(0)

HBase核心知识点总结

摘要：一、HBase介绍 1、基本概念 HBase是一种Hadoop数据库，经常被描述为一种稀疏的，分布式的，持久化的，多维有序映射，它基于行键、列键和时间戳建立索引，是一个可以随机访问的存储和检索数据的平台。HBase不限制存储的数据的种类，允许动态的、灵活的数据模型，不用SQL语言，也不强调数据之间的阅读全文

posted @ 2017-09-01 09:58 Easen.Cai 阅读(64583) 评论(2) 推荐(8)

CAI

09 2017 档案

公告