2018 年 1月 16 日随笔档案 - anlcy

2018年1月16日

摘要：本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型，谈到RDD就会提到什么弹性分布式数据集，什么有向无环图，本文暂时不去展开这些高深概念，在阅读本文时候，大家可以就把RDD当作一个数组，这样的理解对我们学习RDD的API是非常有帮助的。本文所有示例代码都是使用scala语言阅读全文

posted @ 2018-01-16 15:02 anlcy 阅读(1039) 评论(0) 推荐(0)

解决在编程方式下无法访问Spark Master问题

摘要：我们可以选择使用spark-shell，spark-submit或者编写代码的方式运行Spark。在产品环境下，利用spark-submit将jar提交到spark，是较为常见的做法。但是在开发期间，每次都需要编译jar去做提交是一件麻烦事儿。尤其是在IDE例如IntelliJ Idea下，更直接的阅读全文

posted @ 2018-01-16 14:09 anlcy 阅读(1662) 评论(0) 推荐(0)

Spark启动时的master参数以及Spark的部署方式

摘要：我们在初始化SparkConf时，或者提交Spark任务时，都会有master参数需要设置，如下： conf = SparkConf().setAppName(appName).setMaster(master) sc = SparkContext(conf=conf) /bin/spark-sub 阅读全文

posted @ 2018-01-16 13:55 anlcy 阅读(4282) 评论(0) 推荐(1)

Spark Streaming

摘要： Spark Streaming基于Spark处理流式数据的框架，在MapReduce中，由于其分布式特性——所有数据需要读写磁盘、启动job耗时较大，难以满足时效性要求。而Streaming能够在Spark上生根发芽的原因是因为其内存特性、低延时的执行引擎和高速的执行效率。Streaming的原理是阅读全文

posted @ 2018-01-16 10:41 anlcy 阅读(292) 评论(0) 推荐(0)

anlcy

公告