2018 年 8月 28 日随笔档案 - Coding_Now

2018年8月28日

摘要：一.Spark上下文 1.作用：连接Spark集群，用户创建RDD、累加器和广播。 2.RDD：Resilient Distributed Dataset，弹性式分布式数据集，有4种类型，如下： a.创建RDD：3类(parallelize:将Seq序列数据转化为RDD、textFile将外部文件转阅读全文

posted @ 2018-08-28 19:38 Coding_Now 阅读(1147) 评论(0) 推荐(0)

集群模式相关概念

摘要： 1.集群遵循主(Master)-从(Worker)机构：在不同的集群管理器模式下，Master和Worker映射的内容有所不同在Standalone模式下：主【Master守护进程】和从【Worker守护进程】在on Yarn模式下：主【ResourceManager守护进程】和从【Nodema 阅读全文

posted @ 2018-08-28 19:31 Coding_Now 阅读(1846) 评论(0) 推荐(0)

WordCount实例

摘要： 1.构建独立应用，采用Maven搭建Spark应用程序 a.创建Scala工程（略） b.加载spark-core_2.11依赖库： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artif 阅读全文

posted @ 2018-08-28 19:30 Coding_Now 阅读(515) 评论(0) 推荐(0)

Spark的介绍和集群部署

摘要：介绍 1.spark处理大数据的统一分析计算引擎； a.速度：在迭代循环的计算模型下，spark比Hadoop快100倍； b.易用性：spark提供多种语言的API，如Java、Python、Scala、R、SQL等 c.扩展性：在spark RDD基础上，提供一整套的分析计算模型：spark S 阅读全文

posted @ 2018-08-28 18:43 Coding_Now 阅读(443) 评论(0) 推荐(0)

Code_exploration

程序人生，走向人生巅峰

公告