随笔分类 - Spark
摘要:介绍: RDD--Resilient Distributed Dataset Spark中RDD是一个不可变的分布式对象集合。每个RDD被分为多个分区,这些分区运行在集群的不同的节点上。RDD可以包含Python、Java、Scala中的任意类型的对象,以及自定义的对象。 创建RDD的两种方法: 1
阅读全文
摘要:程序的结构如下: src:代码 lib: 存放spark的jar包 work: README.md:输入文件 counts : 输出文件路径 _SUCCESS: 程序执行成功的标志文件(空白文件) part-00000:结果文件 InitSpark.scala代码 本文参照《Spark 快速大数据分
阅读全文

浙公网安备 33010602011771号