随笔分类 - 大数据/云计算
摘要:PART 5 数据读取与保存 1.文件格式与文件系统: Spark支持的一些常见文件格式: 1.1文本文件: 读取:文本文件的读取通过textFile(),如果需要读取整个文件夹,可以使用wholeTextFiles(),该方法会返回一个pair RDD,键为文件名 保存:saveAsTextFil
阅读全文
摘要:PART 3 Pair RDD Spark为包含键值对类型的RDD提供了专有操作,这类RDD叫做Pair RDD(意为“对RDD”) Spark中Pair RDD的创建主要有两种方式,一种方式从存储了键值对数据的文件中创建(主要内容见PART 5),另一种方式可以从其他普通RDD调用map()操作来
阅读全文
摘要:<Spark快速大数据分析>主要使用java, scala和python进行讲解,因博主暂未对java和scala展开了解,所以后续总结只通过python3进行展示。 Part 1 Spark简介 Spark的定位:是一个用来实现快速而通用的集群计算平台。 Spark与Hadoop的联系:Spark
阅读全文

浙公网安备 33010602011771号