4.RDD操作
------------恢复内容开始------------
一、 RDD创建
1.从本地文件系统中加载数据创建RDD

2.从HDFS加载数据创建RDD
2.1启动hdfs

2.2上传、查看文件


2.3加载

2.4停止hdfs

3、通过并行集合(列表)创建RDD
输入列表

字符串

numpy生成数组

二、 RDD操作
1.filter(func) 显式定义函数 lambda函数


2.map(func)
显式定义函数
lambda函数:字符串分词, 数字加100 ,客串加固定前缀


3.flatMap(func)
分词,单词映射成键值对

4.reduceByKey()
统计词频,累加,乘法规则

5.groupByKey()
单词分组,查看分组的内容,分组之后做累加 map

6.sortByKey()
词频统计按单词排序

行动操作
1.foreach(print)

foreach(lambda a:print(a.upper())

2.collect()

3.count() ----返回数据集中的元素个数

4.first() ----返回数据集中的第一个元素

5.take(n) ----以数组的形式返回数据集中的前n个元素

6.reduce() ----通过函数func(输入两个参数并返回一个值)聚合数据集中的元素
- 数值型的rdd元素做累加


浙公网安备 33010602011771号