4.RDD操作
一、 RDD创建
- 1.从本地文件系统中加载数据创建RDD

- 从HDFS加载数据创建RDD
启动hdfs

上传文件

查看文件

加载

停止hdfs

- 通过并行集合(列表)创建RDD
输入列表

字符串
numpy生成数组
二、 RDD操作
转换操作
- filter(func)
lambda函数

显式定义函数

- map(func)
lambda函数
字符串分词

显式定义函数

数字加100
lambda函数

显式函数

字符串加固定前缀
lambda函数

显式函数

- flatMap(func)
- 分词

2.单词映射成键值对

- reduceByKey()
- 统计词频,累加

2.乘法规则

- groupByKey()
- 单词分组

2.查看分组的内容

3.分组之后做累加 map

- sortByKey()
- 词频统计按单词排序

- sortBy()
- 词频统计按单词排序

.sortBy(lambda a:a[0]).collect()
.sortByKey().collect()
上面两条语句是一样的效果

.sortBy(lambda a:a[0],False).collect()
.sortByKey(False).collect()
上面两条语句是一样的效果

sortBy()函数里面按照lambda()函数中的指定字符进行排序,sortBy()第二个参数默认为True,即以该字符为首进行降序排序,为False即为以该字符升序排序
- RDD写入文本文件
- 写入本地文件系统,并查看结果

- 写入分布式文件系统,并查看结果

先进行操作一个数据,然后对其进行sortBy(函数,是否降序,设置数据块大小(默认10))
然后通过getNumPartitions()获得块数大小

浙公网安备 33010602011771号