Spark RDD 操作（三）

1. 创建 RDD

主要两种方式：

sc.textFile 加载本地或集群文件系统中的数据，或者从 HDFS 文件系统、HBase、Cassandra、Amazon S3等外部数据源中加载数据集。Spark可以支持文本文件、SequenceFile文件（Hadoop提供的 SequenceFile是一个由二进制序列化过的key/value的字节流组成的文本存储文件）和其他符合Hadoop InputFormat格式的文件
parallelize 方法将 Driver 中数据结构化并行成 RDD

>>> lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt")
>>> lines = sc.textFile("hdfs://localhost:9000/user/hadoop/word.txt")
>>> lines = sc.textFile("/user/hadoop/word.txt")
>>> lines = sc.textFile("word.txt")

# 并行化
nums = [1, 2, 3, 5, 6]
rdd = sc.parallelize(nums)

注意

使用本地文件系统路径，须保证在所有 worker 节点上都能采用相同路径能够访问该文件（可将文件包括到每个 worker 节点上，或采用网络挂载共享文件系统）
textFile() 参数可以是文件、目录、压缩文件
textFile() 接收第二个参数（可选），用于指定分区数，默认 spark 为 HDFS 的 block 创建一个分区，（HDFS中每个block默认是128MB），可以提供一个比 block 更大的值作为分区数目，但是不能比它小

2. RDD 操作

RDD 创建后，在后续过程中会有两种操作：

转换 transformation 操作：基于现有数据集创建一个新的数据集，转换得到的 RDD 是惰性求值的，也就是说，整个转换过程只是记录了转换的轨迹，并不会发生真正的计算，只有遇到行动操作时，才会发生真正的计算，开始从血缘关系源头开始，进行物理的转换操作，不会触发计算
行动 action 操作：在数据集上进行运算，返回计算值，会触发计算

2.1 常用Transformation操作

2.1.1 map

将分区中的每份数据都作用到一个 function 中，生成一个新的分布式的数据集并返回，类似于 Python 内置的 map 方法：

from pyspark import SparkConf, SparkContext

if __name__ == "__main__":
    conf = SparkConf().setMaster("local[2]").setAppName("spark0401")
    sc = SparkContext(conf=conf)


    def my_app():
        """
        data 中每个元素都乘以 2
        """
        data = [1, 2, 3, 4, 5, 6]
        rdd = sc.parallelize(data).map(lambda x: x * 2)

        print(rdd.collect())


    my_app()

    sc.stop()	# 记得关闭

2.1.2 filter

选出所有 function 返回值为 True 的元素，生成一个新的分布式的数据集返回：

from pyspark import SparkConf, SparkContext

if __name__ == "__main__":
    conf = SparkConf().setMaster("local[2]").setAppName("spark0401")
    sc = SparkContext(conf=conf)

    def my_filter():
        data = [1, 2, 3, 4, 5, 6]
        rdd1 = sc.parallelize(data).map(lambda x: x * 2)
        filer_rdd = rdd1.filter(lambda x: x > 4)

        print(filer_rdd.collect())

    my_filter()

    sc.stop()

2.1.3 flatMap

将函数应用于 rdd 之中的每一个元素，将返回的迭代器的所有内容构成新的 rdd，通常用来切分单词：

from pyspark import SparkConf, SparkContext

if __name__ == "__main__":
    conf = SparkConf().setMaster("local[2]").setAppName("spark0401")
    sc = SparkContext(conf=conf)

    def my_flat_map():
        data = ["hello spark", "hello python", "hello world"]
        rdd = sc.parallelize(data).flatMap(lambda line: line.split(" "))
        print(rdd.collect())

    my_flat_map()

    sc.stop()

运行结果：

['hello', 'spark', 'hello', 'python', 'hello', 'world']

2.1.4 union

连接、合并多个 rdd：

from pyspark import SparkConf, SparkContext

if __name__ == "__main__":
    conf = SparkConf().setMaster("local[2]").setAppName("spark0109")
    sc = SparkContext(conf=conf)
    
    def my_union():
        """连接"""
        rdd1 = sc.parallelize([1, 2, 3])
        rdd2 = sc.parallelize(['a', 'b', 'c'])
        rdd_union = rdd1.union(rdd2)

        print(rdd_union.collect())


    my_union()
    sc.stop()

运行结果：

[1, 2, 3, 'a', 'b', 'c']

2.1.5 distinct 去重

对 rdd 中相同元素进行去重：

from pyspark import SparkConf, SparkContext

if __name__ == "__main__":
    conf = SparkConf().setMaster("local[2]").setAppName("spark0109")
    sc = SparkContext(conf=conf)
    
    def my_distinct():
        rdd1 = sc.parallelize([1, 2, 3])
        rdd2 = sc.parallelize([1, 'a', '2', 'b'])
        rdd_distinct = rdd1.union(rdd2).distinct()

        print(rdd_distinct.collect())


    my_distinct()
sc.stop()

运行结果：

['b', 1, 'a', 2, 3, '2']

2.1.6 join 连接

类似于 SQL 的 join，包括：

inner join：内连接
outer join：left/right/full join 外连接（左外、右外、全连接）

from pyspark import SparkConf, SparkContext

if __name__ == "__main__":
    conf = SparkConf().setMaster("local[2]").setAppName("spark0109")
    sc = SparkContext(conf=conf)
    
    def my_join():
        a = sc.parallelize([('A', 'a1'), ('C', 'c1'), ('D', 'd1'), ('F', 'f1'), ('F', 'f2')])
        b = sc.parallelize([('A', 'a2'), ('C', 'c2'), ('C', 'c3'), ('E', 'e1')])
        
        join_res = a.join(b).collect()
        left_join_res = a.leftOuterJoin(b).collect()	# 只关心左边有的数据，左边没有的为 None
        right_join_res = a.rightOuterJoin(b).collect()	# 只关心右边有的数据，右边没有的为 None
        full_join_res = a.fullOuterJoin(b).collect()

        print('a join b >>>', join_res)
        print('left_join_res >>>', left_join_res)
        print('right_join_res >>>', right_join_res)
        print('full_join_res >>>', full_join_res)


    my_join()
sc.stop()

运行结果：

a join b >>> [('A', ('a1', 'a2')), ('C', ('c1', 'c2')), ('C', ('c1', 'c3'))]

left_join_res >>> [('A', ('a1', 'a2')), ('F', ('f1', None)), ('F', ('f2', None)), ('C', ('c1', 'c2')), ('C', ('c1', 'c3')), ('D', ('d1', None))]

right_join_res >>> [('A', ('a1', 'a2')), ('C', ('c1', 'c2')), ('C', ('c1', 'c3')), ('E', (None, 'e1'))]

full_join_res >>> [('A', ('a1', 'a2')), ('F', ('f1', None)), ('F', ('f2', None)), ('C', ('c1', 'c2')), ('C', ('c1', 'c3')), ('D', ('d1', None)), ('E', (None, 'e1'))]

其他操作

# subtract找到属于前一个rdd而不属于后一个rdd的元素
>>> a = sc.parallelize(range(10))
>>> b = sc.parallelize(range(5,15))
>>> a.subtract(b).collect()
[0, 1, 2, 3, 4]            

# 求交集 
>>> a.intersection(b).collect()
[6, 7, 8, 9, 5]          

# cartesian笛卡尔积
>>> boys = sc.parallelize(["LiLei","Tom"])
>>> girls = sc.parallelize(["HanMeiMei","Lily"])
>>> boys.cartesian(girls).collect()
[('LiLei', 'HanMeiMei'), ('LiLei', 'Lily'), ('Tom', 'HanMeiMei'), ('Tom', 'Lily')]

# 按照某种方式排序，这里从小到大排序
>>> c = sc.parallelize([(1,2,3),(3,2,2),(4,1,1)])
>>> c.sortBy(lambda x: x[2]).collect()
[(4, 1, 1), (3, 2, 2), (1, 2, 3)]

# 按照拉链方式连接两个RDD，效果类似python的zip函数
# 需要两个RDD具有相同的分区，每个分区元素数量相同
>>> rdd_name = sc.parallelize(["LiLei","Hanmeimei","Lily"])
>>> rdd_age = sc.parallelize([19,18,20])
>>> rdd_name.zip(rdd_age).collect()
[('LiLei', 19), ('Hanmeimei', 18), ('Lily', 20)]
>>> rdd_name =  sc.parallelize(["LiLei","Hanmeimei","Lily","Lucy","Ann","Dachui","RuHua"])

# 将RDD和一个从0开始的递增序列按照拉链方式连接。
>>> rdd_name.zipWithIndex().collect()
[('LiLei', 0), ('Hanmeimei', 1), ('Lily', 2), ('Lucy', 3), ('Ann', 4), ('Dachui', 5), ('RuHua', 6)]

2.2. 常用 Action 操作

常用 action 算子：

collect：收集获取全部元素
count：统计数目
take：取几个元素，如：take(5)
reduce：累计计算
saveAsTextFile：保存到文件系统，可以保存到本地或 HDFS
foreach：循环元素，对每一个元素执行某种操作，不生成新的 RDD
takeSample(False, 10, 0)：可以随机取若干个到Driver,第一个参数设置是否放回抽样
first()：获取第一个数据

示例：

>>> data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
>>> rdd = sc.parallelize(data)
>>> rdd.collect()
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

>>> rdd.count()
10

>>> rdd.max()
10

>>> rdd.min()
1

>>> rdd.sum()
55

>>> rdd.reduce(lambda x, y: x+y)
55

>>> rdd.foreach(lambda x: print(x))
1
2
3
4
5
6
7
8
9
10

2.2.1 排序 sortBy

求 topN：

students = [("HanMeiMei", 16, 77), ("DaChui", 16, 66), ("Jim", 18, 77), ("LiLei", 18, 87), ("RuHua", 18, 50)]
rdd = sc.parallelize(students)
rdd.sortBy(lambda x: x[2], ascending=False)

print(rdd.take(3))

[('LiLei', 18, 87), ('HanMeiMei', 16, 77), ('DaChui', 16, 66)]

2.2.2 countByKey

对 Pair RDD 按 key 统计数量：

pairRdd = sc.parallelize([(1, 1), (1, 4), (3, 9), (2, 16)])
rdd2 = pairRdd.countByKey()
print(rdd2)     # defaultdict(<class 'int'>, {1: 2, 3: 1, 2: 1})

2.3 常用PairRDD的转换操作

PairRDD 指的是数据为长度为2 的 tuple 类似 (k,v) 结构的数据类型的 RDD，其每个数据的第一个元素被当做key，第二个元素被当做 value。

2.1.4 groupByKey

将相同的 key 分组，key-value 形式：

from pyspark import SparkConf, SparkContext

if __name__ == "__main__":
    conf = SparkConf().setMaster("local[2]").setAppName("spark0401")
    sc = SparkContext(conf=conf)
    
        def my_group_by_key():
        data = ["hello spark", "hello python", "hello world"]
        rdd1 = sc.parallelize(data). \
            flatMap(lambda x: x.split(" ")). \
            map(lambda x: (x, 1))
		
        rdd1 = rdd1.groupByKey().mapValues(len)

        # 返回的是一个 key-value 形式的键值对，键为具体单词，值为可迭代对象，需要 list 进行转换
        # [{'python': [<pyspark.resultiterable.ResultIterable object at 0x0000027029F17048>]},
        # {'world': [<pyspark.resultiterable.ResultIterable object at 0x0000027029F17080>]},
        # {'hello': [<pyspark.resultiterable.ResultIterable object at 0x0000027029F170F0>]},
        # {'spark': [<pyspark.resultiterable.ResultIterable object at 0x0000027029F17160>]}]
        rdd2 = rdd1.groupByKey().map(lambda x: {x[0]: list(x[1])})

        print(rdd2.collect())

        print(rdd1.collect())

    my_group_by_key()

    sc.stop()

运行分析

flatMap：经过空格切分后变成：['hello', 'spark', 'hello', 'python', 'hello', 'world']
map(lambda x: (x, 1))：给每个单词都计数为 1，变为：[('hello', 1), ('spark', 1), ('hello', 1), ('python', 1), ('hello', 1), ('world', 1)]

运行结果：

# rdd2 result
[{'python': [1]}, {'world': [1]}, {'hello': [3]}, {'spark': [1]}]

# rdd1 result，采用的是 groupByKey().mapValues(len) 方式
[('python', 1), ('world', 1), ('hello', 3), ('spark', 1)]

2.1.5 reduceByKey

把相同的 key 的数据分发到一起并进行相应的计算（如：累加，累乘等），类似于 Python 的 reduce 方法，需要传入两个参数：

from pyspark import SparkConf, SparkContext

if __name__ == "__main__":
    conf = SparkConf().setMaster("local[2]").setAppName("spark0401")
    sc = SparkContext(conf=conf)

    def my_reduce_by_key():
        data = ["hello spark", "hello python", "hello world"]
        rdd1 = sc.parallelize(data). \
            flatMap(lambda x: x.split(" ")). \
            map(lambda x: (x, 1))

        reduce_rdd = rdd1.reduceByKey(lambda x, y: x + y)

        print(reduce_rdd.collect())

    my_reduce_by_key()

    sc.stop()

运行结果：

[('python', 1), ('world', 1), ('hello', 3), ('spark', 1)]

2.1.6 sortByKey

对由 key-value 组成的 RDD 进行排序，默认升序 key 排序：

需求：

# 对 wc 结果中出现的次数降序/升序排序
[('hello', 3), ('world', 1), ('spark', 2)]

按 value 排序：

from pyspark import SparkConf, SparkContext

if __name__ == "__main__":
    conf = SparkConf().setMaster("local[2]").setAppName("spark0401")
    sc = SparkContext(conf=conf)

    def sort_by_key():
        """
        排序，升序排序设置 sortByKey(True) 或不设置即可
        """
        data = [('hello', 3), ('world', 1), ('spark', 2)]
        sort_rdd = sc.parallelize(data)
        # 变为 [(3, 'hello'), (1, 'world'), (2, 'spark')]
        sort_rdd = sort_rdd.map(lambda x: (x[1], x[0])). \
            sortByKey(False). \
            map(lambda x: (x[1], x[0]))

        print(sort_rdd.collect())

    sort_by_key()

    sc.stop()

运行结果：

[('hello', 3), ('spark', 2), ('world', 1)]

wordcount 按 value 排序：

def my_sort():
    data = ["hello world", "hello spark", "hello python"]
    sort_rdd = sc.parallelize(data)
    sort_rdd = sort_rdd.flatMap(lambda x: x.split(" ")). \
        map(lambda x: (x, 1)). \
        reduceByKey(lambda x, y: x + y). \
        map(lambda x: (x[1], x[0])). \
        sortByKey(False).\
        map(lambda x: (x[1], x[0]))

    print(sort_rdd.collect())

运行结果：

[('hello', 3), ('world', 1), ('python', 1), ('spark', 1)]

2.1.7 foldByKey

foldByKey 的操作和 reduceByKey 类似，但是要提供一个初始值：

>>> x = sc.parallelize([("a",1),("b",2),("a",3),("b",5)],1)

>>> x.foldByKey(1, lambda x,y:x+y).collect()
[('a', 5), ('b', 8)]

2.1.8 subtractByKey

去除 x 中那些 key 也在 y 中的元素

x = sc.parallelize([("a", 1), ("b", 2), ("c", 3)])
y = sc.parallelize([("a", 2), ("b", (1, 2))])

print(x.subtractByKey(y).collect())		# [('c', 3)]

3. Spark RDD 案例实战

3.1 词频统计 wordcount

步骤：

将文本内容每一行转成一个个单词：flatMap
单词 === > (单词, 1)：map
把所有相同单词的计数相加得到最终结果：reduceByKey

1、wordcount.py

# coding=utf-8
import sys
from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName('fengjun').setMaster('local[2]')
    sc = SparkContext(conf=conf)

    # wc_rdd = sc.textFile(sys.argv[1])
    wc_rdd = sc.textFile("wc.txt")

    wc_rdd = wc_rdd.flatMap(lambda row: row.split(" ")). \
        map(lambda x: (x, 1)). \
        reduceByKey(lambda x, y: x + y)

    print(wc_rdd.collect())

2、wc.txt：

hello world
hello spark
hello python

也可以将结果写入文件系统：

rdd.saveAsTextFile('xxxx')

3.2 TOPN

students = [("HanMeiMei", 16, 77), ("DaChui", 16, 66), ("Jim", 18, 77), ("LiLei", 18, 87), ("RuHua", 18, 50)]
rdd = sc.parallelize(students)

# 方法一
rdd.sortBy(lambda x: x[2], ascending=False)

[('LiLei', 18, 87), ('HanMeiMei', 16, 77), ('DaChui', 16, 66)]

# 方法二
rdd = rdd.map(lambda x: (x[2], x)). \
	sortByKey(False). \
	map(lambda x: x[1])

print(rdd.take(3))	# [('LiLei', 18, 87), ('HanMeiMei', 16, 77), ('Jim', 18, 77)]

3.3 平均数

students = [("HanMeiMei", 16, 77), ("DaChui", 16, 66), ("Jim", 18, 77), ("LiLei", 18, 87), ("RuHua", 18, 50)]
rdd = sc.parallelize(students)

avg_rdd = rdd.map(lambda line: line[2]).\
reduce(lambda x, y: x + y)

avg = avg_rdd / rdd.count()

print(avg)  # 71.4

3.4 使用 spark-submit提交任务

[root@bogon bin]# cd /home/hj/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/bin

./spark-submit --master local[2] --name fengjun /home/hj/app/projects/wordcount.py /home/hj/app/projects/wc.txt

提交成功后，可访问：http://192.168.131.131:4041，只有当任务运行时才可以访问，运行结束就不可以访问了。

posted @ 2021-04-11 22:47 Hubery_Jun 阅读(240) 评论(0) 收藏举报

刷新页面返回顶部

Hubery_Jun

Spark RDD 操作（三）

1. 创建 RDD

2. RDD 操作

2.1 常用Transformation操作

2.1.1 map

2.1.2 filter

2.1.3 flatMap

2.1.4 union

2.1.5 distinct 去重

2.1.6 join 连接

2.2. 常用 Action 操作

2.2.1 排序 sortBy

2.2.2 countByKey

2.3 常用PairRDD的转换操作

2.1.4 groupByKey

2.1.5 reduceByKey

2.1.6 sortByKey

2.1.7 foldByKey

2.1.8 subtractByKey

3. Spark RDD 案例实战

3.1 词频统计 wordcount

3.2 TOPN

3.3 平均数

3.4 使用 spark-submit提交任务

公告