scala学习笔记-RDD操作

RDD操作大致分为转换操作和行动操作,由于spark的惰性机制,导致在遇到行动操作前是不会进行运算的, 直到遇到行动才做才出发运算。

转换操作:

filter 过滤

map 转换函数

flatMap 与map类似,但是映射为0个或多个

groupByKey 返回key,iterable

reduceByKey 返回一个新的(K,V)形式的数据集,其中的每个值是将每个key传递到函数func中进行聚合

行动操作:

count() 返回数据集的元素个数

collect() 以数组的形式饭后数据集中的所有元素

first() 返回集合中的第一个元素

take(n) 以数组的形式返回数据集中的前n个元素

reduce(func) 通过函数func(输入两个参数并返回一个值)聚合数据集中的元素

foreach(func) 将数据集中的每个元素传递到函数func中运行

posted @ 2019-09-16 22:59  妫陈青衫  阅读(1077)  评论(0编辑  收藏  举报