Dsad123FFFG6645 - 博客园

2022年7月28日

摘要： filter算子功能：对RDD集合中的每个元素调用一次参数中的表达式对数据进行过滤，符合条件就保留，不符合就过滤阅读全文

posted @ 2022-07-28 20:30 Dsad123FFFG6645 阅读(36) 评论(0) 推荐(0)

摘要：这是正则表达式，通过一定规则的表达式来匹配字符串用的 \s 表示空白字符，包括但不限于空格、回车(\r)、换行(\n)、tab或者叫水平制表符(\t)等，这个根据编码格式不同代表的含义也不一样，感兴趣可以搜索看一下 + 是重复修饰符，表示它前面与它紧邻的表达式格式相匹配的字符串至少出现一个，上不封顶阅读全文

posted @ 2022-07-28 16:40 Dsad123FFFG6645 阅读(1054) 评论(0) 推荐(0)

python 读取文件作为对象

摘要： Python 读写文件和file对象_boshuzhang的博客-CSDN博客阅读全文

posted @ 2022-07-28 16:22 Dsad123FFFG6645 阅读(34) 评论(0) 推荐(0)

python str.join()

摘要： Python中的 .join()用法_chixujohnny的博客-CSDN博客_.join() 阅读全文

posted @ 2022-07-28 15:46 Dsad123FFFG6645 阅读(46) 评论(0) 推荐(0)

2022年7月27日

asd

摘要： asdasd 阅读全文

posted @ 2022-07-27 23:46 Dsad123FFFG6645 阅读(19) 评论(0) 推荐(0)

2022年7月25日

combiner

摘要：每一个map可能会产生大量的输出，combiner的作用就是在map端对输出先做一次合并，以减少传输到reducer的数据量。 combiner最基本是实现本地key的归并，combiner具有类似本地的reduce功能。如果不用combiner，那么，所有的结果都是reduce完成，效率会相对低阅读全文

posted @ 2022-07-25 20:04 Dsad123FFFG6645 阅读(122) 评论(0) 推荐(0)

2022年7月22日

conda 中安装的包地址

摘要： C:\anaconda3\Lib\site-packages 阅读全文

posted @ 2022-07-22 16:16 Dsad123FFFG6645 阅读(154) 评论(0) 推荐(0)

2022年7月21日

分布式计算过程

摘要： # 定义一个列表 list1 = [1,2,3,4,5,6,7,8,9,10] # 将列表通过SparkContext将数据转换为一个分布式集合RDD inputRdd = sc.parallelize(list1)#如果有n个结点那么数据就会分成n分存在各个结点 # 将RDD中每个分区的数据进阅读全文

posted @ 2022-07-21 21:22 Dsad123FFFG6645 阅读(81) 评论(0) 推荐(0)

map算子

摘要： >>> list1 = [1,2,3,4,5,6,7,8,9,10] >>> print(*list1) 1 2 3 4 5 6 7 8 9 10 >>> list2 = map(lambda x : x**2,list1) >>> print(*list2) 1 4 9 16 25 36 49 6 阅读全文

posted @ 2022-07-21 20:29 Dsad123FFFG6645 阅读(35) 评论(0) 推荐(0)

2022年7月20日

RDD的三个机制

摘要： RDD的三个机制 - mls12 - 博客园 (cnblogs.com) persist 为了计算性能 cheakpoint 为了数据安全阅读全文

posted @ 2022-07-20 16:52 Dsad123FFFG6645 阅读(46) 评论(0) 推荐(0)

Dsad123FFFG

公告