上一页 1 2 3 4 5 6 7 ··· 16 下一页
摘要: 这是正则表达式,通过一定规则的表达式来匹配字符串用的 \s 表示空白字符,包括但不限于空格、回车(\r)、换行(\n)、tab或者叫水平制表符(\t)等,这个根据编码格式不同代表的含义也不一样,感兴趣可以搜索看一下 + 是重复修饰符,表示它前面与它紧邻的表达式格式相匹配的字符串至少出现一个,上不封顶 阅读全文
posted @ 2022-07-28 16:40 Dsad123FFFG 阅读(770) 评论(0) 推荐(0) 编辑
摘要: Python 读写文件和file对象_boshuzhang的博客-CSDN博客 阅读全文
posted @ 2022-07-28 16:22 Dsad123FFFG 阅读(25) 评论(0) 推荐(0) 编辑
摘要: Python中的 .join()用法_chixujohnny的博客-CSDN博客_.join() 阅读全文
posted @ 2022-07-28 15:46 Dsad123FFFG 阅读(27) 评论(0) 推荐(0) 编辑
摘要: asdasd 阅读全文
posted @ 2022-07-27 23:46 Dsad123FFFG 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。 combiner最基本是实现本地key的归并,combiner具有类似本地的reduce功能。 如果不用combiner,那么,所有的结果都是reduce完成,效率会相对低 阅读全文
posted @ 2022-07-25 20:04 Dsad123FFFG 阅读(90) 评论(0) 推荐(0) 编辑
摘要: 上传 spark-3.1.2-bin-hadoop3.2.tgz 到 /export/software/ # 解压安装cd /export/software/tar -zxf spark-3.1.2-bin-hadoop3.2.tgz -C /export/server # 重命名cd /expor 阅读全文
posted @ 2022-07-23 01:47 Dsad123FFFG 阅读(22) 评论(0) 推荐(0) 编辑
摘要: C:\anaconda3\Lib\site-packages 阅读全文
posted @ 2022-07-22 16:16 Dsad123FFFG 阅读(128) 评论(0) 推荐(0) 编辑
摘要: # 定义一个列表 list1 = [1,2,3,4,5,6,7,8,9,10] # 将列表通过SparkContext将数据转换为一个分布式集合RDD inputRdd = sc.parallelize(list1)#如果有n个结点 那么数据就会分成n分 存在各个结点 # 将RDD中每个分区的数据进 阅读全文
posted @ 2022-07-21 21:22 Dsad123FFFG 阅读(67) 评论(0) 推荐(0) 编辑
摘要: >>> list1 = [1,2,3,4,5,6,7,8,9,10] >>> print(*list1) 1 2 3 4 5 6 7 8 9 10 >>> list2 = map(lambda x : x**2,list1) >>> print(*list2) 1 4 9 16 25 36 49 6 阅读全文
posted @ 2022-07-21 20:29 Dsad123FFFG 阅读(18) 评论(0) 推荐(0) 编辑
摘要: RDD的三个机制 - mls12 - 博客园 (cnblogs.com) persist 为了计算性能 cheakpoint 为了数据安全 阅读全文
posted @ 2022-07-20 16:52 Dsad123FFFG 阅读(33) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 16 下一页