摘要: 1、为啥文件会出现^M ^M是windos的dos文件格式特有的换行符,在linux上你可以通过 cat -A 文件名 看到这些隐藏字符。 当您的文件是dos格式时,就会出现这个^M.所以一些shell脚本执行就会出现莫名其妙的问题。 2 解决方法: 如果需要转换,我们只需要转换文件格式即可。你可以 阅读全文
posted @ 2021-05-11 21:32 skaarl 阅读(239) 评论(0) 推荐(0) 编辑
摘要: 概述 sed是stream editor的简称,也就是流编辑器。它一次处理一行内容,处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”pattern space,接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有 阅读全文
posted @ 2021-04-16 22:08 skaarl 阅读(5530) 评论(0) 推荐(0) 编辑
摘要: # 日期时间字符串st = "2017-11-23 16:10:10"# 当前日期时间dt = datetime.datetime.now()# 当前时间戳sp = time.time() # 1.把datetime转成字符串def datetime_toString(dt): print("1.把 阅读全文
posted @ 2021-02-01 22:45 skaarl 阅读(786) 评论(0) 推荐(0) 编辑
摘要: 1. 背景:window环境可以使用pycharm类似的IDE工具debug调试代码, 但是在Linux环境下可以使用pdb模块提高开发效率 使用方式: 2.在代码中导入pdb模块 import pdb 功能:断点设置,单步执行,查看代码,查看函数,追踪变量等 pdb.set_trace() 功能 阅读全文
posted @ 2021-01-21 19:57 skaarl 阅读(322) 评论(0) 推荐(0) 编辑
摘要: 1. 堆内和堆外内存规划 1.1 堆内内存 堆内内存的大小,由 Spark 应用程序启动时的 –executor-memory 或 spark.executor.memory 参数配置。Executor 内运行的并发任务共享 JVM 堆内内存,这些任务在缓存 RDD 数据和广播(Broadcast) 阅读全文
posted @ 2020-11-13 22:04 skaarl 阅读(1254) 评论(2) 推荐(1) 编辑
摘要: 推测执行机制 推测任务是指对于一个Stage里面拖后腿的Task,会在其他节点的Executor上再次启动这个task,如果其中一个Task实例运行成功则将这个最先完成的Task的计算结果作为最终结果,同时会干掉其他Executor上运行的实例。spark推测式执行默认是关闭的,可通过spark.s 阅读全文
posted @ 2020-11-12 22:13 skaarl 阅读(2106) 评论(0) 推荐(0) 编辑
摘要: 工作之余会总结一些细小的知识点,但又不至于发一篇博客,以后将细小的知识点积累供自己备忘; 主要分为两个模块: python基础知识、Linux知识、python编程题 一 、Python 1.正则中group()、group(0)、group(1)、groups()的区别?. 结论:group取索引 阅读全文
posted @ 2020-11-11 22:08 skaarl 阅读(350) 评论(0) 推荐(0) 编辑
摘要: 一、基本介绍 是什么? 快速,通用,可扩展的分布式计算引擎。 弹性分布式数据集RDD RDD(Resilient Distributed Dataset)弹性分布式数据集,是Spark中最基本的数据(逻辑)抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 RDD具有数据流模型的特点:自动 阅读全文
posted @ 2020-11-11 20:01 skaarl 阅读(2464) 评论(0) 推荐(3) 编辑
摘要: 1. 条件 使用where子句对表中的数据筛选,结果为true的行会出现在结果集中 语法如下: select * from 表名 where 条件; 例: select * from students where id=1; where后面支持多种运算符,进行条件的处理 比较运算符 逻辑运算符 模糊 阅读全文
posted @ 2020-11-09 22:02 skaarl 阅读(6661) 评论(2) 推荐(4) 编辑
摘要: 需求:使用pyspark计算相同key的最大值、最小值、平均值 说明: 最大值和最小值好计算,直接reduceByKey后使用python内置的max、min方法 平均值计算提供两种计算方法,直接先上代码和运行结果,后面有代码记录 def main(): sc = SparkContext(conf 阅读全文
posted @ 2020-11-05 20:17 skaarl 阅读(3674) 评论(0) 推荐(0) 编辑