skaarl

2021年5月11日

摘要： 1、为啥文件会出现^M ^M是windos的dos文件格式特有的换行符，在linux上你可以通过 cat -A 文件名看到这些隐藏字符。当您的文件是dos格式时，就会出现这个^M.所以一些shell脚本执行就会出现莫名其妙的问题。 2 解决方法：如果需要转换，我们只需要转换文件格式即可。你可以阅读全文

posted @ 2021-05-11 21:32 skaarl 阅读(299) 评论(0) 推荐(0)

2021年4月16日

sed命令详解

摘要：概述 sed是stream editor的简称，也就是流编辑器。它一次处理一行内容，处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”pattern space，接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有阅读全文

posted @ 2021-04-16 22:08 skaarl 阅读(5668) 评论(0) 推荐(0)

2021年2月1日

Python time datetime string 相互转换

摘要： # 日期时间字符串st = "2017-11-23 16:10:10"# 当前日期时间dt = datetime.datetime.now()# 当前时间戳sp = time.time() # 1.把datetime转成字符串def datetime_toString(dt): print("1.把阅读全文

posted @ 2021-02-01 22:45 skaarl 阅读(801) 评论(0) 推荐(0)

2021年1月21日

Linux环境下调试python代码----pdb模块

摘要： 1. 背景：window环境可以使用pycharm类似的IDE工具debug调试代码，但是在Linux环境下可以使用pdb模块提高开发效率使用方式： 2.在代码中导入pdb模块 import pdb 功能：断点设置，单步执行，查看代码，查看函数，追踪变量等 pdb.set_trace() 功能阅读全文

posted @ 2021-01-21 19:57 skaarl 阅读(410) 评论(0) 推荐(0)

2020年11月13日

spark内存管理这一篇就够了

摘要： 1. 堆内和堆外内存规划 1.1 堆内内存堆内内存的大小，由 Spark 应用程序启动时的 –executor-memory 或 spark.executor.memory 参数配置。Executor 内运行的并发任务共享 JVM 堆内内存，这些任务在缓存 RDD 数据和广播（Broadcast）阅读全文

posted @ 2020-11-13 22:04 skaarl 阅读(1496) 评论(2) 推荐(1)

2020年11月12日

spark推测机制及参数设置

摘要：推测执行机制推测任务是指对于一个Stage里面拖后腿的Task，会在其他节点的Executor上再次启动这个task，如果其中一个Task实例运行成功则将这个最先完成的Task的计算结果作为最终结果，同时会干掉其他Executor上运行的实例。spark推测式执行默认是关闭的，可通过spark.s 阅读全文

posted @ 2020-11-12 22:13 skaarl 阅读(3043) 评论(0) 推荐(0)

2020年11月11日

python易错点、面试点汇总，不定期更新

摘要：工作之余会总结一些细小的知识点，但又不至于发一篇博客，以后将细小的知识点积累供自己备忘；主要分为两个模块： python基础知识、Linux知识、python编程题一、Python 1.正则中group()、group(0)、group(1)、groups()的区别？. 结论：group取索引阅读全文

posted @ 2020-11-11 22:08 skaarl 阅读(548) 评论(0) 推荐(0)

Spark架构与原理这一篇就够了

摘要：一、基本介绍是什么？快速，通用，可扩展的分布式计算引擎。弹性分布式数据集RDD RDD（Resilient Distributed Dataset）弹性分布式数据集，是Spark中最基本的数据（逻辑）抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。 RDD具有数据流模型的特点：自动阅读全文

posted @ 2020-11-11 20:01 skaarl 阅读(6064) 评论(0) 推荐(5)

2020年11月9日

MySQL查询这一篇就够了

摘要： 1. 条件使用where子句对表中的数据筛选，结果为true的行会出现在结果集中语法如下： select * from 表名 where 条件; 例： select * from students where id=1; where后面支持多种运算符，进行条件的处理比较运算符逻辑运算符模糊阅读全文

posted @ 2020-11-09 22:02 skaarl 阅读(9403) 评论(2) 推荐(5)

2020年11月5日

pyspark计算最大值、最小值、平均值

摘要：需求：使用pyspark计算相同key的最大值、最小值、平均值说明：最大值和最小值好计算，直接reduceByKey后使用python内置的max、min方法平均值计算提供两种计算方法，直接先上代码和运行结果，后面有代码记录 def main(): sc = SparkContext(conf 阅读全文

posted @ 2020-11-05 20:17 skaarl 阅读(3956) 评论(0) 推荐(0)

公告