Fork me on GitHub
摘要: 1.数据处理的主要操作 2.离散化与连续化 3.特征提取与构造 4.数据选择与构造 5.缺失值的处理 6.多重共线性和内生性 1. 数据处理的主要操作 映射与收集数据 :我们获得数据后需要对数据的每一列都定义属性,这样才方便我们接下来的数据处理。 缩放大型数据:对于使用数据不一定要全部使用,我们应该 阅读全文
posted @ 2019-03-17 20:19 顾鹏pen 阅读(5215) 评论(0) 推荐(0) 编辑
摘要: 1. 并查集算法 2.朋友圈 最近攻克自己不太熟悉的算法,例如最短路径,线段树,并查集等算法,顺手做个记录 1. 并查集算法 说玄乎其实挺玄乎的,说简单其实真的就是名字,并,查,集。所谓的查,就是查找一个用户的老大是谁,并,就是把两个人的老大合到一起,集就是集合。因此这个数据结构就是对集合进行查找和 阅读全文
posted @ 2020-09-29 13:58 顾鹏pen 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 好久好久没有写博客了。。。挺累的,从二月份开始找暑期实习,接着在进行暑期实习,然后马不停蹄地进行秋招,现在总算结束实习,前两天又参加了华为杯数学建模竞赛,感觉接下来就会很轻松了,希望能好好休息休息。这次的比赛还是挺简单的,比起以前参加社会性质的比赛不同,这次不管是从题目还是从要求上都简单几个档次。 阅读全文
posted @ 2020-09-21 20:27 顾鹏pen 阅读(3322) 评论(0) 推荐(0) 编辑
摘要: 二叉树的遍历真的是又简单又复杂,以他为原型可以变出好多好多题目,但是归根结底还是要非常熟悉二叉树的遍历。递归算法就不写了,那个面试写了就是凉凉。 1. 前序遍历 1 def preOrder(root): 2 stack1 = [] 3 res = [] 4 cur = root 5 while s 阅读全文
posted @ 2020-04-29 15:04 顾鹏pen 阅读(834) 评论(0) 推荐(0) 编辑
摘要: 1. 两数之和 2.三数之和,最近的三数之和 3.四数之和 1. 两数之和 总体的思路还是比较简单的,也就是用一个字典记录下我需要的值,如果在接下来的值中有匹配的值,就完成了目标,我在这里就不考虑这些了,在这里还是要考虑一些特殊的case和特殊的要求。 首先来看一下最简单的版本,写出这个版本就意味着 阅读全文
posted @ 2020-04-28 01:26 顾鹏pen 阅读(337) 评论(0) 推荐(0) 编辑
摘要: 1. 整体架构 2. Standalone cluster 模式 3. Driver的运行流程 阅读全文
posted @ 2020-03-31 13:41 顾鹏pen 阅读(864) 评论(0) 推荐(0) 编辑
摘要: 主要有两种方法吧,调用函数的就不用讲了,面试可能会被打。。。主要还是两个经典的算法,一个堆排序,一个是快排的升级版本:快速选择的方法。 快速选择法 第一种是快速选择的方法,利用的是快速排序中将分区分成两个部分,那么如果左边分区长度大于K,就可以缩小范围,如果左边分区小于K,那么只要在右边的分区中找出 阅读全文
posted @ 2020-03-20 20:48 顾鹏pen 阅读(429) 评论(0) 推荐(0) 编辑
摘要: 什么是时序数据 时序数据是指时间序列数据。时间序列数据是同一指标按时间顺序记录的数据列。在同一数据列中的各个数据必须是同类的,要求具有可比性。简单的来说,就是按照时间为索引的数据列。 如何使用时序数据 对时间序列分析的目的是通过找出样本内时间序列的统计特性和发展规律性,基于规律构建时间序列模型,进行 阅读全文
posted @ 2020-02-26 19:46 顾鹏pen 阅读(5692) 评论(0) 推荐(0) 编辑
摘要: 今天尝试Redis的分布式锁,因为没有分布式环境,使用多线程来代替,但是在使用多线程的时候,总是会有 redis.clients.jedis.exceptions.JedisConnectionException: java.net.SocketException: Socket closed或者 阅读全文
posted @ 2020-02-21 18:22 顾鹏pen 阅读(7815) 评论(5) 推荐(0) 编辑
摘要: 1. SparkSql如何自定义函数 2. 示例:Average 3. 类型安全的自定义函数 1. SparkSql如何自定义函数? spark中我们定义一个函数,需要继承 UserDefinedAggregateFunction这个抽象类,实现这个抽象类中所定义的方法,这是一个模板设计模式? 我只 阅读全文
posted @ 2020-02-04 22:46 顾鹏pen 阅读(1283) 评论(0) 推荐(0) 编辑
摘要: 1.Observable 类 这个类的主要作用是设计我们需要的观察值,和获取观察值的函数 public interface Observable { /** * 这里是写需要观察的变量和对于提取需要的观察函数。 */ enum Cycle{ STARTED,RUNNING,DONE,ERROR } 阅读全文
posted @ 2020-01-21 13:58 顾鹏pen 阅读(803) 评论(0) 推荐(0) 编辑