摘要:数据准备 1 计算均值 2 计算中位数 3 计算标准差 4 计算方差 5 计算两个变量之间的相关系数 6 计算两个变量之间的协方差 补充,对于NA值来说,有些计算会保存,我们需要忽略NA,加上下面的参数即可:na.rm=TRUE,例如 阅读全文
posted @ 2017-11-13 15:38 chen-kh 阅读 (255) 评论 (0) 编辑
摘要:首先一篇文章推荐:感受异或的神奇,其中介绍了什么是异或,异或的定律:恒等律,归零律,交换律,结合律,以及一些常见用法和一个算法系列。非常好! 这个算法系列指的是:已知一个数组中除了1(2,3)个数字只出现一次,其余都出现2次,如何找到这1(2,3)个数。 这个算法系列的另一种扩展是:已知一个数组中除 阅读全文
posted @ 2017-10-11 16:42 chen-kh 阅读 (379) 评论 (0) 编辑
摘要:题目: 数组 A 由 1000 万个随机正整数 (int) 组成,设计算法,给定整数 n,在 A 中找出 a 和 b,使其符合如下等式: n = a + b 解题思路: 1. 1000w个随机正整数占用空间大概38-40MB,并不是很大,但是仍需要考虑如果数量级继续增大的情况。最好找到不用把数组加载 阅读全文
posted @ 2017-10-11 11:43 chen-kh 阅读 (145) 评论 (0) 编辑
摘要:转自:关于最小生成树的一些理解 (1) 定义在一棵树里添加一条边,并在产生的圈里删除一条边叫做一次操作。(也就是说换掉一条边并且保证结果是树),则树A和B是无向图的两个生成树,则A可以通过若干次操作变成B。 证:把树看作边的集合,如果B中有一条A没有的边,则把这条边加到A上,A产生一个圈中至少有一条 阅读全文
posted @ 2017-09-01 23:38 chen-kh 阅读 (1204) 评论 (0) 编辑
摘要:如何在Pool中使用Queue,Stack Overflow的回答,戳这里 其实吧官方文档看一遍应该就大部分都懂了。 需要注意的是:在使用多进程的时候,我们的进程函数的传入参数必须是pickle-able的,也就是参数必须可以被pickle保存下来,multiprocessing.Queue对象不能 阅读全文
posted @ 2017-08-27 22:28 chen-kh 阅读 (455) 评论 (0) 编辑
摘要:推荐查看博客:python的修饰器 对于Python的这个@注解语法糖- Syntactic Sugar 来说,当你在用某个@decorator来修饰某个函数func时,如下所示: 其解释器会解释成下面这样的语句: 是的,上面这句话在真实情况下执行了。如果我们执行以下代码: 输出: 所以一般我们写修 阅读全文
posted @ 2017-08-12 21:55 chen-kh 阅读 (83) 评论 (0) 编辑
摘要:定义1:python中什么是模块? 答:模块就是一个.py文件,每一个以py作为后缀的文件,都是一个模块。 定义2:Python中什么是包? 答:包是一类特殊的模块,他能包含其他模块,为了更好的组织模块而出现,称为包。需要注意的是,希望python认为这个模块是包的话,这个模块必须包含一个名为__i 阅读全文
posted @ 2017-08-03 01:17 chen-kh 阅读 (730) 评论 (0) 编辑
摘要:从数据看select出数据后如何转换为dataframe 如何更改列名,选取列,进行groupby操作 如何对dataframe进行遍历 阅读全文
posted @ 2017-07-31 21:30 chen-kh 阅读 (315) 评论 (0) 编辑
摘要:python中可以对string, int, float等数据类型进行格式化操作。下面举例来说明一些常用操作。 先贴出 python 对 String Formatting Operations 讲解的连接,后面的例子和内容都以它为参考。 - flags '#' : '0' : 用'0'进行填充 ' 阅读全文
posted @ 2017-07-28 17:45 chen-kh 阅读 (190) 评论 (0) 编辑
摘要:pandas大家用的都很多,像我这种用的不够熟练,也不够多的就只能做做笔记,尽量留下点东西吧。 筛选行: a. 按照列的条件筛选 df = pandas.DataFrame(...) # supposing it has 3 columns: a, b and c df[(df['a'] > 0) 阅读全文
posted @ 2017-07-08 18:34 chen-kh 阅读 (22668) 评论 (0) 编辑