01 2019 档案

matplotlib 与 seaborn 中出现中文乱码的解决方法
摘要:参考的这篇 "文章" ,但是并不是完全按照其中的做法。 我的做法: 1. 将 拷贝到 下 2. 代码环境设置 阅读全文

posted @ 2019-01-23 10:15 Frank_Allen 阅读(249) 评论(0) 推荐(1)

开源书籍汇总
摘要:这篇博客汇总所有开源的书籍 "开源电子书集合@github.com" "Interpretable Machine Learning A Guide for Making Black Box Models Explainable" 开源书籍(很多是关于R语言的) https://bookdown.o 阅读全文

posted @ 2019-01-16 23:19 Frank_Allen 阅读(618) 评论(0) 推荐(0)

The 10 Statistical Techniques Data Scientists Need to Master
摘要:"原文" 就我个人所知有太多的软件工程师尝试转行到数据科学家而盲目地使用机器学习框架来处理数据,例如,TensorFlow或者Apache Spark,但是对于这些框架背后的统计理论没有完全的理解。所以提起 statistical learning,这是机器学习的理论框架,是从统计学和泛函分析(fu 阅读全文

posted @ 2019-01-16 22:44 Frank_Allen 阅读(211) 评论(0) 推荐(0)

sklearn.model_selection Part 2: Model validation
摘要:1. check_cv() 阅读源代码要抓主干,所以我把细枝末节的代码注释掉了。 2. cross_validate() 这个函数的代码有点复杂,讲解其他有用的代码。 从 "这里" 可以找到 scoring的名字对应的函数 注意 : 得分函数(score function)是返回的值越高越好,而损失 阅读全文

posted @ 2019-01-16 17:21 Frank_Allen 阅读(266) 评论(0) 推荐(0)

sklearn.model_selection Part 1: Splitter Classes
摘要:1. GroupKFold(_BaseKFold) 主要参数: n_splits : int, default=3 在GroupKFold.split(X[, y, groups])中会调用下面的方法 总结 : GroupKFold是没有随机性参数的,也就是样本的groups确定后,每一折包含那些样 阅读全文

posted @ 2019-01-16 15:09 Frank_Allen 阅读(478) 评论(0) 推荐(0)

Feature Engineering and Feature Selection
摘要:首先,弄清楚三个相似但是不同的任务: feature extraction and feature engineering : 将原始数据转换为特征,以适合建模。 feature transformation : 对数据的转换以提高算法的精度。 feature selection : 删除不必要的特 阅读全文

posted @ 2019-01-15 14:27 Frank_Allen 阅读(501) 评论(0) 推荐(0)

EDA cheat sheet
摘要:%config InlineBackend.figure_format = 'svg' 在jupyter notebook中使用这个命令绘制更清晰的图像,注意百分号后不能有空格。 1. Univariate visualization 单变量分析每次查看一个特征。当我们独立地分析一个特征时,我们通常 阅读全文

posted @ 2019-01-14 20:17 Frank_Allen 阅读(278) 评论(0) 推荐(0)

numpy.bincount()
摘要:"numpy.bincount详解" numpy.bincount(x, weights=None,minlength=0) 参数中要求x是一个array_like,一维的并且包含非负整数。 可以看到np.bincount(x)的元素个数比起x中的最大值10大1。bincount=np.bincou 阅读全文

posted @ 2019-01-13 17:26 Frank_Allen 阅读(277) 评论(0) 推荐(0)

非负矩阵分解的两种方法简析
摘要:一、使用非负最小二乘法 "Non negative matrix factorisation using non negative least squares" 问题 给定一个矩阵$A$,将其分解成两个非负的因子: $$ A_{M \times N} \approx W_{M \times K} \ 阅读全文

posted @ 2019-01-13 15:35 Frank_Allen 阅读(2748) 评论(0) 推荐(0)

Python列表解析和字典解析
摘要:"python笔记_列表解析" 相比于for循环,列表解析的语法是由底层c语言实现的,它和使用for循环遍历pyobject对象相比,性能会有很大的提升。 无条件子句的列表解析式 带条件子句的列表解析式 注意:当条件子句在for前时必须带上else,此时else表示不符合if条件时列表元素的取值;当 阅读全文

posted @ 2019-01-12 23:30 Frank_Allen 阅读(5078) 评论(0) 推荐(1)

Pandas使用groupby()时是否会保留顺序?
摘要:"PythonPandas:使用groupby()和agg()时是否保留了顺序?" 看到这个增强 "问题" 简短的答案是肯定的,groupby会保留传入的顺序。你可以用你的例子来证明这一点: 顺便提一句,如果要安全的获得组的第二个值,可以使用 。 阅读全文

posted @ 2019-01-12 20:26 Frank_Allen 阅读(2910) 评论(0) 推荐(0)

Reduce pandas memory size
摘要:有关pandas存储的理论 "简单又实用的pandas技巧:如何将内存占用降低90%" 代码 "Reducing DataFrame memory size by ~65% " 上篇的改进 "缓解pandas中DataFrame占用内存过大的问题" 阅读全文

posted @ 2019-01-12 09:54 Frank_Allen 阅读(283) 评论(0) 推荐(0)

Understanding the Transform Function in Pandas
摘要:Understanding the Transform Function in Pandas "来源" What is transform? 我在 "Python Data Science Handbook" 的书中找到了关于这个话题的说明。正如书中所描述的,transform 是一个和groupb 阅读全文

posted @ 2019-01-09 14:17 Frank_Allen 阅读(333) 评论(0) 推荐(0)

What’s up with the Graph Laplacian
摘要:What’s up with the Graph Laplacian? "来源" 作者:Jeremy Kun blog: "Math ∩ Programming" 在数学上图和与图关联的某些矩阵的代数性质有很深的联系。 这儿有一个这种现象的最简单的例子。一个无向图$G=(V,E)$ 并且$A=(a_ 阅读全文

posted @ 2019-01-07 18:45 Frank_Allen 阅读(1241) 评论(0) 推荐(0)

如何在github上下载单个文件夹
摘要:"如何在github上下载单个文件夹?用git就可以呀" "Git只获取部分目录的内容(稀疏检出)" 阅读全文

posted @ 2019-01-02 23:58 Frank_Allen 阅读(232) 评论(0) 推荐(0)

导航