随笔分类 -  数据科学竞赛

关于数据科学竞赛的理论,技术,工具等
NFFM的原理与代码
摘要:本篇深入分析郭大nffm的代码 TensorFlow计算图 计算图的构建 为什么没有把单项特征算进去? 阅读全文

posted @ 2019-08-06 10:16 Frank_Allen 阅读(1008) 评论(0) 推荐(0)

场感知因子分解机器的原理与代码
摘要:本篇深入分析郭大ffm的代码 TensorFlow计算图 传入数据的计算图 计算图的参数 计算图的构建 阅读全文

posted @ 2019-08-06 09:55 Frank_Allen 阅读(321) 评论(0) 推荐(0)

因子分解机原理与代码
摘要:本篇通过分析郭大的代码深入理解FM 郭大的代码中默认处理的所有的属性都是类别属性,而且只能完成二分类的任务。每个属性的每一个类别的取值都被当作成一个特征。例如在数据集中国家这个属性有中国,美国,俄罗斯,日本等取值,我们把中国,美国等国家当作是一个单独的特征,有点类似one hot编码。 参数 Ten 阅读全文

posted @ 2019-07-31 14:55 Frank_Allen 阅读(899) 评论(0) 推荐(0)

使用Python进行层次聚类
摘要:使用 scipy.cluster.hierarchy.linkage进行层次聚类 from scipy.cluster.hierarchy import dendrogram, linkage,fcluster from matplotlib import pyplot as plt X = [[i 阅读全文

posted @ 2019-06-27 14:41 Frank_Allen 阅读(1225) 评论(0) 推荐(0)

图解数据库中的join操作
摘要:1、所有的join都从cross join衍生而来 2、所有join图示 转自 "Say NO to Venn Diagrams When Explaining JOINs" 阅读全文

posted @ 2019-03-06 13:44 Frank_Allen 阅读(273) 评论(0) 推荐(0)

大佬的博客
摘要:wepon https://blog.csdn.net/u012162613 Bryan_ https://me.csdn.net/Bryan__ 机器学习计划 https://magicly.me/ml content/ 阅读全文

posted @ 2019-03-05 12:23 Frank_Allen 阅读(218) 评论(0) 推荐(0)

JSON格式标准
摘要:JSON格式 json的基本类型有objects(dicts), arrays(lists), strings, numbers, booleans, and nulls(json中关键字)。在一个object中所有的key都要是字符串。 JSON对象 一个JSON对象,无非是括在大括号内的用逗号分 阅读全文

posted @ 2019-02-28 21:34 Frank_Allen 阅读(7684) 评论(0) 推荐(1)

plt.plot() 无法使用参数ax
摘要:问题参考 "TypeError: inner() got multiple values for keyword argument 'ax'" 这时因为ax不是plt.plot()的一个有效的参数。原因是plt.plot()会调用当前活跃的axes的plot方法,和plt.gca().plot()是 阅读全文

posted @ 2019-02-20 21:08 Frank_Allen 阅读(2222) 评论(0) 推荐(1)

pandas mean 返回 inf
摘要:```python In [12]: np.finfo(np.float16).max Out[12]: 65500.0 In [15]: df['a']=np.array([656]*100) In [16]: df['a'].sum() Out[16]: 65600 In [20]: df['a'] = df['a'].astype(np.float16) In [21]: df['a'... 阅读全文

posted @ 2019-02-19 21:23 Frank_Allen 阅读(1071) 评论(0) 推荐(0)

Pandas 常用统计方法
摘要:DataFrame对象的统计方法 DataFrame对象有一些统计方法。它们大部分都属于约简和汇总统计,用于从 Series 中提取单个值,或从 DataFrame 的行或列中提取一个 Series。比如 方法,当数据集中存在 NA 值时,这些值会被简单跳过,除非整个切片(行或列)全是 NA。如果不 阅读全文

posted @ 2019-02-18 21:53 Frank_Allen 阅读(342) 评论(0) 推荐(0)

Anaconda cheat sheet
摘要:1 anaconda prompt 闪退的情况 在cmd中进入 然后可以使用各种conda命令 2 anaconda 换源 在 文件中记录设置的安装源信息 阅读全文

posted @ 2019-02-05 19:05 Frank_Allen 阅读(171) 评论(0) 推荐(0)

matplotlib 与 seaborn 中出现中文乱码的解决方法
摘要:参考的这篇 "文章" ,但是并不是完全按照其中的做法。 我的做法: 1. 将 拷贝到 下 2. 代码环境设置 阅读全文

posted @ 2019-01-23 10:15 Frank_Allen 阅读(243) 评论(0) 推荐(1)

The 10 Statistical Techniques Data Scientists Need to Master
摘要:"原文" 就我个人所知有太多的软件工程师尝试转行到数据科学家而盲目地使用机器学习框架来处理数据,例如,TensorFlow或者Apache Spark,但是对于这些框架背后的统计理论没有完全的理解。所以提起 statistical learning,这是机器学习的理论框架,是从统计学和泛函分析(fu 阅读全文

posted @ 2019-01-16 22:44 Frank_Allen 阅读(209) 评论(0) 推荐(0)

Feature Engineering and Feature Selection
摘要:首先,弄清楚三个相似但是不同的任务: feature extraction and feature engineering : 将原始数据转换为特征,以适合建模。 feature transformation : 对数据的转换以提高算法的精度。 feature selection : 删除不必要的特 阅读全文

posted @ 2019-01-15 14:27 Frank_Allen 阅读(494) 评论(0) 推荐(0)

EDA cheat sheet
摘要:%config InlineBackend.figure_format = 'svg' 在jupyter notebook中使用这个命令绘制更清晰的图像,注意百分号后不能有空格。 1. Univariate visualization 单变量分析每次查看一个特征。当我们独立地分析一个特征时,我们通常 阅读全文

posted @ 2019-01-14 20:17 Frank_Allen 阅读(272) 评论(0) 推荐(0)

numpy.bincount()
摘要:"numpy.bincount详解" numpy.bincount(x, weights=None,minlength=0) 参数中要求x是一个array_like,一维的并且包含非负整数。 可以看到np.bincount(x)的元素个数比起x中的最大值10大1。bincount=np.bincou 阅读全文

posted @ 2019-01-13 17:26 Frank_Allen 阅读(272) 评论(0) 推荐(0)

非负矩阵分解的两种方法简析
摘要:一、使用非负最小二乘法 "Non negative matrix factorisation using non negative least squares" 问题 给定一个矩阵$A$,将其分解成两个非负的因子: $$ A_{M \times N} \approx W_{M \times K} \ 阅读全文

posted @ 2019-01-13 15:35 Frank_Allen 阅读(2729) 评论(0) 推荐(0)

Pandas使用groupby()时是否会保留顺序?
摘要:"PythonPandas:使用groupby()和agg()时是否保留了顺序?" 看到这个增强 "问题" 简短的答案是肯定的,groupby会保留传入的顺序。你可以用你的例子来证明这一点: 顺便提一句,如果要安全的获得组的第二个值,可以使用 。 阅读全文

posted @ 2019-01-12 20:26 Frank_Allen 阅读(2901) 评论(0) 推荐(0)

Reduce pandas memory size
摘要:有关pandas存储的理论 "简单又实用的pandas技巧:如何将内存占用降低90%" 代码 "Reducing DataFrame memory size by ~65% " 上篇的改进 "缓解pandas中DataFrame占用内存过大的问题" 阅读全文

posted @ 2019-01-12 09:54 Frank_Allen 阅读(282) 评论(0) 推荐(0)

Understanding the Transform Function in Pandas
摘要:Understanding the Transform Function in Pandas "来源" What is transform? 我在 "Python Data Science Handbook" 的书中找到了关于这个话题的说明。正如书中所描述的,transform 是一个和groupb 阅读全文

posted @ 2019-01-09 14:17 Frank_Allen 阅读(329) 评论(0) 推荐(0)

导航