摘要: 特征选择是特征工程中的重要一环,其主要目的是从所有特征中选出相关特征 ( relevant feature ),或者说在不引起重要信息丢失的前提下去除掉无关特征 ( irrelevant feature ) 和冗余特征 ( redundant feature )。进行特征选择的好处主要有以下几种: 阅读全文
posted @ 2019-03-08 06:45 massquantity 阅读(22948) 评论(2) 推荐(11) 编辑
摘要: Python 界有条不成文的准则: 计算密集型任务适合多进程,IO 密集型任务适合多线程。本篇来作个比较。 通常来说多线程相对于多进程有优势,因为创建一个进程开销比较大,然而因为在 python 中有 GIL 这把大锁的存在,导致执行计算密集型任务时多线程实际只能是单线程。而且由于线程之间切换的开销 阅读全文
posted @ 2019-02-09 19:38 massquantity 阅读(11293) 评论(1) 推荐(6) 编辑
摘要: 循环神经网络 (Recurrent Neural Network,RNN) 是一类具有短期记忆能力的神经网络,因而常用于序列建模。本篇先总结 RNN 的基本概念,以及其训练中时常遇到梯度爆炸和梯度消失问题,再引出 RNN 的两个主流变种 —— LSTM 和 GRU。 Vanilla RNN Vani 阅读全文
posted @ 2019-02-04 23:55 massquantity 阅读(1400) 评论(0) 推荐(0) 编辑
摘要: 机器学习中超参数搜索的常用方法为 Grid Search,然而如果参数一多则容易碰到维数诅咒的问题,即参数之间的组合呈指数增长。如果有 $m$ 个参数,每个有 $n$ 个取值,则时间复杂度为 $\Theta(n^m)$。 Bengio 等人在 " 《Random Search for Hyper P 阅读全文
posted @ 2019-01-21 20:14 massquantity 阅读(1936) 评论(0) 推荐(1) 编辑
摘要: 本篇主要收集一些平时见到的 Numpy 函数。 numpy.random.seed & numpy.random.RandomState 和 都用于生成随机数种子, 是可以直接调用的方法,而 则是一个产生随机数的容器,使用时需要创建实例对象,进而调用 "实例方法" ,如 。 随机数种子 只有一次有效 阅读全文
posted @ 2019-01-20 05:46 massquantity 阅读(2178) 评论(0) 推荐(0) 编辑
摘要: 根据本文内容用 Numpy 实现的一个前馈神经网络 https://github.com/massquantity/DNN_implementation 本篇本来是想写神经网络反向传播算法,但感觉光写这个不是很完整,所以就在前面将相关的求导内容一并补上。所谓的神经网络求导,核心是损失函数对线性输出 阅读全文
posted @ 2018-12-18 18:11 massquantity 阅读(2916) 评论(1) 推荐(3) 编辑
摘要: Spark MLlib 的官方例子里面提供的 "数据" 大部分是 libsvm 格式的。这其实是一种非常蛋疼的文件格式,和常见的二维表格形式相去甚远,下图是里面的一个例子: "完整代码" libsvm 文件的基本格式如下: label 为类别标识,index 为特征序号,value 为特征取值。如上 阅读全文
posted @ 2018-12-02 21:15 massquantity 阅读(2376) 评论(0) 推荐(0) 编辑
摘要: "集成学习之Boosting —— AdaBoost" "集成学习之Boosting —— Gradient Boosting" 集成学习之Boosting —— XGBoost Gradient Boosting 可以看做是一个总体的算法框架,起始于Friedman 的论文 "[ Greedy F 阅读全文
posted @ 2018-10-16 06:53 massquantity 阅读(4417) 评论(0) 推荐(3) 编辑
摘要: 使用深度学习进行艺术风格转换始于 Leon Gatys 等人于2015年发表的论文 "A Neural Algorithm of Artistic Style" ,为普通照片 “赋予” 名画风格。由于其看上去不明觉厉的特性,在论文发表之后迅速得到了广泛关注,此后几年各种变种如雨后春笋般冒了出来,甚至 阅读全文
posted @ 2018-09-18 18:03 massquantity 阅读(3477) 评论(5) 推荐(4) 编辑
摘要: 机器学习 类别不平衡 机器学习之类别不平衡问题 (1) —— 各种评估指标 机器学习之类别不平衡问题 (2) —— ROC和PR曲线 机器学习之类别不平衡问题 (3) —— 采样方法 集成学习 集成学习之Boosting —— AdaBoost原理 集成学习之Boosting —— AdaBoost 阅读全文
posted @ 2018-09-08 20:00 massquantity 阅读(677) 评论(0) 推荐(1) 编辑