11 2017 档案
摘要:本周的主题是对象检测(object detection):不但需要检测出物体(image classification),还要能定位出在图片的具体位置(classification with localization),而且要能处理图片中的多个物体(detection)。 1. 例子:无人驾驶中确定
阅读全文
摘要:1. Case study:学习经典网络的原因是它们可以被迁移到其他任务中。 1.1)几种经典的网络: a)LeNet-5(LeCun et al., 1998. Gradient-based learning applied to document recognition,NG建议重点读II部分,
阅读全文
摘要:1. 传统的边缘检测(比如Sobel)手工设计了3*3的filter(或者叫kernel)的9个权重,在深度学习中,这9个权重都是学习出来的参数,会比手工设计的filter更好,不但可以提取90度、0度的边缘,也可以提取出任意朝向的边缘(比如73度)。把这9个权重当成参数的思想已经成为计算机视觉中最
阅读全文
摘要:1. 误差分析(Error analysis) 误差分析的目的是找到不同误差源的比重,从而指引我们接下来往哪个方向努力改进。NG建议手工统计随机100个错误的误差源,比如对于猫分类器,错误的照片可能是1)狗;2)大型猫科动物;3)图像模糊。那么可以建立下面的表格: 在统计过程中发现新的误差源,则添一
阅读全文
摘要:这门课是讲一些分析机器学习问题的方法,如何更快速高效的优化机器学习系统,以及NG自己的工程经验和教训。 1. 正交化(Othogonalization) 设计机器学习系统时需要面对一个问题是:可以尝试和改变的东西太多太多了。牛逼的机器学习专家很清楚自己要调什么以达到什么目的,这个调参和效果一一对应的
阅读全文
摘要:这一周的主体是调参。 1. 超参数:No. 1最重要,No. 2其次,No. 3其次次。 No. 1学习率α:最重要的参数。在log取值空间随机采样。例如取值范围是[0.001, 1],r = -4*np.random.rand(), α = 10r。 No. 2 Momentum β:0.9是个不
阅读全文
摘要:这一周的主题是优化算法。 1. Mini-batch: 上一门课讨论的向量化的目的是去掉for循环加速优化计算,X = [x(1) x(2) x(3) ... x(m)],X的每一个列向量x(i)是一个样本,m是样本个数。但当样本很多时(比如m=500万),向量化依然不能解决问题。所以提出了mini
阅读全文
摘要:1. 应用机器学习是高度依赖迭代尝试的,不要指望一蹴而就,必须不断调参数看结果,根据结果再继续调参数。 2. 数据集分成训练集(training set)、验证集(validation/development set)、测试集(test set)。 对于传统的机器学习算法,数据量(比如100、100
阅读全文
摘要:1. CPU vs. GPU: CPU核心少(几个),更擅长串行任务。GPU有很多核心(几千个),每一个核都弱,有自己的内存(几个G),很适合并行任务。GPU最典型的应用是矩阵运算。 GPU编程:1)CUDA,只能在英伟达;2)OpenCL类似CUDA,好处是可以跑在任何平台上,但相对慢一些。深度学
阅读全文
摘要:1. 优化: 1.1 随机梯度下降法(Stochasitc Gradient Decent, SGD)的问题: 1)对于condition number(Hessian矩阵最大和最小的奇异值的比值)很大的loss function,一个方向梯度变化明显,另一个方向梯度变化很缓慢,SGD在优化过程中会
阅读全文
摘要:1. 激活函数: 1)Sigmoid,σ(x)=1/(1+e-x)。把输出压缩在(0,1)之间。几个问题:(a)x比较大或者比较小(比如10,-10),sigmoid的曲线很平缓,导数为0,在用链式法则的时候,后一层传回来的导数乘以sigmoid的导数也是0了,换句话说,对于sigmoid饱和的区域
阅读全文
摘要:本文使根据CS231n的讲义整理而成(http://cs231n.github.io/python-numpy-tutorial/),以下内容基于Python3。 1. 基本数据类型:可以用 print(type(x)) 查看类型 1)整数、浮点数: 幂:x**y等价于pow(x, y); 不支持
阅读全文
浙公网安备 33010602011771号