随笔分类 - 吴恩达机器学习入门
记录一些难点的解读和公式证明。
摘要:batch 深度学习的优化算法,说白了就是梯度下降。每次的参数更新有两种方式。 第一种,遍历全部数据集算一次损失函数,然后算函数对各个参数的梯度,更新梯度。这种方法每更新一次参数都要把数据集里的所有样本都看一遍,计算量开销大,计算速度慢,不支持在线学习,这称为Batch gradient desce
阅读全文
摘要:Collaborative filtering 的原理不是很理解? xi 是每一步电影的特征向量,表示浪漫/动作
阅读全文
摘要:1.Bias vs. Variance是什么概念? 图形上的理解:https://www.zhihu.com/question/27068705 http://blog.csdn.net/huruzun/article/details/41457433 直观上的定义: Error due to Bi
阅读全文
摘要:1.这个neural network 的costfunction 看起来很复杂,其实把连加化简,就是上面的普通代价函数在神经网络的应用,只不过把每一层都加起来了。 为什么要初始化θ值? 后向传播涉及的公式的推导,把这些公式独立推导? 编程过程中的完整矩阵变换怎么变换的?
阅读全文
摘要:为什么θ的维度是Sj+1*(Sj+1)? 课堂PPT没有两层单元个数不同的状态,故举一个例子就知道了 Example: If layer 1 has 2 input nodes and layer 2 has 4 activation nodes. Dimension of Θ(1) is goin
阅读全文
摘要:难点1:X和theta的维度变化,怎么变得,为什么? X加了一列1,θ加了一行θ0,因为最后边界是θ0+θ1X1+θ2X2,要符合矩阵运算 难点2:costFunction中grad是什么函数,有什么作用? w.r.t 什么意思? 难点3:linear regression的代价函数和logisti
阅读全文

浙公网安备 33010602011771号