随笔分类 -  吴恩达机器学习入门

记录一些难点的解读和公式证明。
摘要:batch 深度学习的优化算法,说白了就是梯度下降。每次的参数更新有两种方式。 第一种,遍历全部数据集算一次损失函数,然后算函数对各个参数的梯度,更新梯度。这种方法每更新一次参数都要把数据集里的所有样本都看一遍,计算量开销大,计算速度慢,不支持在线学习,这称为Batch gradient desce 阅读全文
posted @ 2019-01-08 09:06 dgi 阅读(3679) 评论(0) 推荐(0)
摘要:Collaborative filtering 的原理不是很理解? xi 是每一步电影的特征向量,表示浪漫/动作 阅读全文
posted @ 2018-05-26 13:46 dgi 阅读(99) 评论(0) 推荐(0)
摘要:1.Bias vs. Variance是什么概念? 图形上的理解:https://www.zhihu.com/question/27068705 http://blog.csdn.net/huruzun/article/details/41457433 直观上的定义: Error due to Bi 阅读全文
posted @ 2018-03-16 17:00 dgi 阅读(200) 评论(0) 推荐(0)
摘要:1.这个neural network 的costfunction 看起来很复杂,其实把连加化简,就是上面的普通代价函数在神经网络的应用,只不过把每一层都加起来了。 为什么要初始化θ值? 后向传播涉及的公式的推导,把这些公式独立推导? 编程过程中的完整矩阵变换怎么变换的? 阅读全文
posted @ 2018-03-05 15:39 dgi 阅读(223) 评论(0) 推荐(0)
摘要:为什么θ的维度是Sj+1*(Sj+1)? 课堂PPT没有两层单元个数不同的状态,故举一个例子就知道了 Example: If layer 1 has 2 input nodes and layer 2 has 4 activation nodes. Dimension of Θ(1) is goin 阅读全文
posted @ 2018-03-01 23:01 dgi 阅读(109) 评论(0) 推荐(0)
摘要:难点1:X和theta的维度变化,怎么变得,为什么? X加了一列1,θ加了一行θ0,因为最后边界是θ0+θ1X1+θ2X2,要符合矩阵运算 难点2:costFunction中grad是什么函数,有什么作用? w.r.t 什么意思? 难点3:linear regression的代价函数和logisti 阅读全文
posted @ 2018-02-25 16:34 dgi 阅读(499) 评论(0) 推荐(0)