随笔分类 - 机器学习
摘要:高级梯度下降法: 动量下降(Momentum)使用指数加权平均的概念: RMSprop 类似指数加权平均的概念: 学习率衰减:
阅读全文
摘要:为了验证BP 梯度是否有问题可以用 进行检验,对于每一个权重theta,计算 [J(theta+epsilon)-J(theta-epsilon)]/(2*epsilon),每一个结果都保存在一个矩阵里,然后同样的,将每一个theta实际的梯度按同样规则保存在矩阵里,最后求解两者的欧式距离然后和阈值
阅读全文
摘要:如果神经网络层数过多,假设每一次的W权重都是一样的且都>1,那么经过L层,则在反向传播中,往后的梯度会是指数级增长, w^L,反正如果w<1,最后梯度会一直接近于0造成梯度小时的现象 那么如何解决这个问题呢 最直接的方式就是从根源入手,如果是如图的线性激活函数g(z)=z,则尽量减少W值,此处线性关
阅读全文
摘要:批量梯度对每一个theta都要算m次,随机度只用算1次
阅读全文
摘要:协同过滤-推荐算法的一种,特点是可以自我学习合适的特征 核心思想在于同步更新权重以及特征本身 低轶矩阵分解: 如果用户没有对此object评级会出现不推荐的现象,为解决这个问题:
阅读全文
摘要:1.核心概念利用正态分布求解每一个feature的密度概率 正态分布(高斯分布): 对于每一个样本x: 设定一个threshold,其中对于样本x如果p(x)<threshold,则为异常 当正样本特别少负样本特别多(20正,10000负),此时如果用supervised learning,负样本占
阅读全文
摘要:X1-特征1:样本x1待缩放的特征数据 u1:X1-Xn(所有样本) 特征1的均值 缩放方法:(X1-特征1-u)/(max-特征1-min-特征1 or standard deviation) 好处: 1.加快梯度下降速度(等高线变得更平滑(更圆),下降更快) 2.方便降维操作 降维(Princi
阅读全文

浙公网安备 33010602011771号