摘要: 1. 基本算法 1.1 随机梯度下降 1.2 动量算法 1.3 nesterov动量算法 2. 自适应学习率算法 2.1 AdaGrad 2.2 RMSProp 2.3 Adam 1.1 随机梯度下降 从数据集中随机抽取m个小批量样本(满足样本独立同分布),这样对每一个样本计算前馈损失,然后用前馈损 阅读全文
posted @ 2020-04-01 23:51 MO_JOJOJO 阅读(549) 评论(0) 推荐(0)
摘要: 深度学习在训练模型的时候,通常使用迭代优化算法来搜寻代价函数的极小值。初始值对算法影响的方面:1.影响优化算法是否收敛,有的初始点的选择会造成数值问题(梯度消失);2.影响算法的收敛速度;3.影响算法收敛于高代价或低代价的极值点4.收敛于相同代价值的不同初始点,很可能学习出不同的参数分布,在泛化能力 阅读全文
posted @ 2020-04-01 20:54 MO_JOJOJO 阅读(1809) 评论(0) 推荐(0)
摘要: 软件名称:Mathpix Snipping Tool 费用:免费 方式:图片识别 适用对象:手写体、印刷体 转换结果:Latex格式 下载链接:https://mathpix.com/ (官方版)(试用50次)(可用不同邮箱注册多个账号,或推广产品赚取免费次数) 生成的latex代码: \hat{g 阅读全文
posted @ 2020-04-01 15:18 MO_JOJOJO 阅读(1390) 评论(0) 推荐(0)
摘要: 硕士阶段做过用户聚类,聚类变量包括连续型和分类型。将连续型聚类变量的尺度放缩到 [0,1] 之间,分类型变量one-hot转化,然后聚类。你会发现问题:最后你在计算聚类中心的数值时,分类型变量在各个聚类中心间的差异较大,而连续型的变量差异较小。 为了弄明白原因,我进一步展开实验:首先,我用方差来量化 阅读全文
posted @ 2020-04-01 11:54 MO_JOJOJO 阅读(737) 评论(0) 推荐(0)
摘要: 1.优化时间算法复杂度2.减少冗余数据3.合理使用copy和deepcopy4.合理使用生成器(generator)和(yield)5.优化循环 循环之外能做的事不要放在循环内6.优化包含多个判断表达式的顺序,对于and,应该把瞒住条减少的放在前面,对于or,把满足条件多的挡在前面7.判断过程中尽量 阅读全文
posted @ 2020-04-01 10:35 MO_JOJOJO 阅读(429) 评论(0) 推荐(0)