随笔分类 - 机器学习基础知识

我大哥是CPU，我小弟是GPU

摘要：GPU VS CPU CPU 是老大哥，一个顶多个，啥事都能干。 GPU 是小弟们，老大让干啥干啥，小弟兄弟多，一次能处理很多，专门且只干这一件事（浮点运算）。就好像一个博士带领了一堆学生，博士知道应该先干什么，后干什么。把计算都扔给小弟去。小弟不需要知道这个数为什么算，算就对了。阅读全文

posted @ 2021-10-24 20:48 nuo-o 阅读(60) 评论(0) 推荐(0)

推荐：分布式深度学习

摘要：资料 https://zhuanlan.zhihu.com/p/50116885 https://zhuanlan.zhihu.com/p/30976469 https://levinehuang.github.io/deep-learning/ai/2018/11/20/Large_Distrib 阅读全文

posted @ 2021-08-31 16:11 nuo-o 阅读(53) 评论(0) 推荐(0)

基石1：loss function

摘要：损失函数就是评估预测值和真实值的差距。分类：经验损失（所有样本上的平均值，所以是经验），结构损失（在经验损失的基础上添加正则项）常见分类 a. 0-1 loss 非黑即白，正确就是 loss=0，错误就是 loss = 1。有点过于严苛，所以 svm 放松到一定距离。由于是非凸函数，不适用阅读全文

posted @ 2021-04-14 11:47 nuo-o 阅读(84) 评论(0) 推荐(0)

样本不均衡

摘要：危害从样本量悬殊的角度考虑 loss_function 通常都是正负例 loss 的求和，那么一旦一方样本数居多，loss就偏向于一方的loss，说明就在学习负例。造成最终结果不正确。从易分类的角度一定有些样本是特别易分类的，一旦这些样本量多起来，就对 loss 贡献不容小觑了。造成最终模型阅读全文

posted @ 2021-04-07 15:59 nuo-o 阅读(125) 评论(0) 推荐(0)

增量训练过于牛逼

摘要：发现我司online learning 模式好像真的蛮牛逼的，许多公司都是 daily 全量更新或者增量更新。 1. 推荐系统模型上线3部曲 offline 用7天数据，训练 base, exp 两个模型。用第八天的近接着的一个小时数据来测试，比较 user_auc。如果有提升，用一个月的数据训练一阅读全文

posted @ 2021-02-28 20:39 nuo-o 阅读(584) 评论(0) 推荐(0)

如何解决过拟合

摘要：什么是过拟合就是模型过于复杂在训练集合上过度拟合随着模型越来越复杂，在 test set 上面的 error 会呈现先下降后上升的趋势。造成在 training set 上的表现比 test set 上面好。解决思路简化模型减少特征减小参数正则化 dropout 减小参数的意义：阅读全文

posted @ 2021-02-23 07:19 nuo-o 阅读(372) 评论(0) 推荐(1)