随笔分类 -  机器学习基础知识

摘要:GPU VS CPU CPU 是老大哥,一个顶多个,啥事都能干。 GPU 是小弟们,老大让干啥干啥,小弟兄弟多,一次能处理很多,专门且只干这一件事(浮点运算)。 就好像一个博士带领了一堆学生,博士知道应该先干什么,后干什么。把计算都扔给小弟去。小弟不需要知道这个数为什么算,算就对了。 阅读全文
posted @ 2021-10-24 20:48 nuo-o 阅读(60) 评论(0) 推荐(0)
摘要:资料 https://zhuanlan.zhihu.com/p/50116885 https://zhuanlan.zhihu.com/p/30976469 https://levinehuang.github.io/deep-learning/ai/2018/11/20/Large_Distrib 阅读全文
posted @ 2021-08-31 16:11 nuo-o 阅读(53) 评论(0) 推荐(0)
摘要:损失函数就是评估预测值和真实值的差距。 分类:经验损失(所有样本上的平均值,所以是经验),结构损失(在经验损失的基础上添加正则项) 常见分类 a. 0-1 loss 非黑即白,正确就是 loss=0,错误就是 loss = 1。 有点过于严苛,所以 svm 放松到一定距离。 由于是非凸函数,不适用 阅读全文
posted @ 2021-04-14 11:47 nuo-o 阅读(84) 评论(0) 推荐(0)
摘要:危害 从样本量悬殊的角度 考虑 loss_function 通常都是正负例 loss 的求和,那么一旦一方样本数居多,loss就偏向于一方的loss,说明就在学习负例。造成最终结果不正确。 从易分类的角度 一定有些样本是特别易分类的,一旦这些样本量多起来,就对 loss 贡献不容小觑了。造成最终模型 阅读全文
posted @ 2021-04-07 15:59 nuo-o 阅读(125) 评论(0) 推荐(0)
摘要:发现我司online learning 模式好像真的蛮牛逼的,许多公司都是 daily 全量更新或者增量更新。 1. 推荐系统模型上线3部曲 offline 用7天数据,训练 base, exp 两个模型。用第八天的近接着的一个小时数据来测试,比较 user_auc。如果有提升,用一个月的数据训练一 阅读全文
posted @ 2021-02-28 20:39 nuo-o 阅读(584) 评论(0) 推荐(0)
摘要:什么是过拟合 就是模型过于复杂 在训练集合上过度拟合 随着模型越来越复杂,在 test set 上面的 error 会呈现先下降后上升的趋势。 造成在 training set 上的表现比 test set 上面好。 解决思路 简化模型 减少特征 减小参数 正则化 dropout 减小参数的意义: 阅读全文
posted @ 2021-02-23 07:19 nuo-o 阅读(372) 评论(0) 推荐(1)