随笔分类 -  机器学习

摘要:BN,LN,IN,GN从学术化上解释差异: BatchNorm:batch方向做归一化,算NHW的均值,对小batchsize效果不好;BN主要缺点是对batchsize的大小比较敏感,由于每次计算均值和方差是在一个batch上,所以如果batchsize太小,则计算的均值、方差不足以代表整个数据分 阅读全文
posted @ 2020-08-28 16:48 littlepai 阅读(923) 评论(0) 推荐(0)
摘要:参考:https://zhuanlan.zhihu.com/p/40236865 faiss是Facebook开源的用于快速计算海量向量距离的库,但是没有提供余弦距离,而余弦距离的使用率还是很高的,那怎么解决呢 答案说在前面 knowledge_embedding = np.random.rando 阅读全文
posted @ 2019-12-31 12:47 littlepai 阅读(3957) 评论(0) 推荐(0)
摘要:正负样本比率失衡SMOTE [TOC] 背景 这几天测试天池的优惠券预测数据在dnn上面会不会比集成树有较好的效果,但是正负样本差距太大,而处理这种情况的一般有欠抽样和过抽样,这里主要讲过抽样,过抽样有一种简单的方法叫随机过抽样,但是随机过抽样只是随机的复制,很容易过拟合,所以SMOTE比较好,SM 阅读全文
posted @ 2017-12-21 17:50 littlepai 阅读(2292) 评论(0) 推荐(0)