随笔分类 - 深度学习

损失函数

摘要：MSE 均方差（Mean squared error，MSE），是真实值与预测值的差值的平方然后求和平均。该指标计算的是拟合数据和原始数据对应样本点的误差的平方和的均值，其值越小说明拟合效果越好 \[MSE=\frac{1}{N}\sum_{i=1}^N(f(x_i)-y_i)^2 \]RMSE 均阅读全文

posted @ 2024-09-20 18:29 Un-Defined 阅读(211) 评论(0) 推荐(0)

推荐

摘要：粗排精排粗排和精排的一致性参考资料：https://www.zhihu.com/question/554471691/answer/3175633203 具体而言，精排模型的训练样本来自于曝光、点击等行为日志。在推荐场景下，能够得到曝光的物品是经过了召回、粗排之后，并且经过了线上的精排模型筛选阅读全文

posted @ 2024-08-27 09:09 Un-Defined 阅读(668) 评论(0) 推荐(0)

BatchNorm & LayerNorm

摘要：BatchNorm & LayerNorm 目录BatchNorm & LayerNormBatchNorm过程LayerNorm协变量漂移协变量漂移梯度消失 Normalization作用： 1.缓解内部协变量偏移。在深度神经网络中，随着网络层数的加深，每一层的参数更新都可能导致后续层的输入分布阅读全文

posted @ 2024-08-27 09:07 Un-Defined 阅读(1631) 评论(1) 推荐(0)

优化器

摘要：优化器目录优化器SGDAdagradAdadeltaRMSpropAdamAdamW SGD 随机梯度下降问题：训练轨迹会呈现锯齿状，这无疑会大大延长训练时间。同时，由于存在摆动现象，学习率只能设置的较小，才不会因为步伐太大而偏离最小值。 Momentum：将一段时间内的梯度向量进行了加权平均，阅读全文

posted @ 2024-08-27 09:06 Un-Defined 阅读(43) 评论(0) 推荐(0)

Transformer

摘要：Transformer八股目录Transformer八股Self-Attention 的注意力分数计算公式为什么要进行scaling？为什么是 \(\sqrt{d_k}\)？Position EmbeddingTransformer位置编码的性质 Self-Attention 的注意力分数计算公式阅读全文

posted @ 2024-08-27 09:06 Un-Defined 阅读(60) 评论(0) 推荐(0)

Dropout

摘要：Dropout 目录Dropout平衡训练和测试差异实现代码在回归任务中，用dropout的效果不好 Dropout 是在训练过程中已一定概率使神经元失活，即输出为 0，能提高模型的泛化能力，减少过拟合平衡训练和测试差异在测试阶段，Dropout 会被关闭。为了保持训练阶段和测试阶段的输出期望阅读全文

posted @ 2024-08-27 09:06 Un-Defined 阅读(256) 评论(0) 推荐(0)

[论文阅读] Domain Agnostic Learning with Disentangled Representations

摘要：Domain Agnostic Learning with Disentangled Representations 1. Introduction 本文研究了领域不可知论学习(DAL)，这是一个比较困难但实际的问题，即知识从一个标记的源领域转移到多个未标记的目标领域。领域不可知学习的主要挑战是:( 阅读全文

posted @ 2024-04-04 14:59 Un-Defined 阅读(579) 评论(0) 推荐(0)

[论文阅读] Domain generalization by learning and removing domain-specific features

摘要：1 Introduction 最近的研究发现，DNNs倾向于以与人类不同的方式学习决策规则 [17, 21, 16]。例如，在基于ImageNet的图像分类任务中，卷积神经网络（CNNs）倾向于学习局部纹理以区分对象，而我们人类则可能使用全局对象形状的知识作为线索。DNNs学到的特征可能只属于特定的阅读全文

posted @ 2024-04-03 19:43 Un-Defined 阅读(300) 评论(0) 推荐(0)

[论文阅读] Patient subtyping via time-aware LSTM networks

摘要：Patient Subtyping via Time-Aware LSTM Networks 3.1.2 Time-Aware LSTM (T-LSTM). T-LSTM 被提出，以将经过时间的信息纳入标准 LSTM 架构中，从而能够捕捉具有时间不规则性的序列数据的时间动态。所提出的 T-LSTM 阅读全文

posted @ 2024-03-05 21:31 Un-Defined 阅读(533) 评论(0) 推荐(0)

[论文阅读] Anomaly detection with domain adaptation

摘要：Anomaly detection with domain adaptation 3. Methodology Problem Statement 我们研究了在领域适应设置中的半监督异常检测问题。在训练阶段，学习算法可以访问 \(n\) 个数据点 \(\left\{\left(\boldsymbol 阅读全文

posted @ 2024-01-18 21:15 Un-Defined 阅读(100) 评论(0) 推荐(0)

[论文阅读 ] Domain generalization via feature variation decorrelation

摘要：Domain generalization via feature variation decorrelation 3 METHOD 在本节中，我们首先在第3.2节解释我们的动机。然后，在第3.3节中，我们介绍特征变化的解缠和讨论方差转移的想法。最后，在第3.4节中，我们提出了我们的新颖特征变化解相阅读全文

posted @ 2024-01-14 11:44 Un-Defined 阅读(177) 评论(0) 推荐(0)

[论文阅读] A unified model for multi-class anomaly detection

摘要：A unified model for multi-class anomaly detection 1 Introduction 现有方法[6, 11, 25, 27, 48, 49, 52]建议为不同类别的对象训练单独的模型，就像图1c中的情况一样。然而，这种一类一模型的方案可能会消耗大量内存，尤阅读全文

posted @ 2023-12-11 11:31 Un-Defined 阅读(805) 评论(0) 推荐(0)

[论文阅读] Mean-Shifted Contrastive Loss for Anomaly Detection

摘要：Mean-Shifted Contrastive Loss for Anomaly Detection Abstract 这篇文章探讨了异常检测领域的一个关键问题，即如何通过使用预训练特征来提高异常检测性能。研究者首先介绍了异常检测的背景和现有方法，指出了使用自监督学习和外部数据集预训练特征的潜力。阅读全文

posted @ 2023-11-04 14:26 Un-Defined 阅读(553) 评论(0) 推荐(0)

[论文阅读] PCL: Proxy-based Contrastive Learning for Domain Generalization

摘要：PCL: Proxy-based Contrastive Learning for Domain Generalization abstract 领域泛化是指从不同源领域的集合中训练模型，该模型可以直接泛化到未见过的目标领域的问题。一种有前途的解决方案是对比学习，它试图通过利用不同领域之间的样本对之阅读全文

posted @ 2023-10-25 11:31 Un-Defined 阅读(646) 评论(0) 推荐(0)

[论文阅读] Generalizing to Unseen Domains: A Survey on Domain Generalization

摘要：Generalizing to Unseen Domains: A Survey on Domain Generalization 代码地址：https://github.com/jindongwang/transferlearning/tree/master/code/DeepDG I. Intr 阅读全文

posted @ 2023-10-20 19:07 Un-Defined 阅读(1208) 评论(0) 推荐(1)

[论文阅读] Exact Feature Distribution Matching for Arbitrary Style Transfer and Domain Generalization

摘要：Exact Feature Distribution Matching for Arbitrary Style Transfer and Domain Generalization 论文源码：https://github.com/YBZh/EFDM 1. Introduction 传统的特征分布匹配阅读全文

posted @ 2023-10-16 20:01 Un-Defined 阅读(348) 评论(0) 推荐(0)

论文阅读汇总

摘要：devnet \[dev(x)=\frac{\phi(x;\Theta) - \mu_\mathcal{R}}{\sigma_\mathcal{R}}\\ L(\phi(x;\Theta),\mu_\mathcal{R},\sigma_\mathcal{R})=(1-y)|dev(x)|+y\max 阅读全文

posted @ 2023-10-10 11:14 Un-Defined 阅读(154) 评论(0) 推荐(0)

[论文阅读] Anomaly Detection under Distribution Shift

摘要：Anomaly Detection under Distribution Shift 1 Introduction 如图1中所示的示例数据所示， in-distribution（ID）测试数据中的正常样本与正常训练数据非常相似，而ID中的异常样本与正常数据差异很大；然而，由于分布转移，OOD测试数据阅读全文

posted @ 2023-09-26 19:23 Un-Defined 阅读(548) 评论(0) 推荐(0)

[论文阅读] Anomaly detection via reverse distillation from one-class embedding

摘要：Anomaly detection via reverse distillation from one-class embedding Introduction 在知识蒸馏（KD）中，知识是在教师-学生（T-S）对中传递的。在无监督异常检测的背景下，由于学生在训练过程中只接触到正常样本，所以当查询是阅读全文

posted @ 2023-09-26 10:48 Un-Defined 阅读(1342) 评论(0) 推荐(0)

[论文阅读] Anomaly Detection with Score Distribution Discrimination

摘要：Anomaly Detection with Score Distribution Discrimination 1 Introduction 如图1所示。Fig 1a~1c。这些方法基于学习到的输入数据的特征转换（如重构误差或embedding距离），生成异常分数。然而，在表示空间中的优化会导致数阅读全文

posted @ 2023-09-12 19:12 Un-Defined 阅读(481) 评论(0) 推荐(0)