NTU ML2023Spring Part3.4 Self Attention

License: CC BY-NC-SA 4.0

我真傻，真的。我是单知道 Google colab 有 GPU，不知道 Kaggle 认证完手机号也有 GPU，而且给的比 colab 多多了。终于不用在我的旧手机上炼丹了。

这一部分因为 ml2023 作业 sample code 的链接失效了，所以做的是 ml2022 的相应作业。

先是试着把 Classifier 里的 d_model 和 encoder_layer 中 nhead 调大，但训了一下发现没什么改进。

再抱着力大砖飞的想法给 pred_layer 里加了一层线性层（听说这里 2023 版本的激活函数变成 sigmoid 了，要想优化还要手动调成 ReLU）。结果反而更差了。

心态有点崩，于是上 B 站搜索了相关的视频讲解。发现把 Dataset 里的 segment_len 增大就能跑到 acc 0.76，差点就能上 strong baseline 了。

后面的 conformer 什么的先不写了（咕）。

posted @ 2025-01-29 17:13 383494 阅读(16) 评论(0) 收藏举报

刷新页面返回顶部

x383494