04 2025 档案

4/21-阴郁一整天的天气就像我的毕设进度一样（但反而有了点思路？）

摘要：今天先写了个随笔复习了一下attention，转头看了点kv cache、MLA，发现这些只能用在推理过程中，但我做的是个encoder-only结构的模型，完全用不到毕设上。转头看看参考的论文，只能说惨不忍睹。在学完transformer、加强MLP的理解后论文看起来轻松很多——发现作者用了半个阅读全文

posted @ 2025-04-22 14:17 fwq27 阅读(21) 评论(0) 推荐(0)

毕设随记：从注意力机制到 BERT 的学习

摘要：毕设随记：从注意力机制到 BERT 的学习之路一、毕设进展与学习契机最近跑完了毕设的 baseline，对代码层面的理解有了一定提升。下一步计划进行模型改进，目前仅尝试增加了 PGD 模块，尚未完成跑测。由于对其他改进方向暂无头绪，决定先深入研究相关理论 —— 毕竟要优化模型，需先理解其内部运行阅读全文

posted @ 2025-04-19 14:13 fwq27 阅读(32) 评论(0) 推荐(0)

04 2025 档案

公告