04 2025 档案
摘要:今天先写了个随笔复习了一下attention,转头看了点kv cache、MLA,发现这些只能用在推理过程中,但我做的是个encoder-only结构的模型,完全用不到毕设上。 转头看看参考的论文,只能说惨不忍睹。在学完transformer、加强MLP的理解后论文看起来轻松很多——发现作者用了半个
阅读全文
摘要:毕设随记:从注意力机制到 BERT 的学习之路 一、毕设进展与学习契机 最近跑完了毕设的 baseline,对代码层面的理解有了一定提升。下一步计划进行模型改进,目前仅尝试增加了 PGD 模块,尚未完成跑测。由于对其他改进方向暂无头绪,决定先深入研究相关理论 —— 毕竟要优化模型,需先理解其内部运行
阅读全文
浙公网安备 33010602011771号