摘要: 这篇文章的贡献主要分为三点: 对llama2中的参数逐一尝试移除(将其手动赋值为0),尝试检验了每个参数对于大模型多语言能力的重要性。结果显示,只需要移除3%的参数,大模型就会严重失去语言能力(PPL相对随机移除暴增)。这个感觉倒是很符合直觉……二八定律是自然界的固有法则; 用同样的手段,他们还定位 阅读全文
posted @ 2025-07-09 15:23 斯诺依·奈特 阅读(1) 评论(0) 推荐(0)
摘要: 这可真是个老东西(没有骂人的意思)。\cite{DBLP:journals/coling/Belinkov22}这篇小综述总结得不错可以看一下。 探针法的思想很简单:训练一个小分类器,以大模型的特征向量作为输入,看分类器能不能准确预测出某个概念。例如,我们想知道大模型是否理解哪些词语是名词,哪些不是 阅读全文
posted @ 2025-07-05 16:45 斯诺依·奈特 阅读(5) 评论(0) 推荐(0)
摘要: 如题,把落灰的博客重新捡起来,打算在这里自言自语一些论文笔记。本来想在隔壁某C,后来想想隔壁人太多,怕被熟人开盒() 总之斯诺依小姐最近关心的领域是大模型的可解释性。神经网络的大火让经验主义流派站到了时代的顶峰,尝试用各种trick刷分然后找出比较work的那些投论文似乎成了科研的主流。但斯诺依小姐 阅读全文
posted @ 2025-07-05 15:03 斯诺依·奈特 阅读(1) 评论(0) 推荐(0)