m7d2-流水账
今日论文阅读笔记
大模型对齐(后训练)中的抗对齐(resist alignment),结合deepseek的回答书写以下材料。
link
Title: Language Models Resist Alignment: Evidence From Data Compression. Peking U
在一个微信公众号提及了一个是世界模型创业者陈博远。提到了它之前做的论文,从信息压缩角度来看。
看了文章之后/之前我想到几个问题
- 1文章中的弹性是什么?
- 2如何把LLM反对齐的现象从数学/形式上进行描述,根据什么角度进行切入研究?
- 3好奇,如何如证明一个反向训练的过程?即SFT之后如何知道模型回复成pre-trained state的难度?
1文章中的弹性是什么?
是指语言模型在微调数据的对齐情况下倾向保持预训练大数据数据分布,而排斥微调小数据的分布的性质。体现在两个方面,一个是抵抗(维持原有分布),另一个是回弹(对齐越深,则反向对齐阶段速度更快,更容易回到预训练的数据分布的状态)。形式上,不同数据集的压缩率\(\Delta \gamma\)和数据集规模大小 \(|\mathcal{D}|\) 成反比。 TODO:待验证
2如何把LLM反对齐的现象从数学/形式上进行描述,根据什么角度进行切入研究?
数据压缩等价于LLM 预测,从数据集压缩角度看
3好奇,如何如证明一个反向训练的过程?即SFT之后如何知道模型回复成pre-trained state的难度?
具体来说,我们首先对参数为 \(\theta_0\) 的预训练大型语言模型(LLM)进行一轮 SFT 训练,并将切片 \(\{\theta_1, \theta_2, \dots, \theta_n\}\) 保存下来。随后,在不影响一般性的前提下,我们收集切片 \(\theta_k\) 和 \(\theta_l\)(其中 \(k < l\))对保留集提示的响应,从而形成数据集 \(D_k\) 和 \(D_l\)。
2026年7月2日

浙公网安备 33010602011771号