记得2025年春节刚过完,便立刻投入了降重降AI的模型训练项目,从最初提示词难以实现降AI后,转而投入模型微调的怀抱,2025年5月份,1.0模型上线,降AI能力仅兼容wp和zw两个平台,降重能力稍弱。在此期间,一直尝试降降重和降AI的能力融为一体。
2026年春节刚过完,丹成!降重和降AI成功融合到一个模型中,一次改写实现两个目标。趁此间隙,简单复个盘:降重降AI模型是如何训练出来的?
先套个牧师盾:降重降AI的实现,并非只有训练模型才能解决,听闻提示词也能搞定,本文只复盘模型的训练。
# 方法一 有监督微调 俗称SFT
对语料要求高,语料构建费时费力还费钱。既然是有监督微调,那么得构建这样的语料对:Input: AI生成的文本 -> Target: 人工改写的文本
其难点是,如何才能确保Target能通过大部分论文检测平台的AI检测,且AI样本和人工样本在保持语义相近的同时还要保持在表达上有较大的差异,不然无法让模型学会“不同表达的改写”,也就无法实现降重。
模型方面,可以选择mt5系列、qwen2.5、qwen3小参数系列,损失函数选择基础的交叉熵即可。理论上seq2seq模型是最适合的,但降重和降AI这种场景,尤其是降AI的玄学,mt5这种小脑袋能否胜任“兼容主流平台”的任务,这得打个问号。
尝试了mt5一段时间,改写质量略逊,虽然是多语言模型,但不得不吐槽它对中文标点符号并不友好,推理时特殊token随处可见。
这并不代表mt5不行,mt5依然是此类任务的首选,它好比五菱宏光,能上货拉拉,也能跑秋名山,小巧劲大不挑食,16G GPU下性能性能拉满,自用场景CPU也能推理。
方法二 混合增强训练 HET
这是一套风险大、收益大的方案,纯sft属于“有手就行”的方案,人人都能操作,如果sft的效果不够好,可以考虑在sft的基础上进行HET训练。
1、数据增强增量SFT
在sft语料的基础上,对原始语料做增强以增加input的多样性,举例,原始原料为:Input: A -> Target: H,增强3次,则可增加3对新语料:
Input: A1 -> Target: H Input: A2 -> Target: H Input: A3 -> Target: H
保持Target不变,只需改变Input,增强后的Input在语义上不要偏离原始Input。经过一番操作,语料数量可以翻三倍,然后再基于checkpoint做增量SFT,让模型具有更强的泛化能力。
2、对比学习 DPO
若SFT达不到理想效果,则可尝试DPO,语料构建如下:
正样本:Input: A -> Target: H使用原始语料
负样本:
Input: A -> Target: H1 使用SFT模型改写的但效果不佳的样本
Input: A -> Target: H2 使用SFT模型改写的但效果不佳的样本
Input: A -> Target: H3 使用SFT模型改写的但效果不佳的样本
其本质上是告诉模型,哪些是好的改写,哪些是不好的改写,DPO在loss时会根据根据结果调整参数。“效果不佳”包含两层含义,一是AI率高,二是语义差。其难点在于在构建负样本时,能有工具判断改写结果的AI率。
尝试以上方法都不凑效的话,也没事,可以停下来点根华子,泡杯茶,打一把LOL放松一下,劳逸结合嘛。
方法三 “零样本”无监督对抗训练 Adv Training
如果从风险和收益的正比角度对训练方法ORDER BY DESC的话,那么零样本Adv绝对能排第一。其优点是,无需任何人工样本(非常诱人),不需要苦逼哈哈的到处搜集数据、清洗数据,验证数据是否符合大部分论文检测平台的低AI特征。不过,它的要求也高,你得有一个合适的AI判别器。
Adv的本质是生成器和判别器的博弈,大致流程如下,使用任意大模型生成一批AI样本(不用怀疑,大模型生成的必然90%以上AI率),训练过程中,生成器对AI样本进行改写,判别器对改写结果的AI率进行打分,loss时调整参数。
如果只靠生成器和判别器,这和买彩票无异。生成器很容易为了欺骗判别器而生成一堆毫无意义的token。所以,此处需要引入“语义一致性”的判别器,让两方博弈变成三方博弈,让AI检测 + 语义一致性校验做联合loss,限制生成器的行为。
其难点在于需要不断尝试联合loss的权重比例,以达到理想的生成效果。
方法四 基于SEED的扩散模型
在我的理解中,它太适合降重降AI的场景了。
1、它是无监督的,只需要人工样本即可;
2、与传统的对抗生成或自回归模型不同,扩散模型(Diffusion Models) 的核心思想是:先破坏数据(加噪),再学习如何从噪声中恢复数据(去噪)。在文本任务中,这意味着模型学习的是“如何把一堆乱码或高熵的文本,一步步修复成通顺的人类文本”;
3、它的风险远比零样本对抗训练低,但收益比它高。
其难点在于加噪和去噪,且难度较大,需要不断尝试这个过程,如果加噪合理、去噪稳定,那么改写效果能大杀四方,不用担心“某平台检测机制又升级了”而导致改写效果跟不上的问题了。
以上4种方法便是我在这一年来探索过的,如果对你有帮助,记得点个小红心推荐一番。

浙公网安备 33010602011771号