打赏

如何用log-linear拟合把闭源模型的参数规模“量”了出来

IKP数据集:1400个冷门事实,如何用log-linear拟合把闭源模型的参数规模“量”了出来

2026年4月27日,知乎博主李博杰(Bojie Li)在arXiv上传了一篇论文,arXiv:2604.24827,标题是《Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity》。论文不谈MMLU、不谈Arena Elo,只盯着一件事:事实知识的不可压缩容量。他造了一个叫IKP的探针集,1400道纯事实题,分7层稀有度(T1到T7,每层正好200题),从“人人知道”一路冷到“只有万亿参数模型才可能记住”的长尾。

我把论文、GitHub仓库( https://github.com/19PINE-AI/ikp )和配套网站( https://01.me/research/ikp )都翻了一遍。数据很硬,方法也很理科生:先用89个公开参数的开源模型(参数量135M到1.6T,19家厂商)做标定,再把188个模型(27家厂商)的准确率投影回去,估出闭源模型的“有效知识容量”。下面是原汁原味的数据和分析。

1. 数据集怎么造的:不是随机题,是“不可压缩”的过滤器

IKP的题不是随便挑的。作者先用GPT-5生成T1–T4的候选,再用Wikidata(557题)和DBLP/arXiv研究员子领域artifact(345题)补T3–T7,最后手动平衡97题。总1400题,每层200题。

分层标准用“地标模型梯度”校验:Qwen0.5B定T1/T2,Qwen7B定T2/T3……Gemini 3.1 Pro定T6/T7。只有高一层模型答对而低一层答错的题才留下来,非单调的15%直接删掉。题源覆盖研究员子领域、机构创立年份、地理历史等16个域,全部要求“不可计算、不可推理、必须背过”。

准确率指标也很严:penalized accuracy。正确强+1,正确弱+0.5,拒绝0,错误-1(λ=1.0时标定效果最好)。最终在开源模型上,准确率 vs log₁₀(参数量) 拟合得到:

  • R² = 0.917
  • 斜率 ≈ 0.147–0.151(每10倍参数,准确率提升约14.7–15.1个百分点)
  • 留一法交叉验证:中位数倍数误差1.59×,68.5%的模型误差在2倍以内,87.6%在3倍以内
  • 90%预测区间大致是估算值的0.33–3倍

MoE模型单独验证:总参数预测知识容量R²=0.79,远好于活跃参数R²=0.51。这直接说明,MoE的“省参”宣传,在不可压缩事实记忆上是不成立的。

2. 开源标定集的几条关键线(论文Table 12部分摘录,GitHub有完整JSON)

  • DeepSeek系列(总参1.6T级MoE):T5–T6层表现突出,总参预测准确。
  • Llama-3.1-405B:T4层开始明显发力,T6–T7仍接近0。
  • Qwen3-235B:T5层开始有分数,T7基本地板。
  • 小模型如Gemma-2-27B:T3层21%,T4起基本0%。

96个带发布时间的开源模型还做了时间系数回归:每月准确率变化-0.0010 pp(95% CI [-0.0031, +0.0008]),p=0.34。Densing Law预测的每月+0.0117 pp被p<10^{-15}拒绝。事实知识不被“致密化”,参数就是参数。

3. 闭源模型的参数估算(配套网站/#/calibration#proprietary完整表,90% PI因子≈3)

以下是前沿模型的关键数据(penalized accuracy → 估算参数量):

模型 厂商 Penalized Acc 估算参数量 90% PI
gpt-5.5-pro (thinking) OpenAI 72.3% ~10.3T [3.4T–30.8T]
gpt-5.5-think OpenAI 71.9% ~9.7T [3.2T–29.0T]
gpt-5.5 OpenAI 71.4% ~8.8T [2.9T–26.5T]
claude-opus-4.6-think Anthropic 68.0% ~5.3T [1.8T–15.8T]
gpt-5-pro OpenAI 66.5% ~4.1T [1.4T–12.3T]
gpt-5-think OpenAI 66.4% ~4.1T [1.4T–12.3T]
claude-opus-4.7-think Anthropic 66.4% ~4.0T [1.3T–12.1T]
o1 (thinking) OpenAI 65.4% ~3.5T [1.2T–10.4T]
grok-4 xAI 64.8% ~3.2T [1.1T–9.5T]
gpt-5.4-pro OpenAI 62.5% ~2.2T [0.73T–6.6T]
gpt-4.1 OpenAI 62.3% ~2.2T [0.72T–6.4T]
claude-sonnet-4.6-think Anthropic 60.9% ~1.7T [0.58T–5.2T]
gemini-2.5-pro Google 58.4% ~1.2T [0.39T–3.5T]
gpt-4o OpenAI 55.3% ~0.72T [0.24T–2.2T]
claude-haiku-4.5 Anthropic 39.9% ~65B [22B–194B]

(完整88个闭源模型表在配套网站,GitHub的data/results/*.json有每道题的原始回答,可复现。)

4. 几条蛛丝马迹:厂商风格差异和“指纹”

  • 拒绝率:Anthropic(Claude系列)在T5–T7层拒绝率最高(约90%),把“知道但不说”的部分藏了起来,所以它的估算其实是下界
  • 幻觉率:Google/Microsoft模型在超出能力范围的题上猜得最欢(约60%),自信地输出错误答案。
  • 思考模式:27对base/think变体平均提升2.4pp,主要在T3–T4层,T7层几乎无提升——说明思考链对“不可压缩事实”帮助有限。
  • 知识指纹:论文用错题上的幻觉模式(HSS相似度)做了119个跨厂商异常检测,能精准识别共享基座、后训血缘还是重训。开源模型的拟合线成了整个行业的“真理标尺”。
posted @ 2026-04-30 10:51  gyc567  阅读(68)  评论(0)    收藏  举报