如何用log-linear拟合把闭源模型的参数规模“量”了出来

IKP数据集：1400个冷门事实，如何用log-linear拟合把闭源模型的参数规模“量”了出来

2026年4月27日，知乎博主李博杰（Bojie Li）在arXiv上传了一篇论文，arXiv:2604.24827，标题是《Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity》。论文不谈MMLU、不谈Arena Elo，只盯着一件事：事实知识的不可压缩容量。他造了一个叫IKP的探针集，1400道纯事实题，分7层稀有度（T1到T7，每层正好200题），从“人人知道”一路冷到“只有万亿参数模型才可能记住”的长尾。

我把论文、GitHub仓库（ https://github.com/19PINE-AI/ikp ）和配套网站（ https://01.me/research/ikp ）都翻了一遍。数据很硬，方法也很理科生：先用89个公开参数的开源模型（参数量135M到1.6T，19家厂商）做标定，再把188个模型（27家厂商）的准确率投影回去，估出闭源模型的“有效知识容量”。下面是原汁原味的数据和分析。

1. 数据集怎么造的：不是随机题，是“不可压缩”的过滤器

IKP的题不是随便挑的。作者先用GPT-5生成T1–T4的候选，再用Wikidata（557题）和DBLP/arXiv研究员子领域artifact（345题）补T3–T7，最后手动平衡97题。总1400题，每层200题。

分层标准用“地标模型梯度”校验：Qwen0.5B定T1/T2，Qwen7B定T2/T3……Gemini 3.1 Pro定T6/T7。只有高一层模型答对而低一层答错的题才留下来，非单调的15%直接删掉。题源覆盖研究员子领域、机构创立年份、地理历史等16个域，全部要求“不可计算、不可推理、必须背过”。

准确率指标也很严：penalized accuracy。正确强+1，正确弱+0.5，拒绝0，错误-1（λ=1.0时标定效果最好）。最终在开源模型上，准确率 vs log₁₀(参数量) 拟合得到：

R² = 0.917
斜率 ≈ 0.147–0.151（每10倍参数，准确率提升约14.7–15.1个百分点）
留一法交叉验证：中位数倍数误差1.59×，68.5%的模型误差在2倍以内，87.6%在3倍以内
90%预测区间大致是估算值的0.33–3倍

MoE模型单独验证：总参数预测知识容量R²=0.79，远好于活跃参数R²=0.51。这直接说明，MoE的“省参”宣传，在不可压缩事实记忆上是不成立的。

2. 开源标定集的几条关键线（论文Table 12部分摘录，GitHub有完整JSON）

DeepSeek系列（总参1.6T级MoE）：T5–T6层表现突出，总参预测准确。
Llama-3.1-405B：T4层开始明显发力，T6–T7仍接近0。
Qwen3-235B：T5层开始有分数，T7基本地板。
小模型如Gemma-2-27B：T3层21%，T4起基本0%。

96个带发布时间的开源模型还做了时间系数回归：每月准确率变化-0.0010 pp（95% CI [-0.0031, +0.0008]），p=0.34。Densing Law预测的每月+0.0117 pp被p<10^{-15}拒绝。事实知识不被“致密化”，参数就是参数。

3. 闭源模型的参数估算（配套网站/#/calibration#proprietary完整表，90% PI因子≈3）

以下是前沿模型的关键数据（penalized accuracy → 估算参数量）：

模型	厂商	Penalized Acc	估算参数量	90% PI
gpt-5.5-pro (thinking)	OpenAI	72.3%	~10.3T	[3.4T–30.8T]
gpt-5.5-think	OpenAI	71.9%	~9.7T	[3.2T–29.0T]
gpt-5.5	OpenAI	71.4%	~8.8T	[2.9T–26.5T]
claude-opus-4.6-think	Anthropic	68.0%	~5.3T	[1.8T–15.8T]
gpt-5-pro	OpenAI	66.5%	~4.1T	[1.4T–12.3T]
gpt-5-think	OpenAI	66.4%	~4.1T	[1.4T–12.3T]
claude-opus-4.7-think	Anthropic	66.4%	~4.0T	[1.3T–12.1T]
o1 (thinking)	OpenAI	65.4%	~3.5T	[1.2T–10.4T]
grok-4	xAI	64.8%	~3.2T	[1.1T–9.5T]
gpt-5.4-pro	OpenAI	62.5%	~2.2T	[0.73T–6.6T]
gpt-4.1	OpenAI	62.3%	~2.2T	[0.72T–6.4T]
claude-sonnet-4.6-think	Anthropic	60.9%	~1.7T	[0.58T–5.2T]
gemini-2.5-pro	Google	58.4%	~1.2T	[0.39T–3.5T]
gpt-4o	OpenAI	55.3%	~0.72T	[0.24T–2.2T]
claude-haiku-4.5	Anthropic	39.9%	~65B	[22B–194B]

（完整88个闭源模型表在配套网站，GitHub的data/results/*.json有每道题的原始回答，可复现。）

4. 几条蛛丝马迹：厂商风格差异和“指纹”

拒绝率：Anthropic（Claude系列）在T5–T7层拒绝率最高（约90%），把“知道但不说”的部分藏了起来，所以它的估算其实是下界。
幻觉率：Google/Microsoft模型在超出能力范围的题上猜得最欢（约60%），自信地输出错误答案。
思考模式：27对base/think变体平均提升2.4pp，主要在T3–T4层，T7层几乎无提升——说明思考链对“不可压缩事实”帮助有限。
知识指纹：论文用错题上的幻觉模式（HSS相似度）做了119个跨厂商异常检测，能精准识别共享基座、后训血缘还是重训。开源模型的拟合线成了整个行业的“真理标尺”。

posted @ 2026-04-30 10:51 gyc567 阅读(68) 评论(0) 收藏举报

刷新页面返回顶部

thinking different

非同凡想

如何用log-linear拟合把闭源模型的参数规模“量”了出来

1. 数据集怎么造的：不是随机题，是“不可压缩”的过滤器

2. 开源标定集的几条关键线（论文Table 12部分摘录，GitHub有完整JSON）

3. 闭源模型的参数估算（配套网站/#/calibration#proprietary完整表，90% PI因子≈3）

4. 几条蛛丝马迹：厂商风格差异和“指纹”