如何用log-linear拟合把闭源模型的参数规模“量”了出来
IKP数据集:1400个冷门事实,如何用log-linear拟合把闭源模型的参数规模“量”了出来
2026年4月27日,知乎博主李博杰(Bojie Li)在arXiv上传了一篇论文,arXiv:2604.24827,标题是《Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity》。论文不谈MMLU、不谈Arena Elo,只盯着一件事:事实知识的不可压缩容量。他造了一个叫IKP的探针集,1400道纯事实题,分7层稀有度(T1到T7,每层正好200题),从“人人知道”一路冷到“只有万亿参数模型才可能记住”的长尾。
我把论文、GitHub仓库( https://github.com/19PINE-AI/ikp )和配套网站( https://01.me/research/ikp )都翻了一遍。数据很硬,方法也很理科生:先用89个公开参数的开源模型(参数量135M到1.6T,19家厂商)做标定,再把188个模型(27家厂商)的准确率投影回去,估出闭源模型的“有效知识容量”。下面是原汁原味的数据和分析。
1. 数据集怎么造的:不是随机题,是“不可压缩”的过滤器
IKP的题不是随便挑的。作者先用GPT-5生成T1–T4的候选,再用Wikidata(557题)和DBLP/arXiv研究员子领域artifact(345题)补T3–T7,最后手动平衡97题。总1400题,每层200题。
分层标准用“地标模型梯度”校验:Qwen0.5B定T1/T2,Qwen7B定T2/T3……Gemini 3.1 Pro定T6/T7。只有高一层模型答对而低一层答错的题才留下来,非单调的15%直接删掉。题源覆盖研究员子领域、机构创立年份、地理历史等16个域,全部要求“不可计算、不可推理、必须背过”。
准确率指标也很严:penalized accuracy。正确强+1,正确弱+0.5,拒绝0,错误-1(λ=1.0时标定效果最好)。最终在开源模型上,准确率 vs log₁₀(参数量) 拟合得到:
- R² = 0.917
- 斜率 ≈ 0.147–0.151(每10倍参数,准确率提升约14.7–15.1个百分点)
- 留一法交叉验证:中位数倍数误差1.59×,68.5%的模型误差在2倍以内,87.6%在3倍以内
- 90%预测区间大致是估算值的0.33–3倍
MoE模型单独验证:总参数预测知识容量R²=0.79,远好于活跃参数R²=0.51。这直接说明,MoE的“省参”宣传,在不可压缩事实记忆上是不成立的。
2. 开源标定集的几条关键线(论文Table 12部分摘录,GitHub有完整JSON)
- DeepSeek系列(总参1.6T级MoE):T5–T6层表现突出,总参预测准确。
- Llama-3.1-405B:T4层开始明显发力,T6–T7仍接近0。
- Qwen3-235B:T5层开始有分数,T7基本地板。
- 小模型如Gemma-2-27B:T3层21%,T4起基本0%。
96个带发布时间的开源模型还做了时间系数回归:每月准确率变化-0.0010 pp(95% CI [-0.0031, +0.0008]),p=0.34。Densing Law预测的每月+0.0117 pp被p<10^{-15}拒绝。事实知识不被“致密化”,参数就是参数。
3. 闭源模型的参数估算(配套网站/#/calibration#proprietary完整表,90% PI因子≈3)
以下是前沿模型的关键数据(penalized accuracy → 估算参数量):
| 模型 | 厂商 | Penalized Acc | 估算参数量 | 90% PI |
|---|---|---|---|---|
| gpt-5.5-pro (thinking) | OpenAI | 72.3% | ~10.3T | [3.4T–30.8T] |
| gpt-5.5-think | OpenAI | 71.9% | ~9.7T | [3.2T–29.0T] |
| gpt-5.5 | OpenAI | 71.4% | ~8.8T | [2.9T–26.5T] |
| claude-opus-4.6-think | Anthropic | 68.0% | ~5.3T | [1.8T–15.8T] |
| gpt-5-pro | OpenAI | 66.5% | ~4.1T | [1.4T–12.3T] |
| gpt-5-think | OpenAI | 66.4% | ~4.1T | [1.4T–12.3T] |
| claude-opus-4.7-think | Anthropic | 66.4% | ~4.0T | [1.3T–12.1T] |
| o1 (thinking) | OpenAI | 65.4% | ~3.5T | [1.2T–10.4T] |
| grok-4 | xAI | 64.8% | ~3.2T | [1.1T–9.5T] |
| gpt-5.4-pro | OpenAI | 62.5% | ~2.2T | [0.73T–6.6T] |
| gpt-4.1 | OpenAI | 62.3% | ~2.2T | [0.72T–6.4T] |
| claude-sonnet-4.6-think | Anthropic | 60.9% | ~1.7T | [0.58T–5.2T] |
| gemini-2.5-pro | 58.4% | ~1.2T | [0.39T–3.5T] | |
| gpt-4o | OpenAI | 55.3% | ~0.72T | [0.24T–2.2T] |
| claude-haiku-4.5 | Anthropic | 39.9% | ~65B | [22B–194B] |
(完整88个闭源模型表在配套网站,GitHub的data/results/*.json有每道题的原始回答,可复现。)
4. 几条蛛丝马迹:厂商风格差异和“指纹”
- 拒绝率:Anthropic(Claude系列)在T5–T7层拒绝率最高(约90%),把“知道但不说”的部分藏了起来,所以它的估算其实是下界。
- 幻觉率:Google/Microsoft模型在超出能力范围的题上猜得最欢(约60%),自信地输出错误答案。
- 思考模式:27对base/think变体平均提升2.4pp,主要在T3–T4层,T7层几乎无提升——说明思考链对“不可压缩事实”帮助有限。
- 知识指纹:论文用错题上的幻觉模式(HSS相似度)做了119个跨厂商异常检测,能精准识别共享基座、后训血缘还是重训。开源模型的拟合线成了整个行业的“真理标尺”。

浙公网安备 33010602011771号