初浅感受 gemma 3 QAT / granite-3.3 / BitNet 小模型

一、新模型探索：Gemma-3-1B-It-QAT & BitNet b1.58 2B4T & Granite 3.3

最近，Google、Microsoft 以及 IBM 都公布新的模型。本文将对这三款的小模型版本进行初步体验，并结合个人使用场景，并给出粗略的评估。

	模型	备注
Google	gemma-3-1b-it-qat-q4_0-unquantized	新微调QAT模型（量化感知训练)
Microsoft	BitNet b1.58 2B4T
IBM	Granite 3.3

二、测试环境及测试场景

	描述
测试工具	llama.cpp 20250416获取最新源代码，使用 SYCL 选项编译
测试机器	Intel(R) Core(TM) Ultra 7 165U
模型文件	llama.cpp使用量化模型文件，主要来自 huggingface.co/bartowski
测试场景	输入同样一篇英文新闻和同样的prompt（用中文帮我总结这篇文章），观察输出结果（temperature = 0.0）

三、个人关注点

1. gemma-3-qat比老版gemma-3模型在生成速度上是否提升？（新闻提到QAT对占用内存降低）

模型	速度
google_gemma-3-1b-it-Q8_0.gguf	Tokens: 395 / Time: 58377.371 ms / Speed: 6.8 t/s
google_gemma-3-1b-it-Q4_0.gguf	Tokens: 435 / Time: 49915.721 ms / Speed: 8.7 t/s
google_gemma-3-1b-it-Q4_K_L.gguf	Tokens: 380 / Time: 52042.102 ms / Speed: 7.3 t/s
google_gemma-3-1b-it-qat-Q8_0.gguf	Tokens: 500 / Time: 73814.143 ms / Speed: 6.8 t/s
google_gemma-3-1b-it-qat-Q4_0.gguf	Tokens: 453 / Time: 51419.587 ms / Speed: 8.8 t/s
google_gemma-3-1b-it-qat-Q4_K_L.gguf	Tokens: 365 / Time: 49990.614 ms / Speed: 7.3 t/s

结论：

新版QAT模型相对老版模型，速度上没明显提升。内存占用也差不多。
生成的总结内容，主观感受依然Q8比Q4的强一点。新版模型的生成内容质量比老版模型的质量提升不明显。

2. IBM Granite 3.3 是否满足个人的基本使用？是否值得后续关注？（第一次接触该系列的模型）

llama.cpp直接轻松加载使用该模型文件，尝试同样的输入，模型输出结果：

这篇文章描述了美国国防部长Pete Hegseth在个人手机上的Signal聊天组中，包括他的妻子、律师和兄弟，讨论了对叙利亚的哈特希敦的军事行动计划。这些聊天是在他确认过程中设立的，旨在让他的最亲密助手们合作策略。然而，Hegseth在确认后仍然使用这些聊天，其中有超过十人参与，进行通信。

文章还提到，一些Hegseth最亲密的顾问开始担心他的判断力，包括他之前的新闻秘书John Ullyot和三个他最近解雇的高级官员Dan Caldwell、Darin Selnick和Colin Carroll。Ullyot在声明中指出，过去一个月在国防部处发生了“混乱”，包括泄露敏感军事计划和大规模解雇。

此外，文章提到，Hegseth还在另一个Signal聊天中讨论了对哈特希敦进行的潜在空袭，这与之前报道的聊天类似。这次聊天还包括他的妻子Jennifer，尽管她没有安全清单。

Pentagon发言人Sean Parnell称，在Signal聊天中没有任何机密信息。这项报道最初由纽约时报报道。

文章还讨论了Pentagon内部的持续动荡，包括Hegseth解雇Caldwell、Selnick和Carroll，以及重新任命他的首席助理Joe Kasper。这些事件导致了泄露调查，并引发了官员之间的内部斗争。

此外，文章指出，Hegseth和Kasper开始调查泄露，并对可能的被调查官员进行了 polygraph测试。随着媒体报道，Hegseth对可能的泄露人物的怀疑增加，甚至要求FBI介入调查。

最终，文章强调了这一动荡对Pentagon战略执行和美国与其他国家的关系的影响，特别是在中东和中美地区。

结论：

支持中文，简单的提示词，简单测试的输出结果超出预期。人名、特别词保持英文，处理不错，值得后续更多场景测试。

3. BitNet b1.58 2B4T 是否满足个人的基本使用？是否值得后续关注？（第一次接触该系列的模型）

下载官方gguf文件，使用本地llama.cpp，无法加载该模型文件

根据官方文档提供的官方demo网站，尝试同样的输入，无法用中文输出。

结论：

该模型不支持中文，不满足目前日常使用场景。也许对比纯英文输入、输出时，可以再拉出来关注看看。

posted on 2025-04-26 21:06 ocean1ee 阅读(307) 评论(0) 收藏举报

刷新页面返回顶部

ocean1ee

导航

公告