ocean1ee

导航

初浅感受 gemma 3 QAT / granite-3.3 / BitNet 小模型

一、新模型探索:Gemma-3-1B-It-QAT & BitNet b1.58 2B4T & Granite 3.3

最近,Google、Microsoft 以及 IBM 都公布新的模型。本文将对这三款的小模型版本进行初步体验,并结合个人使用场景,并给出粗略的评估。

模型 备注
Google gemma-3-1b-it-qat-q4_0-unquantized 新微调QAT模型(量化感知训练)
Microsoft BitNet b1.58 2B4T
IBM Granite 3.3

二、测试环境及测试场景

描述
测试工具 llama.cpp 20250416获取最新源代码,使用 SYCL 选项编译
测试机器 Intel(R) Core(TM) Ultra 7 165U
模型文件 llama.cpp使用量化模型文件,主要来自 huggingface.co/bartowski
测试场景 输入同样一篇英文新闻和同样的prompt(用中文帮我总结这篇文章),观察输出结果(temperature = 0.0)

三、个人关注点

1. gemma-3-qat比老版gemma-3模型在生成速度上是否提升?(新闻提到QAT对占用内存降低)

模型 速度
google_gemma-3-1b-it-Q8_0.gguf Tokens: 395 / Time: 58377.371 ms / Speed: 6.8 t/s
google_gemma-3-1b-it-Q4_0.gguf Tokens: 435 / Time: 49915.721 ms / Speed: 8.7 t/s
google_gemma-3-1b-it-Q4_K_L.gguf Tokens: 380 / Time: 52042.102 ms / Speed: 7.3 t/s
google_gemma-3-1b-it-qat-Q8_0.gguf Tokens: 500 / Time: 73814.143 ms / Speed: 6.8 t/s
google_gemma-3-1b-it-qat-Q4_0.gguf Tokens: 453 / Time: 51419.587 ms / Speed: 8.8 t/s
google_gemma-3-1b-it-qat-Q4_K_L.gguf Tokens: 365 / Time: 49990.614 ms / Speed: 7.3 t/s

结论:

新版QAT模型相对老版模型,速度上没明显提升。内存占用也差不多。
生成的总结内容,主观感受依然Q8比Q4的强一点。新版模型的生成内容质量比老版模型的质量提升不明显。

2. IBM Granite 3.3 是否满足个人的基本使用?是否值得后续关注?(第一次接触该系列的模型)

llama.cpp直接轻松加载使用该模型文件,尝试同样的输入,模型输出结果:

这篇文章描述了美国国防部长Pete Hegseth在个人手机上的Signal聊天组中,包括他的妻子、律师和兄弟,讨论了对叙利亚的哈特希敦的军事行动计划。这些聊天是在他确认过程中设立的,旨在让他的最亲密助手们合作策略。然而,Hegseth在确认后仍然使用这些聊天,其中有超过十人参与,进行通信。

文章还提到,一些Hegseth最亲密的顾问开始担心他的判断力,包括他之前的新闻秘书John Ullyot和三个他最近解雇的高级官员Dan Caldwell、Darin Selnick和Colin Carroll。Ullyot在声明中指出,过去一个月在国防部处发生了“混乱”,包括泄露敏感军事计划和大规模解雇。

此外,文章提到,Hegseth还在另一个Signal聊天中讨论了对哈特希敦进行的潜在空袭,这与之前报道的聊天类似。这次聊天还包括他的妻子Jennifer,尽管她没有安全清单。

Pentagon发言人Sean Parnell称,在Signal聊天中没有任何机密信息。这项报道最初由纽约时报报道。

文章还讨论了Pentagon内部的持续动荡,包括Hegseth解雇Caldwell、Selnick和Carroll,以及重新任命他的首席助理Joe Kasper。这些事件导致了泄露调查,并引发了官员之间的内部斗争。

此外,文章指出,Hegseth和Kasper开始调查泄露,并对可能的被调查官员进行了 polygraph测试。随着媒体报道,Hegseth对可能的泄露人物的怀疑增加,甚至要求FBI介入调查。

最终,文章强调了这一动荡对Pentagon战略执行和美国与其他国家的关系的影响,特别是在中东和中美地区。

结论:

支持中文,简单的提示词,简单测试的输出结果超出预期。人名、特别词保持英文,处理不错,值得后续更多场景测试。

3. BitNet b1.58 2B4T 是否满足个人的基本使用?是否值得后续关注?(第一次接触该系列的模型)

下载官方gguf文件,使用本地llama.cpp,无法加载该模型文件

根据官方文档提供的官方demo网站,尝试同样的输入,无法用中文输出。

结论:

该模型不支持中文,不满足目前日常使用场景。也许对比纯英文输入、输出时,可以再拉出来关注看看。

posted on 2025-04-26 21:06  ocean1ee  阅读(251)  评论(0)    收藏  举报