手机端AI新突破:混合架构小型语言模型

快速、小巧且智能的AI:适用于手机的小型语言模型

当大多数人工智能领域都在竞相构建像某中心的GPT-5和某机构的Claude Sonnet 4.5这样越来越大的语言模型时,以色列AI初创公司某中心却选择了一条不同的道路。

该机构刚刚发布了Jamba Reasoning 3B,这是一个拥有30亿参数的模型。这款紧凑的开源模型能够处理高达25万个token的庞大上下文窗口(意味着它可以“记住”并进行推理的文本量远超典型的语言模型),并且即使在消费设备上也能高速运行。此次发布突显了一个日益明显的趋势:更小、更高效的模型可能像原始规模一样塑造人工智能的未来。

Jamba是为希望创建边缘AI应用和在设备上高效运行的专用系统的开发者而构建的。

Jamba Reasoning 3B被设计用于处理长文本序列和具有挑战性的任务,如数学、编码和逻辑推理,同时还能在笔记本电脑和手机等日常设备上以令人印象深刻的速度运行。Jamba Reasoning 3B还可以在混合设置下工作:简单任务由设备本地处理,而较重的任务则发送到强大的云服务器。根据该中心的数据,这种更智能的路由方式可能大幅削减某些工作负载的AI基础设施成本——可能降低一个数量级。

小而强大的LLM

拥有30亿参数的Jamba Reasoning 3B,以当今的AI标准来看非常小巧。一些专有模型,如GPT-5,提供更长的上下文窗口,但Jamba在开源模型中树立了新的标杆。

即使在全负荷工作时(即使用其完整的25万token上下文窗口处理极长输入),Jamba Reasoning 3B每秒也能处理超过17个token。一旦输入长度超过10万个token,许多其他模型就会减慢速度或遇到困难。

该模型基于名为Jamba的架构构建,该架构结合了两种类型的神经网络设计:从其他大型语言模型熟悉的Transformer层,以及为更高内存效率而设计的Mamba层。这种混合设计使模型能够直接在笔记本电脑或手机上处理长文档、大型代码库和其他大量输入——仅使用传统Transformer约十分之一的内存。该模型运行速度比传统Transformer快得多,因为它较少依赖一个称为KV缓存的存储组件,该组件在输入变长时会减慢处理速度。

为何需要小型LLM

模型的混合架构使其在速度和内存效率上都具有优势,即使在处理非常长的输入时也是如此。随着更多用户在笔记本电脑上本地运行生成式AI,模型需要快速处理长上下文而不消耗过多内存。

Jamba Reasoning 3B在宽松的Apache 2.0许可下开源,并在流行的平台上提供,使得开发者能够更容易、更经济地针对自己的任务微调该模型。

Jamba Reasoning 3B标志着一系列小型、高效推理模型的开端。缩小规模可以实现去中心化、个性化和成本效益。个人和企业可以在设备上运行自己的模型,而不是依赖数据中心昂贵的GPU。这将解锁新的经济模式和更广泛的可用性。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2025-12-16 17:59  CodeShare  阅读(16)  评论(0)    收藏  举报