Meta发布llama3-目前最先进的开源大模型

Meta公司已经发布了Llama-3,这是目前最先进的开源大型语言模型。它在前身Llama-2的基础上进行了改进,鉴于传言表明发布将在下个月进行,这次的发布让人感到意外。
凭借其开源的根基,Llama-2在同时开发的其他强大模型(如Mixtral、Alpaca、Vicuna和WizardLM)中了表率作用。现在,Llama-3将这些能力推向更远,提供了与OpenAI当前旗舰AI模型GPT-4相当的功能。
Meta将周四的发布誉为“我们下一代最先进的开源大型语言模型”。这家科技巨头对其能力充满信心,Llama-3正在驱动Meta的AI发展,进而被添加到公司几乎所有的流行应用中:Instagram、Facebook和WhatsApp。它在某些国家提供服务,但其他地区的用户可以通过VPN访问。
Meta AI的聊天机器人界面与ChatGPT Plus相当,而且免费。
“我们正在用我们的新尖端Llama 3 AI模型升级Meta AI,我们开源它,”马克·扎克伯格在Facebook帖子中说。“有了这个新模型,我们相信Meta AI现在是可以免费使用的最智能的AI助手。”
通过测试新的AI,发现它不需要付费订阅,但和ChatGPT-Plus有一样的能力。它可以生成图像和动画,生成代码,并提供连贯、与上下文相关的响应。新的聊天机器人也可以访问互联网,但它仍然无法与像Perplexity这样的专业解决方案的能力相媲美。
唯一的缺点是Llama-3当前的上下文窗口限制在8K tokens——大约6,000个单词。
Meta发布的是一个700亿参数的Llama-3模型,但使用它将需要强大的计算能力——可能是整整一排GPU。根据合成基准测试,这个模型击败了Gemini 1.5 Pro和Claude 3 Sonnet。
还有一个80亿参数的模型可用,它可以在消费级GPU上本地运行。这个模型在各种合成基准测试中击败了谷歌的Gemma和Mistral 7B。该模型尚未在LLM Arena中列出,因此目前还没有主观的ELO分数可以报告.

这两个模型也可以在云实例中以较低成本运行。
Meta表示:“我们致力于以负责任的方式开发Llama 3,我们也提供各种资源帮助他人负责任地使用它,”。这包括引入了新的信赖和安全工具,如Llama Guard 2、Code Shield和CyberSec Eval 2。
Meta表示,在接下来的几个月里,计划引入新功能、更长的上下文窗口、额外的模型尺寸和增强的性能。Llama 3的研究论文也将被分享。
“使用Llama 3技术构建的Meta AI现在是世界上领先的AI助手之一,可以提升你的智力,减轻你的负担——帮助你学习、完成事情、创造内容和连接,充分利用每一个时刻,”Meta说。
Meta补充说,它还在训练一个巨大的4000亿参数模型,预计将在今年晚些时候发布。这个模型——可能与Claude Opus或GPT-4.5的最新版本相当——可能是迄今为止最强大的开源模型。如果历史重演,它也将作为新一代微调模型的基础,这些模型将在整体质量上超越Llama-3——并将增强与领先的闭源模型的竞争。
通过在Meta AI内部测试了Llama-3,以查看它是否像Zuck所说的那样好。简而言之,Llama-3引入了许多值得注意的特性和能力,应该是一个伟大的基础模型,开源社区可以在此基础上进行迭代。
内容审核
Llama-3展示了对内容审核的强烈承诺。即使面对常见的越狱技术,它始终拒绝生成有害的种族内容。
例如,当模型被要求提供如何勾引一个女人的指导时,它提供了通用但有用的回应。然而,当被要求提供如何勾引一个最好朋友的妻子的指导时,模型坚决拒绝提供答案。

图像和动画
与ChatGPT-Plus类似,使用Llama-3的Meta AI能够生成图像。然而,它通过提供将它们动画化的选项,将这一能力提升到了一个新的水平——这是ChatGPT或Gemini中不可用的功能。
Meta AI使用Llama-3生成的图像比Dalle-3产生的图像更加逼真,但它们没有达到谷歌即将推出的ImageFX生成的图像的质量。

编码能力
Llama-3在编码方面表现出了高度的熟练度。当面对一个独特且描述含糊的游戏想法时,模型能够在两次尝试中生成必要的Python代码,结果是一个可运行的游戏。第一次尝试给了我们一个关于如何创建游戏的大致想法,但在我们澄清说我们需要Python代码后,它生成了可工作的代码。

游戏是可运行的,但错过了一些细节,比如在玩家获胜后重新开始。其他聊天机器人也发生了同样的情况。
我们发现Claude 3 Sonnet是这项任务的最好工具,其次是Llama 3。GPT-4排在第三位。然而,不同的用户可能会得到不同的结果。
以下是Llama3、Claude和ChatGPT为那些有兴趣测试它们的人生成的源代码的Pastebin链接。
政治中立性
模型力求政治中立,这从它对资本主义和共产主义问题的回答中可以看出。回答在结构上相似,为每个系统提供了介绍、优点和缺点。
这种中立性的模式也在回答“什么是男人?”和“什么是女人?”等问题时被观察到。
尽管如此,它的回应略微倾向于资本主义和左倾,这并不奇怪,因为它是大型语言模型中最常见的政治倾向。
逻辑推理
Llama-3展示了强大的逻辑推理能力。在测试经常让用户感到困惑的复杂LSAT问题时,模型不仅提供了正确的答案,还提供了清晰合理的解释。
长提示限制
尽管Llama-3有许多优点,但它在处理长提示时存在困难。当面对大约一页半的长提示——这可以被像GPT-4、Claude或Mistral这样的模型消化时——模型返回了一个错误消息。
语言理解
模型展示了对不同语言的强大理解能力。当被要求翻译一个西班牙语口号时,它不仅提供了一个准确的翻译,还提供了上下文以更好地理解这个口号。
结论
作为一个聊天机器人界面,由Llama-3驱动的Meta AI可以与ChatGPT Plus竞争,是一个总体上不错的选择。
在更技术层面上,作为一个大型语言模型(LM),Llama-3足以在不同场景中与GPT-4竞争,只是在令牌上下文能力和RAG方面略有不足。这对于技术熟练的用户来说可能很重要,但对于日常用户来说可能不是大问题。
如果您主要使用ChatGPT生成Dall-E图像,可能想考虑取消您的订阅,因为Llama-3的图像和动画生成能力一样好。然而,如果您还需要支持长提示,Llama-3可能不是您的最佳选择,您可能想考虑继续使用ChatGPT-Plus。
低频用户可能会发现Llama-3满足他们的需求,而不需要成为付费会员。对于那些需要进行大量互联网研究的任务,ChatGPT Plus或Perplexity可能更适合。
最后,如果您的重点是编程,Llama-3可能是一个不错的选择,尽管还有其他专门的工具可用。Llama-3是免费的,这是一个重要的优势。

浙公网安备 33010602011771号