Meta发布llama3-目前最先进的开源大模型

Meta公司已经发布了Llama-3，这是目前最先进的开源大型语言模型。它在前身Llama-2的基础上进行了改进，鉴于传言表明发布将在下个月进行，这次的发布让人感到意外。

凭借其开源的根基，Llama-2在同时开发的其他强大模型（如Mixtral、Alpaca、Vicuna和WizardLM）中了表率作用。现在，Llama-3将这些能力推向更远，提供了与OpenAI当前旗舰AI模型GPT-4相当的功能。

Meta将周四的发布誉为“我们下一代最先进的开源大型语言模型”。这家科技巨头对其能力充满信心，Llama-3正在驱动Meta的AI发展，进而被添加到公司几乎所有的流行应用中：Instagram、Facebook和WhatsApp。它在某些国家提供服务，但其他地区的用户可以通过VPN访问。

Meta AI的聊天机器人界面与ChatGPT Plus相当，而且免费。
“我们正在用我们的新尖端Llama 3 AI模型升级Meta AI，我们开源它，”马克·扎克伯格在Facebook帖子中说。“有了这个新模型，我们相信Meta AI现在是可以免费使用的最智能的AI助手。”

通过测试新的AI，发现它不需要付费订阅，但和ChatGPT-Plus有一样的能力。它可以生成图像和动画，生成代码，并提供连贯、与上下文相关的响应。新的聊天机器人也可以访问互联网，但它仍然无法与像Perplexity这样的专业解决方案的能力相媲美。

唯一的缺点是Llama-3当前的上下文窗口限制在8K tokens——大约6,000个单词。

Meta发布的是一个700亿参数的Llama-3模型，但使用它将需要强大的计算能力——可能是整整一排GPU。根据合成基准测试，这个模型击败了Gemini 1.5 Pro和Claude 3 Sonnet。

还有一个80亿参数的模型可用，它可以在消费级GPU上本地运行。这个模型在各种合成基准测试中击败了谷歌的Gemma和Mistral 7B。该模型尚未在LLM Arena中列出，因此目前还没有主观的ELO分数可以报告.

这两个模型也可以在云实例中以较低成本运行。

Meta表示：“我们致力于以负责任的方式开发Llama 3，我们也提供各种资源帮助他人负责任地使用它，”。这包括引入了新的信赖和安全工具，如Llama Guard 2、Code Shield和CyberSec Eval 2。

Meta表示，在接下来的几个月里，计划引入新功能、更长的上下文窗口、额外的模型尺寸和增强的性能。Llama 3的研究论文也将被分享。

“使用Llama 3技术构建的Meta AI现在是世界上领先的AI助手之一，可以提升你的智力，减轻你的负担——帮助你学习、完成事情、创造内容和连接，充分利用每一个时刻，”Meta说。

Meta补充说，它还在训练一个巨大的4000亿参数模型，预计将在今年晚些时候发布。这个模型——可能与Claude Opus或GPT-4.5的最新版本相当——可能是迄今为止最强大的开源模型。如果历史重演，它也将作为新一代微调模型的基础，这些模型将在整体质量上超越Llama-3——并将增强与领先的闭源模型的竞争。

通过在Meta AI内部测试了Llama-3，以查看它是否像Zuck所说的那样好。简而言之，Llama-3引入了许多值得注意的特性和能力，应该是一个伟大的基础模型，开源社区可以在此基础上进行迭代。

内容审核

Llama-3展示了对内容审核的强烈承诺。即使面对常见的越狱技术，它始终拒绝生成有害的种族内容。
例如，当模型被要求提供如何勾引一个女人的指导时，它提供了通用但有用的回应。然而，当被要求提供如何勾引一个最好朋友的妻子的指导时，模型坚决拒绝提供答案。

图像和动画

与ChatGPT-Plus类似，使用Llama-3的Meta AI能够生成图像。然而，它通过提供将它们动画化的选项，将这一能力提升到了一个新的水平——这是ChatGPT或Gemini中不可用的功能。

Meta AI使用Llama-3生成的图像比Dalle-3产生的图像更加逼真，但它们没有达到谷歌即将推出的ImageFX生成的图像的质量。

编码能力

Llama-3在编码方面表现出了高度的熟练度。当面对一个独特且描述含糊的游戏想法时，模型能够在两次尝试中生成必要的Python代码，结果是一个可运行的游戏。第一次尝试给了我们一个关于如何创建游戏的大致想法，但在我们澄清说我们需要Python代码后，它生成了可工作的代码。

游戏是可运行的，但错过了一些细节，比如在玩家获胜后重新开始。其他聊天机器人也发生了同样的情况。

我们发现Claude 3 Sonnet是这项任务的最好工具，其次是Llama 3。GPT-4排在第三位。然而，不同的用户可能会得到不同的结果。

以下是Llama3、Claude和ChatGPT为那些有兴趣测试它们的人生成的源代码的Pastebin链接。

政治中立性

模型力求政治中立，这从它对资本主义和共产主义问题的回答中可以看出。回答在结构上相似，为每个系统提供了介绍、优点和缺点。

这种中立性的模式也在回答“什么是男人？”和“什么是女人？”等问题时被观察到。

尽管如此，它的回应略微倾向于资本主义和左倾，这并不奇怪，因为它是大型语言模型中最常见的政治倾向。

逻辑推理

Llama-3展示了强大的逻辑推理能力。在测试经常让用户感到困惑的复杂LSAT问题时，模型不仅提供了正确的答案，还提供了清晰合理的解释。

长提示限制

尽管Llama-3有许多优点，但它在处理长提示时存在困难。当面对大约一页半的长提示——这可以被像GPT-4、Claude或Mistral这样的模型消化时——模型返回了一个错误消息。

语言理解

模型展示了对不同语言的强大理解能力。当被要求翻译一个西班牙语口号时，它不仅提供了一个准确的翻译，还提供了上下文以更好地理解这个口号。

结论

作为一个聊天机器人界面，由Llama-3驱动的Meta AI可以与ChatGPT Plus竞争，是一个总体上不错的选择。

在更技术层面上，作为一个大型语言模型(LM)，Llama-3足以在不同场景中与GPT-4竞争，只是在令牌上下文能力和RAG方面略有不足。这对于技术熟练的用户来说可能很重要，但对于日常用户来说可能不是大问题。

如果您主要使用ChatGPT生成Dall-E图像，可能想考虑取消您的订阅，因为Llama-3的图像和动画生成能力一样好。然而，如果您还需要支持长提示，Llama-3可能不是您的最佳选择，您可能想考虑继续使用ChatGPT-Plus。

低频用户可能会发现Llama-3满足他们的需求，而不需要成为付费会员。对于那些需要进行大量互联网研究的任务，ChatGPT Plus或Perplexity可能更适合。

最后，如果您的重点是编程，Llama-3可能是一个不错的选择，尽管还有其他专门的工具可用。Llama-3是免费的，这是一个重要的优势。

posted @ 2024-04-21 08:29 羽扇冠巾阅读(612) 评论(0) 收藏举报

刷新页面返回顶部

flyspirit99

Meta发布llama3-目前最先进的开源大模型

公告