【GitHub每日速递 20251205】ByteDance开源verl:灵活高效的大语言模型RL训练库,解锁多项前沿技术!

原文: https://mp.weixin.qq.com/s/zV-ZAEDY17DAoKCXRsmqYw
ByteDance开源verl:灵活高效的大语言模型RL训练库,解锁多项前沿技术!
项目地址:https://github.com/volcengine/verl
主要语言:Python
stars: 16.4k

仓库简介
verl 是由字节跳动 Seed 团队发起、verl 社区维护的用于大语言模型(LLMs)的强化学习训练库,它是 HybridFlow: A Flexible and Efficient RLHF Framework 论文的开源版本,具备灵活性、高效性和生产就绪性。
核心优势
- 灵活性与易用性
- 算法扩展便捷:通过混合控制器编程模型,能灵活表示和高效执行复杂的训练后数据流,只需几行代码就能构建如 GRPO、PPO 等强化学习数据流。
- 无缝集成现有基础设施:模块化 API 解耦了计算和数据依赖,可与 FSDP、Megatron - LM、vLLM、SGLang 等现有 LLM 框架无缝集成。
- 灵活的设备映射:支持将模型灵活放置在不同的 GPU 集合上,能有效利用资源,并可在不同集群规模下扩展。
- 适配流行模型:可与流行的 HuggingFace 模型轻松集成。
- 高效性
- 先进的吞吐量:集成了最先进的 LLM 训练和推理引擎,实现了 SOTA 的强化学习吞吐量。
- 高效的 actor 模型重分片:3D - HybridEngine 消除了内存冗余,显著降低了训练和生成阶段转换时的通信开销。
关键特性
- 训练框架:支持 FSDP、FSDP2 和 Megatron - LM 进行训练。
- 推理引擎:使用 vLLM、SGLang 和 HF Transformers 进行 rollout 生成。
- 模型兼容性:与 Hugging Face Transformers 和 Modelscope Hub 兼容,如 Qwen - 3、Qwen - 2.5、Llama3.1 等。
- 训练方式:提供监督微调以及多种强化学习算法,如 PPO、GRPO、GSPO 等。
- 奖励支持:支持数学、编码等领域的基于模型的奖励和基于函数的奖励(可验证奖励)。
- 多模态支持:支持视觉语言模型(VLMs)和多模态强化学习,以及多轮工具调用。
- 对齐策略:提供 LLM 对齐策略,如自我博弈偏好优化(SPPO)。
- 优化技术:支持 Flash attention 2、序列打包、序列并行、LoRA、Liger - kernel 等。
- 扩展性:可扩展到 671B 模型和数百个 GPU。
- 内存优化:支持多 GPU LoRA RL 以节省内存。
- 实验跟踪:支持使用 wandb、swanlab、mlflow 和 tensorboard 进行实验跟踪。
最新动态
- 2025 年 10 月,verl 在 PyTorch Conference 2025 上展示。
- 2025 年 8 月,在 PyTorch Expert Exchange Webinar 上展示,相关幻灯片可获取。
- 2025 年 7 月,ReTool 配方完全开源,首个 verl 见面会将在 ICML Vancouver 举行。
- 2025 年 6 月,verl 搭配 Megatron 后端支持大型 MoE 模型,如 DeepSeek - 671B 和 Qwen3 - 235B。
- 2025 年 3 月,DAPO 开源,其训练由 verl 提供支持,复现代码可在
recipe/dapo中获取。
未来规划
- 有 Q3 路线图、DeepSeek 671b 优化、多轮 rollout 和工具使用优化等计划。
- 支持 Agent 集成、异步和离策略架构。
- 列出了自 v0.4 以来的重大变更。
使用指南
- 快速上手:提供安装、快速开始、编程指南、PPO 和 GRPO 使用等文档。
- PPO 示例:详细介绍了准备数据、实现奖励函数、示例架构和配置解释等步骤。
- 算法基线:提供可复现的编码和数学领域的强化学习性能基线。
- 高级用法:包括 PPO 训练器和工作器的代码解释,以及添加模型、多轮支持、工具集成等高级扩展的文档。
性能调优
提供详细的性能调优指南,帮助优化基于策略的强化学习算法的性能。
版本升级
- 支持升级到 vLLM >= 0.8.2,避免使用 vllm 0.7.x。
- 支持使用最新的 SGLang,SGLang RL 团队正在开发多轮代理强化学习等独特功能。
- 全面支持 FSDP2,可通过设置选项启用,且 FSDP2 CPU 卸载与梯度累积兼容。
一键让LLM拥有持久记忆,Memori开源SQL原生内存引擎降本增效!
Memori 是一个开源的 LLM 和 AI 代理记忆引擎。简单讲,它能帮助大模型和智能体记住之前的信息,实现长期记忆和多智能体协作。适用人群:AI开发者、研究人员及多智能体系统爱好者。
项目地址:https://github.com/GibsonAI/Memori
主要语言:Python
stars: 6.3k

核心功能
Memori 是一个开源的 SQL 原生 AI 内存引擎,只需一行代码 memori.enable() ,就能让任何大语言模型(LLM)拥有持久、可查询的内存,且内存存储在标准 SQL 数据库中,用户可完全自主控制。
优势
- 集成便捷:仅需一行代码即可集成,能与 OpenAI、Anthropic、LiteLLM、LangChain 等任何 LLM 框架协同工作。
- SQL 原生存储:内存数据存储在用户可控的 SQL 数据库中,具备可移植性、可查询性和可审计性。
- 成本节约:无需使用昂贵的向量数据库,可节省 80 - 90% 的成本。
- 无供应商锁定:可将内存数据导出为 SQLite 格式,方便迁移。
- 智能内存管理:自动进行实体提取、关系映射和上下文优先级排序。
快速上手
通过 pip install memorisdk 命令安装 SDK,然后使用以下 Python 代码即可快速尝试:
from memori import Memori
from openai import OpenAI
# 初始化
memori = Memori(conscious_ingest=True)
memori.enable()
client = OpenAI()
# 首次对话
response = client.chat.completions.create(
model="gpt-4o-mini",
messages=[{"role": "user", "content": "I'm building a FastAPI project"}]
)
# 后续对话 - Memori 自动提供上下文
response = client.chat.completions.create(
model="gpt-4o-mini",
messages=[{"role": "user", "content": "Help me add authentication"}]
)
# LLM 自动知晓你的 FastAPI 项目
数据库支持
支持多种 SQL 数据库,如 SQLite、PostgreSQL、MySQL、Neon 和 Supabase 等,并给出了相应的连接字符串示例。
LLM 框架支持
借助 LiteLLM 的原生回调系统,可与多种 LLM 框架兼容,包括 OpenAI、Anthropic、LiteLLM、LangChain、Azure OpenAI 等,以及 100 多种与 LiteLLM 兼容的模型。
配置选项
- 持久化存储:可在初始化
Memori时指定数据库连接字符串、内存模式和 API 密钥等参数。 - 内存模式:提供有意识模式(一次性工作内存注入)、自动模式(每次查询动态搜索)和组合模式(兼具两者优点)。
- 使用配置管理器:可通过
ConfigManager自动从环境变量或配置文件中加载配置。
架构概述
通过拦截 LLM 调用,在调用前注入上下文,调用后记录信息。具体流程如下:
- 调用前(上下文注入):应用程序调用
client.chat.completions.create时,Memori 透明拦截,检索相关记忆并注入上下文。 - 调用后(记录):LLM 提供响应后,Memori 提取实体、分类信息并存储在 SQL 数据库中。
- 后台任务(每 6 小时):有意识代理分析模式,将重要记忆从长期存储提升到短期存储。
示例与集成
- 示例代码:提供了基本使用、个人助理、内存检索、高级配置等基本示例,以及多用户场景下的示例。
- 框架集成:展示了与 AgentOps、Agno、AWS Strands、Azure AI Foundry 等多种框架的集成示例。

浙公网安备 33010602011771号