【GitHub每日速递 20251205】ByteDance开源verl：灵活高效的大语言模型RL训练库，解锁多项前沿技术！

原文: https://mp.weixin.qq.com/s/zV-ZAEDY17DAoKCXRsmqYw

ByteDance开源verl：灵活高效的大语言模型RL训练库，解锁多项前沿技术！

主要语言：Python

stars: 16.4k

仓库简介

verl 是由字节跳动 Seed 团队发起、verl 社区维护的用于大语言模型（LLMs）的强化学习训练库，它是 HybridFlow: A Flexible and Efficient RLHF Framework 论文的开源版本，具备灵活性、高效性和生产就绪性。

核心优势

灵活性与易用性
- 算法扩展便捷：通过混合控制器编程模型，能灵活表示和高效执行复杂的训练后数据流，只需几行代码就能构建如 GRPO、PPO 等强化学习数据流。
- 无缝集成现有基础设施：模块化 API 解耦了计算和数据依赖，可与 FSDP、Megatron - LM、vLLM、SGLang 等现有 LLM 框架无缝集成。
- 灵活的设备映射：支持将模型灵活放置在不同的 GPU 集合上，能有效利用资源，并可在不同集群规模下扩展。
- 适配流行模型：可与流行的 HuggingFace 模型轻松集成。
高效性
- 先进的吞吐量：集成了最先进的 LLM 训练和推理引擎，实现了 SOTA 的强化学习吞吐量。
- 高效的 actor 模型重分片：3D - HybridEngine 消除了内存冗余，显著降低了训练和生成阶段转换时的通信开销。

关键特性

训练框架：支持 FSDP、FSDP2 和 Megatron - LM 进行训练。
推理引擎：使用 vLLM、SGLang 和 HF Transformers 进行 rollout 生成。
模型兼容性：与 Hugging Face Transformers 和 Modelscope Hub 兼容，如 Qwen - 3、Qwen - 2.5、Llama3.1 等。
训练方式：提供监督微调以及多种强化学习算法，如 PPO、GRPO、GSPO 等。
- 奖励支持：支持数学、编码等领域的基于模型的奖励和基于函数的奖励（可验证奖励）。
- 多模态支持：支持视觉语言模型（VLMs）和多模态强化学习，以及多轮工具调用。
对齐策略：提供 LLM 对齐策略，如自我博弈偏好优化（SPPO）。
优化技术：支持 Flash attention 2、序列打包、序列并行、LoRA、Liger - kernel 等。
扩展性：可扩展到 671B 模型和数百个 GPU。
内存优化：支持多 GPU LoRA RL 以节省内存。
实验跟踪：支持使用 wandb、swanlab、mlflow 和 tensorboard 进行实验跟踪。

未来规划

有 Q3 路线图、DeepSeek 671b 优化、多轮 rollout 和工具使用优化等计划。
支持 Agent 集成、异步和离策略架构。
列出了自 v0.4 以来的重大变更。

使用指南

快速上手：提供安装、快速开始、编程指南、PPO 和 GRPO 使用等文档。
PPO 示例：详细介绍了准备数据、实现奖励函数、示例架构和配置解释等步骤。
算法基线：提供可复现的编码和数学领域的强化学习性能基线。
高级用法：包括 PPO 训练器和工作器的代码解释，以及添加模型、多轮支持、工具集成等高级扩展的文档。

性能调优

提供详细的性能调优指南，帮助优化基于策略的强化学习算法的性能。

版本升级

支持升级到 vLLM >= 0.8.2，避免使用 vllm 0.7.x。
支持使用最新的 SGLang，SGLang RL 团队正在开发多轮代理强化学习等独特功能。
全面支持 FSDP2，可通过设置选项启用，且 FSDP2 CPU 卸载与梯度累积兼容。

一键让LLM拥有持久记忆，Memori开源SQL原生内存引擎降本增效！

Memori 是一个开源的 LLM 和 AI 代理记忆引擎。简单讲，它能帮助大模型和智能体记住之前的信息，实现长期记忆和多智能体协作。适用人群：AI开发者、研究人员及多智能体系统爱好者。

项目地址：https://github.com/GibsonAI/Memori

主要语言：Python

stars: 6.3k

核心功能

Memori 是一个开源的 SQL 原生 AI 内存引擎，只需一行代码 memori.enable() ，就能让任何大语言模型（LLM）拥有持久、可查询的内存，且内存存储在标准 SQL 数据库中，用户可完全自主控制。

优势

集成便捷：仅需一行代码即可集成，能与 OpenAI、Anthropic、LiteLLM、LangChain 等任何 LLM 框架协同工作。
SQL 原生存储：内存数据存储在用户可控的 SQL 数据库中，具备可移植性、可查询性和可审计性。
成本节约：无需使用昂贵的向量数据库，可节省 80 - 90% 的成本。
无供应商锁定：可将内存数据导出为 SQLite 格式，方便迁移。
智能内存管理：自动进行实体提取、关系映射和上下文优先级排序。

快速上手

通过 pip install memorisdk 命令安装 SDK，然后使用以下 Python 代码即可快速尝试：

from memori import Memori
from openai import OpenAI

# 初始化
memori = Memori(conscious_ingest=True)
memori.enable()

client = OpenAI()

# 首次对话
response = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[{"role": "user", "content": "I'm building a FastAPI project"}]
)

# 后续对话 - Memori 自动提供上下文
response = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[{"role": "user", "content": "Help me add authentication"}]
)
# LLM 自动知晓你的 FastAPI 项目

数据库支持

支持多种 SQL 数据库，如 SQLite、PostgreSQL、MySQL、Neon 和 Supabase 等，并给出了相应的连接字符串示例。

LLM 框架支持

借助 LiteLLM 的原生回调系统，可与多种 LLM 框架兼容，包括 OpenAI、Anthropic、LiteLLM、LangChain、Azure OpenAI 等，以及 100 多种与 LiteLLM 兼容的模型。

配置选项

持久化存储：可在初始化 Memori 时指定数据库连接字符串、内存模式和 API 密钥等参数。
内存模式：提供有意识模式（一次性工作内存注入）、自动模式（每次查询动态搜索）和组合模式（兼具两者优点）。
使用配置管理器：可通过 ConfigManager 自动从环境变量或配置文件中加载配置。

架构概述

通过拦截 LLM 调用，在调用前注入上下文，调用后记录信息。具体流程如下：

调用前（上下文注入）：应用程序调用 client.chat.completions.create 时，Memori 透明拦截，检索相关记忆并注入上下文。
调用后（记录）：LLM 提供响应后，Memori 提取实体、分类信息并存储在 SQL 数据库中。
后台任务（每 6 小时）：有意识代理分析模式，将重要记忆从长期存储提升到短期存储。

示例与集成

示例代码：提供了基本使用、个人助理、内存检索、高级配置等基本示例，以及多用户场景下的示例。
框架集成：展示了与 AgentOps、Agno、AWS Strands、Azure AI Foundry 等多种框架的集成示例。

posted @ 2025-12-05 08:07 piggy侠阅读(54) 评论(0) 收藏举报

刷新页面返回顶部

piggy侠的技术博客

公#众~号: AI Tech研习社