SwanLab x verl：可视化LLM强化学习后训练教程

科技前沿 • 2026-04-01 17:37 • 阅读 1

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

verl 是一个灵活、高效且可用于生产环境的强化学习（RL）训练框架，专为大型语言模型（LLMs）的后训练设计。它由字节跳动火山引擎团队开源，是 HybridFlow 论文的开源实现。verl目前已经被很多优秀的项目采用，如TinyZero、RAGEN、Logic R1等。

verl_logo 1

verl 具有以下特点，使其灵活且易于使用：

易于扩展的多样化 RL 算法：Hybrid 编程模型结合了单控制器和多控制器范式的优点，能够灵活表示并高效执行复杂的后训练数据流。用户只需几行代码即可构建 RL 数据流。
与现有 LLM 基础设施无缝集成的模块化 API：通过解耦计算和数据依赖，verl 能够与现有的 LLM 框架（如 PyTorch FSDP、Megatron-LM 和 vLLM）无缝集成。此外，用户可以轻松扩展到其他 LLM 训练和推理框架。
灵活的设备映射和并行化：支持将模型灵活地映射到不同的 GPU 组上，以实现高效的资源利用，并在不同规模的集群上具有良好的扩展性。
与流行的 HuggingFace 模型轻松集成：verl 能够方便地与 HuggingFace 模型进行集成。

verl 也具有以下优势，使其运行速度快：

最先进的吞吐量：通过无缝集成现有的 SOTA LLM 训练和推理框架，verl 实现了高生成和训练吞吐量。
基于 3D-HybridEngine 的高效 Actor 模型重分片：消除了内存冗余，并显著减少了在训练和生成阶段之间切换时的通信开销。

更多信息可参考如下链接

verl GitHub仓库链接: https://github.com/volcengine/verl

官方文档: https://verl.readthedocs.io/en/latest/index.html

HybridFlow论文地址: https://arxiv.org/pdf/2409.19256v2

SwanLab 是一个开源的模型训练记录工具，常被称为"中国版 Weights&Biases + Tensorboard"。SwanLab面向AI研究者，提供了训练可视化、自动日志记录、超参数记录、实验对比、多人协同等功能。在SwanLab上，研究者能基于直观的可视化图表发现训练问题，对比多个实验找到研究灵感，并通过在线链接的分享与基于组织的多人协同训练，打破团队沟通的壁垒。

你可以使用verl快速进行大模型强化学习训练，同时使用SwanLab进行实验跟踪与可视化。

需要环境：

Python: Version >= 3.9
CUDA: Version >= 12.1

参考verl官方文档安装：https://verl.readthedocs.io/en/latest/start/install.html

以及需要额外安装SwanLab

以verl官方文档的Post-train a LLM using PPO with GSM8K dataset为例。

你仅需要通过在实验的启动命令中，增加，即可选择swanlab进行实验跟踪。

完整的测试命令如下：

如果启动训练时你还未登陆SwanLab，会出现如下提示。

select

选择1、2则为使用云端跟踪模式，选择后根据引导输入官网的API即可实现在线跟踪。可以在线查看训练跟踪结果。选择3则不上传训练数据，采用离线跟踪。

当然，你也可以通过环境变量的方式登陆或者设置跟踪模式：

完成登陆后会显示如下登陆信息：

track

运行进程，即可在SwanLab官网上查看训练日志：

remote

更多使用方法可以参考SwanLab查看使用结果

如果你使用本地看板模式，则可以通过如下命令打开本地看板

更多详细可以参考SwanLab离线看板模式

服务器设置端口号可以查看离线看板端口号

SwanLab x verl：可视化LLM强化学习后训练教程

相关推荐