2026年大模型垂直领域微调系列（二）：ms-swift 框架全景

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

作者：吴佳浩

撰稿时间：2026-3-9

测试版本：ms-swift v4.0.1

1. ms-swift 是什么
2. 核心能力全景
3. 整体架构与模块设计
4. 支持的模型
5. 支持的训练方法
6. 推理与部署模块
7. 评测模块
8. 量化与导出模块
9. Megatron-SWIFT 并行训练
10. Web-UI 可视化界面
11. 环境安装
12. 根据资源选择训练方案

ms-swift（ModelScope Scalable lightWeight Infrastructure for Fine-Tuning）是阿里云魔搭社区（ModelScope）开源的大模型与多模态大模型微调部署一体化框架。

核心定位：让开发者用最少的代码和资源，完成大模型从训练到上线的完整链路，不需要任何深度学习代码，命令行即可完成一站式操作。

论文背书：已在 AAAI 2025 发表，arXiv：arxiv.org/abs/2408.05…

版本说明：

ms-swift 4.x（main 分支）：最新版本，本文基于此版本
ms-swift 3.x（release/3.12 分支）：稳定版本
ms-swift 2.x：已停止主要更新

核心规模数字

指标数量支持纯文本大模型 600+ 支持多模态大模型 400+ 内置训练数据集 150+ 支持训练方法（PEFT + 其他） 15+ 支持评测数据集 100+ 支持推理引擎 4 种（Transformers/vLLM/LMDeploy/SGLang）支持硬件 NVIDIA GPU、Ascend NPU、MPS、CPU

ms-swift 的核心能力可分为五大板块：

亮点特性

热门模型 Day-0 支持：主流开源模型发布当天，ms-swift 即跟进支持，是目前响应速度最快的微调框架之一。

全模态覆盖：不仅支持纯文本大模型，还全面支持图像、视频、音频多模态模型，以及 All-to-All 全模态模型（如 Qwen3-Omni）。

GRPO 算法族完整实现：内置 GRPO、DAPO、GSPO、SAPO、CISPO、CHORD、RLOO、Reinforce++ 等多种强化学习算法变体，同时支持同步和异步 vLLM 引擎加速采样。

Megatron 并行集成：集成 Megatron 并行技术，支持 TP/PP/SP/CP/EP/VPP 等多种并行策略，可将 MoE 模型训练速度提升约 10 倍。

3.1 全链路架构

GPT plus 代充 只需 145

3.2 两种使用方式

方式一：命令行（CLI）—— 推荐

所有功能都通过命令驱动，参数化配置，无需写任何训练代码：

方式二：Python API

适合需要在代码中集成训练/推理流程的场景：

GPT plus 代充 只需 145

方式三：Web-UI

基于 Gradio 的可视化界面，零代码完成全链路操作，一条命令启动：

4.1 纯文本大模型（600+）

ms-swift 对以下主流模型系列提供完整支持：

模型系列代表模型参数规模特点 Qwen3 / Qwen2.5 Qwen3-4B/7B/14B/32B/72B 0.6B~235B 中文能力强，推荐首选 DeepSeek-R1 / V3 DeepSeek-R1-7B/14B/32B/70B 7B~671B 推理能力突出 Llama 4 / 3.3 / 3.1 Llama-3.1-8B/70B/405B 1B~405B 英文能力强，社区资源丰富 InternLM3 InternLM3-8B/20B 8B~20B 中英双语，学术友好 GLM4.5 GLM4.5-9B 9B 对话能力出色 Mistral / Mixtral Mistral-7B、Mixtral-8x7B 7B~141B MoE 架构代表 Phi-4 Phi-4-14B 14B 小参数高性能 Gemma3 Gemma3-4B/12B/27B 1B~27B Google 出品

4.2 多模态大模型（400+）

模型系列支持模态特点 Qwen3-VL 图像+文本强视觉理解，文档/图表分析优秀 Qwen3-Omni 图像+音频+文本全模态，端到端处理 InternVL3.5 图像+文本高分辨率图像，OCR 能力强 MiniCPM-V-4 图像+文本轻量高效，端侧友好 LLaVA 图像+文本社区广泛使用 DeepSeek-VL2 图像+文本 MoE 架构，效率高 GLM4.5-V 图像+文本中文图文理解出色 Ovis2.5 图像+文本视觉指令跟随优秀

4.3 模型下载说明

ms-swift 默认从 ModelScope 下载模型，如需使用 HuggingFace：

GPT plus 代充 只需 145

5.1 轻量微调方法（PEFT）

各方法适用场景速查：

方法显存需求训练速度效果最适合场景 LoRA 中（16~24G）快高绝大多数场景首选 QLoRA 低（9~12G）中中高消费级 GPU，快速验证 DoRA 中较快高 LoRA 效果不稳定时 LoRA+ 中更快高追求更快收敛 AdaLoRA 中中高自动调整各层 rank LLaMA-Pro 大慢高最大程度保留原有能力 LISA 极低（<8G）快中超低资源，超大模型 GaLore 低中高全参训练的低显存替代 UnSloth 低最快高追求训练速度

5.2 全量微调（Full Fine-tuning）

GPT plus 代充 只需 145

5.3 训练加速技术

ms-swift 内置多种训练加速与显存优化技术：

技术参数效果说明 Flash Attention 2/3 速度提升 + 显存降低 A100/H100 强烈推荐 Gradient Checkpointing 显存降低 40% 默认开启，略降速度 Packing GPU 利用率提升将短序列打包到 max_length Padding-free 显存降低 + 速度提升需配合 flash_attn Sequence Parallel 支持超长序列多卡序列并行 Liger-Kernel 显存降低算子融合优化

5.4 分布式训练支持

DeepSpeed ZeRO 策略选择：

策略显存优化通信开销适用场景 ZeRO-1 低低显存充足，求速度 ZeRO-2 中中多卡 SFT 推荐 ZeRO-3 高（可训超大模型）高 70B+ 模型，显存紧张

GPT plus 代充 只需 145

5.5 RLHF 偏好对齐训练

ms-swift 通过命令统一管理所有偏好对齐任务：

DPO 数据集格式（每条样本需要 chosen 和 rejected 两个回答）：

GPT plus 代充 只需 145

KTO 训练（只需好/坏标签，无需配对）：

KTO 数据格式：

GPT plus 代充 只需 145

其中表示这条回答是好的，表示是坏的。

5.6 GRPO 强化学习训练

GRPO 是目前最流行的强化微调方法，特别适合数学推理、代码生成等可以程序化验证正确性的任务：

GRPO 数据格式（query 列 + ground_truth 列）：

GPT plus 代充 只需 145

内置奖励函数：（答案准确率）、（格式正确率）；也支持通过传入自定义奖励函数。

6.1 四种推理引擎

引擎启动参数吞吐量延迟适用场景 Transformers（默认）低中开发测试，支持 CPU vLLM 极高低高并发在线服务 LMDeploy 高极低低延迟场景，边缘部署 SGLang 高低复杂推理链，长文本

6.2 交互式推理

GPT plus 代充 只需 145

注意：指向 checkpoint 目录，ms-swift 会自动读取训练时保存的配置（包括基础模型路径、system prompt 等），无需重复指定。

6.3 部署为 OpenAI 兼容 API 服务

部署后自动提供 OpenAI 兼容 API，现有代码只需修改即可接入：

GPT plus 代充 只需 145

6.4 Gradio 可视化应用

ms-swift 以 EvalScope 为评测后端，通过命令统一调用。

7.1 支持的评测数据集

类别数据集综合能力 CEval、MMLU、AGIEval、CMMLU 推理能力 ARC_c、ARC_e、HellaSwag、WinoGrande 数学能力 GSM8K、MATH、MATH-500 代码能力 HumanEval、MBPP 中文能力 C3、CLUEWSC2020、CHID 知识问答 TriviaQA、NaturalQuestions

7.2 标准评测命令

GPT plus 代充 只需 145

7.3 评测结果解读

评测完成后会生成详细报告，关键关注点：

通用能力分数变化：微调后相比基础模型，CEval/ARC 等通用评测的分数下降不超过 5% 为正常范围；下降超过 10% 说明训练数据单一，需要补充通用数据
领域评测分数：与基础模型对比，领域任务准确率提升幅度

8.1 支持的量化方法

方法位宽体积压缩速度提升精度损失推荐场景 AWQ 4-bit ~75% 2~3x 极小首选，生产部署 GPTQ 4-bit ~75% 1.5~2x 小第二选择 BNB 4-bit ~75% 1.5x 小开发测试，易安装 FP8 8-bit ~50% 1.5~2x 极小 H100 等新硬件

8.2 AWQ 量化命令（推荐）

8.3 推送到模型社区

GPT plus 代充 只需 145

8.4 合并 LoRA 权重

对于超大模型（70B+）或需要极高训练吞吐量的场景，ms-swift 集成了 Megatron 并行技术。

9.1 支持的并行策略

并行策略缩写作用张量并行 TP 将单层参数切分到多卡，减少单卡显存流水线并行 PP 将模型层分组到不同节点，跨节点可用序列并行 SP 序列维度并行，支持超长上下文上下文并行 CP 长上下文并行注意力专家并行 EP MoE 模型专家层分布数据并行 DP 传统数据并行，速度最快

9.2 Megatron-SWIFT 快速入门

GPT plus 代充 只需 145

推荐在 MoE 模型训练时使用 Megatron-SWIFT，通常可获得约 10 倍训练速度提升。

Web-UI 是 ms-swift 提供的零门槛可视化操作界面，基于 Gradio 实现，支持完整的训练-推理-评测-量化全链路。

10.1 启动 Web-UI

启动后浏览器访问

10.2 Web-UI 功能模块

Web-UI 包含以下主要功能页面：

训练页（Training）：选择模型、数据集、训练方法、配置超参数，一键启动训练，实时查看 Loss 曲线
推理页（Inference）：加载训练后的模型，进行交互式对话测试
评测页（Evaluation）：选择评测集，一键评测，查看各项指标
量化页（Quantization）：选择量化方法，一键量化并导出

适合场景：

快速验证新想法，无需写命令行
非技术用户（如领域专家）参与数据验证和效果评估
演示展示

11.1 系统要求

组件最低要求推荐版本 Python 3.9 3.11 / 3.12 PyTorch 2.0 2.8.0 CUDA 11.8 12.4 / 12.8 Transformers 4.33 4.57.6+ 操作系统 Ubuntu 20.04 Ubuntu 22.04

11.2 支持的硬件

硬件类型代表型号适用场景 NVIDIA 企业卡 A100/H100/H200/A800 大规模训练 NVIDIA 消费卡 RTX 4090/3090/4080 个人/小团队 NVIDIA 数据中心卡 T4/V100/A10/A30 云端训练华为昇腾 NPU Ascend 910B/910C 国产替代 Apple Silicon M1/M2/M3/M4 MPS 加速 CPU 任意推理调试（不推荐训练）

11.3 安装命令

基础安装（最常用）：

GPT plus 代充 只需 145

国内镜像加速：

全能力安装（包含所有可选依赖）：

GPT plus 代充 只需 145

源码安装（最新开发版）：

11.4 官方 Docker 镜像

GPT plus 代充 只需 145

11.5 按需安装可选依赖

11.6 验证安装

GPT plus 代充 只需 145

方案一：QLoRA（8~12G 显存）

适合：RTX 3060/4060/4060Ti，云端 T4

GPT plus 代充 只需 145

方案二：LoRA 单卡（16~24G 显存）

适合：RTX 3090/4090，A10，云端 V100

方案三：多卡 DeepSpeed（多张 A100/H100）

适合：大规模生产训练，14B~70B 模型

GPT plus 代充 只需 145

显存需求参考表

模型大小训练方式最低显存推荐显存 4B QLoRA 6G 8G 4B LoRA 10G 12G 7B QLoRA 9G 12G 7B LoRA 16G 24G 7B Full FT 55G 80G x2 14B LoRA 28G 40G 14B Full FT 100G+ 80G x4 32B LoRA 60G 80G x2 70B LoRA 120G+ 80G x4 72B LoRA 120G+ 80G x4

操作命令监督微调（SFT）持续预训练（CPT）偏好对齐（RLHF）强化学习（GRPO）推理（交互式）推理（批量）部署 API 服务可视化对话模型评测量化导出合并 LoRA 推送模型 Hub 启动 Web-UI

下一篇预告：第三篇将进入完整实战——自定义数据集格式规范、训练参数详解、训练过程监控、评测方法、部署上线，以及完整的常见问题排查和**实践清单。