阿里通义千问团队最新开源的 Qwen3.6-27B 以270亿参数实现了旗舰级编程能力,在多个基准测试中超越了参数量15倍于自身的 Qwen3.5-397B-A17B。然而稠密模型推理的高计算成本一直是部署痛点。今天要介绍的 DFlash 开源框架,通过块扩散投机解码技术,在 Qwen3-8B 上实现了 6.17倍 的无损推理加速,将解码吞吐量提升至当前最优投机解码方案 EAGLE-3 的 2.5 倍。
2026年4月22日,阿里通义千问团队开源了 Qwen3.6-27B,这是一款270亿参数的稠密多模态模型,支持思考与非思考双模式。在编程能力方面,Qwen3.6-27B 在多个权威基准测试中表现出色:
基准测试
Qwen3.6-27B
Qwen3.5-397B-A17B
SWE-bench Verified
77.276.2
SWE-bench Pro
53.550.9
Terminal-Bench 2.0
59.352.5
SkillsBench
48.230.0
GPQA Diamond
87.8—
以1/15的参数量全面超越前代开源旗舰,Qwen3.6-27B 在 GPQA Diamond 上取得的 87.8 分可与数倍规模的模型相媲美。同时它原生支持多模态,能够处理图像、视频与文本的多模态理解任务。
▲ DFlash 在 Qwen3-8B 上实现 6.17 倍加速,解码吞吐量达 EAGLE-3 的 2.5 倍
投机解码(Speculative Decoding)是加速大语言模型推理的核心技术之一。传统投机解码使用自回归小模型逐 token 生成草稿,再由大模型并行验证。这种方式存在一个根本瓶颈:草稿生成阶段仍是串行的。
DFlash 创新性地将块扩散(Block Diffusion)模型引入投机解码,实现了真正的并行草稿生成:
三大核心创新
1. 并行草稿生成
块扩散模型能够在单次前向传播中生成多个(默认16个)token,而不是逐个生成。这打破了自回归解码的串行瓶颈,从根本上提升了草稿生成效率。
2. 目标模型隐层特征融入
DFlash 创新性地将目标模型的隐层特征作为上下文条件融入草稿生成过程,实现了高质量与高效率的统一。相比纯随机初始化的扩散模型,这种方式显著提升了草稿质量。
3. 无损加速保证
投机解码的核心是验证机制——被拒绝的 token 会回退到目标模型的标准解码。通过精心设计的块大小和验证策略,DFlash 确保输出质量与目标模型完全一致。
▲ DFlash 块扩散草稿模型工作流程:输入上下文 → 并行去噪步 → 生成16个Token → 目标模型验证
让我们通过一个具体例子理解投机解码的加速原理:
传统自回归解码
生成100个 token 需要执行100次完整的前向传播。每次都要计算完整的注意力,GPU 利用率低,延迟高。
DFlash 投机解码
每次迭代生成16个草稿 token(1次前向传播),由目标模型并行验证。假设接受率为60%,实际加速比可达 6 倍以上。
关键在于草稿模型的生成速度远快于目标模型。以 Qwen3.5-27B 为例,其草稿模型 Qwen3.5-27B-DFlash 体积小、计算量少,能够在短时间内生成一批候选 token。目标模型随后并行验证这些候选,选择性地接受有效的 token。
▲ 投机解码工作流:草稿模型并行生成 → 目标模型批量验证 → 接受有效 token
DFlash 支持多种推理后端,以下是针对 Qwen3.5-27B(与 Qwen3.6-27B 同架构)的具体配置方法。Qwen3.6-27B 的 DFlash 草稿模型正在开发中,可先用 Qwen3.5-27B-DFlash 作为参考配置。
方案一:vLLM 后端
vLLM 是目前最流行的 LLM 推理引擎,支持 PagedAttention 高效管理 KV Cache。
# 安装 DFlash(带 vLLM 支持) uv pip install -e ".[vllm]" uv pip install -U vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly # 启动服务 vllm serve Qwen/Qwen3.5-27B --speculative-config '{ "method": "dflash", "model": "z-lab/Qwen3.5-27B-DFlash", "num_speculative_tokens": 15 }' --attention-backend flash_attn --max-num-batched-tokens 32768
方案二:SGLang 后端
SGLang 通过 RadixAttention 技术实现 KV Cache 前缀复用,多轮对话场景下吞吐量比 vLLM 高出数倍。
# 启动 SGLang 服务 export SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server --model-path Qwen/Qwen3.5-35B-A3B --speculative-algorithm DFLASH --speculative-draft-model-path z-lab/Qwen3.5-35B-A3B-DFlash --speculative-num-draft-tokens 16 --tp-size 1 --attention-backend trtllm_mha --mem-fraction-static 0.75 --trust-remote-code
方案三:Transformers 原生调用
如果需要更灵活的控制,可以直接使用 Transformers 库调用 DFlash。
# 安装 uv pip install -e ".[transformers]" # Python 代码 from transformers import AutoModelForCausalLM, AutoTokenizer draft = AutoModel.from_pretrained( "z-lab/Qwen3-8B-DFlash-b16", trust_remote_code=True, dtype="auto", device_map="cuda:0" ).eval() target = AutoModelForCausalLM.from_pretrained( "Qwen/Qwen3-8B", dtype="auto", device_map="cuda:0" ).eval() tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-8B") messages = [{"role": "user", "content": "解释量子纠缠原理"}] input_ids = tokenizer.apply_chat_template( messages, return_tensors="pt", add_generation_prompt=True ).to(draft.device) output = draft.spec_generate( input_ids=input_ids, max_new_tokens=2048, temperature=0.0, target=target, stop_token_ids=[tokenizer.eos_token_id] ) print(tokenizer.decode(output[0], skip_special_tokens=False))
27B 参数的稠密模型对显存要求较高,以下是不同场景的推荐配置:
部署场景
推荐 GPU
精度
KV Cache
个人研究/开发
RTX 4090 x2
INT4/INT8
~8K
企业级服务
A100 80GB / H100
FP16/FP8
~32K+
DGX Spark 单机
GB10 (128GB 统一)
FP8/NVFP4
~64K
注意事项:Qwen3.6-27B 的 DFlash 草稿模型目前仍在适配中,建议先用 Qwen3.5-27B-DFlash 进行测试。官方正在积极开发对大规模 MoE 架构(如 Qwen3.5-397B-A17B)的支持。
DFlash 提供了标准化的基准测试工具,支持多种后端和数据集:
基准测试命令
# vLLM 基准测试 python -m dflash.benchmark –backend vllm –base-url http://127.0.0.1:8000 –model Qwen/Qwen3.5-27B –dataset gsm8k –num-prompts 128 –concurrency 1 –enable-thinking
SGLang 基准测试
python -m dflash.benchmark –backend sglang –base-url http://127.0.0.1:30000 –model Qwen/Qwen3.5-35B-A3B –dataset gsm8k –num-prompts 128 –concurrency 1 –enable-thinking
Transformers 多卡基准测试
torchrun –nproc_per_node=8 -m dflash.benchmark –backend transformers –model Qwen/Qwen3-8B –draft-model z-lab/Qwen3-8B-DFlash-b16 –dataset gsm8k –max-samples 128
测试数据集说明:DFlash 官方使用以下数据集进行基准测试:
- gsm8k:小学数学应用题,考察模型推理能力
- math500:高中/大学数学问题
- humaneval:代码生成基准
- mbpp:编程问题
- mt-bench:多任务对话基准
DFlash 通过块扩散技术打破了投机解码中草稿生成的串行瓶颈,在 Qwen3-8B 上实现了 6.17 倍 的无损加速。随着 Qwen3.6-27B 的发布,将 DFlash 与这款旗舰级稠密模型结合,将为开发者提供高性能、低成本的推理方案。
值得关注的是,DFlash 正在积极接入 vLLM 推理引擎,并规划支持大规模 MoE 架构模型。未来在 Qwen3.5-122B-A10B、Qwen3.5-397B-A17B 等超大模型上,DFlash 有望带来更显著的加速效果。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/283580.html