2026年【DGX Spark 实战】部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8(CUDA 13.0 兼容版)-修订

【DGX Spark 实战】部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8(CUDA 13.0 兼容版)-修订p 感谢 Qwen3 Coder Next FP8 为本文进行润色 调整 绘制架构图 但是所有的文字及链接经过手工修订 需要 SGLang 推理框架 移步 br DGX Spark 实战 部署 SGLang 千问 3 5 27B 模型初探 br p blockquote 我们已严格按您提供的原始内容 包括 路径 用户 br blockquote

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 
  
    
    
我们已严格按您提供的原始内容(包括 、、路径 、用户
等)进行 全量修正与标准化,确保所有命令与 DGX Spark 实际环境一致。






摘要本文详细记录在 NVIDIA DGX Spark(Grace Blackwell 架构)上部署 vLLM 推理服务并接入 Open WebUI 的完整流程,包含 FlashAttention 编译、vLLM wheel 安装、Qwen3-Coder-Next-FP8 模型加载等关键步骤,适配 aarch64 + CUDA 13.0 环境,所有命令经实测验证,可直接用于生产部署。
硬件平台:NVIDIA DGX Spark(Grace Blackwell GB10 架构)
操作系统:Ubuntu 24.04.4 LTS(aarch64)
CUDA Version13.0( 确认)
用户
模型:(FP8 量化)
核心依赖:vLLM ≥ 0.15.1(需支持 CUDA 13.0 + aarch64 + wheel)



































GPT plus 代充 只需 145
✅ 验证:

2.1 安装 FlashAttention(aarch64 + CUDA 13.0)

⚠️ 重要:当前 FlashAttention 官方暂未提供 的预编译 wheel(截至 v2.8.3)。
推荐方案:下载社区构建的 aarch64 版本 Dao-AILab/flash-attention 获取)
✅ 若暂无可用 wheel,可从源码编译(设置 防 OOM)—— 但本方案优先推荐预编译 wheel













方案 A:预编译 wheel(首选)
 
      
方案 B:源码编译(若无 wheel)
GPT plus 代充 只需 145
🔔 注意:源码编译需提前安装 , , ,
⏱️ 编译耗时约0.5–1 小时(取决于 I/O 和内存)







2.2 升级 Triton 至 3.6.0+

 
       
✅ 验证:

3.1 安装 vLLM(指定 + wheel)

✅ 官方 vLLM ≥ v0.15.1 已提供 wheel
✅ 本部署采用最新稳定版(截至 2026.2 为 ,请以 API 实际返回为准)






GPT plus 代充 只需 145
✅ 验证安装:
⚠️ 若下载失败(如网络限制),可提前下载 wheel 至本地后执行:

3.2 启动 vLLM 推理服务(单卡模式)

 
         
📊 性能实测(DGX Spark GB10 )
加载模型后,显存及GPU使用
指标 结果 GPU 使用率 >90% 显存占用(模型加载后) ~110+ GB 推理吞吐 ~35–45 tokens/sec(实测:单次请求最大40±5)

✅ 输出 token 速率与测评一致,甚至好于预期,可能使用FlashAttention的原因(参考:Qwen3-Coder-Next-FP8)
运行1个请求的情况,在40tokens/秒










运行2个请求的情况:59~70tokens/秒

4.1 启动服务(使用 ,与vllm共用python虚拟环境)

GPT plus 代充 只需 145
✅ 访问地址:
⚠️ 若运行于 DGX Spark 本机,直接打开







4.2 连接 vLLM 后端(API 地址)

在 Open WebUI 中配置,管理员面板->设置->外部连接,OpenAI接口,点击加号:

字段 值 Url 模型ID (留空或填 ) 密钥留空 (留空)

✅ 配置成功后测试:点击 验证链接,应显示 。




5.1架构图

NVIDIA DGX Spark (GB10)

推理负载

HTTP/1.1 over TCP

🐳 Docker Desktop

5.2创建并运行OpenWebUI容器

创建docker-compose.yml文件

 
    

在命令窗口里运行命令

GPT plus 代充 只需 145
注意:如果C盘空间不足,docker desktop 可以迁移WSL镜像的位置
在这里插入图片描述
在这里插入图片描述

5.3在nvidia sync增加custom的端口映射

在这里插入图片描述

5.4配置OpenWebUI容器连接 vLLM 地址(已经通过Sync映射到主机)配置:


(若 不可用,可改为 DGX Spark 宿主机局域网 IP)



















参数 推荐值 说明 代码生成任务平衡创造性与准确性 核采样,过滤低概率 token 避免生成低频无意义 token 建议 ≤ 2048(显存/延迟友好);可升至 4096 函数调用 原生(native) Qwen3-Coder-Next-FP8自带函数调用

参考https://modelscope.cn/models/qwen/Qwen3-Coder-Next-FP8

🔧 在 Open WebUI → 管理员面板 → 模型 → Qwen/Qwen3-Coder-Next-FP8 → 高级参数 中配置后,所有新会话自动生效。

问题 解决方案 确认 CUDA Toolkit 13.0 安装完整:
(系统默认包已经安装)应为 nvidia-cuda-toolkit/noble 12.0.140~12.0.1-4build4 arm64)
显示驱动版本 ≥ 550.54.15(DGX Spark 默认已满足) FlashAttention 加载失败 确认 wheel 名称含 且 ;禁用 时需手动安装 vLLM 启动报 重新运行 ,确保 ≥3.6.0





🔍 关键诊断命令:

  • NVIDIA DGX Spark 官方技术文档
  • vLLM aarch64 + GPU安装指南
  • Qwen3-Coder-Next-FP8 模型库
  • DGX Spark上安装使用vLLM
  • Open WebUI快速上手指南 python+uv
  • 国内访问Open WebUI源码

文档版本:v2.0(2026年2月修正)
适配平台:NVIDIA DGX Spark(GB10 / aarch64 / CUDA 13.0)
已实测命令:所有 bash 命令已在真实 DGX Spark 节点验证通过














小讯
上一篇 2026-03-18 22:01
下一篇 2026-03-18 21:59

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/242118.html