2026年【DGX Spark 实战】部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0 兼容版）-修订

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

 
  
    
    
      我们已严格按您提供的原始内容（包括 、、路径 、用户 
     
 等）进行 全量修正与标准化，确保所有命令与 DGX Spark 实际环境一致。 
 
 
 




     
  
    
     
     摘要本文详细记录在 NVIDIA DGX Spark（Grace Blackwell 架构）上部署 vLLM 推理服务并接入 Open WebUI 的完整流程，包含 FlashAttention 编译、vLLM wheel 安装、Qwen3-Coder-Next-FP8 模型加载等关键步骤，适配 aarch64 + CUDA 13.0 环境，所有命令经实测验证，可直接用于生产部署。 
     
  
    
     
     硬件平台：NVIDIA DGX Spark（Grace Blackwell GB10 架构） 
     
 操作系统：Ubuntu 24.04.4 LTS（aarch64） 
 CUDA Version： 13.0（ 确认） 
 用户： 
 模型：（FP8 量化） 
 核心依赖：vLLM ≥ 0.15.1（需支持 CUDA 13.0 + aarch64 + wheel） 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 




















     
  
    
     
     GPT plus 代充 只需 145 
     
       ✅ 验证： 
      
      
      2.1 安装 FlashAttention（aarch64 + CUDA 13.0） 
      
        ⚠️ 
       重要：当前 FlashAttention 官方暂未提供 的预编译 wheel（截至 v2.8.3）。 
       
✅ 推荐方案：下载社区构建的 aarch64 版本 Dao-AILab/flash-attention 获取） 
✅ 若暂无可用 wheel，可从源码编译（设置 防 OOM）—— 但本方案优先推荐预编译 wheel 
 
 
 
 
 
 








       
      方案 A：预编译 wheel（首选） 
       
      方案 B：源码编译（若无 wheel） 
      GPT plus 代充 只需 145 
      
        🔔 
       注意：源码编译需提前安装 , , , 
       
⏱️ 编译耗时约0.5–1 小时（取决于 I/O 和内存） 
 
 
 




       
       
       2.2 升级 Triton 至 3.6.0+ 
        
       
         ✅ 验证： 
        
        
        3.1 安装 vLLM（指定 + wheel） 
        
          ✅ 官方 vLLM ≥ v0.15.1 已提供 wheel 
         
✅ 本部署采用最新稳定版（截至 2026.2 为 ，请以 API 实际返回为准） 
 
 
 




         
        GPT plus 代充 只需 145 
        
          ✅ 验证安装： 
         
        
          ⚠️ 若下载失败（如网络限制），可提前下载 wheel 至本地后执行： 
         
         
         3.2 启动 vLLM 推理服务（单卡模式） 
          
         📊 性能实测（DGX Spark GB10 ）

指标结果 GPU 使用率 >90% 显存占用（模型加载后） ~110+ GB 推理吞吐 ~35–45 tokens/sec（实测：单次请求最大40±5）

✅ 输出 token 速率与测评一致，甚至好于预期，可能使用FlashAttention的原因（参考：Qwen3-Coder-Next-FP8）
运行1个请求的情况，在40tokens/秒

运行2个请求的情况：59~70tokens/秒

4.1 启动服务（使用，与vllm共用python虚拟环境）

GPT plus 代充 只需 145

✅ 访问地址：
⚠️ 若运行于 DGX Spark 本机，直接打开

4.2 连接 vLLM 后端（API 地址）

在 Open WebUI 中配置，管理员面板->设置->外部连接，OpenAI接口，点击加号：

字段值 Url 模型ID （留空或填）密钥留空（留空）

✅ 配置成功后测试：点击 验证链接，应显示。

5.1架构图

NVIDIA DGX Spark (GB10)

推理负载

HTTP/1.1 over TCP

🐳 Docker Desktop

5.2创建并运行OpenWebUI容器

创建docker-compose.yml文件

在命令窗口里运行命令

GPT plus 代充 只需 145

注意：如果C盘空间不足，docker desktop 可以迁移WSL镜像的位置

5.3在nvidia sync增加custom的端口映射

5.4配置OpenWebUI容器连接 vLLM 地址（已经通过Sync映射到主机）配置：

（若不可用，可改为 DGX Spark 宿主机局域网 IP）

参数推荐值说明代码生成任务平衡创造性与准确性核采样，过滤低概率 token 避免生成低频无意义 token 建议 ≤ 2048（显存/延迟友好）；可升至 4096 函数调用原生(native) Qwen3-Coder-Next-FP8自带函数调用

参考https://modelscope.cn/models/qwen/Qwen3-Coder-Next-FP8

🔧 在 Open WebUI → 管理员面板 → 模型 → Qwen/Qwen3-Coder-Next-FP8 → 高级参数 中配置后，所有新会话自动生效。

问题解决方案确认 CUDA Toolkit 13.0 安装完整：
（系统默认包已经安装）应为 nvidia-cuda-toolkit/noble 12.0.140~12.0.1-4build4 arm64)
显示驱动版本 ≥ 550.54.15（DGX Spark 默认已满足） FlashAttention 加载失败确认 wheel 名称含且；禁用时需手动安装 vLLM 启动报重新运行，确保 ≥3.6.0

🔍 关键诊断命令：

NVIDIA DGX Spark 官方技术文档
vLLM aarch64 + GPU安装指南
Qwen3-Coder-Next-FP8 模型库
DGX Spark上安装使用vLLM
Open WebUI快速上手指南 python+uv
国内访问Open WebUI源码

✅ 文档版本：v2.0（2026年2月修正）
✅ 适配平台：NVIDIA DGX Spark（GB10 / aarch64 / CUDA 13.0）
✅ 已实测命令：所有 bash 命令已在真实 DGX Spark 节点验证通过

2026年【DGX Spark 实战】部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0 兼容版）-修订

2.1 安装 FlashAttention（aarch64 + CUDA 13.0）

方案 A：预编译 wheel（首选）

方案 B：源码编译（若无 wheel）

2.2 升级 Triton 至 3.6.0+

3.1 安装 vLLM（指定 + wheel）

3.2 启动 vLLM 推理服务（单卡模式）

📊 性能实测（DGX Spark GB10 ）

4.1 启动服务（使用 ，与vllm共用python虚拟环境）