（二十三）32天GPU测试从入门到精通-Qwen 模型测试day21

科技前沿 • 2026-04-15 19:19 • 阅读 2

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

DeepSeek-R1-Distill-Qwen-32B-AWQ 模型介绍

DeepSeek-R1-Distill-Qwen-32B-AWQ 是基于 DeepSeek-R1 训练技术生成的推理数据，微调了多个密集模型之一。该模型在基准测试中表现出色，尤其是在数学推理、代码生成和逻辑推理领域[^1]。具体而言：

- 数学推理：在 AIME 2024 和 MATH-500 测试中，准确率分别达到 72.6% 和 94.3%，接近 OpenAI-o1-mini 的表现。 - 代码生成：在 LiveCodeBench 和 Codeforces 测试中，评分分别为 57.2 和 1691，展现了强大的代码生成能力。 - 逻辑推理：在 GPQA Diamond 测试中，准确率为 62.1%，显著优于许多同类模型。

此外，DeepSeek-R1-Distill-Qwen-32B-AWQ 使用了 AWQ（Advanced Weight Quantization）量化技术，能够显著降低模型的内存占用，同时保持较高的性能[^2]。

---

DeepSeek-R1-Distill-Qwen-32B-AWQ 模型使用指南

硬件要求

为了成功运行 DeepSeek-R1-Distill-Qwen-32B-AWQ 模型，推荐的硬件配置包括： - GPU 显存至少为 24GB。 - 使用支持 Tensor Parallelism 的多 GPU 配置以进一步优化性能[^4]。

部署步骤

以下是部署 DeepSeek-R1-Distill-Qwen-32B-AWQ 模型的基本步骤：

下载模型
从魔搭社区或其他官方来源下载预训练模型文件。
安装依赖
安装必要的 Python 包，例如 vllm 和 transformers。可以通过以下命令完成安装：
```
pip install vllm transformers 
```
量化模型
使用 AWQ 量化技术对模型进行处理，以减少显存占用。示例代码如下： “`python from transformers import AutoTokenizer, AutoModelForCausalLM from awq import apply_awq

# 加载模型和分词器 model = AutoModelForCausalLM.from_pretrained("Valdemardi/DeepSeek-R1-Distill-Qwen-32B") tokenizer = AutoTokenizer.from_pretrained("Valdemardi/DeepSeek-R1-Distill-Qwen-32B")

# 应用 AWQ 量化 apply_awq(model)

 4. 生成推理代码 使用 `vllm` 提供的服务接口启动模型服务。以下是启动命令的示例： bash vllm serve Valdemardi/DeepSeek-R1-Distill-Qwen-32B-AWQ --quantization awq_marlin --max-model-len 18432 --max-num-batched-tokens 512 --max-num-seqs 1 --tensor-parallel-size 1 --port 8003 --enforce-eager --gpu_memory_utilization=0.98 --enable-chunked-prefill

运行与测试
- 设置缓存上限为 128 条（或不限制缓存上限以适应更大的任务需求）。 - 测试模型输出内容是否符合预期。

---

示例代码

以下是一个简单的 Python 脚本，用于调用 DeepSeek-R1-Distill-Qwen-32B-AWQ 模型生成文本：

import requests # 定义 API 请求地址 url = "http://localhost:8003/generate" # 输入提示文本 payload = { "prompt": "请解释量子计算的基本原理。", "max_tokens": 100, "temperature": 0.7, "top_p": 0.9 } # 发送请求并获取响应 response = requests.post(url, json=payload).json() # 输出生成结果 print(response["text"])

---

注意事项

- 如果显存不足，可以尝试进一步降低 --max-num-batched-tokens 或增加量化精度。 - 在生产环境中，建议使用负载均衡器管理模型服务，以提高稳定性和并发能力。

---