DeepSeek本地部署教程：使用vLLM，轻松实现高效部署！

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

本文档将指导您如何使用 vLLM 在本地部署 DeepSeek 语言模型。我们以 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B 模型为例进行演示。

首先，您需要安装 Python 环境。

访问 Python 官网: https://www.python.org/
根据您的操作系统选择安装包: Python 官网提供 Windows, macOS 和 Linux 等操作系统的安装包。请根据您的电脑系统 (Windows 或 macOS) 下载并安装 Python。
推荐 Python 版本: 建议安装 Python 3.8 或更高版本。
安装后检查: 安装完成后，打开终端 (macOS/Linux) 或命令提示符 (Windows)，输入以下命令并回车，检查 Python 是否安装成功以及版本信息：

 python –version
 pip –version

如果能正确显示 Python 和 pip 的版本号，则说明 Python 环境安装成功。

接下来，我们需要下载 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B 模型。

模型地址: https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
安装 ModelScope 包: ModelScope 是一个模型中心，我们使用它来下载模型。在终端或命令提示符中执行以下命令安装 ModelScope Python 包：

 pip install modelscope

下载模型: 使用 modelscope download 命令下载模型。
–model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B: 指定要下载的模型为 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B。
–local_dir your_local_path: 指定模型下载后保存的本地路径。请将 your_local_path 替换为您电脑上实际想要保存模型的路径。 例如，如果您想将模型保存在 /home/user/models/deepseek-7b 目录下，则命令应为：

 modelscope download –model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B –local_dir /home/user/models/deepseek-7b

执行下载命令: 在终端或命令提示符中执行上述 modelscope download 命令。
检查磁盘空间: deepseek-ai/DeepSeek-R1-Distill-Qwen-7B 模型文件较大，请确保您的磁盘空间足够 (至少预留 15GB 以上空间)。
关于 ModelScope: ModelScope 是一个模型即服务的开源社区，您可以在上面找到各种预训练模型。您可能需要注册 ModelScope 账号才能下载某些模型，但 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B 模型目前是公开的，可以直接下载。

模型下载完成后，我们需要安装 vLLM。

vLLM 简介: vLLM (https://github.com/vllm-project/vllm) 是一个快速且易于使用的库，用于进行大型语言模型的推理和部署。
vLLM 文档: https://docs.vllm.ai/en/latest/ 您可以参考 vLLM 的官方文档获取更详细的信息。
使用虚拟环境 (推荐): 为了避免不同 Python 项目之间的包冲突，建议您使用 Python 虚拟环境来安装 vLLM。
创建虚拟环境: 在终端或命令提示符中，切换到您希望创建虚拟环境的目录，并执行以下命令：

 python -m venv venv

这将在当前目录下创建一个名为 venv 的虚拟环境。

• 激活虚拟环境:
激活虚拟环境后，您的终端或命令提示符前会显示 (venv)，表示您已进入虚拟环境。
macOS/Linux:

 source venv/bin/activate

Windows:

 venv\Scripts\activate

安装 vLLM: 在激活的虚拟环境中，执行以下命令安装 vLLM：

pip install vllm

为什么使用虚拟环境: 虚拟环境可以隔离不同项目所需的 Python 包，避免版本冲突，保持环境的 чистота (纯净)。

现在，我们可以使用 vLLM 启动推理服务。

模型路径: 假设您在步骤 2 中将模型下载到 /home/user/models/deepseek-7b 目录。
启动命令示例:

CUDA_VISIBLE_DEVICES=0 vllm serve/home/user/models/deepseek-7b –port 8102 –max-model-len 16384

请根据您的实际情况修改以下参数:

CUDA_VISIBLE_DEVICES=0: 指定使用的 GPU 设备 ID。 0 表示使用第一块 GPU。如果您有多块 GPU，可以根据需要修改为其他 ID (例如 CUDA_VISIBLE_DEVICES=1,2 使用 GPU 1 和 GPU 2)。如果您只有一块 GPU，通常使用 0 即可。
/home/user/models/deepseek-7b: 模型路径。 请替换为您在步骤 2 中模型实际保存的路径。
–port 8102: 服务端口号。 8102 是服务启动后监听的端口。您可以根据需要修改端口号，例如 –port 8000。在后续代码调用中，需要使用相同的端口号。
–max-model-len 16384: 模型最大上下文长度。 16384 表示模型处理的最大输入序列长度。您可以根据您的 GPU 显存大小和需求调整此参数。对于 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B 模型，16384 是一个较大的上下文长度。您可以尝试减小此值以减少显存占用，例如 –max-model-len 8192 或更小。
执行启动命令: 在终端或命令提示符中执行上述 vllm serve 命令。
检查服务是否启动成功: 观察终端输出，如果看到类似 INFO: Started server process 和 INFO: Uvicorn running on … 的信息，则表示 vLLM 服务启动成功。您也可以尝试访问 http://localhost:8102/docs (将 8102 替换为您实际使用的端口号) 来查看 vLLM API 文档，验证服务是否正常运行。
注意 GPU 显存: 启动 vLLM 服务会占用 GPU 显存。请确保您的 GPU 显存足够运行模型。如果显存不足，可能会导致启动失败或运行缓慢。您可以尝试减小 –max-model-len 参数或使用更小规模的模型。
CUDA 相关问题: 如果启动 vLLM 服务时遇到 CUDA 相关错误，请检查您的 NVIDIA 驱动版本和 CUDA 环境是否正确安装。

服务启动后，我们可以使用代码调用 vLLM 提供的 API 进行推理。

代码示例 (Python): 以下代码示例展示了如何使用 Python 的 openai 库调用 vLLM 服务。

from openai import OpenAI

配置 OpenAI API 密钥和 Base URL 以连接 vLLM 服务

base_url=openai_api_base,

)

prompt = ”你好，介绍下你自己吧“# 您想要模型回答的问题

response = client.completions.create(

model="deepseek-ai/DeepSeek-R1-Distill-Qwen-7B", # 请确保模型名称与您下载的模型一致 prompt=prompt, stream=False# 设置为 False 表示不使用流式输出

)

print(response.choices[0].text) # 输出模型的回答内容

请根据您的实际情况修改以下代码:

openai_api_base = ”http://localhost:8102/v1": 请确保端口号 8102 与您在步骤 4 启动 vLLM 服务时设置的端口号一致。 如果您修改了端口号，这里也需要相应修改。 model=“deepseek-ai/DeepSeek-R1-Distill-Qwen-7B”: 请确保模型名称与您在步骤 2 下载的模型一致。 如果您下载的是其他 DeepSeek 模型 (例如 14B 版本)，请将模型名称修改为相应的模型 ID，例如 “deepseek-ai/DeepSeek-R1-Distill-Qwen-14B”。 prompt = “你好， 介绍下你自己吧”: 您可以将 prompt 变量替换为您想要模型回答的实际问题。 运行代码: 保存以上 Python 代码到一个文件 (例如 inference_example.py)，然后在激活的虚拟环境中执行该 Python 文件： python inference_example.py

检查输出: 如果一切正常，您将在终端或命令提示符中看到模型生成的回答。
关于 openai 库: 虽然我们使用了 openai 库，但实际上我们调用的是 vLLM 提供的兼容 OpenAI API 接口的服务。openai_api_key 可以设置为任意字符串，因为 vLLM 服务本身不需要 API 密钥。
其他 API 客户端: 除了 openai 库，您也可以使用其他 HTTP 客户端库 (例如 requests) 直接向 vLLM 服务发送 API 请求。具体 API 请求格式可以参考 vLLM 官方文档或访问 http://localhost:8102/docs 查看 API 文档。
错误处理: 如果在代码调用过程中遇到错误，请检查以下几点：
vLLM 服务是否已成功启动并正在运行。
openai_api_base 中的端口号是否与 vLLM 服务端口号一致。
model 参数指定的模型名称是否正确。
网络连接是否正常。
查看 vLLM 服务端的日志输出，可能会有更详细的错误信息。

【AI大模型全套资料有需要的朋友可以点击下方卡片免费获取~ 】

大模型：2025最新AI大模型学习资料合集，允许白嫖，学完拿下大厂offer，存下吧很难找齐的！

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

大模型：2025最新AI大模型学习资料合集，允许白嫖，学完拿下大厂offer，存下吧很难找齐的！

DeepSeek本地部署教程：使用vLLM，轻松实现高效部署！

配置 OpenAI API 密钥和 Base URL 以连接 vLLM 服务

相关推荐