打造专属AI智能助手（一）环境准备：vLLM+DeepSeek+OpenWebUI保姆级教程

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

本文较长，建议点赞收藏。更多AI大模型应用开发学习视频及资料，在智泊AI。

DeepSeek是深度求索推出的AI大模型，在2025年初霸榜大模型领域榜单，提供逻辑推理、智能问答、数据分析、创意写作等功能，对于个人和小规模使用者来说，最大的福音是它使用模型蒸馏技术衍生出Qwen-7B、Qwen-32B、Llama-8B、Llama-70B等轻量化版本，大大降低了大模型部署和使用门槛，同时还能保持原始模型在推理任务中的92%的性能。

vLLM是一个专注于LLM的高性能推理和服务框架，通过创新的PagedAttention机制和深度优化等技术，帮助用户高效的部署和运行大语言模型。

Open WebUI是一个开源的、可扩展的、用户友好自托管AI平台，完全离线运行，满足LLM本地化部署需求，兼容如Ollama和openai兼容的api，并提供图形界面，用户可以方便地管理和运行模型。

接下来我们介绍一下如何使用vLLM+DeepSeek+OpenWebUI来部署自己的专属AI助理，本篇介绍环境准备，包括GPU驱动安装和配置、NVlink配置、docker环境安装配置、模型权重下载。

1、实验硬件配置

硬件和软件规格版本如下：

组件配置 GPU 8×NVIDIA H20 96GB CPU Intel® Xeon® Platinum 8480CL 224核内存 1.5TB DDR5 存储 3.84T NVMe SSD 软raid5 网络 400Gbps InfiniBand OS Ubuntu 22.04.5 LTS kernel 5.15.0-134-generic NVIDIA 550.144.03 CUDA 12.4 nvidia-fabricmanager 550.144.03-1 vLLM 0.8.2 PyTorch 2.7.0 Python 3.10.12 docker 28.4.0

2、安装NVIDIA GPU驱动和CUDA

2.1 安装编译软件

为了编译安装相关驱动，需要安装编译软件包，ubuntu系统安装命令如下：

apt-get install build-essential -y

2.2禁用系统默认驱动nouveau

linux系统内核一般会自带一个GPU驱动nouveau，需要将其禁用，防止系统启动自动加载这个驱动。

（1）修改grub

vim /etc/default/grub
 在GRUB_CMDLINE_LINUX里添加：
 rd.driver.blacklist=nouveau nouveau.modeset=0

（2）添加至黑名单，重建initramfs以便系统启动时不会被加载

cat /etc/modprobe.d/blacklist.conf
 blacklist nouveau
 options nouveau modeset=0

查看当前GPU使用的驱动，是nouveau：

修改完grub之后，需要重启操作系统生效。

重启操作系统之后，查看系统自带的驱动nouvea模块，确认已经没有被加载了。

2.3 下载安装NVIDIA GPU驱动

1、nvidia驱动下载

下载地址：

www.nvidia.cn/drivers/loo…

这里下载的版本： NVIDIA-Linux-x86_64-550.144.03.run

2、安装驱动

sudo sh NVIDIA-Linux-x86_64-550.144.03.run

3、配置持久模式

在实际生产环境中建议配置，以便减少Xid的报错。NVIDIA驱动安装之后，会有一个脚本，直接执行这个脚本即可自动配置安装。

cd /usr/share/doc/NVIDIA_GLX-1.0/samples/
 tar xf nvidia-persistenced-init.tar.bz2
 cd  nvidia-persistenced-init
 sudo sh install.sh  -u root
 systemctl status nvidia-persistenced.service

驱动安装完成，且开启持久模式之后，nvidia-smi显示如下：

查看设备加载的驱动，已经是nvidia：

2.4 下载安装CUDA

下载链接：

developer.nvidia.cn/cuda-downlo…

执行以下命令安装：

sudo sh cuda_12.4.1_550.54.15_linux.run

去掉 Driver，因为已经手动安装过了。

安装完成后，会有提示配置环境变量。

添加环境变量：

vim 
 ~/.bashrc 
 export CUDA_HOME=/usr/local/cuda
 export LD_LIBRARY_PATH=\({LD_LIBRARY_PATH}:\){CUDA_HOME}/lib64
 export PATH=\({CUDA_HOME}/bin:\){PATH}

查看安装的CUDA版本：

3、安装nvidia-fabricmanager

本次使用的NVlink版本的H20 GPU，所以需要安装nvidia fabricmanager来启用多GPU之间的NVLink通信，否则GPU将不能正常使用。

安装nvidia-fabricmanager时需要注意，nvidia-fabricmanager的版本要和 GPU 驱动版本严格一致，包括小版本号（nvidia-smi显示的驱动版本）这里已经安装的 GPU Driver是：Driver Version: 550.144.03

下载地址：

developer.download.nvidia.cn/compute/cud…_64/

下载两个包：

nvidia-fabricmanager-dev-550_550.144.03-1_amd64.deb

nvidia-fabricmanager-550_550.144.03-1_amd64.deb

安装：

dpkg -i *.deb

或者

apt install ./.deb

systemctl enable nvidia-fabricmanager

systemctl start nvidia-fabricmanager

检查nvidia-fabricmanager服务状态是active：

检查fabric状态已经是Completed和Success，同时也可以确认一下lan的数量和速率：

4、安装配置docker

本文介绍容器化安装vLLM部署模型，所以需要安装配置docker环境。

4.1 安装docker

1、添加docker的官方GPG key

sudo apt-getupdate
 sudo apt-get install ca-certificates curl
 sudo install -m0755 -d /etc/apt/keyrings
 sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc
 sudo chmod a+r /etc/apt/keyrings/docker.asc

2、添加apt源

echo 
   “deb [arch=\((dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu   \)(. /etc/os-release && echo”\({UBUNTU_CODENAME:-\)VERSION_CODENAME}“) stable” |
   sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

3、安装docker

sudo apt-get update
 sudo apt-getinstall docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

4、运行docker

systemctl start docker

5、配置docker

主要设置docker目录和日志、以及镜像加速，以便后续快速拉取vLLM镜像。

vim /etc/docker/daemon.json 
 {
     “storage-driver”: “overlay2”,
     “log-opts”: {
       “max-file”: “2”,
       “max-size”: “256m”
     },
     “data-root”: ”/data/docker”,
     “live-restore”: true,
     “registry-mirrors”: [
         “https://docker.m.daocloud.io”,
         “https://docker.1panel.live”,
         “https://hub.rat.dev”
     ]
 }

重启docker:

systemctl daemon-reload
 systemctl restart docker

4.2 安装NVIDIA Container Toolkit

1、什么是NVIDIA Container Toolkit

github.com/NVIDIA/nvid…

在 Docker 中，容器默认无法直接访问宿主机的 GPU 资源。为了解决这一限制，NVIDIA 官方提供了 NVIDIA Docker 容器支持方案，用于将宿主机的 GPU 运行时环境映射到容器中。从最初的 nvidia-docker、nvidia-docker2，发展到现在的 NVIDIA Container Toolkit。

NVIDIA Container Toolkit本质上是一个为NVIDIA GPU提供容器化支持的工具包，包括一个容器运行时库和实用程序，它能让Docker容器直接访问GPU资源，而无需繁琐的配置。

2、安装NVIDIA Container Toolkit

配置依赖：
 curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg –dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg   && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list |     sed ’s#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g‘ |     sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list配置存储库以使用实验包：sed -i -e’/experimental/ s/^#//g’ /etc/apt/sources.list.d/nvidia-container-toolkit.listapt-getupdate安装软件包：apt install nvidia-container-toolkit 这条命令会安装四个包：nvidia-container-toolkitnvidia-container-toolkit-baselibnvidia-container-tools
 libnvidia-container1

3、配置docker

安装完NVIDIA Container Toolkit之后，需要对docker进行配置，主要是修改docker的运行时环境：

sudo nvidia-ctk runtime configure –runtime=docker
 systemctl daemon-reload
 systemctl restart docker

验证docker运行时：

5、下载模型权重

本地化部署私有模型，需要下载模型权重到本地目录，下载有两种途径：huggingface和modelscope，其中huggingface是国外网站，modelscope是在国内，所以优先使用modelscope下载。

1、安装modelscope

pip install modelscope -i https://mirrors.aliyun.com/pypi/simple

2、下载模型权重

modelscope download –model=“deepseek-ai/DeepSeek-R1-Distill-Qwen-32B” –local_dir ”/data/DeepSeek/DeepSeek-R1-Distill-Qwen-32B”

至此，模型下载完成。

总结：

本文介绍了使用8卡H20 NVIDIA GPU在ubuntu22.04系统中部署DeepSeek模型的环境配置，包括GPU驱动的安装、CUDA安装、NVLink&NVSwitch软件包安装配置、docker环境安装配置、NVIDIA Container Toolkit安装配置、模型下载等，为下一步使用vLLM容器化部署DeepSeek做好环境准备。

如果你想更深入地学习大模型，以下是一些非常有价值的学习资源，这些资源将帮助你从不同角度学习大模型，提升你的实践能力。

本文较长，建议点赞收藏。更多AI大模型应用开发学习视频及资料，在智泊AI。

打造专属AI智能助手（一）环境准备：vLLM+DeepSeek+OpenWebUI保姆级教程

相关推荐