从零配置Ubuntu服务器：让Docker容器也能用上你的RTX 4090跑AI模型

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

# 从零配置Ubuntu服务器：让Docker容器也能用上你的RTX 4090跑AI模型

当你手握一块RTX 4090这样的顶级GPU，却发现在Docker容器中无法调用它的算力时，那种感觉就像拥有一辆法拉利却只能推着走。本文将带你从零开始，在Ubuntu服务器上配置完整的Docker GPU环境，让你的AI模型训练和推理真正"飞"起来。

1. 硬件与系统准备

在开始之前，确保你的硬件和系统环境已经就绪。一台配备Nvidia GPU（如RTX 4090）的机器是基础，建议至少16GB内存和500GB SSD存储空间以应对大型AI模型。

首先确认你的Ubuntu版本。本文以Ubuntu 22.04 LTS为例，但步骤也适用于20.04等主流版本。通过以下命令检查系统信息：

lsb_release -a uname -m # 确认是x86_64架构

> 提示：建议使用LTS版本以获得长期支持，避免因系统更新导致的兼容性问题。

安装基本工具链：

sudo apt update && sudo apt upgrade -y sudo apt install -y build-essential curl wget git

2. Nvidia驱动安装

正确的驱动是GPU工作的基础。现代Ubuntu系统可以通过官方仓库或Nvidia官网获取驱动。

方法一：使用Ubuntu官方仓库（推荐新手）

sudo ubuntu-drivers autoinstall sudo reboot

方法二：手动安装最新驱动（适合需要特定版本的用户）

首先添加Nvidia官方PPA：

sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt update

然后查看可用驱动版本：

ubuntu-drivers devices

选择推荐版本安装（例如nvidia-driver-535）：

sudo apt install -y nvidia-driver-535 sudo reboot

安装完成后验证：

nvidia-smi

你应该看到类似如下的输出，显示GPU信息和驱动版本：

+---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.86.05 Driver Version: 535.86.05 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 NVIDIA GeForce RTX 4090 Off | 00000000:01:00.0 Off | Off | | 0% 38C P8 18W / 450W | 0MiB / 24564MiB | 0% Default | | | | N/A | +-----------------------------------------+----------------------+----------------------+

3. Docker引擎安装与配置

现在我们来安装Docker引擎。Docker官方提供了便捷的安装脚本，但我们将采用更可控的手动安装方式。

首先添加Docker官方GPG密钥和仓库：

sudo apt-get install -y ca-certificates curl gnupg sudo install -m 0755 -d /etc/apt/keyrings curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg sudo chmod a+r /etc/apt/keyrings/docker.gpg echo "deb [arch="$(dpkg --print-architecture)" signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/ubuntu "$(. /etc/os-release && echo "$VERSION_CODENAME")" stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

然后安装Docker引擎：

sudo apt-get update sudo apt-get install -y docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

将当前用户加入docker组以避免每次使用sudo：

sudo usermod -aG docker $USER newgrp docker # 立即生效，无需重新登录

验证Docker安装：

docker run hello-world

4. Nvidia容器工具集配置

这是让Docker能够使用GPU的关键步骤。我们需要安装Nvidia容器工具集，它提供了Docker运行时与Nvidia驱动之间的桥梁。

首先添加Nvidia容器工具集的仓库：

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) && curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg && curl -s -L "https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list" | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

然后安装Nvidia容器运行时：

sudo apt-get update sudo apt-get install -y nvidia-container-toolkit

配置Docker使用Nvidia作为默认运行时：

sudo nvidia-ctk runtime configure --runtime=docker sudo systemctl restart docker

5. 实战测试GPU容器

现在我们来验证一切是否正常工作。首先运行一个简单的测试：

docker run --rm --gpus all nvidia/cuda:12.2.0-base-ubuntu22.04 nvidia-smi

你应该看到与宿主机上运行nvidia-smi类似的输出，这表明容器内已经可以访问GPU了。

对于AI工作负载，我们通常会使用PyTorch或TensorFlow。下面是一个PyTorch容器的示例：

docker run -it --rm --gpus all pytorch/pytorch:2.0.1-cuda11.7-cudnn8-runtime python -c "import torch; print(torch.cuda.is_available())"

如果输出为True，恭喜你！现在可以在容器中使用GPU加速AI模型了。

6. 常见问题与解决方案

在实际使用中，你可能会遇到一些问题。以下是几个常见问题及其解决方法：

问题1：docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]]

这通常意味着Nvidia容器运行时没有正确安装或配置。检查步骤：

确认nvidia-container-toolkit已安装
确认Docker已配置使用Nvidia运行时
尝试重启Docker服务：sudo systemctl restart docker

问题2：CUDA error: no kernel image is available for execution on the device

这通常是由于CUDA版本与GPU架构不匹配。解决方案：

确认你的Docker镜像中的CUDA版本支持你的GPU
对于RTX 4090，需要CUDA 11.8或更高版本

问题3：GPU内存不足

当运行大型模型时，可能会遇到内存不足的问题。可以尝试：

减少batch size
使用混合精度训练
如果有多块GPU，考虑使用分布式训练

7. 高级配置技巧

多GPU管理

如果你有多个GPU，可以指定使用哪些GPU：

docker run -it --rm --gpus '"device=0,1"' nvidia/cuda:12.2.0-base-ubuntu22.04 nvidia-smi

持久化模式

对于需要持续GPU访问的应用，可以启用持久化模式：

sudo nvidia-smi -pm 1

Docker Compose配置

在docker-compose.yml中配置GPU支持：

services: aimodel: image: pytorch/pytorch:2.0.1-cuda11.7-cudnn8-runtime deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [gpu]

性能优化

为了获得**性能，可以考虑：

使用–shm-size增加共享内存
挂载宿主机的高性能存储卷
使用NVIDIA的MPS（Multi-Process Service）提高多进程效率