Qwen3-4B-Thinking部署教程：使用systemd守护vLLM服务，实现开机自启与崩溃重启

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

如果你已经成功部署了Qwen3-4B-Thinking模型，可能会遇到这样的问题：服务器重启后，模型服务不会自动启动；或者服务运行过程中意外崩溃，需要手动重新启动。每次都要登录服务器，敲一堆命令，既麻烦又容易出错。

这就是我们今天要解决的问题。通过systemd这个Linux系统的服务管理器，我们可以把vLLM服务变成一个“守护进程”——它会自动启动、自动重启，就像系统自带的那些服务一样可靠。

简单来说，学完这篇教程，你的模型服务就能实现：

开机自动启动：服务器重启后，模型服务自动运行
崩溃自动重启：服务意外停止时，自动重新启动
统一日志管理：所有运行日志集中记录，方便排查问题
服务状态监控：随时查看服务运行状态，一键启停

在开始配置systemd之前，我们先确认一下你的部署环境是否正常。

2.1 检查vLLM服务是否正常运行

打开终端，执行以下命令查看服务状态：

# 查看vLLM服务进程 ps aux | grep vllm

或者查看你之前设置的日志文件

cat /root/workspace/llm.log | tail -20

如果看到类似下面的输出，说明服务正在运行：

GPT plus 代充 只需 145root 12345 0.0 0.1  7890 ? Ssl 10:00 0:05 python -m vllm.entrypoints.openai.api_server –model /path/to/model

2.2 确认服务端口

vLLM默认使用8000端口，我们可以检查一下端口是否被占用：

# 查看8000端口状态 netstat -tlnp | grep :8000

或者使用lsof命令

lsof -i :8000

如果端口被占用，说明服务正在运行。记下这个端口号，后面配置systemd时会用到。

2.3 测试API接口

确保服务能正常响应请求：

GPT plus 代充 只需 145# 测试API健康检查 curl http://localhost:8000/health

测试模型列表

curl http://localhost:8000/v1/models

如果返回类似下面的JSON响应，说明API工作正常：

{“model”:“Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF”}

现在我们来创建systemd服务文件，这是整个配置的核心。

3.1 创建服务文件

使用你喜欢的文本编辑器（如nano或vim），创建服务配置文件：

GPT plus 代充 只需 145sudo nano /etc/systemd/system/qwen-vllm.service

3.2 编写服务配置内容

将以下内容复制到文件中，注意根据你的实际情况修改相关路径和参数：

[Unit] Description=Qwen3-4B-Thinking vLLM Service After=network.target Wants=network.target

[Service] Type=simple User=root Group=root

WorkingDirectory=/root/workspace

启动命令 - 根据你的实际启动命令修改

ExecStart=/usr/bin/python -m vllm.entrypoints.openai.api_server

GPT plus 代充 只需 145--model /root/workspace/Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF --host 0.0.0.0 --port 8000 --tensor-parallel-size 1 --gpu-memory-utilization 0.9

环境变量设置

Environment=“PYTHONPATH=/root/workspace” Environment=“CUDA_VISIBLE_DEVICES=0”

标准输出和错误输出重定向到文件

StandardOutput=append:/var/log/qwen-vllm.log StandardError=append:/var/log/qwen-vllm-error.log

重启策略

Restart=always RestartSec=10

进程管理

KillSignal=SIGINT TimeoutStopSec=30

资源限制（可选）

LimitNOFILE=65535

LimitNPROC=65535

[Install] WantedBy=multi-user.target

3.3 配置文件参数详解

让我解释一下关键参数的含义：

Description：服务的描述信息，可以自定义
WorkingDirectory：服务运行的工作目录，确保所有相对路径正确
ExecStart：最重要的部分，就是启动vLLM服务的命令
- –model：指定模型路径
- –host 0.0.0.0：监听所有网络接口
- –port 8000：服务端口
- –tensor-parallel-size 1：单GPU运行
- –gpu-memory-utilization 0.9：GPU内存使用率90%
Restart=always：服务崩溃后自动重启
RestartSec=10：重启前等待10秒
StandardOutput/StandardError：日志输出到指定文件

为了避免日志文件无限增长占用磁盘空间，我们可以配置日志轮转。

4.1 创建日志轮转配置文件

sudo nano /etc/logrotate.d/qwen-vllm

4.2 配置日志轮转规则

GPT plus 代充 只需 145/var/log/qwen-vllm.log /var/log/qwen-vllm-error.log

这个配置的意思是：

daily：每天轮转一次
rotate 7：保留最近7天的日志
compress：压缩旧的日志文件
create 644 root root：创建新日志文件时设置权限

配置文件准备好了，现在让我们启动服务并学习如何管理它。

5.1 重新加载systemd配置

每次修改服务文件后，都需要重新加载：

sudo systemctl daemon-reload

5.2 启动服务

GPT plus 代充 只需 145sudo systemctl start qwen-vllm.service

5.3 查看服务状态

# 查看服务运行状态 sudo systemctl status qwen-vllm.service

查看详细日志

sudo journalctl -u qwen-vllm.service -f

或者查看我们配置的日志文件

tail -f /var/log/qwen-vllm.log

正常启动后，你应该看到类似这样的状态信息：

GPT plus 代充 只需 145● qwen-vllm.service - Qwen3-4B-Thinking vLLM Service Loaded: loaded (/etc/systemd/system/qwen-vllm.service; enabled; vendor preset: enabled) Active: active (running) since Mon 2024-01-01 10:00:00 CST; 10s ago Main PID: 12345 (python)

Tasks: 15 (limit: 4915)

Memory: 8.2G CGroup: /system.slice/qwen-vllm.service

GPT plus 代充 只需 145 └─12345 /usr/bin/python -m vllm.entrypoints.openai.api_server --model /root/workspace/Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF --host 0.0.0.0 --port 8000

5.4 常用管理命令

掌握这些命令，你就能轻松管理服务了：

# 启动服务 sudo systemctl start qwen-vllm

停止服务

sudo systemctl stop qwen-vllm

重启服务

sudo systemctl restart qwen-vllm

查看服务状态

sudo systemctl status qwen-vllm

查看服务日志

sudo journalctl -u qwen-vllm -n 50

启用开机自启

sudo systemctl enable qwen-vllm

禁用开机自启

sudo systemctl disable qwen-vllm

重新加载配置文件（修改服务文件后需要执行）

sudo systemctl daemon-reload

5.5 测试服务是否正常工作

服务启动后，用我们之前的方法测试一下：

GPT plus 代充 只需 145# 测试健康检查 curl http://localhost:8000/health

测试模型调用

curl http://localhost:8000/v1/completions -H “Content-Type: application/json” -d ‘{

"model": "Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF", "prompt": "你好，请介绍一下你自己", "max_tokens": 100

}’

让服务在系统启动时自动运行，这是systemd的主要优势之一。

6.1 启用开机自启

非常简单，只需要一条命令：

GPT plus 代充 只需 145sudo systemctl enable qwen-vllm.service

执行后你会看到类似输出：

Created symlink /etc/systemd/system/multi-user.target.wants/qwen-vllm.service → /etc/systemd/system/qwen-vllm.service.

6.2 验证开机自启配置

GPT plus 代充 只需 145# 检查服务是否已启用 sudo systemctl is-enabled qwen-vllm.service

查看所有已启用的服务

systemctl list-unit-files –type=service –state=enabled | grep qwen

6.3 测试重启效果

为了确保配置正确，我们可以模拟重启：

# 先停止服务 sudo systemctl stop qwen-vllm

重启systemd服务（不是重启整个系统）

sudo systemctl restart systemd-journald

查看服务是否自动启动

sudo systemctl status qwen-vllm

基本的守护进程配置完成了，下面是一些进阶配置，可以让服务更稳定、更高效。

7.1 内存和GPU优化

如果你的服务器内存有限，可以调整vLLM的参数：

GPT plus 代充 只需 145# 在ExecStart命令中添加以下参数 ExecStart=/usr/bin/python -m vllm.entrypoints.openai.api_server

--model /root/workspace/Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF --host 0.0.0.0 --port 8000 --tensor-parallel-size 1 --gpu-memory-utilization 0.85 --max-model-len 4096 --swap-space 16 --block-size 16

参数说明：

–gpu-memory-utilization 0.85：降低GPU内存使用率
–max-model-len 4096：限制最大生成长度
–swap-space 16：设置16GB的交换空间
–block-size 16：调整块大小优化内存

7.2 多GPU配置

如果你有多个GPU，可以启用张量并行：

GPT plus 代充 只需 145ExecStart=/usr/bin/python -m vllm.entrypoints.openai.api_server

--model /root/workspace/Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF --host 0.0.0.0 --port 8000 --tensor-parallel-size 2 --gpu-memory-utilization 0.9

7.3 环境变量配置文件

为了更灵活地管理配置，可以创建环境变量文件：

GPT plus 代充 只需 145# 创建环境变量文件 sudo nano /etc/default/qwen-vllm

添加以下内容：

# vLLM服务环境变量 MODEL_PATH=“/root/workspace/Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF” VLLM_HOST=“0.0.0.0” VLLM_PORT=“8000” GPU_MEMORY_UTIL=“0.9” PYTHONPATH=“/root/workspace”

然后在服务文件中引用：

GPT plus 代充 只需 145[Service] EnvironmentFile=/etc/default/qwen-vllm ExecStart=/usr/bin/python -m vllm.entrypoints.openai.api_server

--model ${MODEL_PATH} --host ${VLLM_HOST} --port ${VLLM_PORT} --gpu-memory-utilization ${GPU_MEMORY_UTIL}

即使配置正确，有时也会遇到问题。这里列出一些常见问题和解决方法。

8.1 服务启动失败

如果服务启动失败，首先查看详细日志：

GPT plus 代充 只需 145# 查看systemd日志 sudo journalctl -u qwen-vllm.service -n 100 –no-pager

查看错误日志文件

tail -100 /var/log/qwen-vllm-error.log

常见问题及解决：

端口被占用：

# 检查端口占用 sudo lsof -i :8000

如果被占用，可以修改端口

在服务配置文件中修改 –port 参数

模型路径错误：

GPT plus 代充 只需 145# 检查模型文件是否存在 ls -la /root/workspace/Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF/

检查文件权限

ls -la /root/workspace/

GPU内存不足：

# 查看GPU内存使用 nvidia-smi

降低内存使用率

修改 –gpu-memory-utilization 为更小的值，如0.8

8.2 服务运行中崩溃

如果服务频繁崩溃，可以：

增加重启延迟：

GPT plus 代充 只需 145RestartSec=30 # 从10秒增加到30秒

检查系统资源：

# 查看系统资源使用 top htop nvidia-smi

查看系统日志

dmesg | tail -50

调整服务限制：

GPT plus 代充 只需 145# 在服务文件中增加资源限制 LimitCORE=infinity LimitNOFILE=65535 LimitNPROC=65535

8.3 性能监控

为了更好地了解服务运行状况，可以设置监控：

# 创建监控脚本 nano /root/monitor_vllm.sh

脚本内容：

GPT plus 代充 只需 145#!/bin/bash

监控vLLM服务状态

SERVICE=“qwen-vllm.service” LOG_FILE=“/var/log/qwen-monitor.log”

检查服务状态

status=$(systemctl is-active $SERVICE)

if [ “$status” != “active” ]; then

echo "$(date): 服务异常，状态: $status" >> $LOG_FILE # 可以在这里添加报警逻辑，如发送邮件

检查GPU内存使用

gpu_mem=$(nvidia-smi --query-gpu=memory.used --format=csv,noheader,nounits | head -1) if [ $gpu_mem -gt 8000 ]; then # 如果超过8GB

GPT plus 代充 只需 145echo "$(date): GPU内存使用过高: ${gpu_mem}MB" >> $LOG_FILE

检查API响应

response=$(curl -s -o /dev/null -w "%{http_code}" http://localhost:8000/health) if [ "$response“ != ”200“ ]; then

echo "$(date): API健康检查失败: $response" >> $LOG_FILE

添加到crontab定时执行：

GPT plus 代充 只需 145# 每5分钟执行一次监控 */5 * * * * /bin/bash /root/monitor_vllm.sh

现在我们的vLLM服务已经稳定运行了，让我们配置chainlit前端来使用这个服务。

9.1 修改chainlit配置

如果你之前直接运行chainlit，现在需要修改配置指向我们的systemd服务：

# chainlit的配置文件中，修改API地址 import chainlit as cl

原来可能是本地启动的vLLM

现在改为指向systemd管理的服务

API_BASE = ”http://localhost:8000/v1"; # systemd服务的地址

9.2 测试集成效果

启动chainlit前端：

GPT plus 代充 只需 145cd /root/workspace chainlit run app.py

然后在浏览器中访问chainlit界面，测试模型调用是否正常。

9.3 同样为chainlit配置systemd服务（可选）

如果你希望chainlit也能开机自启，可以同样为它创建systemd服务：

sudo nano /etc/systemd/system/chainlit.service

内容如下：

GPT plus 代充 只需 145[Unit] Description=Chainlit Web Interface After=network.target qwen-vllm.service Wants=network.target qwen-vllm.service

[Service] Type=simple User=root Group=root WorkingDirectory=/root/workspace ExecStart=/usr/local/bin/chainlit run app.py –port 7860 Restart=always RestartSec=10 Environment=“PYTHONPATH=/root/workspace”