Qwen3-4B-Thinking-2507-Gemini-2.5-Flash-Distill保姆级教程：Chainlit前端自定义与vLLM API对接详解

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

Qwen3-4B-Thinking-2507-Gemini-2.5-Flash-Distill是一个基于vLLM部署的文本生成模型，它在约5440万个由Gemini 2.5 Flash生成的token上进行了训练。该模型的目标是提炼出Gemini-2.5 Flash的行为模式、推理轨迹、输出风格以及知识体系。

1.1 模型训练数据概览

该模型训练数据覆盖了多个专业领域：

领域提示数量学术 645 金融 1048 健康 1720 法律 1193 营销 1350 编程 1930 SEO 775 科学 1435 其他 991

1.2 环境准备

在开始前，请确保您已具备以下环境：

已部署vLLM服务的服务器
Python 3.8或更高版本
Chainlit库（可通过pip install chainlit安装）
基本的Linux命令行操作知识

2.1 检查模型服务状态

使用以下命令检查模型是否已成功部署：

cat /root/workspace/llm.log

如果部署成功，您将看到类似以下的输出：

[INFO] Model loaded successfully [INFO] API server started on port 8000

2.2 验证API接口

您可以通过简单的curl命令测试API是否正常工作：

curl -X POST "http://localhost:8000/generate" -H "Content-Type: application/json" -d '{"prompt": "你好", "max_tokens": 50}'

3.1 安装与配置Chainlit

首先创建一个新的Python环境并安装Chainlit：

python -m venv venv source venv/bin/activate pip install chainlit

3.2 创建基础应用

创建一个名为app.py的文件，内容如下：

import chainlit as cl import requests @cl.on_message async def main(message: str): # 调用vLLM API response = requests.post( "http://localhost:8000/generate", json={"prompt": message, "max_tokens": 200} ) # 获取响应并发送给前端 result = response.json()["text"] await cl.Message(content=result).send()

3.3 启动Chainlit应用

运行以下命令启动前端界面：

chainlit run app.py -w

启动后，浏览器会自动打开Chainlit的交互界面。

4.1 界面主题定制

在app.py中添加以下代码可以自定义界面主题：

from chainlit.config import settings

settings.ui.theme = cl.Theme(

sidebar_background="#f5f5f5", sidebar_text="#", chat_background="#ffffff", chat_text="#"

)

4.2 添加欢迎消息

在应用启动时显示欢迎消息：

@cl.on_chat_start async def start():

await cl.Message( content="欢迎使用Qwen3-4B模型交互界面！请输入您的问题..." ).send()

4.3 实现对话历史

添加对话历史记录功能：

@cl.on_chat_start async def start():

cl.user_session.set("history", [])

@cl.on_message async def main(message: str):

history = cl.user_session.get("history") history.append({"role": "user", "content": message}) response = requests.post( "http://localhost:8000/generate", json={"prompt": message, "max_tokens": 200} ) result = response.json()["text"] history.append({"role": "assistant", "content": result}) await cl.Message(content=result).send()

5.1 流式响应处理

实现逐字显示效果：

@cl.on_message async def main(message: str):

response = requests.post( "http://localhost:8000/generate_stream", json={"prompt": message, "max_tokens": 200}, stream=True ) msg = cl.Message(content="") await msg.send() for chunk in response.iter_content(chunk_size=1024): if chunk: msg.content += chunk.decode("utf-8") await msg.update()

5.2 参数调优界面

添加参数调整滑块：

from chainlit.input_widget import Slider

@cl.on_chat_start async def start():

settings = [ Slider( id="temperature", label="Temperature", min=0, max=1, step=0.1, initial=0.7 ), Slider( id="max_tokens", label="Max Tokens", min=50, max=500, step=10, initial=200 ) ] await cl.ChatSettings(settings).send()