基于BM1684X算力盒子丨Qwen3-chat-DEMO部署教程

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

# Qwen1.5-0.5B-Chat部署教程：Flask异步接口配置步骤详解

> 本文详细讲解如何在无GPU环境下，通过Flask框架快速部署Qwen1.5-0.5B-Chat轻量级对话模型，实现高效的异步API服务

1. 项目概述与环境准备

Qwen1.5-0.5B-Chat是阿里通义千问开源系列中最轻量的对话模型，仅有5亿参数，内存占用低于2GB，特别适合资源受限的环境部署。本教程将带你从零开始搭建完整的对话服务。

1.1 系统要求与前置条件

在开始部署前，请确保你的系统满足以下基本要求：

- 操作系统：Ubuntu 18.04+ 或 CentOS 7+（Windows系统建议使用WSL2） - 内存：至少4GB RAM（推荐8GB以上） - 存储空间：至少10GB可用空间 - Python版本：Python 3.8-3.10 - 网络连接：需要能够访问ModelScope模型仓库

1.2 创建并激活Conda环境

我们使用Conda来管理Python环境，确保依赖隔离和版本一致性：

# 创建名为qwen_env的Python环境 conda create -n qwen_env python=3.9 -y # 激活环境 conda activate qwen_env

环境激活后，命令行提示符前会出现(qwen_env)标识，表示已进入该环境。

2. 依赖安装与模型下载

正确的依赖安装是项目成功运行的关键，我们需要安装特定版本的库以避免兼容性问题。

2.1 安装核心依赖包

使用pip安装必要的Python包：

# 安装PyTorch CPU版本（根据你的Python版本选择） pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu # 安装Transformers和ModelScope pip install transformers==4.34.0 pip install modelscope==1.9.0 # 安装Flask和相关异步支持 pip install flask==2.3.3 pip install flask-cors==4.0.0

重要版本说明： - Transformers 4.34.0：确保与Qwen1.5模型的兼容性 - ModelScope 1.9.0：使用最新的模型下载和管理功能 - Flask 2.3.3：提供稳定的Web服务支持

2.2 下载Qwen1.5-0.5B-Chat模型

通过ModelScope官方接口下载模型，确保模型来源的可靠性：

from modelscope import snapshot_download # 指定模型下载路径 model_dir = snapshot_download(&#39;qwen/Qwen1.5-0.5B-Chat&#39;, cache_dir=&#39;./models&#39;) print(f"模型已下载到: {model_dir}")

首次运行时会下载约2GB的模型文件，下载速度取决于你的网络状况。下载完成后，模型会保存在./models/qwen/Qwen1.5-0.5B-Chat目录中。

3. Flask异步接口实现

现在我们来构建核心的Flask异步服务，支持流式对话响应。

3.1 创建Flask应用主文件

新建一个app.py文件，编写以下代码：

from flask import Flask, request, jsonify, Response from transformers import AutoTokenizer, AutoModelForCausalLM import torch import json import threading # 初始化Flask应用 app = Flask(__name__) # 全局变量存储模型和tokenizer model = None tokenizer = None def load_model(): """异步加载模型函数""" global model, tokenizer print("开始加载模型...") # 从本地缓存加载tokenizer和模型 model_path = "./models/qwen/Qwen1.5-0.5B-Chat" tokenizer = AutoTokenizer.from_pretrained( model_path, trust_remote_code=True ) model = AutoModelForCausalLM.from_pretrained( model_path, torch_dtype=torch.float32, device_map="auto", trust_remote_code=True ) print("模型加载完成！") # 在后台线程中加载模型 threading.Thread(target=load_model).start() @app.route(&#39;/chat&#39;, methods=[&#39;POST&#39;]) def chat(): """处理对话请求""" if model is None or tokenizer is None: return jsonify({"error": "模型正在加载中，请稍后重试"}), 503 try: data = request.json message = data.get(&#39;message&#39;, &#39;&#39;) max_length = data.get(&#39;max_length&#39;, 512) if not message: return jsonify({"error": "请输入消息内容"}), 400 # 编码输入文本 inputs = tokenizer(message, return_tensors="pt") # 生成回复 with torch.no_grad(): outputs = model.generate( inputs.input_ids, max_length=max_length, num_return_sequences=1, temperature=0.7, do_sample=True, pad_token_id=tokenizer.eos_token_id ) # 解码生成结果 response = tokenizer.decode(outputs[0], skip_special_tokens=True) # 移除输入文本，只返回生成的回复 response = response.replace(message, "").strip() return jsonify({"response": response}) except Exception as e: return jsonify({"error": str(e)}), 500 @app.route(&#39;/stream_chat&#39;, methods=[&#39;POST&#39;]) def stream_chat(): """流式对话接口""" def generate(): data = request.json message = data.get(&#39;message&#39;, &#39;&#39;) if not message: yield f"data: {json.dumps({&#39;error&#39;: &#39;请输入消息内容&#39;})} " return # 模拟流式输出 inputs = tokenizer(message, return_tensors="pt") with torch.no_grad(): outputs = model.generate( inputs.input_ids, max_length=256, num_return_sequences=1, temperature=0.7, do_sample=True, pad_token_id=tokenizer.eos_token_id ) response = tokenizer.decode(outputs[0], skip_special_tokens=True) response = response.replace(message, "").strip() # 模拟逐词输出效果 words = response.split() for i, word in enumerate(words): if i < len(words) - 1: yield f"data: {json.dumps({&#39;token&#39;: word + &#39; &#39;})} " else: yield f"data: {json.dumps({&#39;token&#39;: word, &#39;finished&#39;: True})} " return Response(generate(), mimetype=&#39;text/event-stream&#39;) @app.route(&#39;/health&#39;) def health_check(): """健康检查接口""" return jsonify({ "status": "healthy", "model_loaded": model is not None and tokenizer is not None }) if __name__ == &#39;__main__&#39;: # 启动Flask应用 app.run(host=&#39;0.0.0.0&#39;, port=8080, debug=True)

3.2 创建Web聊天界面

新建templates文件夹，在其中创建index.html：

 <em>Qwen</em>1.5<em>-</em>0.5B<em>-</em><em>Chat</em> 聊天界面  Qwen1.5-0.5B-Chat 智能对话 
  
    
     
      
      
       
       
       
      
      
      
        3>模型回复： 
      3> 
      
        等待输入...

4. 服务部署与优化

完成代码编写后，我们需要部署服务并进行性能优化。

4.1 启动Flask服务

在项目根目录下运行以下命令启动服务：

# 确保在qwen_env环境中 conda activate qwen_env # 启动Flask应用 python app.py

服务启动后，你会看到类似下面的输出：

* Serving Flask app &#39;app&#39; * Debug mode: on * Running on all addresses (0.0.0.0) * Running on http://127.0.0.1:8080 * Running on http://[::1]:8080

4.2 测试API接口

打开浏览器访问 http://localhost:8080 可以看到聊天界面，或者使用curl测试API：

# 测试普通聊天接口 curl -X POST http://localhost:8080/chat -H "Content-Type: application/json" -d &#39;{"message": "你好，请介绍一下你自己", "max_length": 200}&#39; # 测试健康检查接口 curl http://localhost:8080/health

4.3 性能优化建议

对于生产环境部署，建议进行以下优化：

# 在生产环境中，使用更高效的WSGI服务器 # 安装waitress服务器 pip install waitress # 使用waitress启动服务（在app.py末尾替换启动代码） if __name__ == &#39;__main__&#39;: from waitress import serve serve(app, host=&#39;0.0.0.0&#39;, port=8080, threads=4)

其他优化建议： - 使用Redis缓存频繁的查询结果 - 实现请求限流防止滥用 - 添加API密钥认证 - 使用Nginx反向代理提供静态文件服务和负载均衡

5. 常见问题解决

在部署过程中可能会遇到一些问题，这里提供常见问题的解决方案。

5.1 模型加载失败问题

如果模型加载失败，检查以下几点：

模型路径是否正确：确认./models/qwen/Qwen1.5-0.5B-Chat目录存在且包含模型文件
磁盘空间是否充足：确保有足够的存储空间 3. 网络连接是否正常：确认可以访问ModelScope仓库

5.2 内存不足问题

0.5B模型虽然轻量，但在内存有限的机器上仍可能遇到问题：

- 关闭其他占用内存的应用程序 - 添加虚拟内存（Linux系统）：

 # 创建4GB交换文件 sudo fallocate -l 4G /swapfile sudo chmod 600 /swapfile sudo mkswap /swapfile sudo swapon /swapfile

5.3 响应速度优化

如果响应速度较慢，可以尝试：

# 在模型生成时调整参数以提高速度 outputs = model.generate( inputs.input_ids, max_length=150, # 减少生成长度 num_beams=1, # 使用贪心搜索而不是束搜索 early_stopping=True, pad_token_id=tokenizer.eos_token_id )

6. 总结

通过本教程，你已成功部署了Qwen1.5-0.5B-Chat模型的Flask异步接口服务。这个轻量级解决方案具有以下优势：

核心价值： - 极低的资源需求：2GB内存即可运行，适合各种环境 - 开箱即用的Web界面：无需额外开发即可体验对话功能 - 完整的API支持：提供标准化的接口供其他系统集成 - 流式响应支持：增强用户体验的交互方式

适用场景： - 个人学习和实验环境 - 小规模企业客服系统 - 教育和演示用途 - 资源受限的边缘计算场景

下一步建议：

尝试使用Gunicorn或Waitress替代Flask开发服务器，提升生产环境性能
添加用户认证和权限控制，增强安全性 3. 集成到现有的业务系统中，实现更复杂的应用逻辑
探索模型微调，针对特定领域优化对话效果

这个部署方案为你提供了一个坚实的基础，你可以在此基础上继续扩展功能，构建更强大的智能对话应用。

---

> 获取更多AI镜像 > > 想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。