目录
前言
一、ROCm7.0驱动安装
二、Docker环境准备(vLLM)
1. 安装并配置docker
2. 拉取vLLM镜像
2.1 将镜像文件打包进U盘
2.2 加载镜像
三、千问模型部署
1. Qwen3-32B
1.1 下载模型
1.2 启动模型
1.3 验证模型
2. Qwen3-Embedding
2.1 下载模型
2.2 启动模型
2.3 验证模型
3. Qwen3-Reranker
3.1 下载模型
3.2 配置启动脚本与uv管理
3.3 启动镜像
3.4 检验模型
GPT plus 代充 只需 145
为了方便满足客户主机无法联网的需求进行了打包,用别的主机上使用了一个U盘保存了这个需要的镜像文件,如果没有此需求可以直接在需要部署的电脑上直接拉取,pul成功之后,验证存在性即可。
2.1 将镜像文件打包进U盘
GPT plus 代充 只需 145
2.2 加载镜像
1.1 下载模型
GPT plus 代充 只需 145
1.2 启动模型
1.3 验证模型
GPT plus 代充 只需 145
2.1 下载模型
2.2 启动模型
GPT plus 代充 只需 145
2.3 验证模型
拿到一大堆乱七八糟的数字就可以了
3.1 下载模型
GPT plus 代充 只需 145
3.2 配置启动脚本与uv管理
因为vLLM现在还不支持起Qwen3的Rerank模型,所以这里选择用脚本手动起,魔塔社区有相应的示例与要求:https://www.modelscope.cn/models/Qwen/Qwen3-Reranker-8B
Python文件中写入脚本:
GPT plus 代充 只需 145
为了更好的管理与迁移,我们可以考虑使用uv来帮助管理,在同一目录下创建pyproject.toml文件,并写入相关依赖,不把 torch 写在这里,用系统自带的AMD版本
3.3 启动镜像
为了让镜像在迁移后可以直接使用,我们需要将依赖环境和业务代码全部打包进镜像中。这里我们利用临时容器来完成构建。
先创建一个镜像做一下尝试
GPT plus 代充 只需 145
没问题的话,就可以将他固定下来
现在就可以启动最终服务了
GPT plus 代充 只需 145
3.4 检验模型
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/236755.html