本文提供了一份详尽的教程,指导读者如何在本地免费部署千问72B大语言模型。文章首先介绍了选择本地部署的原因,如节省成本、保护数据隐私等,并详细列出了硬件配置要求。接着,文章推荐了三种部署方案:Ollama(简单易用)、vLLM(高性能)和Text Generation WebUI(功能全面),并详细阐述了使用Ollama部署千问72B的步骤。此外,还介绍了Web界面部署、API调用、性能优化和常见问题解决方法。最后,文章还探讨了模型微调和替代方案,鼓励读者根据自己的需求选择合适的模型和部署方式。
从 0 到 1 搭建你的私有 AI
想用自己的 AI,但担心:
- API 调用太贵?
- 数据隐私泄露?
- 网络不稳定?
- 有使用限制?
解决方案:本地部署。
今天这篇教程,带你从零开始,在本地部署千问 72B模型。
完全免费,无限使用,数据完全本地。
什么是千问 72B?
阿里开源的超大规模语言模型,720 亿参数,中文能力业界顶尖。
为什么要本地部署?
硬件要求(重要!)
最低配置(能跑):
- GPU:RTX 3090 24GB × 2 或 RTX 4090 24GB × 2
- 内存:64GB
- 存储:500GB SSD
- 量化:4bit 量化
推荐配置(流畅):
- GPU:RTX 4090 24GB × 4 或 A100 40GB × 2
- 内存:128GB
- 存储:1TB NVMe SSD
- 量化:8bit 或 FP16
完美配置(全精度):
- GPU:A100 80GB × 2 或 H100 × 2
- 内存:256GB
- 存储:2TB NVMe SSD
没有这么多 GPU?
可以用量化版本,或者考虑更小的模型(如 14B、32B)。
本地部署有多种方案,选择适合你的:
方案 1:Ollama(最简单)
- 难度:⭐
- 适合:新手、快速体验
- 优点:一键安装,命令简单
- 缺点:功能相对简单
方案 2:vLLM(性能最好)
- 难度:⭐⭐⭐
- 适合:生产环境、高并发
- 优点:推理速度快,支持多用户
- 缺点:配置复杂
方案 3:Text Generation WebUI(功能最全)
- 难度:⭐⭐
- 适合:个人使用、研究
- 优点:图形界面,功能丰富
- 缺点:资源占用较大
本教程使用:Ollama(最简单,适合大多数人)
步骤 1:安装 Ollama
Linux:
curl -fsSL https://ollama.com/install.sh | sh
Windows:
下载安装包:https://ollama.com/download/OllamaSetup.exe
Mac:
brew install ollama
步骤 2:启动 Ollama
ollama serve
保持这个终端运行。
步骤 3:下载千问 72B
ollama run qwen2.5:72b
首次下载需要时间(约 40GB),请耐心等待。
下载慢?
可以用镜像:
export OLLAMA_HOST=https://ollama.fly.dev ollama run qwen2.5:72b
步骤 4:开始使用
下载完成后,直接对话:
>> 你好,介绍一下你自己 你好!我是千问 72B,是阿里云研发的大语言模型…
喜欢图形界面?可以部署 Web UI。
方案 1:Open WebUI
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main
访问:http://localhost:3000
方案 2:FastChat
pip install fschat python3 -m fastchat.serve.controller python3 -m fastchat.serve.model_worker --model-path Qwen/Qwen2.5-72B-Instruct python3 -m fastchat.serve.gradio_web_server
访问:http://localhost:7860
部署完成后,可以通过 API 调用:
API 端点
http://localhost:11434/api/generate
Python 调用示例
import requests import json data = { "model": "qwen2.5:72b", "prompt": "你好,介绍一下你自己", "stream": False } response = requests.post( "http://localhost:11434/api/generate", json=data ) print(response.json()["response"])
curl 调用示例
curl http://localhost:11434/api/generate -d '{"model":"qwen2.5:72b","prompt":"你好"}'
优化 1:量化
使用量化版本,降低显存需求:
# 4bit 量化(约 40GB 显存) ollama run qwen2.5:72b-q4_0 # 8bit 量化(约 80GB 显存) ollama run qwen2.5:72b-q8_0
优化 2:GPU 层数调整
调整加载到 GPU 的层数:
ollama run qwen2.5:72b --num-gpu 40 # 加载 40 层到 GPU
优化 3:上下文长度
减少上下文长度,节省显存:
ollama run qwen2.5:72b --num_ctx 2048 # 默认 4096
优化 4:批量大小
调整批量大小,平衡速度和显存:
ollama run qwen2.5:72b --num_batch 512
Q1:显存不足怎么办?
解决:
- 使用量化版本(q4_0 或 q8_0)
- 减少 GPU 层数
- 减少上下文长度
- 考虑更小的模型(14B 或 32B)
Q2:下载太慢怎么办?
解决:
- 使用国内镜像
- 使用 torrent 下载
- 从 HuggingFace 下载后导入
Q3:推理速度太慢?
解决:
- 使用 vLLM 替代 Ollama
- 减少上下文长度
- 使用 TensorRT 加速
- 升级 GPU
Q4:如何更新模型?
ollama pull qwen2.5:72b
Q5:如何删除模型?
ollama rm qwen2.5:72b
想让模型更懂你的业务?可以微调。
步骤 1:准备数据
[ {"instruction": "问题 1", "input": "", "output": "答案 1"}, {"instruction": "问题 2", "input": "", "output": "答案 2"} ]
步骤 2:使用 LLaMA-Factory
git clone https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -e ".[torch]"
步骤 3:启动微调
llama_factory_cli train --model_name_or_path Qwen/Qwen2.5-72B-Instruct --dataset 你的数据集 --output_dir ./output
如果 72B 太大,考虑这些模型:
部署流程:
- 检查硬件配置
- 安装 Ollama
- 下载千问 72B
- 开始使用或部署 Web UI
- 根据需要优化性能
关键建议:
- 新手从 Ollama 开始
- 显存不够就用量化版本
- 生产环境考虑 vLLM
- 定期更新模型版本
有自己的 AI,感觉真的不一样!开始部署吧!
AI行业迎来前所未有的爆发式增长:从DeepSeek百万年薪招聘AI研究员,到百度、阿里、腾讯等大厂疯狂布局AI Agent,再到国家政策大力扶持数字经济和AI人才培养,所有信号都在告诉我们:AI的黄金十年,真的来了!
在行业火爆之下,AI人才争夺战也日趋白热化,其就业前景一片蓝海!
我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓

人才缺口巨大
人力资源社会保障部有关报告显示,据测算,当前,*我国人工智能人才缺口超过500万,*供求比例达1∶10。脉脉最新数据也显示:AI新发岗位量较去年初暴增29倍,超1000家AI企业释放7.2万+岗位……
单拿今年的秋招来说,各互联网大厂释放出来的招聘信息中,我们就能感受到AI浪潮,比如百度90%的技术岗都与AI相关!

就业薪资超高
在旺盛的市场需求下,AI岗位不仅招聘量大,薪资待遇更是“一骑绝尘”。企业为抢AI核心人才,薪资给的非常慷慨,过去一年,懂AI的人才普遍涨薪40%+!
脉脉高聘发布的《2025年度人才迁徙报告》显示,在2025年1月-10月的高薪岗位Top20排行中,AI相关岗位占了绝大多数,并且平均薪资月薪都超过6w!
在去年的秋招中,小红书给算法相关岗位的薪资为50k起,字节开出228万元的超高年薪,据《2025年秋季校园招聘白皮书》,AI算法类平均年薪达36.9万,遥遥领先其他行业!

总结来说,当前人工智能岗位需求多,薪资高,前景好。在职场里,选对赛道就能赢在起跑线。抓住AI风口,轻松实现高薪就业!
但现实却是,仍有很多同学不知道如何抓住AI机遇,会遇到很多就业难题,比如:
❌ 技术过时:只会CRUD的开发者,在AI浪潮中沦为“职场裸奔者”;
❌ 薪资停滞:初级岗位内卷到白菜价,传统开发3年经验薪资涨幅不足15%;
❌ 转型无门:想学AI却找不到系统路径,83%自学党中途放弃。
他们的就业难题解决问题的关键在于:不仅要选对赛道,更要跟对老师!
我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/281445.html