想不想在个人电脑上,就能让AI一口气读完一本百万字的小说,然后和你讨论剧情?或者让它分析一份几百页的PDF报告,直接给你提炼出核心要点?
今天要聊的GLM-4-9B-Chat-1M,就能做到。它最大的特点,就是“长”——上下文长度支持高达1M个token,相当于200万汉字。这意味着你可以把整本《三体》扔给它,它都能记住前后情节跟你聊。而且,它只有90亿参数,经过量化后,一张消费级的RTX 3090显卡就能流畅运行。
听起来很酷,但怎么把它装到自己的Windows电脑上,并配上一个好看的网页聊天界面呢?别担心,这篇教程就是为你准备的。我们将手把手带你,在Windows的WSL2(Linux子系统)里,用vLLM高性能推理引擎来部署这个模型,最后再用OpenWebUI给它套上一个直观易用的网页外壳。跟着步骤走,从零开始,直到你能在浏览器里和这个“长文本专家”对话。
在Windows上玩转AI模型,WSL2(Windows Subsystem for Linux)是目前最友好、性能损失最小的方案。它让你在Windows里拥有一个完整的Linux终端,可以直接运行Linux软件和命令。
1.1 启用WSL2并安装Ubuntu
如果你还没用过WSL,跟着下面几步走,十分钟内就能搞定。
首先,以管理员身份打开Windows的PowerShell。你可以在开始菜单搜索“PowerShell”,右键选择“以管理员身份运行”。
然后,在打开的窗口里,输入并执行下面这条命令。这条命令会启用WSL所需的Windows功能。
执行后,系统可能会要求你重启电脑。重启完成后,再次打开PowerShell(无需管理员权限),输入命令,你应该就能进入一个Linux命令行环境了。默认安装的是Ubuntu发行版。
第一次进入时,系统会提示你创建Linux系统的用户名和密码,这个账号密码和你的Windows账号是独立的,请务必记住。
1.2 配置WSL2的基本环境
进入Ubuntu后,我们首先更新一下软件包列表,确保后续安装的软件都是最新版。
在WSL的终端里输入:
GPT plus 代充 只需 145
接下来,安装一些我们后续肯定会用到的工具,比如用于下载文件的、管理Python版本的和。
完成这些,你的WSL2基础环境就准备好了。它就像一台纯净的Linux虚拟机,我们已经为安装AI模型铺好了路。
模型部署的核心是推理引擎,这里我们选择vLLM。它是一个专为大规模语言模型设计的高吞吐量、内存高效的推理和服务引擎,简单说就是能让模型跑得更快、更省显存。
2.1 安装vLLM
在WSL终端中,我们使用Python的包管理工具pip来安装vLLM。为了环境干净,建议先创建一个Python虚拟环境。
GPT plus 代充 只需 145
激活后,你的命令行提示符前面会出现字样,表示你已经在这个独立的环境里了。
接下来安装vLLM。由于我们要部署的是GLM系列模型,需要安装支持该架构的vLLM版本。
安装过程可能需要几分钟,它会自动处理很多依赖。如果网络较慢,可以考虑使用国内的镜像源,例如在命令后加上。
2.2 下载并启动模型
GLM-4-9B-Chat-1M的模型权重已经开源在HuggingFace等社区。vLLM支持直接从HuggingFace仓库拉取模型,我们只需要知道模型ID即可。
模型ID是:。但是,原始模型(FP16精度)需要约18GB显存。为了让它在24GB显存的卡(如RTX 3090⁄4090)上更顺畅地运行,我们使用官方提供的INT4量化版本,它只需要约9GB显存。
量化版本的ID是:。
现在,用一行命令启动vLLM服务:
GPT plus 代充 只需 145
我们来解释一下这几个参数:
- : 指定要加载的模型路径或HuggingFace ID。
- : 给服务中的模型起个名字,后续调用时用。
- : 设置一个API密钥,这里我们简单设为,OpenWebUI连接时需要。
- : 指定vLLM服务的端口号,默认为8000。
- : 张量并行数,设置为1表示使用单卡运行。
重要提示:首次运行会从网上下载约9GB的模型文件,请确保网络通畅且磁盘有足够空间。下载完成后,模型加载到显存中,看到类似“Uvicorn running on http://0.0.0.0:8000”的日志,就说明vLLM服务启动成功了。
让这个终端窗口保持运行,我们另开一个终端进行下一步。
让模型在后台运行只是第一步,我们还需要一个友好的界面来和它交互。OpenWebUI(原名Ollama WebUI)是一个功能丰富、可自部署的聊天Web界面,完美兼容vLLM的OpenAI API格式。
3.1 安装OpenWebUI
打开一个新的WSL终端窗口(或使用tmux等工具在后台运行vLLM),同样先激活我们之前创建的虚拟环境。
然后,使用pip安装OpenWebUI:
GPT plus 代充 只需 145
3.2 配置并启动OpenWebUI
安装完成后,我们需要在启动时告诉OpenWebUI,后端AI服务(vLLM)的地址和API密钥。
使用以下命令启动OpenWebUI:
参数说明:
- : 指定后端类型为OpenAI兼容的API。
- : 这里的密钥必须和启动vLLM时设置的一致。
- : 指向我们刚刚启动的vLLM服务的地址。vLLM的OpenAI兼容API端点通常在路径下。
- : 指定OpenWebUI服务本身的端口,这里设为7860,避免和vLLM的8000端口冲突。
执行命令后,OpenWebUI会开始启动。当你在日志中看到“Application startup complete”等信息时,就说明服务已经就绪。
现在,两个核心服务都已运行:
- vLLM模型服务:在提供AI推理能力。
- OpenWebUI网页服务:在提供聊天界面。
4.1 访问OpenWebUI
在你的Windows主机上,打开任意浏览器(如Chrome, Edge),在地址栏输入:
如果一切正常,你将看到OpenWebUI的登录/注册界面。
首次使用:点击“Sign Up”注册一个新账号,填写邮箱、用户名和密码即可。注册成功后,系统会自动登录。
4.2 开始与GLM-4-9B-Chat-1M对话
进入主界面后,你就可以像使用ChatGPT一样,在底部的输入框里向模型提问了。
我们来测试一下它的“长文本”处理能力。你可以尝试:
- 直接提问:问它一些通用知识或逻辑推理问题。
- 上传长文档:点击输入框上的“附件”图标,上传一个TXT或PDF文件(比如一篇很长的论文或报告)。然后你可以命令它:“请总结一下这个文档的核心内容”或“从第三章里找出关于XXX的论述”。
- 进行多轮对话:基于它之前回答的内容,继续深入追问,测试其上下文记忆能力。
由于我们部署的是INT4量化版,在24GB显存的GPU上,处理数十万字的文本应该是游刃有余的。你可以真正体验一下“丢给它一整本书”的感觉。
4.3 服务管理小贴士
- 停止服务:在运行vLLM或OpenWebUI的终端窗口中,按即可停止对应服务。
- 再次启动:下次想使用时,只需按顺序重新执行第2步和第3步的启动命令即可。模型已经下载过,所以第二次启动会快很多。
- 后台运行:如果你希望服务在关闭终端后也能运行,可以使用命令或会话管理器。
恭喜你!至此,你已经成功在Windows WSL2环境下,搭建了一套完整的、支持超长上下文的AI对话系统。回顾一下我们的旅程:
- 搭建舞台:我们通过WSL2,在Windows内部创建了一个兼容性极佳的Linux开发环境。
- 注入灵魂:使用高性能的vLLM推理引擎,加载了GLM-4-9B-Chat-1M这个拥有百万token上下文能力的“大脑”,并通过量化技术让它能在消费级显卡上流畅运行。
- 披上外衣:部署了OpenWebUI这个美观易用的网页界面,让我们可以通过浏览器轻松与模型交互。
这套组合的优势非常明显:
- 本地化:所有数据和处理都在本地,无需担心隐私和网络问题。
- 高性能:vLLM保证了模型推理的效率。
- 长上下文:1M token的支持能力,让处理长文档、长对话成为可能。
- 易用性:OpenWebUI提供了接近商业产品的用户体验。
你可以继续探索的方向:
- 尝试不同模型:vLLM和OpenWebUI支持众多开源模型。你可以把命令中的模型ID换成其他模型(如),轻松切换体验。
- 调整vLLM参数:在启动vLLM时,可以尝试调整来设置模型支持的最大上下文长度(虽然1M是上限,但设小点可以节省显存),或者调整来控制GPU内存使用率。
- 探索OpenWebUI功能:OpenWebUI支持对话存档、角色预设、插件等功能,值得慢慢摸索。
现在,你可以尽情地向你的本地AI助手抛去长篇大论,享受它带来的高效与便捷了。从技术部署到实际应用,你都已经掌握了关键的一环。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/237254.html