2026年GLM-4-9B-Chat-1M保姆级教程：Windows WSL2环境下部署vLLM+OpenWebUI全流程

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

想不想在个人电脑上，就能让AI一口气读完一本百万字的小说，然后和你讨论剧情？或者让它分析一份几百页的PDF报告，直接给你提炼出核心要点？

今天要聊的GLM-4-9B-Chat-1M，就能做到。它最大的特点，就是“长”——上下文长度支持高达1M个token，相当于200万汉字。这意味着你可以把整本《三体》扔给它，它都能记住前后情节跟你聊。而且，它只有90亿参数，经过量化后，一张消费级的RTX 3090显卡就能流畅运行。

听起来很酷，但怎么把它装到自己的Windows电脑上，并配上一个好看的网页聊天界面呢？别担心，这篇教程就是为你准备的。我们将手把手带你，在Windows的WSL2（Linux子系统）里，用vLLM高性能推理引擎来部署这个模型，最后再用OpenWebUI给它套上一个直观易用的网页外壳。跟着步骤走，从零开始，直到你能在浏览器里和这个“长文本专家”对话。

在Windows上玩转AI模型，WSL2（Windows Subsystem for Linux）是目前最友好、性能损失最小的方案。它让你在Windows里拥有一个完整的Linux终端，可以直接运行Linux软件和命令。

1.1 启用WSL2并安装Ubuntu

如果你还没用过WSL，跟着下面几步走，十分钟内就能搞定。

首先，以管理员身份打开Windows的PowerShell。你可以在开始菜单搜索“PowerShell”，右键选择“以管理员身份运行”。

然后，在打开的窗口里，输入并执行下面这条命令。这条命令会启用WSL所需的Windows功能。

执行后，系统可能会要求你重启电脑。重启完成后，再次打开PowerShell（无需管理员权限），输入命令，你应该就能进入一个Linux命令行环境了。默认安装的是Ubuntu发行版。

第一次进入时，系统会提示你创建Linux系统的用户名和密码，这个账号密码和你的Windows账号是独立的，请务必记住。

1.2 配置WSL2的基本环境

进入Ubuntu后，我们首先更新一下软件包列表，确保后续安装的软件都是最新版。

在WSL的终端里输入：

GPT plus 代充 只需 145

接下来，安装一些我们后续肯定会用到的工具，比如用于下载文件的、管理Python版本的和。

完成这些，你的WSL2基础环境就准备好了。它就像一台纯净的Linux虚拟机，我们已经为安装AI模型铺好了路。

模型部署的核心是推理引擎，这里我们选择vLLM。它是一个专为大规模语言模型设计的高吞吐量、内存高效的推理和服务引擎，简单说就是能让模型跑得更快、更省显存。

2.1 安装vLLM

在WSL终端中，我们使用Python的包管理工具pip来安装vLLM。为了环境干净，建议先创建一个Python虚拟环境。

GPT plus 代充 只需 145

激活后，你的命令行提示符前面会出现字样，表示你已经在这个独立的环境里了。

接下来安装vLLM。由于我们要部署的是GLM系列模型，需要安装支持该架构的vLLM版本。

安装过程可能需要几分钟，它会自动处理很多依赖。如果网络较慢，可以考虑使用国内的镜像源，例如在命令后加上。

2.2 下载并启动模型

GLM-4-9B-Chat-1M的模型权重已经开源在HuggingFace等社区。vLLM支持直接从HuggingFace仓库拉取模型，我们只需要知道模型ID即可。

模型ID是：。但是，原始模型（FP16精度）需要约18GB显存。为了让它在24GB显存的卡（如RTX ³⁰⁹⁰⁄₄₀₉₀）上更顺畅地运行，我们使用官方提供的INT4量化版本，它只需要约9GB显存。

量化版本的ID是：。

现在，用一行命令启动vLLM服务：

GPT plus 代充 只需 145

我们来解释一下这几个参数：

: 指定要加载的模型路径或HuggingFace ID。
: 给服务中的模型起个名字，后续调用时用。
: 设置一个API密钥，这里我们简单设为，OpenWebUI连接时需要。
: 指定vLLM服务的端口号，默认为8000。
: 张量并行数，设置为1表示使用单卡运行。

重要提示：首次运行会从网上下载约9GB的模型文件，请确保网络通畅且磁盘有足够空间。下载完成后，模型加载到显存中，看到类似“Uvicorn running on http://0.0.0.0:8000”的日志，就说明vLLM服务启动成功了。

让这个终端窗口保持运行，我们另开一个终端进行下一步。

让模型在后台运行只是第一步，我们还需要一个友好的界面来和它交互。OpenWebUI（原名Ollama WebUI）是一个功能丰富、可自部署的聊天Web界面，完美兼容vLLM的OpenAI API格式。

3.1 安装OpenWebUI

打开一个新的WSL终端窗口（或使用tmux等工具在后台运行vLLM），同样先激活我们之前创建的虚拟环境。

然后，使用pip安装OpenWebUI：

GPT plus 代充 只需 145

3.2 配置并启动OpenWebUI

安装完成后，我们需要在启动时告诉OpenWebUI，后端AI服务（vLLM）的地址和API密钥。

使用以下命令启动OpenWebUI：

参数说明：

: 指定后端类型为OpenAI兼容的API。
: 这里的密钥必须和启动vLLM时设置的一致。
: 指向我们刚刚启动的vLLM服务的地址。vLLM的OpenAI兼容API端点通常在路径下。
: 指定OpenWebUI服务本身的端口，这里设为7860，避免和vLLM的8000端口冲突。

执行命令后，OpenWebUI会开始启动。当你在日志中看到“Application startup complete”等信息时，就说明服务已经就绪。

现在，两个核心服务都已运行：

vLLM模型服务：在提供AI推理能力。
OpenWebUI网页服务：在提供聊天界面。

4.1 访问OpenWebUI

在你的Windows主机上，打开任意浏览器（如Chrome, Edge），在地址栏输入：

如果一切正常，你将看到OpenWebUI的登录/注册界面。

首次使用：点击“Sign Up”注册一个新账号，填写邮箱、用户名和密码即可。注册成功后，系统会自动登录。

4.2 开始与GLM-4-9B-Chat-1M对话

进入主界面后，你就可以像使用ChatGPT一样，在底部的输入框里向模型提问了。

我们来测试一下它的“长文本”处理能力。你可以尝试：

直接提问：问它一些通用知识或逻辑推理问题。
上传长文档：点击输入框上的“附件”图标，上传一个TXT或PDF文件（比如一篇很长的论文或报告）。然后你可以命令它：“请总结一下这个文档的核心内容”或“从第三章里找出关于XXX的论述”。
进行多轮对话：基于它之前回答的内容，继续深入追问，测试其上下文记忆能力。

由于我们部署的是INT4量化版，在24GB显存的GPU上，处理数十万字的文本应该是游刃有余的。你可以真正体验一下“丢给它一整本书”的感觉。

4.3 服务管理小贴士

停止服务：在运行vLLM或OpenWebUI的终端窗口中，按即可停止对应服务。
再次启动：下次想使用时，只需按顺序重新执行第2步和第3步的启动命令即可。模型已经下载过，所以第二次启动会快很多。
后台运行：如果你希望服务在关闭终端后也能运行，可以使用命令或会话管理器。

恭喜你！至此，你已经成功在Windows WSL2环境下，搭建了一套完整的、支持超长上下文的AI对话系统。回顾一下我们的旅程：

搭建舞台：我们通过WSL2，在Windows内部创建了一个兼容性极佳的Linux开发环境。
注入灵魂：使用高性能的vLLM推理引擎，加载了GLM-4-9B-Chat-1M这个拥有百万token上下文能力的“大脑”，并通过量化技术让它能在消费级显卡上流畅运行。
披上外衣：部署了OpenWebUI这个美观易用的网页界面，让我们可以通过浏览器轻松与模型交互。

这套组合的优势非常明显：

本地化：所有数据和处理都在本地，无需担心隐私和网络问题。
高性能：vLLM保证了模型推理的效率。
长上下文：1M token的支持能力，让处理长文档、长对话成为可能。
易用性：OpenWebUI提供了接近商业产品的用户体验。

你可以继续探索的方向：

尝试不同模型：vLLM和OpenWebUI支持众多开源模型。你可以把命令中的模型ID换成其他模型（如），轻松切换体验。
调整vLLM参数：在启动vLLM时，可以尝试调整来设置模型支持的最大上下文长度（虽然1M是上限，但设小点可以节省显存），或者调整来控制GPU内存使用率。
探索OpenWebUI功能：OpenWebUI支持对话存档、角色预设、插件等功能，值得慢慢摸索。

现在，你可以尽情地向你的本地AI助手抛去长篇大论，享受它带来的高效与便捷了。从技术部署到实际应用，你都已经掌握了关键的一环。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。