2026年sglang(1)：开发环境搭建

科技前沿 • 2026-03-17 13:13 • 阅读 0

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

是一个高性能的大语言模型和视觉-语言模型服务框架。它旨在从单 GPU 到大型分布式集群等各类部署环境中提供低延迟、高吞吐量的推理服务。

在通过系列针对推理的基本流程和推理框架做了一定的学习入门，现在准备围绕，进行大模型推理的深入学习。

机器：：

nvcc：

GPT plus 代充 只需 145

参考链接中的方法2，从源码安装：

GPT plus 代充 只需 145

然后执行：

在的函数中，添加运行参数：，然后启动服务，会如下：

GPT plus 代充 只需 145

可以发现，服务已经启动成功，我们通过一个最简单的例子验证一下：

执行后，客户端打印如下：

GPT plus 代充 只需 145

服务端的打印如下：

说明服务启动成功。

当然，我们也可以进行远程开发，我这里使用的是pycharm，大家可以网上找一下配置，直接ssh连接到服务器，然后使用服务器上的conda环境即可，就和本地一样，只是要注意本地和远端修改并不会如git一样优雅和版本管理，需要注意冲突。

整个过程当然没有上面那么顺利！ 所以记录一下我个人所踩的坑，帮助大家避避坑！

在最开始的时候，我运行服务时会报错：

GPT plus 代充 只需 145

报错，这里我走了很多的弯路，然后我尝试进入使用 Docker 进行开发指南上弄的docker容器里面，发现其gcc版本和g++版本都更高，因此我尝试升级了本机的gcc和g++的版本: 1. 添加PPA源并更新

2. 安装g++-13

GPT plus 代充 只需 145

3. 设置默认版本

使用管理多版本：

4. 验证安装

GPT plus 代充 只需 145

这时候，再运行报错就不一样了：

错误信息显示找不到flashinfer的头文件（如），这时候我都没有意识到是什么问题，只是鬼使神差地重新安装了一下flashinfer: 1. 先完全卸载现有的FlashInfer

GPT plus 代充 只需 145

2. 重新完整安装FlashInfer套件

然后，就奇迹般地好了！我猜测，应该是之前gcc的版本不对，导致报错；但是升级后还是不对，是因为之前的flashinfer版本是根据前面的gcc/g++版本安装的，导致得重新安装。验证的方式就是当我重新建一个conda环境的时候，完全不会走到底下的坑；因为此时的gcc/g++版本如下：

GPT plus 代充 只需 145

请参考使用 Docker 进行开发指南。这里我暂时没有强需求，照着其指示搭了一个，也能跑起来！