是一个高性能的大语言模型和视觉-语言模型服务框架。 它旨在从单 GPU 到大型分布式集群等各类部署环境中提供低延迟、高吞吐量的推理服务。
在通过系列针对推理的基本流程和推理框架做了一定的学习入门,现在准备围绕,进行大模型推理的深入学习。
机器::
nvcc:
GPT plus 代充 只需 145
Conda环境创建
安装sglang
参考链接中的方法2,从源码安装:
GPT plus 代充 只需 145
然后执行:
运行和验证
在的函数中,添加运行参数:,然后启动服务,会如下:
GPT plus 代充 只需 145
可以发现,服务已经启动成功,我们通过一个最简单的例子验证一下:
执行后,客户端打印如下:
GPT plus 代充 只需 145
服务端的打印如下:
说明服务启动成功。
远程开发
当然,我们也可以进行远程开发,我这里使用的是pycharm,大家可以网上找一下配置,直接ssh连接到服务器,然后使用服务器上的conda环境即可,就和本地一样,只是要注意本地和远端修改并不会如git一样优雅和版本管理,需要注意冲突。
整个过程当然没有上面那么顺利! 所以记录一下我个人所踩的坑,帮助大家避避坑!
gcc和g++版本
在最开始的时候,我运行服务时会报错:
GPT plus 代充 只需 145
报错,这里我走了很多的弯路,然后我尝试进入使用 Docker 进行开发指南上弄的docker容器里面,发现其gcc版本和g++版本都更高,因此我尝试升级了本机的gcc和g++的版本: 1. 添加PPA源并更新
2. 安装g++-13
GPT plus 代充 只需 145
3. 设置默认版本
使用管理多版本:
4. 验证安装
GPT plus 代充 只需 145
还得重新安装flashinfer
这时候,再运行报错就不一样了:
错误信息显示找不到flashinfer的头文件(如),这时候我都没有意识到是什么问题,只是鬼使神差地重新安装了一下flashinfer: 1. 先完全卸载现有的FlashInfer
GPT plus 代充 只需 145
2. 重新完整安装FlashInfer套件
然后,就奇迹般地好了!我猜测,应该是之前gcc的版本不对,导致报错;但是升级后还是不对,是因为之前的flashinfer版本是根据前面的gcc/g++版本安装的,导致得重新安装。验证的方式就是当我重新建一个conda环境的时候,完全不会走到底下的坑;因为此时的gcc/g++版本如下:
GPT plus 代充 只需 145
请参考使用 Docker 进行开发指南。这里我暂时没有强需求,照着其指示搭了一个,也能跑起来!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/236674.html