2026年科大讯飞星火开源大模型iFlytekSpark-13B GPU版部署方法

科大讯飞星火开源大模型iFlytekSpark-13B GPU版部署方法星火大模型的主页 其介绍已经说得很详细了 我只是简单总结一下 GPU 版的推理部署方法 这里是 GPU 版的说明页面 严格按照其环境要求配置环境环境即可 里面也说到 需要手动安装 flash attention 和 apex 这两个我都没装过 发现装后者确实有坑 期间也遇到了其他问题 例如 CUDA 版本之类 但都好解决 但是 apex 安装之后 发现有各种问题 例如报 No module named amp lsquo

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



星火大模型的主页:其介绍已经说得很详细了,我只是简单总结一下GPU版的推理部署方法。这里是GPU版的说明页面:严格按照其环境要求配置环境环境即可。里面也说到,需要手动安装flash-attention和apex,这两个我都没装过,发现装后者确实有坑。期间也遇到了其他问题,例如CUDA版本之类,但都好解决,但是apex安装之后,发现有各种问题。例如报:No module named ‘fused_layer_norm_cuda’。

也有博客中有解决方法:但是照做还是会报错,试了无数次,最终在这里看到:GPU版本报错no module named ‘fused_layer_norm_cuda’ · Issue #I91FJC · 讯飞星火开源/iFlytekSpark-13B - Gitee.com

结合上面的博客,感觉有可能确实是分支的问题。 apex也确实有这样的分支:

GitHub - NVIDIA/apex at 22.04-dev

所以把repo clone下来之后,首先:

 
  

再运行:

 
  

竟然就没错了!想不通这么多人遇到的问题为啥不好好解决。

另外就是下载已经训练好的模型,是在这里下载:

需要注意的是,如上面repo里介绍的,由于模型太大所以使用Git LFS存储,如果直接用git clone是没法下载的。需要做的是先安装Git LFS(有很多git工具已经自带了):

 
  

然后:

 
  

接下来就可以clone这个repo了:

 
  

需要注意的是,从网页上看mp_rank_00_model_states.pt大概大小有50GB,两个权重文件加起来也只有100GB,我怎么clone了458GB。估计是因为repo中多次commit,不知道设置clone深度会不会解决,我没有测试。

最后总结一下目录关系,这点repo里写得也不是很详细:

运行推理的bash脚本在:iFlytekSpark-13B/deepspeed-megatron/examples_deepspeed/iFlytekSpark里,但是repo和bash脚本里写的权重文件和tokenizer的位置:

# 若文件结构如上所示,则对应参数如下 from_pretrained=“/data/ckpt_download” tokenizer_file=“/data/tokenizer/tokenizer” #注意使用tokenizer/目录下.model和vocab的前缀名字tokenizer ,而不是只到tokenizer/目录

让人不明就里,实际上可以写成绝对路径,例如我为方便起见,改成了:

 
  

最后说说硬件要求,我做完了以上配置就不报别的错了,只是还是显存溢出了,我的电脑是3090*2的,看来最低只能用40GB单卡,两个24GB由于各种原因会爆显存。

小讯
上一篇 2026-04-02 14:43
下一篇 2026-04-02 14:41

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/226186.html