2026年阿里开源首个图像生成基础模型——Qwen-Image本地部署教程,中文渲染能力刷新SOTA

阿里开源首个图像生成基础模型——Qwen-Image本地部署教程,中文渲染能力刷新SOTAQwen Image 是阿里巴巴通义千问团队于 2025 年 8 月开源的首个图像生成基础模型 也是目前在复杂文本 尤其是中文 渲染方面表现最好的开源文生图大模型之一 这是一个 20B MMDiT 图像基础模型 在复杂文本渲染和精确图像编辑方面取得了重大进步 性能表现上 在多个公开基准上的对 Qwen Image 的全面评估 包括用于通用图像生成的 GenEval DPG 和

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



Qwen-Image 是阿里巴巴通义千问团队于 2025 年 8 月开源的首个图像生成基础模型,也是目前在复杂文本(尤其是中文)渲染方面表现最好的开源文生图大模型之一。

性能表现上,在多个公开基准上的对 Qwen-Image 的全面评估,包括用于通用图像生成的 GenEval、DPG 和 OneIG-Bench,以及用于图像编辑的 GEdit、ImgEdit 和 GSO。Qwen-Image 在所有基准测试中均取得了最先进的性能,展现出其在图像生成与图像编辑方面的强大能力。此外,在用于文本渲染的 LongText-Bench、ChineseWord 和 TextCraft 上的结果表明,Qwen-Image 在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型。这凸显了 Qwen-Image 作为先进图像生成模型的独特地位,兼具广泛的通用能力与卓越的文本渲染精度。

主要特性包括:

  • 卓越的文本渲染能力 : Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。
  • 一致性的图像编辑能力 : 通过增强的多任务训练范式,Qwen-Image 在编辑过程中能出色地保持编辑的一致性。
  • 强大的跨基准性能表现 : 在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得 SOTA,是一个强大的图像生成基础模型。

    更多详情请见:Qwen-Image · 模型库










基础环境最低配置推荐

环境名称 版本信息 Ubuntu 22.04.4 LTS Python 3.12 CUDA 12.6 NVIDIA Corporation RTX 4090 * 3

注:该模型支持多卡并行而不支持多卡推理,若显卡配置较高,可先用A100;较低,则可选用3张4090显卡配置,不过需要对原代码进行修改。

查看系统版本信息

 
  
    
    

更新软件包列表

 
  
    
    

配置国内镜像源(阿里云)

具体而言,vim 指令编辑文件

 
  
    
    

按 进入编辑模式,将如下内容插入至 文件中

 

创建虚拟环境

 






激活虚拟环境

 
  
    
    

创建Qwen-Image文件夹

 






github(QwenLM/Qwen-Image:Qwen-Image 是一个强大的图像生成基础模型,能够进行复杂的文本渲染和精确的图像编辑。)中克隆项目代码文件至该目录

 
  
    
    

requirements.txt 文件

 
  
    
    

文件内容:

使用命令行下载完整模型库

 






注:该模型支持多卡并行但不支持多卡推理,若要进行多卡推理,解决方案如1所示;若配置较高,显卡为A100,则可选用方案2,速度更快。

官方文档中并没有具体给出多卡推理的实现代码,如下的app.py可用于实现多卡推理。

 
  
    
    

app.py:

 

运行app.py文件

若采用A100显卡,则可使用如下的demo.py文件运行模型。

demo.py:

 

运行demo.py

小讯
上一篇 2026-04-05 19:40
下一篇 2026-04-05 19:38

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/221509.html