最近 AI 绘画圈除了在刷 Nano banana Pro,还在刷另一个名字:Z-Image-Turbo。
这是阿里通义团队悄悄开源的体量只有 6B 的图像生成模型。
虽然它只有 6B,却能 1 秒生成照片级图像;不仅速度爆表,审美、真实感、人物一致性、文本渲染,全都同时拉满。
更夸张的是,它还天然认识各种名人,特别对国人(亚洲人脸)生成效果尤为优秀,绝对是本地 AI 绘画的首选模型。
而且,它还解决了一个长期困扰我们的痛点——中英文文字的精准渲染。
Z-Image 与其他领先模型相比也表现出极强的竞争力,同时在开源模型中取得了最先进的成果。
经过 Demo 体验,确确实实的一秒出图,质量上乘。
Demo: https://huggingface.co/spaces/mrfakename/Z-Image-Turbo
主要特点(Demo示例)
① 高效的逼真质量:擅长生成具有摄影级真实感的图像,对细节、光照和纹理都有着精细的控制。
② 出色的双语文本渲染:擅长精确渲染复杂的中文和英文文本。
③ 丰富的世界知识和文化理解:对世界知识和各种文化概念有着深刻的理解。
④ 深层语义理解:提示增强器赋予模型推理能力,使其能够超越表面描述,挖掘潜在的世界知识。
⑤ 较强的指令遵循能力和创造性的编辑能力:可以精确执行复杂的指令,例如在添加指定文本的同时修改角色的表情和姿势。
> 以上图片来源于官方及X@Angry Tom
选取2个 X@karminski-牙医 实测的电影海报生成场景:
三个版本,覆盖所有场景
Z-Image 开源了三大变体:
Turbo 适合日常创作,Base 适合画风定制,Edit 适合工作流场景。
当然目前仅仅 Turbo 版本正式发布了,其他两款需等待后续发布。
核心竞争力
Z-Image-Turbo 的核心竞争力,可以用一句话概括:极致的效率与质量平衡。
1、6B 参数(显存焦虑终结者)
现在的开源大模型动辄 12B、24B,让很多持有 8G 或 12G 显存显卡的用户望洋兴叹。
Z-Image-Turbo 采用了 S3-DiT(可扩展的单流数字图像处理)架构,将参数量控制在了 6B。
文本、视觉语义标记和图像VAE标记在序列级别上连接起来,作为统一的输入流,与双流方法相比,最大限度地提高了参数效率。
2、1 秒出图(实时体验)
以前我们在本地跑高画质图,点完 Generate 都需要去上个厕所、倒杯水的时候。
Z-Image-Turbo 做到了亚秒级推理。在合适的硬件下,生成一张高质量图片仅需约 1 秒。
这种速度带来的体验改变是颠覆性的。它让 AI 绘画从“抽卡等待”变成了“实时反馈”。
你的灵感刚冒出来,图就已经在屏幕上了。
3、画质(照片级真实感)
速度快通常意味着画质牺牲?
在 Z-Image-Turbo 上,这个定律失效了。 它的成像质量非常高,尤其是在人物写真和光影质感上。
皮肤的纹理、头发的丝丝分明、环境光的反射,都达到了 “照片级真实感”。
更重要的是,它天然认识各种名人。它的训练数据包含了极其丰富的世界知识。这意味着你不需要像以前那样挂载一堆 LoRA 才能画出某个特定的人物风格。
它的“底模”本身就是一个百科全书。
写在最后
回顾之前用过的本地 AI 绘画模型,我们见证了 FLUX 的崛起,但也受困于它庞大的体积。
通义 Z-Image-Turbo 的出现,给了我们一个全新的选择:不仅要画得好,还要跑得快,更要能干活。
如果你正在寻找一款能够长期驻留在你本地硬盘里,随时随地帮你挥洒创意的 AI 模型,Z-Image-Turbo 绝对是目前的首选之一。
GitHub:https://github.com/Tongyi-MAI/Z-Image
HuggingFace:https://huggingface.co/Tongyi-MAI/Z-Image-Turbo
👇 关注我,每天分享一个硬核开源工具,带你用技术搞定工作,用 AI 搞定生活!
如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️
在看你就赞赞我!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/241779.html