你有没有遇到过这种情况——网上看到一张AI生成的绝美图片,心动得不行,自己上手去弄,结果要么画出来的东西四不像,要么手和脚完全对不上位置,甚至有时候连脸都歪了?别着急,这还真不全是你的问题。
今天咱们就来好好聊聊一个真正能打的开源图像生成模型——FLUX。这玩意儿由Stable Diffusion的原班人马(Black Forest Labs)倾力打造,可以说是当前开源AI绘画领域里站在金字塔尖的那一个。我会从零开始,手把手带你搞定FLUX的安装、使用、调优到进阶训练,无论你是刚接触AI绘画的新手,还是想进一步提升作品质量的老玩家,这篇文章都值得你花点时间读一读。
说FLUX是目前开源图像生成模型的“天花板”,真的一点都不夸张。
这个模型的核心优势在于它对人体解剖学的精准把握——那些让人头疼的“六根手指”、“三条腿”问题,在FLUX这里基本不会出现。不仅如此,FLUX在处理复杂场景构图、色彩准确度、光影关系方面都表现出了碾压级的实力。说白了,它就是那种“你给个大概描述,它给你出一张能直接用的图”的狠角色。
FLUX家族目前有几个重要的版本,你需要根据自己的实际需求来选:
- FLUX.1 schnell:主打速度,1到4步推理就能出图,特别适合快速试想法和实时应用场景。用的Apache 2.0协议,做商业项目完全没问题。
- FLUX.1 dev:主打质量,需要20到50步推理,输出效果比schnell好一大截。但要注意,这个版本目前只允许非商业用途,是社区里各种LoRA模组的默认适配目标。
- FLUX.1 pro:API专属的旗舰版,原生支持最高400万像素分辨率,画质没得说。
- FLUX.2系列:2026年最新发布的升级版,用上了32B参数的Transformer架构,新增了多参考图像生成、直接姿态控制等功能。
FLUX.2还有一个特别方便的点——多图参考功能。你最多可以给它六张参考图,它能在保持照片级真实细节的同时,批量生成风格一致的图片,省去了之前那种繁琐的模型微调过程。
另外还有一个值得一提的小兄弟叫FLUX.2 Klein,分4B和9B两个版本。4B版本只需要大约13GB显存,推理速度可以压到半秒以内,对普通用户来说门槛低了不少。
说实话,跑AI模型这件事,三分靠技术,七分靠硬件。我见过不少朋友兴致勃勃地开始,结果发现自己的显卡根本带不动,那种感觉确实挺沮丧的。所以先把硬件的账算清楚,免得你白折腾。
对于FLUX.1 dev来说,推荐配置是24GB显存(比如RTX 4090这种级别的卡),系统内存至少32GB。最低的话,12到16GB显存也能跑,但需要用到FP8量化版本,就是把模型压缩一下,在画质损失不大的前提下把显存需求降下来。
FLUX.2就更高贵一些了。它完整加载的时候需要90GB显存,听着吓人吧?不过NVIDIA和Black Forest Labs合作搞了个FP8量化技术,能把显存需求降低40%左右。在ComfyUI里还有NVFP4这种“瘦身版”模型,FLUX.1原本23GB显存的需求,用了NVFP4可以压到9GB;FLUX.2更是能从87GB降到26GB。
小贴士:如果你手头的显卡是RTX 30系或更新的型号,而且有8GB以上的显存,跑FLUX.2 Klein 4B的量化版是没问题的。如果硬件确实跟不上,网心算力云这类云端平台也提供了预配置好的镜像,国内直连下载,不用折腾网络环境。
装ComfyUI这个事,说难不难,说简单也不简单。关键是方法要对。
ComfyUI是目前跑FLUX最主流的工具,它把整个图像生成流程做成了节点式的可视化界面。听着有点高大上,但实际上手了你就知道,比想象中直观得多。
第一种方法最简单,去comfy.org下载Windows安装包,一路下一步就行。装完双击启动,浏览器会自动打开ComfyUI的界面。
第二种方法是手动装,适合喜欢自己掌控一切的朋友。先git clone官方仓库,然后创建虚拟环境,装依赖,最后运行启动脚本。
装完之后,你得把模型文件放到对应的文件夹里。基础模型放在models/checkpoints/下面,ControlNet模型放models/controlnet/,VAE放models/vae/。养成一个好习惯——模型文件按版本和用途分文件夹存放,不然后面找起来会让人抓狂。
模型文件从Hugging Face的Black Forest Labs官方页面下载。文件比较大,一个模型动辄十几个GB甚至几十个GB,下载需要一点耐心。网速不好的朋友,可以考虑找国内镜像站,速度会快很多。
下载完后放到上面说的models/checkpoints/文件夹里就行。注意别放错位置,这个错误我见过太多次了——明明装了模型却找不到,十有八九是路径放错了。
启动ComfyUI后,在界面上点击“模板”按钮,然后选择“快速开始”里的“文字转图片”。系统会自动生成一套基础工作流,你把模型节点换成刚才下载的FLUX模型,连接好“保存图片”节点,点一下蓝色的“运行”按钮,等几秒钟就能看到你的第一张AI画作了。
记住,模型权重文件是AI的“知识库”,大小可能超过30GB,首次加载的时候会慢一些,后面就好了。
ComfyUI最让人头大的是什么?就是那一堆乱七八糟的节点和连线。新手一打开界面,看到满屏幕的方块和线条,很容易就懵了。
但其实你不用什么都自己从头连。有个很省事的办法——直接去Civitai这类平台,搜别人分享好的JSON工作流文件,下载下来拖到ComfyUI窗口里就完事了。如果提示缺节点,用ComfyUI Manager一键补全就行。
如果你想自己折腾一下,基础的工作流大概包含这么几个部分:Checkpoint加载器(用来加载FLUX模型文件)、CLIP文本编码器(负责把你的提示词翻译给模型听)、K采样器(核心生成环节)、空Latent图像(定义输出尺寸)、VAE解码器(把隐藏表示转成真正的图片)、保存图像节点(把成果存下来)。
一个小建议:刚开始的时候,别贪多求全。先用最简工作流出几张图,把流程跑通了,再慢慢往上加ControlNet、IPAdapter这些高级节点。一步一个脚印,才不会把自己绕晕。
FLUX的提示词写法其实有章可循。我把它总结成一句话:主语第一,环境第二,风格第三,技术细节放最后。
先明确你要画什么。比如“A woman in her mid-30s with shoulder-length auburn hair”肯定比“a person”要具体得多。具体到一个名字、一个特征、一个动作,模型就越懂你。
然后描述场景环境。别光说“morning scene”,要说“first light filtering through morning mist”这种有画面感的描述。光影、气氛、空间关系都交代清楚了,出来的图才会有层次。
接着指定风格和氛围。“cinematic lighting”、“documentary photography”、“studio lighting”这些词都能起到很好的引导作用。最后补上技术参数,比如“rule of thirds”、“shallow focus”、“warm earth tones”。
给你一个完整的例子感受一下:
> Professional headshot of a male architect in his 40s, salt-and-pepper beard, wearing black-rimmed glasses and charcoal blazer. Modern office background with architectural models visible but softly blurred. Natural window light from left side creating gentle shadows. Corporate photography style, sharp focus on eyes, neutral gray backdrop.
想让图片里带文字,FLUX有专门的语法。在提示词末尾加上text: "你要写的文字",后面可以跟font、size、color这些参数。中文也支持,但要提前做好NFC标准化处理,一行最好不要超过18个汉字。
guidance scale这个参数值得单独说一下。它控制的是“模型听不听话”——数值越低,模型创作自由度越高,适合追求艺术感的场景;数值越高,模型越死板地按你的提示词来,适合需要精确控制的产品摄影。一般在2到8之间调整就行,别搞太极端。
很多人以为FLUX也支持负面提示词(negative prompt),其实它原生是不支持的。FLUX的设计哲学是“你给它看它要画什么,而不是画什么不画什么”。想排除某些元素,就用正向的方式表达出来,比如“without text on shirt”比直接用负面词效果更好。
还有一个经常被忽略的点:FLUX对提示词的语序很敏感。把最重要的主语放在最前面,不要写成“In a forest setting with morning light, a red fox standing…”,而是“A red fox standing on a moss-covered log, forest setting, morning light…”。
FLUX最厉害的地方,其实不在它本身有多强,而在于你可以用自己的数据去“教育”它。这个教育过程就叫LoRA训练。
简单解释一下LoRA是啥——Low-Rank Adaptation,中文叫低秩适应。它不改变模型原有的权重,而是像在模型的“大脑”旁边加了一个小插件,专门记录你的个性化风格。这样一来,生成的时候既有FLUX的基础能力,又有你自己独有的审美特色。
训练之前,先准备20到30张风格统一的图片。这些图里不能有文字、水印或者logo干扰。尺寸统一裁切成1024×1024、1536×1024或者1024×1536这几个规格之一。
举个例子,如果你想训练一个“赛博朋克城市”风格的LoRA,那就找20多张高质量的赛博朋克图,确保它们的光影调性、色彩偏好、构图方式是统一的。模型就是从这些图里“学习”你想要的风格特征。
目前主流的训练工具是Kohya SS GUI,它有图形化界面,对新手比较友好。最低8GB显存的显卡就能跑FLUX LoRA训练,只不过训练速度会慢一些。
参数设置上,network rank和alpha值是比较关键的几个数字,一般按官方推荐值来就行。训练步数取决于你的数据集大小,通常建议每个样本循环100到200步。也就是说20张图的话,总步数在2000到4000步之间。
一个小秘诀:训练过程中会生成多个检查点(checkpoints),不要只留最后一个。用Grid Generator工具跑一遍对比,选出效果最好的那个检查点来用。我试过70多次训练的经验告诉我,中间阶段的检查点往往比最后的要好。
训练完的LoRA模型文件放到models/loras/文件夹里。在ComfyUI工作流中,把它加到基础FLUX模型和采样器之间,相当于在模型输出结果之前,先让LoRA“润色”一下。
注意LoRA的权重值不要拉得太高,一般0.6到0.8就够了。调太高容易出现风格过度饱和或者画面变形的问题。
用FLUX的过程中,难免会遇到一些奇奇怪怪的问题。我把平时大家问得最多的几个列出来,希望能帮你少走些弯路。
1. 提示词写得很好,但生成效果和想象差太远,怎么办?
先检查一下guidance scale是不是调得太低了(低于2的话模型容易放飞自我)。然后看看提示词结构,是不是把最重要的信息放在了后面。最后可以试一下换不同版本的模型,比如dev版换schnell版,效果会有明显差异。
2. 人物肢体还是有点奇怪,怎么改善?
试试FLUX.2系列的新功能——直接姿态控制。你可以指定人物的姿势,模型会严格按照你给的姿态来生成,这比纯靠提示词描述靠谱得多。
3. 多图参考总是对不上,风格不一致怎么办?
FLUX.2的多图参考功能支持最多10张图同时输入,但有个小技巧——参考图之间本身的风格差异不要太大。如果一张是写实照片,一张是卡通插画,模型也会左右为难。尽量选色调、构图、风格都相近的参考图。
4. 训练LoRA的时候显存不够,报错了怎么办?
用Kohya SS GUI的话,可以在参数里降低batch size到1,同时勾选“use FP8”或者“use gradient checkpointing”这些选项,它们能有效减少显存占用。实在不行就去云端平台租个高显存实例跑训练,省心省力。
5. 图片生成速度特别慢,等很久才出一张图怎么办?
优先用schnell版本或者Klein 4B版本,它们的设计目标就是快。同时把推理步数降到4到6步,guidance scale调到2到4之间。在这个参数组合下,质量虽然不如dev版精致,但用来快速迭代想法足够了。
FLUX的出现,确实让AI图像生成的门槛又降低了一大截。但工具再好用,最终能出什么样的作品,还是看你怎么用它。写提示词也好,训练LoRA也罢,这些东西看起来是技术活,本质上其实是对画面理解力、对审美判断力的体现。
希望这篇教程能帮你少走一些弯路。AI绘画这条路很长,咱们一起慢慢探索。
Q1:FLUX和Stable Diffusion比,到底好在哪?
FLUX在人体解剖准确性、文字渲染能力、提示词理解力方面都明显更强,尤其适合需要生成真实感人物和带文字的场景。
Q2:我的电脑只有8GB显存,能跑FLUX吗?
可以跑FLUX.1 schnell或者FLUX.2 Klein 4B的FP8量化版本,效果不错。想跑更大的模型建议用云端服务。
Q3:FLUX训练LoRA需要多少数据?
20到30张高质量、风格统一的图片就够了。图片要裁剪成正方形或接近正方形,尺寸建议1024×1024以上。
Q4:FLUX模型在哪里下载?
去Hugging Face搜索“Black Forest Labs”官方账号,里面FLUX.1 dev、schnell以及FLUX.2系列都有提供。国内网络不好的话可以找镜像站。
Q5:用FLUX生成的图片能不能商用?
要看具体版本。FLUX.1 schnell和FLUX.2 Klein用的是Apache 2.0协议,可以商用。FLUX.1 dev只允许非商业用途,商用需要联系官方拿授权。
Q6:提示词写得太复杂反而效果不好,这是怎么回事?
FLUX喜欢自然语言描述,但要注意信息密度。太长的句子、太多无关细节会分散模型注意力。先保证核心信息明确,再逐步添加修饰细节。
Q7:为什么生成的图片里文字总是拼错?
试试用FLUX.1 dev版,它的文字渲染能力比schnell好很多。另外记得在提示词末尾用text: "xxx"的标准语法来指定文字内容。
Q8:ComfyUI加载工作流时总是报节点缺失怎么办?
装一下ComfyUI Manager插件,它会自动检测并帮你安装缺失的节点。在Manager里搜索缺少的节点名称,一键安装就行。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/269877.html