2026年五大 AI 绘图工具全解析:从入门到精通(含 Stable Diffusion 实战手册)

五大 AI 绘图工具全解析:从入门到精通(含 Stable Diffusion 实战手册)1 1 工具定义与核心定位 工具名称 核心定义 目标用户 核心优势 适用场景 Stable Diffusion 简称 Diffusion 开源扩散模型 支持本地部署与高度定制 技术爱好者 专业设计师 开发者 开源免费 可自定义模型 插件生态丰富 专业创作 模型训练 商业素材生成 Midjourney 封闭商用 AI 绘图工具 基于 Discord 交互 大众创作者 设计师 营销人员

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



1.1 工具定义与核心定位

工具名称

核心定义

目标用户

核心优势

适用场景

Stable Diffusion(简称 Diffusion)

开源扩散模型,支持本地部署与高度定制

技术爱好者、专业设计师、开发者

开源免费、可自定义模型、插件生态丰富

专业创作、模型训练、商业素材生成

Midjourney

封闭商用 AI 绘图工具,基于 Discord 交互

大众创作者、设计师、营销人员

操作简单、生成质量高、风格化能力强

快速创意落地、商业设计、艺术创作

DALL·E 3

OpenAI 开发的多模态生成模型,集成 ChatGPT

普通用户、内容创作者、企业用户

自然语言理解精准、支持复杂指令

文本生成图像、创意设计、场景还原

Flux.1 [schnell]

Black Forest Labs 开发的混合架构模型(DiT+Diffusion)

专业设计师、技术创作者、3D 工作者

超高分辨率、细节还原好、语义理解强

3D 贴图生成、高精度插画、专业设计

Adobe Firefly

Adobe 推出的商用生成模型,集成 Creative Cloud

设计师、创意工作者、企业用户

版权安全、Adobe 生态兼容、风格可控

专业设计、商业素材、Adobe 软件协同

1.2 技术原理差异

  • Diffusion:基于潜在扩散模型(Latent Diffusion),通过 “加噪 - 去噪” 过程生成图像,支持多模态输入(文本、图像)。
  • Midjourney:采用优化后的扩散模型,侧重自然语言与视觉风格的映射,封闭模型保证生成稳定性。
  • DALL·E 3:结合 Transformer 与扩散模型,依托 ChatGPT 的自然语言处理能力,可解析复杂逻辑指令。
  • Flux.1 [schnell]:融合 DiT(Diffusion Transformer)与扩散模型,120 亿参数量(SDXL 仅 26 亿),语义理解与图像生成能力双优。
  • Adobe Firefly:基于授权数据集训练的生成模型,侧重商用安全性与设计流程整合。

1.3 行业地位与发展现状

  • Diffusion:开源领域标杆,GitHub 星标数超 80k,社区活跃,2025 年更新至 3.5 版本,支持 2048x2048 分辨率。
  • Midjourney:付费用户超 2000 万,迭代至 V7 版本,新增 Omni Reference 功能,参考图融合能力提升。
  • DALL・E 3:OpenAI 生态核心工具,与 ChatGPT 深度集成,自然语言理解精度行业领先。
  • Flux.1 [schnell]:2025 年新兴热门模型,以 “节点式编程控制” 为特色,成为专业创作者新选择。
  • Adobe Firefly:商用领域主流工具,覆盖 70% 设计企业,版权保障体系完善。

2.1 硬件要求(本地部署 / 使用门槛)

工具名称

显存(VRAM)要求

内存(RAM)要求

其他硬件条件

部署方式

Stable Diffusion

最低 8GB(基础版),推荐 12GB+(3.5 版本)

最低 16GB,推荐 32GB

NVIDIA 显卡(支持 CUDA 11.8+),CPU 无强制要求

本地部署(WebUI)、云端(Colab/AutoDL)

Midjourney

无本地硬件要求

仅需网络连接

云端(Discord 平台)

DALL·E 3

无本地硬件要求

仅需网络连接

云端(ChatGPT/OpenAI 官网)

Flux.1 [schnell]

最低 12GB(量化版),推荐 16GB+,完美 24GB

最低 16GB,推荐 32GB+

NVIDIA 显卡(CUDA 12.1+)

本地(ComfyUI)、云端部署

Adobe Firefly

无本地硬件要求

仅需网络连接

云端(官网 / Adobe 软件内置)

2.2 软件与环境配置

2.2.1 Stable Diffusion(Stable Diffusion WebUI)
2.2.1.1 前置认知:核心概念拆解
  • 本质:基于「潜在扩散模型(Latent Diffusion)」的开源 AI 图像生成工具,核心逻辑是通过「加噪→去噪」的迭代过程,将随机噪声转化为符合文本指令的图像。
  • 核心优势:开源免费、支持本地部署、可自定义模型 / 插件、无生成次数限制,适合深度定制化创作。
  • 版本差异
    • SD 1.5:经典稳定版本,模型生态最丰富,适合新手入门(显存要求低)。
    • SDXL 1.0:官方大模型,支持 1024×1024 原生分辨率,细节与语义理解更强。
    • SD 3.5(2025 最新):支持 2048×2048 超高清输出,新增多模态输入(文本 + 图像 + 语音),显存要求 12GB+。
2.2.1.2 关键术语解释(新手必懂)

术语

通俗解释

作用

模型(Checkpoint)

核心 “大脑”,训练数据决定生成风格 / 质量

切换模型可改变整体画风(如写实、动漫、国风)

LoRA

小型微调模型(100MB-2GB),用于强化特定元素

快速添加特定人物、风格、道具(如 “原神风格”“周杰伦脸型”)

提示词(Prompt)

告诉 AI 要生成什么的文本指令

精准描述画面元素,决定生成核心效果

反向提示词(Negative Prompt)

告诉 AI 不要生成什么

排除模糊、变形、低质等不良效果

CFG Scale

提示词服从度,数值越高越贴近指令

平衡 “指令忠实度” 与 “创作自由度”

采样器(Sampler)

去噪算法,影响生成速度与细节

不同采样器适合不同场景(如 Euler_a 快、DPM++ 2M Karras 细节好)

VAE

图像解码器,影响色彩与细节还原

解决生成图像 “发灰、偏色” 问题

2.2.1.3 适用场景与局限
  • 优势场景:商业素材生成(海报、插画)、二次创作(动漫、游戏角色)、概念设计(产品、建筑)、批量图生成(电商主图)。
  • 局限:需一定硬件门槛(显卡显存≥8GB)、纯新手需学习基础配置、复杂文字生成效果较差(如 logo 文字)。
2.2.1.4 软件安装步骤(Windows/macOS 通用)
2.2.1.4.1 硬件检查(关键!避免安装后无法运行)

硬件类型

最低要求

推荐配置

注意事项

显卡(GPU)

NVIDIA 显卡(显存≥8GB,支持 CUDA 11.8+)

NVIDIA RTX 3060(12GB)/ RTX 4070(12GB)

AMD 显卡需额外安装 ROCm,兼容性较差,新手不推荐

内存(RAM)

16GB

32GB

内存不足会导致生成时卡顿、崩溃

硬盘

空闲空间≥50GB(含模型 + 软件)

SSD(读写速度≥500MB/s)

模型文件较大(基础模型 4-8GB),SSD 可提升加载速度

系统

Windows 1011(64 位)、macOS 12+(M 系列芯片)

Windows 11(最新补丁)

避免使用中文用户名 / 系统路径

2.2.1.4.2 Windows 系统(最常用)

下载整合包(推荐新手):

官方整合包(纯净版):

国内优化版(含基础模型 + 插件):B 站 “AI 绘画公社” 置顶帖(避免广告,自行搜索正规来源)

解压与路径设置

解压到非中文路径(如D:AIStableDiffusion),路径中不能含空格 / 特殊字符。

解压后文件夹结构:models(模型目录)、extensions(插件目录)、webui-user.bat(启动脚本)。

模型安装(核心!无模型无法生成图像):

下载基础模型(.safetensors 格式,推荐 SD 1.5 或 SDXL 1.0):

SDXL 1.0:sd_xl_base_1.0.safetensors

SD 1.5:v1-5-pruned-emaonly.safetensors

将模型文件复制到 models/checkpoints 目录(如D:AIStableDiffusionmodelscheckpoints)。

启动 WebUI

双击 webui-user.bat,自动下载依赖(首次启动较慢,需耐心等待)。

启动成功后,会显示本地地址(默认http://127.0.0.1:7860),复制到浏览器打开即可。

显存不足优化(8GB 显存必看):

右键编辑 webui-user.bat,找到set COMMANDLINE_ARGS=,添加参数:

set COMMANDLINE_ARGS=–medvram –xformers –no-half-vae

保存后重新启动,显存占用可降低 20-30%。

2.2.1.4.3 macOS 系统(M 系列芯片)

安装基础环境:

安装 Xcode Command Line Tools:打开终端,输入xcode-select –install,按提示完成。

安装 Homebrew:终端输入/bin/bash -c “\((curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

安装 Python 3.10:brew install python@3.10

下载 WebUI:

终端输入git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui,克隆到本地(如~/Documents/AI)。

配置启动脚本:

进入 WebUI 目录:cd ~/Documents/AI/stable-diffusion-webui

编辑启动脚本:nano webui-user.sh,添加参数(M1/M2 芯片):

export COMMANDLINE_ARGS="--medvram --xformers --skip-torch-cuda-test --no-half"

Ctrl+O保存,Ctrl+X退出。

启动与模型安装:

终端输入./webui.sh启动,后续模型安装步骤与 Windows 一致(复制到models/checkpoints)。

2.2.1.4.4 WebUI 界面初识(新手快速上手)

启动后浏览器打开http://127.0.0.1:7860,核心界面分为 5 个区域:

  1. 顶部标签:txt2img(文生图)、img2img(图生图)、Extras(图像放大)、Settings(设置)、Extensions(插件)。
  2. 提示词区域:上方输入 Prompt(正向),下方输入 Negative Prompt(反向)。
  3. 参数配置区:Steps(生成步数)、CFG Scale(提示词服从度)、Resolution(分辨率)等核心参数。
  4. 模型选择区:右上角可切换 Checkpoint(基础模型)、LoRA、VAE。
  5. 生成与结果区:底部点击「Generate」生成,右侧显示生成结果(可下载、发送到其他标签)。
2.2.2 Flux.1 [schnell](ComfyUI)
  1. 系统要求:Windows 10/11、Linux(推荐)
  2. 基础环境:Python 3.10+、CUDA Toolkit 12.1+
  3. 安装步骤:
    • 下载 ComfyUI:git clone https://github.com/comfyanonymous/ComfyUI
    • 安装依赖:pip install -r requirements.txt
    • 下载模型:flux1-dev.safetensors(23GB)放入models/unett5xxl_fp16.safetensors放入models/clip
    • 启动:双击run_nvidia_gpu.bat,访问 127.0.0.1:8188
2.2.3 其他工具(无本地配置)
  • Midjourney:注册 Discord 账号,加入 Midjourney 服务器,订阅付费计划(基础版 \)10 / 月起)

  • DALL・E 3:注册 OpenAI 账号,开通 ChatGPT Plus(\(20 / 月)或使用 API 调用
  • Adobe Firefly:注册 Adobe 账号,免费版可生成 100 张 / 月,付费版(\)20 / 月)无限制
  • 2.3 核心参数说明(基础必懂)

    参数名称

    作用

    新手推荐值

    工具适用范围

    生成步数(Steps)

    控制去噪迭代次数,步数越高细节越丰富

    20-35 步

    所有工具

    分辨率(Resolution)

    图像尺寸,影响清晰度与生成速度

    512×512(基础)、1024×1024(高清)

    所有工具

    风格强度(Stylize)

    控制风格化程度,数值越高越偏离指令

    70-80%

    所有工具

    提示词权重(Weight)

    调整指令中元素的优先级

    主体::3、次要元素::1

    Midjourney、Stable Diffusion

    种子值(Seed)

    固定生成随机性,相同种子 + 指令可复现结果

    -1(随机)、自定义数字(如 12345)

    所有工具

    3.1 核心操作流程(通用逻辑:指令→生成→优化)

    3.1.1 文生图(零基础首选)
    3.1.1.1 Stable Diffusion(WebUI)
    1. 打开 WebUI 界面,切换至「txt2img」标签
    2. 输入提示词(Prompt):遵循「风格 + 细节 + 主体 + 环境」公式,示例:日系清新风格,近景特写,春日樱花树下,橘猫抬爪追蝴蝶,逆光光斑,8K高清
    3. 输入反向提示词(Negative Prompt):排除不良效果,示例:模糊、变形、低分辨率、文字错误
    4. 配置参数:Steps=30、CFG Scale=7、分辨率 = 1024×1024
    5. 点击「Generate」,等待生成 4 张候选图
    6. 优化:选择满意图片,点击「Send to img2img」进行二次调整
    3.1.1.2 Midjourney(Discord)
    1. 打开 Discord,在 Midjourney 频道输入/imagine命令
    2. 粘贴提示词:cyberpunk city at night, rainy streets, holographic billboards, flying cars, inspired by Blade Runner 2049, 8k ultra hd
    3. 附加参数:–v 7 –ar 16:9 –q 2(V7 版本、16:9 比例、高质量)
    4. 发送后等待生成 4 张图,使用 U1-U4 放大,V1-V4 生成变体
    3.1.1.3 DALL·E 3(ChatGPT)
    1. 打开 ChatGPT,选择「DALL・E 3」模式
    2. 输入自然语言指令:请生成一张温馨的家庭书房场景,阳光从窗户射入,书架上摆满书籍,书桌有笔记本电脑和绿植,整体暖色调,写实风格
    3. 无需额外参数(可通过语言描述调整:如 “8K 分辨率”“水彩风格”)
    4. 生成后可选择「Variations」(变体)或「Edit」(编辑)
    3.1.1.4 Flux.1 [schnell](ComfyUI)
    1. 打开 ComfyUI,加载默认工作流(文生图模板)
    2. 在「Text Prompt」节点输入:highly detailed wood texture, natural grain, 4K resolution, photorealistic
    3. 配置节点参数:采样器选择「euler_a」、步数 = 25、分辨率 = 1024×1024
    4. 点击「Queue Prompt」,生成后在右侧查看结果
    5. 调整:替换「Upscale」节点可提升分辨率
    3.1.1.5 Adobe Firefly(官网)
    1. 打开 Firefly 官网,选择「生成图像」功能
    2. 输入提示词:watercolour painting of a sailboat at sunset, soft colors, detailed waves
    3. 选择风格:在右侧「风格」面板选择「水彩画」
    4. 调整参数:分辨率 = 1024×768、风格强度 = 75%
    5. 点击「生成」,可切换「变体」或「调整颜色」
    3.1.2 图生图(二次创作)
    3.1.2.1 通用步骤
    1. 上传参考图(工具均支持本地图片上传)
    2. 补充提示词:明确修改需求,示例:参考原图构图,改为奇幻风格,添加发光元素,夜晚背景
    3. 调整「图像相似度」参数(Stable Diffusion:Denoising strength=0.5;Firefly:匹配度 = 50%)
    4. 生成并对比效果,反复微调参数

    3.2 新手避坑指南

    1. 避免复杂指令:初期先使用简单短句,逐步增加细节
    2. 分辨率选择:先以 512×512 生成草稿,满意后再放大至 1024×1024
    3. 硬件适配:显存不足时使用量化模型(如 Flux.1 的 fp8 版本)或降低分辨率
    4. 版权注意:商业使用优先选择 Firefly(授权数据集)、DALL・E 3,避免侵权风险
    5. 效果优化:生成模糊时增加 Steps(最高 40 步),细节不足时提高 CFG Scale(7-10)

    4.1 核心功能实操:文生图 / 图生图 / ControlNet 全流程

    4.1.1 文生图(txt2img):零基础入门首选
    4.1.1.1 操作步骤(以生成 “国风古风美女” 为例)
    1. 选择模型:右上角 Checkpoint 选择「v1-5-pruned-emaonly.safetensors」(SD 1.5)。
    2. 输入提示词(Prompt)
      • 遵循「风格 + 主体 + 细节 + 环境 + 质量」公式,示例:

    国风古风,身穿红色汉服,襦裙广袖,长发及腰,簪花头饰,站在庭院梅花树下,飘落的梅花,水墨风格,8K高清,细腻线条,柔和光影

    1. 输入反向提示词(Negative Prompt)
      • 必加基础反向词(排除低质效果):

    低分辨率,模糊,变形,错别字,水印,签名,丑陋,比例失调,手部畸形,色彩暗淡

    1. 配置核心参数
      • Steps:30(新手推荐 20-35,步数越高细节越足,但速度越慢)。
      • CFG Scale:7(推荐 5-10,数值过高易 “过度拟合”,画面僵硬)。
      • Resolution:512×768(SD 1.5 推荐比例,避免 1024×1024 以上导致显存不足)。
      • Sampler:Euler_a(快速采样器,新手首选;追求细节可选 DPM++ 2M Karras)。
      • Seed:-1(随机生成,想要复现结果可记录生成后的 Seed 值)。
    1. 点击「Generate」:等待 10-30 秒(取决于显卡性能),右侧生成 4 张候选图。
    2. 结果优化
      • 选择满意的图片,点击「Save」下载;点击「Send to img2img」可进一步优化细节。
    4.1.1.2 新手参数微调技巧
    • 生成模糊:Steps 增加到 35,CFG Scale 调到 8,或切换采样器为 DPM++ 2M Karras。
    • 人物畸形(如手部奇怪):反向提示词添加「bad hands, missing fingers, extra fingers」,或启用后续介绍的 ADetailer 插件。
    • 风格偏离:降低 Stylize 参数(如果模型支持),或在提示词前加「(国风:1.2)」提升风格权重。
    4.1.2 图生图(img2img):二次创作与细节优化

    图生图是基于参考图生成新图像,适合修改现有图片、扩展画面、转换风格,核心参数是「Denoising strength(去噪强度)」。

    4.1.2.1 操作步骤(以 “将照片转为动漫风格” 为例)

    切换到「img2img」标签。

    上传参考图:点击「Upload an image」,选择一张真人照片。

    输入提示词:

    Prompt:动漫风格,二次元,手绘质感,大眼睛,精致五官,柔和色彩,8K高清

    Negative Prompt:照片质感,模糊,低分辨率,写实

    配置参数:

    Denoising strength:0.6(关键!0 = 完全保留原图,1 = 完全生成新图,新手推荐 0.5-0.7)。Steps:30、CFG Scale:7、Resolution:与原图比例一致(如原图 512×512,保持不变)。

    点击「Generate」:生成动漫风格的图片,可反复调整 Denoising strength 微调相似度。

    4.1.2.2 常用场景拓展
    • 画面扩展:上传一张风景图,在提示词添加「左侧扩展为连绵山脉,保持色调一致」,Denoising strength=0.4,生成扩展后的完整画面。
    • 细节修复:上传模糊的插画,Prompt 输入「高清修复,细腻线条,无噪点」,Denoising strength=0.3,实现无损放大修复。
    • 风格转换:上传写实照片,Prompt 输入「梵高风格,星空笔触,浓烈色彩」,Denoising strength=0.7,生成艺术化作品。
    4.1.3 ControlNet:精准控制画面构图与姿态

    ControlNet 是 SD 最强大的插件之一,通过「控制图(如线稿、姿态图、深度图)」约束 AI 生成,解决 “AI 画不出想要构图” 的问题,新手必学!

    4.1.3.1 ControlNet 安装步骤
    1. 切换到「Extensions」标签 → 选择「Install from URL」。
    2. 输入插件地址:https://github.com/Mikubill/sd-webui-controlnet,点击「Install」。
    3. 安装完成后,点击「Apply and restart UI」重启 WebUI。
    4. 下载 ControlNet 模型(关键!):
      • 推荐新手必备模型:OpenPose(姿态控制)、Canny(边缘线稿控制)、Depth(深度控制)。
      • 下载地址:ControlNet 模型库(选择对应模型的.pth 文件)。
      • 将下载的模型文件复制到 extensions/sd-webui-controlnet/models 目录。
    4.1.3.2 实操案例:用 OpenPose 控制人物姿态

    准备姿态图:

    方法 1:用手机拍摄人物姿态照片,或从网上下载姿态参考图。

    方法 2:使用「OpenPose Editor」生成姿态(WebUI 插件,可在 Extensions 搜索安装)。

    配置 ControlNet:

    切换到「txt2img」标签,向下滚动找到「ControlNet」区域,点击「Enable」启用。

    上传姿态图:点击「Upload」,选择准备好的姿态图。

    选择模型:「Preprocessor」选择「openpose」,「Model」选择「control_v11p_sd15_openpose.pth」。

    调整参数:「Control Weight」=0.7(权重越高,姿态约束越强),「Denoising Strength」=0.6。

    输入提示词:

    Prompt:武侠风格,身穿黑色劲装,手持长剑,站姿挺拔,背景是竹林,水墨画风,8K高清Negative Prompt:低分辨率,模糊,姿态变形,手部畸形

    点击「Generate」:AI 将严格按照姿态图生成人物,构图精准不跑偏。

    4.1.3.3 其他常用 ControlNet 模型

    模型名称

    作用

    适用场景

    Canny

    基于边缘线稿控制构图

    线稿上色、还原手绘草图

    Depth

    基于深度图控制空间关系

    生成有立体感的场景、建筑

    Segmentation

    基于语义分割图控制元素位置

    精准布局画面元素(如人物、背景、道具)

    Tile

    基于纹理控制生成重复图案

    生成无缝贴图、布料纹理

    4.2 模型与插件体系:解锁无限创作可能

    4.2.1 模型分类与选择(新手不盲目下载,精准匹配需求)
    4.2.1.1 基础模型(Checkpoint)分类

    模型类型

    代表模型

    适用场景

    显存要求

    写实风格

    Realistic Vision、Deliberate

    生成照片级人像、风景、产品图

    8GB+

    动漫风格

    Anything、AbyssOrangeMix

    生成二次元、动漫角色、插画

    6GB+

    国风风格

    MeinaMix、Guofeng3

    生成古风、水墨、武侠题材

    8GB+

    通用风格

    SD 1.5、SDXL 1.0

    全能型,适合各类基础创作

    6GB+(SD1.5)、10GB+(SDXL)

    4.2.1.2 LoRA 模型使用(快速添加特定元素)

    LoRA 下载与安装:

    下载平台:Civitai(https://civitai.com/,搜索关键词如 “原神”“汉服”)。

    安装步骤:将下载的 LoRA 文件(.safetensors 格式)复制到 models/Lora 目录,重启 WebUI。

    调用方法:在 Prompt 中输入 ora:模型名称:权重>,示例:

    原神风格,雷电将军,白发紫眸,身穿御神装,idenShogun:0.8>,8K高清

    权重推荐 0.6-0.9(过高易导致画面失真)。

    4.2.1.3 VAE 模型:优化色彩与细节

    作用:解决生成图像 “发灰、偏色、细节模糊” 问题,尤其适合写实风格模型。

    推荐模型:

    vae-ft-mse--ema-pruned.safetensors(通用型)。

    Anything-V3.0.vae.pt(动漫风格专用)。

    安装与启用:

    复制到 models/VAE 目录,重启 WebUI。

    在 WebUI 右上角「VAE」下拉菜单选择对应模型(选择「Auto」可自动匹配)。

    4.2.2 必备插件推荐(新手优先安装,提升效率)
    4.2.2.1 ADetailer:自动修复人脸 / 手部畸形
    • 安装:Extensions → 搜索「ADetailer」→ 点击安装,重启 WebUI。
    • 用法:
      • 生成图像后,ADetailer 会自动识别人脸、手部区域,修复畸形(如六指、五官扭曲)。
      • 可在「ADetailer」标签调整修复强度(默认参数即可满足新手需求)。
    4.2.2.2 Civitai Helper:一键下载模型,告别手动配置
    • 安装:Extensions → Install from URL → 输入https://github.com/butaixianran/Stable-Diffusion-WebUI-Civitai-Helper → 安装重启。
    • 核心功能:
      • 直接在 WebUI 内搜索 Civitai 模型,一键下载并自动分类到对应目录(无需手动复制)。
      • 支持模型预览、版本管理,避免下载重复模型。
    4.2.2.3 Ultimate Upscale:超高清图像放大
    • 作用:将生成的 512×512 图像放大到 4K 甚至 8K,保持细节不模糊。
    • 安装:Extensions → 搜索「Ultimate Upscale」→ 安装重启。
    • 用法:
      • 生成满意的图像后,点击「Send to Extras」。
      • 选择「Upscaler 1」为「R-ESRGAN 4x+」,「Ultimate Upscale」选择「Tile upscaler」。
      • 调整「Scale」为 4(如 512×512→2048×2048),点击「Generate」。
    4.2.2.4 Prompt Translator:提示词翻译神器
    • 作用:支持中文提示词自动翻译为英文(AI 对英文提示词理解更精准)。
    • 安装:Extensions → 搜索「Prompt Translator」→ 安装重启。
    • 用法:
      • 在提示词输入框下方勾选「Translate」,输入中文提示词后自动翻译,无需手动切换。

    4.3 提示词工程:精准控制生成效果

    4.3.1 提示词编写公式(新手直接套用)

    [风格定义] + [主体描述](外形、动作、表情) + [细节补充](服装、道具、材质) + [环境设定](场景、光线、视角) + [质量参数](分辨率、精度、渲染方式)

    示例拆解:
    • 风格定义:cyberpunk(赛博朋克)
    • 主体描述:female warrior(女战士),dynamic pose(动态姿势),confident expression(自信表情)
    • 细节补充:neon-lit armor(霓虹发光盔甲),metal texture(金属材质),glowing sword(发光剑)
    • 环境设定:rainy night city street(雨夜城市街道),neon signs(霓虹灯牌),low angle shot(低角度拍摄)
    • 质量参数:8K ultra HD,photorealistic,cinematic lighting(电影级光影)
    4.3.2 关键词权重调整(突出重点元素)
    • 方法 1:使用(关键词:权重),权重范围 0.1-2.0,示例:

    (cyberpunk city:1.5),(neon lights:1.2),female warrior

    • 方法 2:使用[]降低权重(等价于 0.7 倍),示例:

    cyberpunk city,[background buildings:0.5],female warrior

    • 方法 3:使用()叠加增强(每多一层()增强 1.1 倍),示例:

    (((neon armor:1.2))),female warrior(等价于权重1.2×1.1×1.1×1.1≈1.6)

    4.3.3 不同风格提示词模板(直接复制使用)
    4.3.3.1 写实风格

    photorealistic portrait of a young woman,soft smile,natural skin texture,brown hair,casual white shirt,sunny living room,soft natural light,8K,ultra-detailed,cinematic shot,Canon EOS R5

    4.3.3.2 动漫风格

    anime girl,big eyes,pastel hair,school uniform,pleated skirt,sitting on a bench in a park,cherry blossom petals falling,watercolor style,line art,vibrant colors,8K,detailed shading

    4.3.3.3 国风风格

    guochao style,beautiful woman in qipao,cheongsam with peony patterns,red and gold colors,ancient chinese courtyard,lotus pond,ink wash painting elements,soft brush strokes,8K,highly detailed

    4.3.3.4 商业海报风格

    product poster for a coffee brand,latte art in a glass cup,warm lighting,wooden table background,minimalist design,soft focus,high contrast,8K,commercial photography,brand logo on the corner

    4.3.4 反向提示词必备清单(新手直接复制)

    lowres,bad anatomy,bad hands,text,error,missing fingers,extra digit,fewer digits,cropped,worst quality,low quality,normal quality,jpeg artifacts,signature,watermark,username,blurry,ugly,deformed,disfigured,mutated,extra limbs,missing limbs

    4.4 进阶技巧:效率优化与质量提升

    4.4.1 批量生成:一次性生成多张候选图
    1. 切换到「txt2img」标签,找到「Batch」区域。
    2. 输入「Batch count」(生成批次)和「Batch size」(每批数量),示例:Batch count=3,Batch size=4(共生成 12 张)。
    3. 选择「Output directory」(输出目录),点击「Generate」,自动批量生成并保存到指定文件夹。
    4. 注意:Batch size 越大,显存占用越高(8GB 显存推荐 Batch size=2)。
    4.4.2 模型融合:混合不同风格模型
    1. 切换到「Settings」标签 → 选择「Model Merging」。
    2. 选择「Model A」和「Model B」(如 Realistic Vision + MeinaMix)。
    3. 调整「Merge ratio」(融合比例),示例:Model A=0.7,Model B=0.3(偏向写实风格,带一点国风元素)。
    4. 点击「Merge」,等待生成融合模型(保存到models/checkpoints),切换后即可使用。
    4.4.3 显存优化技巧(8GB 显存也能生成高清图)
    1. 启用 xFormers:启动脚本添加–xformers参数(已在安装步骤中配置)。
    2. 降低分辨率:先生成 512×512 草稿,满意后用 Extras 放大到 1024×1024。
    3. 使用量化模型:下载 fp16 或 fp8 量化版本的模型(显存占用降低 30-50%)。
    4. 关闭不必要功能:在 Settings → 取消「Highres. fix」(高清修复),生成后单独放大。
    4.4.4 结果复现与微调:基于满意作品迭代
    1. 生成满意的图像后,记录右侧的「Seed」值(如 )。
    2. 想要微调细节时,保持 Seed 值不变,修改 Prompt 或参数(如增加 “佩戴项链”)。
    3. 点击「Generate」,生成的图像会保留原有的构图和风格,只修改调整的部分。

    4.5 常见问题排查(FAQ):新手避坑指南

    4.5.1 启动失败
    • 问题 1:「找不到 Python」→ 检查 Python 3.10 是否安装,环境变量是否配置(Windows 需手动添加 Python 路径)。
    • 问题 2:「CUDA error: out of memory」→ 启动脚本添加–medvram–lowvram参数,降低显存占用。
    • 问题 3:「模型加载失败」→ 检查模型文件是否完整(后缀为.safetensors,大小正确),路径是否在models/checkpoints
    4.5.2 生成效果差
    • 问题 1:画面模糊 → 增加 Steps(30→35),切换采样器为 DPM++ 2M Karras,启用 VAE。
    • 问题 2:人物畸形 → 加强反向提示词(添加「bad hands, extra fingers」),启用 ADetailer 插件。
    • 问题 3:风格偏离 → 提高 CFG Scale(7→9),在 Prompt 前加风格关键词并提高权重。
    4.5.3 生成速度慢
    • 问题 1:单张图生成超过 1 分钟 → 降低 Steps(30→25),使用 Euler_a 采样器,关闭 xFormers 以外的优化功能。
    • 问题 2:批量生成卡顿 → 降低 Batch size(4→2),关闭浏览器其他标签页,释放内存。
    4.5.4 插件安装失败
    • 问题:「网络错误」→ 更换网络(如手机热点),或手动下载插件压缩包,解压到extensions目录。
    • 问题:「版本不兼容」→ 选择 Star 数多、更新时间近的插件,或在插件页面查看兼容的 WebUI 版本。

    4.6 实战案例:从创意到成品的完整落地

    4.6.1 案例:生成电商服装主图(商用级效果)
    4.6.1.1 需求分析
    • 产品:女士夏季连衣裙(白色、碎花图案)。
    • 风格:清新自然,适合电商平台(突出产品细节,背景简洁)。
    • 要求:高清、无水印、可商用(需使用合规模型)。
    4.6.1.2 操作步骤

    选择模型:Checkpoint 选择「Realistic Vision(写实模型)」,VAE 选择「vae-ft-mse--ema-pruned」。

    输入提示词:

    product photography of a white floral dress,summer style,light fabric,detailed floral patterns,model wearing the dress standing in a bright studio,soft natural light,minimalist background,high contrast,8K ultra HD,commercial grade,sharp focus on the dress

    输入反向提示词:

    lowres,blurry,ugly,deformed,text,watermark,signature,dark lighting,cluttered background,bad anatomy

    配置参数:

    Steps=35,CFG Scale=8,Resolution=1024×1365(电商主图常用比例)。

    Sampler=DPM++ 2M Karras,Seed=-1(随机生成)。

    启用 ADetailer 插件(修复模型面部和手部)。

    生成与优化:

    生成 4 张图,选择产品细节最清晰的一张。点击「Send to Extras」,使用 R-ESRGAN 4x + 放大到 2048×2730,提升清晰度。

    商用检查:确认模型为可商用版本(Realistic Vision 支持商用),生成图像无侵权元素。

    4.6.1.3 最终效果

    生成的图像突出连衣裙的碎花图案、面料质感,背景简洁不抢镜,符合电商平台主图要求,可直接用于店铺装修或产品宣传。

    5.1 提示词进阶技巧

    5.1.1 结构化提示词模板

    [核心主体] + [细节描述](颜色、材质、姿态) + [环境设定](场景、光线、视角) + [风格定义](艺术流派、参考作品) + [质量参数](分辨率、精度)

    示例(专业级):female warrior, silver armor with blue glowing runes, dynamic pose (sword raised), misty mountain landscape at dawn, low angle shot, fantasy concept art inspired by Greg Rutkowski, 8K, ultra-detailed, photorealistic lighting

    5.1.2 权重调整与逻辑控制
    • Midjourney:使用::分隔权重,warrior::3 horse::1(强调战士)
    • Stable Diffusion/Flux.1:使用(关键词:权重)(glowing eyes:1.5)
    • DALL・E 3:通过自然语言逻辑,”红色连衣裙,但袖口是白色蕾丝,背景是薰衣草花田,不要出现人物面部“

    5.2 高级功能应用

    5.2.1 Stable Diffusion 插件拓展(补充)

    ControlNet 进阶:

    多模型叠加:同时启用 OpenPose(姿态)+ Depth(深度),精准控制人物与场景的空间关系。

    预处理器参数调整:Canny 模型的「Threshold 1/2」可控制边缘检测灵敏度,数值越高边缘越清晰。

    模型训练:

    LoRA 微调入门准备 10-20 张目标图片(如特定人物、风格),裁剪为 512×512 尺寸。

    使用 WebUI 插件「LoRA Trainer」,设置训练步数(推荐 1000-2000 步)、学习率(1e-4)。

    训练完成后,模型保存到models/Lora,可直接调用。

    5.2.2 Midjourney 高阶参数

    参数

    功能

    示例

    –oref

    参考图权重控制

    –oref 500(高相似度)

    –style raw

    降低风格化,贴近真实

    –style raw

    –seed

    固定种子,复现结果

    –seed 98765

    –iw

    图像权重,调整参考图影响

    –iw 2(增强参考图作用)

    5.2.3 Flux.1 节点编程

    基础工作流搭建:

    节点组合:Text Prompt → T5 Encoder → Flux UNet → VAE Decode → Save Image

    新增节点:添加「Upscale」节点(使用 ESRGAN 模型)

    提升分辨率至 4K3D 贴图生成:

    提示词:PBR wood texture, high detail, 2048x2048, seamless tiling

    节点配置:启用「Seamless Tiling」选项,生成可重复使用的 3D 贴图

    5.2.4 Adobe Firefly 协同工作

    与 Photoshop 联动:

    在 PS 中打开图像,选择「编辑」→「生成填充」,输入指令补充画面元素

    生成的内容自动匹配原图色调、光影,无需手动调整文本效果

    生成:输入文字(如 “咖啡时光”),选择「文本效果」→「3D 立体」,生成可编辑的矢量文字

    5.3 批量生成与效率优化

    跨工具批量处理:

    Stable Diffusion 生成初稿 → Adobe Firefly 批量优化色彩 → Photoshop 批量裁剪尺寸

    云端部署提速:Stable Diffusion 使用 AutoDL 云端服务器(RTX 4090 显卡),生成速度比本地快 5 倍

    配置云端 WebUI,通过浏览器远程操作,无需本地硬件

    6.1 学习资源推荐

    6.1.1 入门教程
    • 视频平台:B 站「AI 绘画公社」(Stable Diffusion 基础)、YouTube「Midjourney Mastery」
    • 文档教程:CSDN《Stable Diffusion WebUI 新手手册》、Adobe Firefly 官方帮助中心
    • 社区:Midjourney Discord 社区、Civitai 论坛(模型分享)
    6.1.2 进阶学习
    • 模型训练:学习 LoRA 微调(针对特定风格 / 人物训练小模型)
    • 提示词工程:关注「PromptBase」平台,获取专业提示词模板
    • 技术博客:CSDN「AI 绘画进阶指南」、Black Forest Labs 官方文档(Flux.1)

    6.2 工具选择建议

    用户类型

    推荐工具

    选择理由

    完全新手(零技术)

    Midjourney/DALL·E 3

    操作简单,无需配置,生成质量高

    设计从业者(商用)

    Adobe Firefly

    版权安全,与设计软件协同,风格可控

    技术爱好者(自定义)

    Stable Diffusion

    开源免费,插件丰富,可深度定制

    专业创作者(高精度)

    Flux.1 [schnell]

    细节还原好,支持 4K + 输出,3D 适配

    学生 / 预算有限

    Stable Diffusion 免费版 + Firefly 免费版

    无付费成本,满足基础创作需求

    6.3 商业应用与版权注意

    版权合规:

    可商用工具:Adobe Firefly(授权数据集)、DALL・E 3(商业许可)、Stable Diffusion(合规模型)

    谨慎使用:Midjourney(付费版可商用,但需遵守条款)、Flux.1(需确认模型授权)

    商业场景适配:

    电商设计:Stable Diffusion + ControlNet 批量生成商品图

    广告创作:Midjourney + Firefly 协同,兼顾创意与版权

    3D 游戏:Flux.1 生成高精度贴图,提升建模效率

    6.4 进阶发展路径

    1. 阶段一(1-3 个月):熟练基础操作,掌握提示词编写,能生成符合需求的图像
    2. 阶段二(3-6 个月):学习插件 / 参数优化,尝试风格定制,如训练 LoRA 模型
    3. 阶段三(6-12 个月):深度应用,如 Stable Diffusion 模型微调、Flux.1 节点编程、商业项目落地
    4. 社区参与:分享作品到 Civitai、Midjourney Gallery,获取反馈,加入创作社群

小讯
上一篇 2026-03-14 16:07
下一篇 2026-03-14 16:05

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/235483.html