2026年Midjourney中文版全面学习笔记

Midjourney中文版全面学习笔记p p 点击打开网站 Midjourney 中文版平台为 全中文界面 安全稳定 国内可用 快速出图 一键创作 功能齐全 不断更新 出图质量不变 使用方法不变 不用科学上网 不用加速器 不用魔法 标准版订阅 45 8 元 月 非常推荐所有人使用 国内用户如果想使用官方的 Midjourney 比较麻烦 不仅要懂得科学上网 很多人一开始就可能会卡在注册 订阅的环节

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

点击打开网站:

Midjourney中文版平台为:全中文界面、安全稳定、国内可用、快速出图,一键创作、功能齐全,不断更新!出图质量不变!使用方法不变!不用科学上网!不用加速器!不用魔法!标准版订阅45.8元/月,非常推荐所有人使用!

国内用户如果想使用官方的Midjourney比较麻烦,不仅要懂得科学上网,很多人一开始就可能会卡在注册、订阅的环节,而且Midjourney官方的订阅费价格贵,使用这个Midjourney中文版,它是基于官方Midjourney接口开发,对接的还是官方出图,所以和官方是一样的,通过我的综合对比,Midjourney官方和国内Midjourney中文版,出图效果是一毛一样的,没有任何差异,这就说明接口是官方的接口,很多人迷信官方,但复杂的注册的和订阅方式,加上不稳定,最终折腾了半天,浪费了你的时间和金钱,还不如一开始就使用国内版本。全中文+友好的界面,关键是便宜啊!

有些人说了,这是山寨的,出图质量不行,骗子工具...好!我们来实事来说话,下面,我们来使用一段咒语,测试一个两个版本的区别在哪?







麻烦大家瞅瞅,区别在哪儿???

Midjourney中文版的订阅也非常简单,可以选好订阅版本后,直接用微信和支付宝来支付,而且同版本的价格相对国外来说,便宜很多,对于初级小白来说,真是非常友好啊!

以下表格内,注明的人民币的换算数额,是一个大概的额度,说明一下!

通过以上对比,本站在快图模式条数上适当做了调整(因为根据实际使用情况下,正常我们根本不需要那么多条),所以定价便宜,显然要实惠很多,注册和订阅也非常方便,强烈推荐使用!

先看看我的-登陆界面,请确认订阅时绑定的微信号或者手机号,是否绑定了微信或者手机号码。

这是因为有通道因多次触发敏感词被封,导致不能进行关联任务,可以进行重新绘制。在出图时就尽量进行后续操作,以免任务失效。

我们有两种图像生成模式:“快图模式“和"常规模式",也就是对应官方的Fast模式和Relax模式。快图模式将会立即为您提供 GPU运算,这是最高优先级的处理级别,会有点贵。Relax模式会根据MJ系统当前使用总人数和绘画任务数,将您的任务排在其他人后面,正常情况下2-5分钟,高峰期会超过10分钟。

除了您的常规订阅外,您还可以选择订购快图加速包,它们没有过期时间,直到您使用完。

检查图片是否是png格式,和图片是否超过10兆。

只要是您订阅后自己画的图,就可以以任何方式自由使用您的图像,商业使用没问题。

即便您用国外的官网,也会有3-5%的失败率,原因通常是:短时间内重复提交、有违法违规的指令、参数错误,本站整体的失败率也是3-5%,但失败的不会占用您应享有的额度。


U: 按钮放大对应的某一张图像,可生成所选图像的更大版本并进行更多细节操作。

V: 按钮为对应的图像的增量变化,可会生成与所选图像的整体风格和构图相似的新图像网格。

🔄 按钮为重做重新运行作业,它将重新运行原始提示,生成新的图像网格。

喜欢生成的图像,但希望它更高或更宽?“缩2倍或者1.5倍”选项允许您将放大图像的画布扩展到其原始边界之外,而不更改原始图像的内容。新扩展的画布将根据提示和原始图像的指导进行填充。

🔎自定义:使用自定义缩放更改提示

🔎 自定义允许您在扩展图像之前更改提示和zoom值 ,--zoom接受 1-2 之间的值。从而更好地控制完成的图像。例如,将提示更改为“Framed pictures on the wall “ 会产生以下结果:

3.Vary(strong),Vary(Subtle)表示对图片进行微调也可以修改提示词

Make Square可以调整非方形图像的纵横比使其成为方形。如果原始宽高比较宽(横向),则会垂直扩展。如果它很高(纵向),它将水平扩展。

记住:需要放大U喜欢的一张才能进行后续操作


首先,打开Midjourney国内版的网站,你会发现网站界面和原版布局都差不多,只是更符合国人的使用习惯,全中文界面,版块布局也很合理,结构一目了然!

Midjourney国内版

找到[登录/注册],直接用手机号、邮箱、微信,任一一种方式来注册,快捷而高效,没有繁琐的操作方式,三分钟就搞定了!

Midjourney国内版

Midjourney国内版

国内版Midjourney使用方法非常简单,根据中文界面的意思和功能模块,结合视频教程来操作,三天就大概把里面的所有功能全掌握!

Midjourney国内版

Midjourney国内版

Midjourney国内版

Midjourney国内版

最后,提示词和调节参数以及图片尺寸都设置好了后,点击提交任务,它将在1-5分钟给你出四张图,在四张图中再作挑选、变换、放大、优化、调节等操作!

还不懂?(请看视频案例)

在 Midjourney 的提示词 Prompt 分成三个部分。

这个属于选填,它是图片的 URL 地址,而且必须是公开可访问的地址,图片格式仅支持 png、gif、jpg。你最多只能放两张图的 URL,或者一张图的 URL + 一段话。

这个就是你希望 AI 生成的图片的描述。

Midjourney 跟 ChatGPT 有点不一样:无法理解句子结构和语法:Midjourney 没法像 ChatGPT 那样懂你说的话。类比的话,Midjourney 更像是命令式编程,ChatGPT 更像是声明式编程,你需要给 Midjourney 完整的指令,它才有可能生成你满意的结果。Midjourney 有违禁词的设计:有些词语无法输入,比如 🍑 emoji 就没法输入,因为这个 emoji 是 butts 的俚语,常常会导致模型生成一些不太好的图片,所以也被禁止了。

中文版参数如何使用:

Midjourney 跟 ChatGPT 在 prompt 的使用上有很多不一样的地方,Midjourney 基本上是不懂语法的,所以即使你语法错了,只要词对了,也能生成图片。所以,prompt 不是越长越好。特别是各种定语从句,它根本就不懂,还不如把指令用逗号隔开,一个个输入。以下是官方推荐的语法建议:

使用形容词+名词的词序来替换介词短语。

应该改为

应该改为

使用非常具体的动词来替换介词短语。

应该改为

应该改为

最后, Midjourney 是不会区分大小写的。

在单词的部分,Midjourney 跟 ChatGPT 有点类似,它对同义词的理解也不是很好。比如举两个例子:

如果你想让 Midjourney 不生成某样东西,就需要用到 参数 — no。你不说,模型就会随机给你,因为图像信息的信息量远超过文字,所以很多时候,Midjourney 会随机填充一些内容给你,它既是缺陷,也是亮点功能。因为当你不在 prompt 里说明这些词时,你就能获得发散的结果。如果你想减少这些随机性,就需要用到一些 prompt 框架(或者所谓的模板)。

Midjourney 允许你在 prompt 里加入参数,而且这些参数相对来说一致性都比较好,所以如果你想实现的功能,参数里支持,那优先使用参数,而不是在主体里描述。

Stock Photo 直译为图库图片。一般你能在一些图库网站上找到,这些图片通常来自一些摄影师或设计师。部分图片因为版权的原因,如果你需要使用则需要付费。大部分使用 Stock Photo 的用户都是一些设计公司,或者广告公司。你应该常常能看到这类图片,比如最经典的两人握手照片:

我认为 AI 生成图片对图片库行业和摄影行业冲击非常大,V5 版本基本上满足了我的 Stock Photo 需求。

我认为学习图片类的 prompt,跟学习画画是类似的,最好的学习方法不是直接用现成的提示词塔板,可以拿真图临摹,当你临摹了几张后,就会慢慢搞懂如何做出类似的图了。拿上面的那个握手图为例,我们仔细观察上面那张图,图中元素有什么:

1、主体是两个手握在了一起,并且看起来是两个亚裔男人。2、两人都穿着西装。3、背景看上去像是在办公楼的大门,两人可能是在握手告别。并且背景刻意进行虚化了,或者是使用照相机拍摄的。

主体:两个穿着西装的亚裔男人在握手告别
场景:办公楼大门
风格:stock photo,照相机拍摄




这时候,我们就能尝试写一下 prompt 了(英文水平不行可以用翻译软件)。

Midjourney 生成的结果如下:

Emm 🤔 好像跟我们的预期不一样。不要慌,刚开始用 Midjourney 一定会遇到这种问题,重要的是多尝试。

再来分析下为何生成了这样的图片?

首先图片的主体,或者说焦点,我们只需要「握手」,而不是两个人。照相模式好像并不能实现背景虚化?更像是一种图像风格,图四就像是一种老照片的风格。那我们调整下 prompt,增加焦点和背景虚化关键词:

再来看看生成的结果,结果好很多,图 1 和 图4 基本满足需求了,图 2 和图 3 裁剪一下,也能满足我们的需求。不过需要注意,Midjourney 在人手的生成上,暂时还有点问题,你细看图 2和图 4,其中有一个人的手有 6 个手指 😂,但我认为未来应该会修复:

那我们来总结一下 prompt ,该 prompt 分成以下几个部分:

总结下之后,你是不是就总结出了一个模板了?😁

图片生成遇到不符合预期的情况不要慌,分析问题,然后使用控制变量法,一个个调整图片,不要急,上面我写的 prompt 还有一个地方,不知道各位有没有注意,就是开头的 stock photo,试试将这两个词删掉会怎样?

生成结果也依然满足需求,而且手指的数量也准确了,说明这个 Stock Image 对模型的影响不是很大。

用 Stock Photo 库会遇到以下几个问题:

要解决这3个问题,最好的方式就是让 AI 改一改原来的图片。让 AI 改图,只需要用到图生图「Image2Image」(或者叫 Blend / 垫图) 功能即可。操作步骤如下:

生成的结果是这样的,我在 prompt 里没有提任何西装,以及场景背景信息,就说我要一个非裔的手,一个亚裔女性的手:

我们需要学习提示词吗?

垂直场景的 prompt,比如 Logo 相关的提示词有:

如果你以为只要看了别人的 prompt 用了别人的提示词,就能生成好的图片,那就错了。对于新手来说,我不建议各位直接上来就记prompt模版,因为写好一段 prompt ,你缺的不是提示词,而是对设计的理解,甚至是想象力。比如本章节的 Logo 设计,如果你根本不知道 Logo 包含哪些元素,适合什么风格,你懂再多的提示词也没法生成满意的 Logo。Midjourney 跟 ChatGPT 不一样,ChatGPT 是声明式的,你甚至可以让它扮演某个角色,但 Midjourney 是指令式的,你只能用指令让它画出你想象中的图片。当你能很稳定地出图后,再研究这些词不迟。对于普通人来说,真正阻碍我们的可能不是学会这些词语,而是我们的审美。

常见的品牌 Logo 一般分成以下 4 种形式:

Graphic Logo:
一般以图形为主,像 Apple、Twitter 以及 Midjourney 就是这种 logo。

Lettermark Logo:
一般用公司名字的首字母作为 logo 主体,像 Facebook、Tesla 还有 IBM (IBM 全称是 International Business Machines)都是用公司名的首字母作为 logo。

Geometric Logo:
几何图形组成的 logo,比如 Nike、百事可乐、万事达卡就是这个类型。

Mascot Logo:
以公司吉祥物为 logo 的相对来说比较少见,像米其林的 logo 就是吉祥物轮胎人,我最喜欢的烤鸡餐厅 Nando’s 就是一只🐔

其实常见的品牌 Logo 里其实还有一种,是文字组合式的,文字加上面任意一种,比如 Tesla 的 完整 Logo 就是 Tesla 加一个 T。但因为 Midjourney 在文字的生成上,有非常多的问题,所以不在本章进行介绍。

当你想用 AI 生成 Logo 的时候,我建议你选一个你认可的方向,然后再让 AI 生成。首先我们来分析一下 Graphic Logo 的特性:

根据特性撰写的 prompt ,核心的关键就是将风格描述清楚:

Graphic Logo 还有一种常见的设计,比如前面的例子里 Midjourney 的 Logo 就是这种,只需要在 graphic 后加一个 line 即可:

下方左边 4 个是没有加 line 的版本:

这种类型的 Logo 看起来简单,就一个字母进行变形,但让 AI 生成反而效果很一般,而且有一个算是比较有意思的发现,用 A 字母做出来的 Logo 质量比其他字母做出来的 Logo 质量要好很多(非严格按照数据统计,仅个人感受)。这个类型的 Logo 有以下特点:

根据特性撰写 prompt(最后生成的是 A 和 C 的 logo,我个人感觉 A 的好很多),另外需要注意,这个例子其实是想说明,在 Midjourney 里,语法并不重要,lettermark 不一样要按照语法要求,写成 lettermark logo of letter A :

这个类型的 Logo 相对来说,虽然只有图形,但有很多玩法,介绍两个常用玩法:

循环重复:如果你用的是 iPhone ,可以看看 iPhone 里的照片应用的 Logo,它也是一个 Geometric Logo ,而且它是椭圆图形旋转重复,最后组合成了一朵花的形状。拆解一下,关键词是:

让我们来写一个类似的 prompt:

另一个常见玩法就是渐变色,如果你用的是电脑的浏览器是 Edge,可以去看看它的 Logo,它的 Logo 就是一个渐变色,然后是个浪的外观。拆解一下,关键词是:

让我们来写一个类似的 prompt:

最后生成的结果是这样的,我很喜欢花的第三个,浪的第二个:

这种吉祥物类型的 Logo,我认为是 Midjourney 最擅长的 Logo 风格。但也非常考验我们的想象力,当然我们也可以仅提供一些比较简单的词语,让 AI 帮我们生成,让我们一起来为一个机器人公司写一个 Mascot Logo ,拆解一下 prompt 关键词:

最后 prompt:

还有给一家泡面公司生成一个吉祥物又会怎样:

以下是生成的结果,我很喜欢泡面公司的 logo:

前面生成的 logo ,有一些估计各位会觉得平平无奇,比如 Lettermark Logo,原因并不是 Midjourney 能力不强,而是我们给的指令太少了,只要在 prompt 里加几个单词,就能生成不一样的 Logo: 左边四个的 prompt 是这样的,我仅仅在原来的 prompt 上加了两个单词 Pop Art:

波普艺术(Pop Art,又译为普普艺术或通俗艺术),是一种起源于20世纪50年代和60年代的艺术运动,它强调对大众文化、大众媒体和消费主义文化的反思和表达。Pop 来自“流行艺术”(popular art)一词里的 popular,由1956年英国艺术评论家罗伦斯·艾伟(Lawrence Allowey)所提出。

特点:

它是一个荷兰艺术运动,始于 1917 年,致力于简化视觉元素,包括直线,平面和基本色彩。它的成员包括画家 Piet Mondrian 和 Theo van Doesburg 等人。De Stijl 的成员致力于将艺术与设计融合,以创造出具有实用性和功能性的美学。

特点:

常常用几何图形进行设计,如矩形和直线。用色基本只用基本色彩,比如黑、白、灰、红、黄、蓝。追求平衡和和谐,强调形式和结构,不注重细节和表现力。

其实 App Logo 可以使用前一章提到的品牌 Logo,加上一个矩形边框就 OK 了,用 Figma 几步就能完成 😂,但如果你实在不想用 Figma ,也可以用 Midjourney 生成。不放看看你手机上的 App,想想 App Logo Prompt 应该怎么写?我用前一章的案例,写了两个 prompt ,输出的结果如下:

另外我发现在 Logo 图形描述前加 an icon for ,生成的 Logo 会更符合预期一些,右边是加了 an icon for ,左边是没有加的:

另外,Logo 图案是 Graphic 、Lettermark 还有 Geometric 的,会更符合预期:

本章再教大家一个方法,是增加艺术家的名字。首先需注意,Midjourney 支持大部分的艺术运动,但在艺术家的支持上,相对来说比较少,经过网友们的不懈努力,截止到 3 月 31 日,V4 已知支持的艺术家有 2000 多位,V5 有 100 多位。 其中在榜的 Logo 设计师,只有 Paul Rand 和 Saul Bass,Paul 是 IBM、英孚、NeXT logo 的设计师,Saul 是美国联合航空、AT&T logo 的设计师。 使用方法很简单,在 prompt 最后加上 by Paul Rand 即可:

当然也不是说只能加 Logo 设计师,加上没有设计过 Logo 的设计师名字,也很有意思。比如右边四张图我加的就是 Piet Cornelies Mondrian,第三张 logo 有 Composition II in Red, Blue, and Yellow 那味了。左边四张则是 Paul 的,第二张红色框加黑色 A,有他的经典眼镜 logo 那味,非常喜欢:

最后需要增加艺术家名,有可能出现以下情况:

多长图的风格都很像:这是因为某些艺术家有非常强烈的标志性风格,比如我很喜欢的 Piet Mondrian,你用他的名字,会发现可能生成的很多张图都是 Composition II in Red, Blue, and Yellow 的风格。生成的图看上去不太像该艺术家的风格:我自己测试,发现有两种可能,一种是模型并没有学习这个艺术家的作品(特别新的艺术家我感觉一般都不会收录),另一种可能是你的 prompt 里的一些词,跟该艺术家的风格有冲突,比如用了达芬奇 Leonardo da Vinci,但主体是个日本二次元小姑娘。

学校的校徽就是典型的徽章 Logo,使用方法也非常简单,只需要调整 Logo 类型为emblem 就可以,另外,跟徽章很搭的风格是 Vintage,两个都加上后 prompt 是这样的:

右边四个是加了 vintage 的,是不是很复古,我非常喜欢:

在徽章 Logo 的案例里,你应该还看过单色的徽章,比如校徽。但 Midjourney 有个习惯就是倾向于生成复杂的内容,生成单色内容,你可以在 prompt 里加入颜色,背景等等词,让其变得简洁。

还有一个技巧是用 no 参数。比如我想制作一个单色校徽,校徽主体是一本书,同时因为 Midjourney 对文字不是很擅长,我还要去掉 text。以下是我的 prompt,我在最后加了 no realistic color(没有颜色)text(字)。

然后我把上面那个 Instant Noodles company 的 prompt 也加了 no text,最后生成的两组图片是这样的(最后需要注意,no 参数在 logo 里使用时,no text 有的时候会失效,但如果你去掉 — 直接输入 no text 就会生效。

撰写 prompt 核心是「描述清楚你想要的画面」,「越详细」生成的图片就约符合你的要求。要想提高 prompt 撰写能力,最好的方法是临摹别人的作品,然后自己尝试写一写,最后再看看别人的 prompt。要想描述清楚画面,可以从以下几个角度进行解构:

然后再写一个带场景的:

以下是生成的图片:

除了水彩外,我很喜欢的另一种插画是百科全书手绘插画。我们一起画一副玫瑰:

再画一组恐龙:

以下是生成的图片,看起来,Midjourney 并不知道霸王龙只有两只脚,哈哈哈,不过第一张真的非常像 Andrey 的风格:

绘本插画只要用好技巧五:增加风格——艺术家,基本上就能做出一些不差的插画。我绘本看得不算多,但应该不少人知道彼得兔,我们试试画一副和彼得兔类似风格的小猫:

另外我们也试试小熊维尼的插画师 E.H. Shepard 的风格(右边四张)。这里要额外说明下,为了让生成的结果更倾向于该作者的风格,我没在 prompt 里加入太多背景信息:

坦率说来,这个并不是一种插画风,但作为互联网行业从业人士,我觉得这个还挺刚需的,但需要注意,经过我的测试,只要在最前面加入 tech illustration 也能生成类似的风格插画,但效果比较一般,当我加上 behance style 后(Behance 简单理解是一个设计师分享作品的网站,分享的作品多与科技产品有关,如 App 设计等),就变得精致和漂亮了:

比如:一位在咖啡店坐在电脑前喝咖啡的女士

最后,这里面还有一个神秘参数,就是加上一些公司(比如 by Microsoft),我目前测试过像 Slack、Dropbox、Microsoft、Apple 感觉是有一点点差异,但我不知道 Midjourney 是怎么理解或处理这个词的,下面是两组案例,左边是微软的,右边是苹果的,除了苹果的第四个有个苹果 logo 外,我是看不太出来还有什么地方体现苹果的,个人觉得可能是在用色上会用该品牌的品牌色?

最后一个要介绍的也不知道是不是插画,但可能不少朋友见过,就是那种可以让你在上面用蜡笔,或水笔填色的填色插画。我觉得非常适合让小朋友自己生成填色插画,然后打印出来,让小朋友上色。以下是霸王龙的例子:

在 Stock Photo 一章中,介绍了 img2img 的方法,这个方法除了解决 Stock Photo 的那几个问题外,还很适合多个场景。本章会着重介绍用这个方法生成的头像的 prompt。并且从本章开始会逐步丰富我们的 prompt 结构,使其更加完整。

3D 卡通头像

如果你生成的照片并不像预设的照片,可以在四张图里,挑一张比较像的,然后点 V 让模型继续生成,再继续挑一张像一点的照片,然后继续生成新照片,直到出现一张比较像的。这方法试过不理想,生成的图片还是跟原图不像,那就在 prompt 里加上「wear glasses(戴眼镜)」,真的很神奇,我只要加上戴眼镜就像非常多,如果你原图戴眼镜了,你试试在参数里加个 —no glasses,你会得到一张更不像你的图。

在使用 img2img 的方法生成头像时,我发现问题是「文字权重比图片权重高」,导致其生成的图片不像原图,iw 参数在 V5 里最多提升图片权重到 2,所以我就在想有没有可能进一步降低文字的权重。然后我就试了下 s 参数,发现的确好了很多。如果生成的图片还是不像,你可以在 —iw 2 基础上,再加一个参数 —s 200 ,注意同时用两个参数时,中间不要有逗号。我发现加了 s 参数之后的确像了很多,我个人猜测是 s 和 iw 连用会进步一削弱 text 的权重。s 是控制生成图片的风格化程度。简单理解,这个值越低会更符合 text prompt 的描述,数值越高艺术性就会越强,但跟 text prompt 关联性就会比较弱。所以如果你生成的图还是不像,就加大这个值,比如调到 500。

与 3D 卡通头像一样,主要的修改是在图片风格上:

Midjourney 对亚洲人的理解还不是很行 ,大家可以在生成的照片中换脸就很像了。

这个技巧,说实话,我感觉不能称其为技巧,但这又是一个 Midjourney 非常重要的 feature,所以在这里着重介绍一下。这个功能使用起来非常简单,在 Discord 输入框里 /blend,然后点击这个菜单:

之后你的输入框就会变成这样:

然后你就可以点击这两个框,然后选择你电脑上的照片,添加完成后,大喊一声「使用融合卡」(不是),然后点击回车:

然后 Midjourney 就会生成这样牛逼的结果,左边是融合钢铁侠,右边是融合巴斯光年:

我本来打算用这个方法用于生成头像,但我发现只要用自己的照片,融合其他风格的照片,效果都不太好,目前实验下来效果最好的是名人头像,我的感觉是因为 Midjourney 喂了不少名人的头像给模型,所以这种融合的效果都很好。但我觉得它真的很适合做头像,将自己的头像跟另一张图片融合一下,就能生成一张不错的图,方便又快捷。可惜目前这个功能感觉还不太好用。当然这个功能还不仅仅止于此。

Prompt 真的越长越好吗?按照 Midjourney 的官方文档里的说法,并不一定:

像素游戏,像素风格一般有:8-bit/16-bit/32-bit

最近塞尔达发布了最新作《王国之泪》,喜欢他们的天空岛的设定,所以用 Midjourney 生成了一个 16-bit pixel art 版本:

再生成一个宠物小精灵的场景:

在 3D 场景设计里,我最喜欢的应该是像素风 3D 微缩场景,写一个 prompt 给大家看看:

以下左图是火星工厂,右图是机器人实验室:

主体描述我就不多说了,更多是分享 3D prompt 的必要的要素:

游戏装备非常非常多,我只介绍一些我了解的,首先是戒指,多大数的游戏戒指都是那种印章戒指(signet ring)

另外一个可能常见的是装备集(我不确定这个中文是否正确,英文叫 Item Collections),写法是这样的:

很多人把 AI 生成图片比喻为炼丹,我觉得非常贴切,很多时候,也不知道为啥,在 prompt 里加一点神秘配方,图片就会很不一样。

不过我觉得虽然过程很像炼丹,但并不代表我们需要像古人那样,用撞大运的方式炼制丹药。我认为目前使用 Midjourney 最好的方法是:控制变量渐进优化法。

拿上面那个装备集的图片为例,我希望它生成的是装备,并且是一件件地排布,而且光剑的效果也很奇怪,首先我们来逐条排查 prompt:

从这个表里可以看到,我们发现了三个问题,其中第一个黏土风格问题,跟最后一个问题有关,此时我的建议是:

OK,按照以上原则,我们修改一下我们的 prompt,看看生成了什么,的确加了 different types of 后,光剑就多了,问题解决了:

然后我们修改下 blender 3d,将其改为 clay render (黏土渲染),我改完之后发现生成的结果(左边四张),好像质感还是差了一点,于是我又试了下保留 3d blender 加 oily 的效果(中间四张),以及 clay render 加 oily 两个一起用(右边四张)。

游戏这一章,再介绍一个可能会用到的一个场景人物设定稿,prompt 如下:

另外一个是游戏王里的蓝眼白龙,可惜 Midjourney 并不知道啥是 Yu-Gi-Oh,只能按字面意思生成了一个:

Midjourney 对美式动漫或电影作品支持会好很多,比如冰与火之歌里的龙妈(只是龙有点诡异),还有圣女贞德:

说到手办,大家应该第一反应会想起日本,再介绍一个技巧,在 prompt 里加入 Japanese style 即可,拿圣女贞德作手办,以及之前做的 logo 作为例子:

圣女贞德是不是有种 FF 的感觉?Logo 也比较简洁,猫的外观也有点像动漫里猫的外观,当然除了 Japanese 还有 Chinese(左边4张),甚至 African Style:

各位有没有发现,上面那个 Chinese 手办生成的结果好像只有第三张是中国人面孔?原因是 Chinese style 的权重太低,所以仅输出了一个结果。你在实践的过程中,也肯定会遇到,AI 忽略了某些 prompt 词的情况,比如你提到画面中要有一只鸟,但它就是没画出来。

那为何会产生这样的结果?原因 Midjourney 的 prompt 权重是按照顺序逐个降低(详情请见我翻译的 Midjourney 官方 FAQ),在我们上面的 prompt,我们将 Chinese Style 放到了最后,所以生成的结果也是最少的。忽略了某些词,这个原因暂时为止,但应该很可能是权重导致的问题。

增加权重的方法有很多,最简单的方法就是调整顺序,比如将上面的 Chinese Style 放到最前面(然后生成的结果就是眯眯眼 style 了 🤣,我生成了两次,第二次好一些):

调整下顺序,效果就大不一样,所以各位不要迷信所谓的 prompt 模板,多试试。

第二种方法是 Slider 方法。

你需要在 prompt 最后加 ,然后加上你需要调整权重的词语,接着再加 ,最后加上权重值。比如还是上面的例子,我想突出 Chinese style 但不想调整顺序,就可以改为:

然后你会发现,好像权重太高了,生成了跟 prompt 无关的图(下方左图),那我们可以在原来的基础上,再加以下 Joan of Arc 的权重(下方右图):

你可以看到,调整参数后,生成的 4 张图有 2 张具备较强的 Chinese 风格:

不过坦率说来,这个方法,并不特别适合这个案例,调整主体内容,或者顺序, ROI 会更高一些,这个方法更适合 miss 掉某个 prompt 词时使用,比如官方的案例是这样的:

生成的图片里(左四张图),猫咪们都看着你(你可能才是 crying woman 😂),如果用 slider 的功能(右边四张),crying woman 就出现在画面里了:

另外需要注意,slider 可用的参数有 0.25、0.5、0.6、0.7,也可以用这个方法降低权重,区间是 -0.7、-0.6、-0.5、-0.25:

如果你用了 slider 还是没有出现应该有的画面,那还有一个大招 cowbell,坦率说来,这个并不符合 Midjourney 的官方**实践,但的确是个可行的方法,以下面这个 prompt 为例,生成的图片里,woman 看起来并不 shy(左边四张图):

此时你可以重复重复再重复(我觉得这就是为何这个方法叫 cowbell 的原因):

摄影中,常用摄影灯光有以下几种:

主灯是最基本的摄影灯光之一,通常放置在被拍摄物体的正前方或正侧方,用于照明主体,决定拍摄物体的主要明暗度。主灯通常是亮度最高的灯光。

填光灯用于弥补主灯照射的阴影部分,调整阴影的深浅程度,使照片明亮一些。通常填充光应该比主光暗一些,以避免出现过度曝光。

逆光灯用于照射被拍摄物体的背面,能够区别出主体和背景,并使物体轮廓变得清晰,常用于拍摄骨感、重物感和逆光效果的照片等。

环境光就是摄影环境自然产生的光线,包括室内照明、自然光、街灯等,它可以补充被拍摄物体的表面,提升照片的自然度和真实感。

主要是通过在特定的环境中改变灯光的颜色和亮度等参数来创造一种特定的氛围,以营造舒适、浪漫、放松等感觉。从技术实现上看,Mood lighting则着重于灯光的颜色和亮度控制,注重创造强烈的视觉效果。 Mood lighting通常用于室内设计、酒店、餐厅及居家装饰等领域,旨在创造出一种特定的气氛和体验。

它更强调在情感表达和为故事情节服务方面的应用,设计的目的是要把灯光与剧情完美结合起来,以展现角色的个性和情感世界。从技术实现上看,Moody lighting通常采用低亮度和大比例遮挡阴影,强调暗部的扫描,以增加画面的纹理和层次感。 Moody lighting通常用于影视制作、游戏界面、舞台表演等领域,设计的目的是为了增加故事情节的戏剧效果。

是一种专门用于摄影工作室、电视和电影等领域的照明设计。它将光源和灯具放置在一个专用的摄影工作室中,通过精细的照明来创造出各种不同的氛围和场景效果,以满足各种不同的拍摄需求。 Studio lighting 主要应用于商业摄影、时装摄影、艺术摄影、人像摄影、广告拍摄、电影和电视制作等领域,目的是通过精细的照明设计来突出主体的特点,达到**的拍摄效果。

是指通过使用柔和、漫射的光线来创造出柔和、温暖的氛围效果。柔和的光线通常是通过使用的漫射灯具来实现的,较为常见的是壁灯、台灯、阅读灯等。 柔和照明效果可以降低照度,减轻视觉疲劳,创造出舒适的氛围和感觉。

是指通过使用聚光灯、筒灯等灯具来聚焦到一个特定的区域中,其光线是相对集中而直接的。 创造出刚硬、明亮的照明效果。硬朗照明常常用于展示场合,如美术馆、商场等环境,以突出展品或商品的特点和质感。

是一种创造逼真渲染效果的照明效果技术。它通过在某些场景中添加灯光和各种视觉效果,如扩散、雾、粒子、阴影等,在照明场景中模拟空气中的粒子和尘埃微粒的现象,从而创造出动态、逼真、增强立体感和体积感的照明效果。 适用于多种场景设计中,如电影、电视、视频游戏、动画等领域。它可以让场景更加逼真、立体,增加场景的紧张度和视觉层次感,并带来更具有表现力的视觉效果。

指的是一种特殊的照明效果,该效果通常通过强烈的侧光或背光和阴影来创造高对比度的画面效果。低键照明的特点是明暗分明、阴影浓重、暗调占主导地位,常常构建一种紧张、神秘或黑暗的氛围。 低键照明广泛应用于电影、电视、摄影等领域中,常常用来表现悬疑、恐怖、犯罪等要素。

这种照明效果通过使用明亮、均匀的光线来避免明暗对比并压低阴影的出现。这种照明效果特点是亮度高、细节丰富,适用于需要传递愉悦、轻松和开心氛围的场景和环境。 高键照明通常用于广告、情感电影、电视剧等中。

是一种创建极富戏剧性、威严感和视觉效果的照明技术,它可以在场景中添加非常亮烈、盛大、壮观的光线,以吸引观众注意力并增加场景的震撼力。 Epic Light通常用于影视制作、游戏开发、演出等领域中,以营造出一种崇高、壮丽、宏伟的氛围,可以使观众在看到这些效果时,感到非常震撼和难以忘怀。史诗光线的特点是亮度较高、颜色鲜艳,通常用于表现重要的剧情点,如武器的激光、宇宙战争中的太阳和星星、幻想电影和电子游戏中的神秘光芒等。

是一种起源于荷兰画家伦勃朗的照明效果,其主要特点是在人物脸部形成一个菱形的明暗分界线,嘴巴和下巴的一侧用阴影覆盖,人物的另一侧则被亮光照亮。 能营造出一种柔和而神秘的效果。

指的是摄影师将光源放置在被摄物体的背后,令照射效果在镜头前面产生,形成被摄体轮廓明显的负片形态。 于光源位置造成的暗摄影整体的虚化,高对比度和鲜明的轮廓线可以带来文艺和抽象的氛围。

指当光线从透镜或镜头穿过时,透过玻璃或镜头的反光或散射使得图像出现散射光线或最终成像看起来失真的现象。

也称为太阳光柱,是由日光在云层或尘埃中被反射形成的光线束。因为只有在日出和日落时才有足够的光线穿过云层或照射到恰当的夹角,所以Crepuscular Rays通常只出现在日出和日落时刻。 Crepuscular Rays通常会在云层上形成明显的束状光线,给人以美丽的感觉。

是指在光线散射和折射时出现的光线折射现象。在某些特定的环境下,光线经过不同密度和温度不同的气氛,会出现一种光线折射、散射的效果,从而形成闪烁光束效果。

是一种由光线穿过云朵、树枝或其他障碍物时,形成的亮光条纹效果。Godrays通常在光线较强的时分出现,将光线分割成条纹状,形成一种梦幻般的效果,也被称为 "crepuscular rays" 的一种。

Midjourney 在 V5.2 版本认识很多名人,你可以在描述主体的时候,加上名人的名字,就可以生成该名人的照片,我们生成几个电影里的经典照片:

第一个是 Keanu Reeves,第二个是 Vito Corleone(我并没有输入主演人 Marlon Brando),两组图的 prompt 都非常简单,你可以尝试自己写一下😁

做衣服类电商的朋友可能会比较需要这个功能:

坦率说来,我觉得 Midjourney 应该是可以的,但目前的效果还不太好,要想实现这个需求,只需要用到前面介绍的技巧九里提到的 blend 功能,详细方法就不在这赘述了,大致就是我将商品图和人物图用 blend 功能融合了下:

为了验证一致性,我生成了几张 Reeves 的图分别尝试了下,最后输出的结果是这样的:

整体来看,好像还行,但真的用在商品描述图里,我觉得还不太可能,因为里面的衣服跟原图差距还比较大(可以细看里面的纽扣)未来 Midjourney 可能会优化好这个功能,并且我觉得如果可以自己训练模型,这个功能实现起来应该不难。

这个算是名人照片的分支玩法,最近大家应该看到过很多类似的照片,其实 prompt 很简单,主体和背景大家用翻译软件搞搞就行:

类型是什么?主体是什么?环境是怎样的?构图是怎样的?用什么镜头?是什么风格?

用类似的 prompt 生成了两组图片:

上面的老照片场景,我们用了 1990s 风格,严格地说这个 1990s 更适合放在主体或环境里,放在风格里也不是不行,因为不仅仅希望主体是 1990s 还希望图片生成的风格也是 1990s。这就是最后一种风格词用法:年代。拿插画那一章的两个 prompt 修改一下,我都没在 prompt 里加艺术家的名字,而是改为 style of 1920s,玫瑰的图有点那味,猫的图右上角那张太逗了。

Reeves 很简单,就是说明主体,然后注明穿着标志性的衣服,走在大雨里:

然后教父的那张就更简单了:

这里的多样性其实是指人的高矮胖瘦,甚至身体的一些特殊性等。大多数用 AI 生成的图片,人物都非常漂亮和英俊,但这并不好,这其实某种程度上代表了社会的偏见。所以我想在本章重点介绍下,如何让 Midjourney 生成更多样的人体。

在上一章,我介绍了增加权重的方法,这个方法还可以帮助你生成不同体型的人物,以下是 Midjourney 官方社区的案例:

你可以控制 plus-sized 后面的参数,从而使画面中的人物变胖或者变瘦。这里需要注意,并不是负数就是越瘦的意思,而是削弱了 plus-sized 权重,如果你的 prompt 词是 thin 你加个负数 slider 参数那就是变胖了:

Midjourney 是知道一些多样性的词语的,比如:

实物和人物介绍完,介绍一下风景。坦率说来,我并不擅长摄影,所以这三章写得可能会不太专业。我更多地是介绍方法,以及告知大家可能性。

风景大片,我觉得大家应该都在各大平台看过了,所以本章不会介绍太多常见的风景制作方法。而是介绍一些少见的,我这里介绍一个比较有趣的类型:

另外还制作了一个火星工厂:Mars Factory

另外,我还很喜欢用这个效果制作一些多肉植物的照片,主体只要填写:cute mini Haworthia cymbiformis plant in a pot,或者 cute mini Aloe plant in a pot :

这里只介绍一种用法:对于人造物件,可以在主体里加入由 某某某 制造。以建筑为例,也不需要在 prompt 里加类型:【如:香港理工大学设计学院大楼的设计师 ~ Dame Zaha Mohammad Hadid】

右边是 Frank Gehry:

如果你对建筑感兴趣,不妨试试两种风格的建筑融合在一起试试,说不定会碰撞出有意思的设计。

有些朋友用过一些手机 App ,它并不像 PS 工具那样,允许你修改图片的白平衡等参数,而是让你体验用旧相机(如胶卷相机)拍照,虽然本质上来说,它也是通过各种参数来模拟当年的相机效果,在 Midjourney 里,你也可以通过增加相机或者镜头的名称,从而达到类似的效果。根据我的实验,Midjourney 可以改变以下几类:

我很喜欢双重曝光的效果,以及长曝光:

不过各位使用时,需要根据自己的场景选择合适的相机和镜头,比如无人机视角,都不太适合拍近物:

GoPro / 运动相机视角 / 自拍,或者运动场景

Drone / 无人机视角 / 适合航拍,或者天空景色

polaroid / 宝丽来 / 应该不需要解释了吧

black and white film / 黑白照 / 应该不需要解释了吧

Kodachrome / 柯达生产的彩色幻灯片底片品牌 / 具有非常高的颜色鲜艳度、对比度和持久性。

shot on 8mm / 电影 8 毫米胶卷是一种便携式、简单易用的胶片,分辨率比较低 / 适用于拍摄家庭和旅游等普通场景

shot on 16mm / 电影 16 毫米胶卷 / 16毫米和35毫米主要用于制作电影、纪录片和商业广告。

shot on 35mm / 电影 35 毫米胶卷 / 16毫米和35毫米主要用于制作电影、纪录片和商业广告。

Microscopic / 显微镜 / 适合一些需要放大观察的实物

Fisheye Lens / 鱼眼镜头 / 鱼眼镜头可以将整个场景拍摄在一个范围内,这种镜头的视角通常在 100° 至 180° 之间,可以呈现出非常夸张的透视效果。

Wide Angle / 广角镜头 / 适合风景照,可以让画面容纳更多内容

Ultra-Wide Angle / 超广镜头 / 适合风景照,可以让画面容纳更多内容

Panorama / 全景 / 适合风景照,可以让画面容纳更多内容

Short Exposure / 短曝光 / 通常用于追拍运动员、表演者或动物等,或者是拍摄需要快速决定瞬间捕捉的场景,例如拍摄火车、汽车、快速移动的车辆等。由于短曝光时间的限制,这种方式可以冻结运动物体并防止出现模糊的情况。

Long Exposure / 长曝光 / 在长曝光的拍摄中,快速移动的物体会出现轨迹,例如流星、车灯、瀑布等,这种方式会给照片创造出愉悦而神秘的氛围。此外,长曝光可以用于拍摄夜晚的大片景象,例如景色、城市夜景、星空等。

Double Exposure / 双重曝光 / 双重曝光的技术,可以创造出疏密有致和扭曲的、手绘和黑白艺术风格的照片。这种技术在拍摄人像、风景和建筑等领域十分受欢迎,因为它可以创造出独特的环境、浪漫和奇异感觉的图像。

f2.8 / 2.8 光圈 / 在拍摄时,光圈值越大,相应的光线进入相机的量就越大,使得相机所获得的图像更亮。f:2.8 的值是一个比较大的光圈值,因此镜头具有很高的传光能力,适合在低光环境中使用。同时,在大光圈下可以创造出较小的景深效果,突出焦点主题而模糊背景或前景,从而产生轻柔的背景效果,适合拍摄人物肖像或商品照片等类似主题。

Depth of Field / 景深 / 是指在摄影中,被拍摄的画面中被认为是清晰的范围,也称为焦距深度区域,通常用来描述在照片中被认为是清晰的范围。

Soft Focus / 柔焦 / 指将相机镜头前加入一层特殊的滤镜,使被拍摄的主体轻微模糊以呈现柔和的美感效果。柔焦的视觉效果相较于深景和浅景来说更强调画面的情感主题,把重点集中在逐渐化解结构感的质感效果上,使它在照片上产生一种有点朦胧的妆容,刻画出一幅浪漫的画面。

Deep Focus / 深焦 / 将摄像头在一个较大的光圈下设置,保持整个画面都清晰锐利的技术。深景通常需要使用较小的焦距或较远的拍摄距离,以保持整个画面的清晰度,是类似于大景深的一种刻画效果。

Shallow Focus / 浅焦 / 将相机的光圈调整到一个相对较大的开口,以使摄影师可以根据需要保持相机在平面上的一个特定区域或主体清晰,而照片中的其他区域则变得模糊不清的技术。这种效果常用于摄影肖像,使人物在画面上的清晰度突出,并且画面背景透露轻微的模糊感,带来更具艺术美感的效果。

Vanishing Point / 消失点 / 消失点指的是位于无穷远处,用于视觉处理的一点。在透视绘画中,我们可以想象一个位于无穷远处的点,使得所有线条都向它聚拢。消失点可以帮助画家或摄影师达到精致的透视处理效果,从而创造出独特的空间感;

Vantage Point / 俯瞰视角 / 一般呈现的效果是照片中会有一个点是最高点,然后在此最高点斜上方拍摄

卡通迷你风格。是一种独特的绘画风格,特别受到日本动漫迷和卡通迷的喜爱。该风格的特点是将角色绘制成缩小版的样式,更加可爱和卡通化。在这种风格下,一些角色的头比正常比例大得多,人物的描绘也更加简化,并且动画在绘制时常常用短暂时间的快速动作来传递动态效果。

指在日本动漫中常见的一种风格,主要呈现校园生活与高中生活的情境。这种风格的作品通常涉及到学生会、文化节、恋爱、友情、竞争等校园主题,角色也往往是年龄在16-18岁之间的学生。

一种比较沉重、严肃的日本漫画风格,常常涉及社会问题、人生哲理等成人主题。这种风格的特点是以黑色、灰色为主色调,图像表现力较强,人物表情和行为也更加真实。

指恐怖题材的日本动漫风格,这种风格的作品常常涉及灵异、鬼怪、妖怪等超自然力量。

指日本历史剧题材的动漫风格,通常呈现古代日本的历史背景和文化特征。这种风格的作品往往描绘战争、家族斗争、忍者、武士道、神话传说等元素,以及用具有浓重日本特色的艺术表现手法来传递历史文化的内涵。

一种非常可爱和萌的动漫风格,通常呈现出像动物、小孩、角色等可爱的形象。这种风格的作品以颜色鲜明、轮廓粗糙、脸部表情夸张为主要特点。

以机器人为主题的日本动漫风格,通常呈现出大型机器、机甲战争、铁甲舞者等元素。这种风格的作品常常运用科幻、未来世界设定、大规模战斗等元素,以及动态的战斗场面和机器人设计,塑造出复杂的机器人世界和角色人物关系。

一种真实主义的日本动漫风格,通常呈现出秉持着更加现实和真实的人物形象和情节。这种风格的作品表现力很强,人物形象、环境场景等具有更多的细节,刻画出更为真实的情感世界。

是在Realistic Anime Style和 Anime Style之间的一个中间状态的风格,风格上比较真实,但是仍带有一定的动漫风格。这种风格的作品通常涉及到带有现实性的情节和人物,但是也常常运用到动漫风格的表现手法。

按照日本漫画家小学馆长生涯逐步形成的一种风格。这种风格的作品,通常以聚焦单个人物或小团体的故事为主线。其特点是画面明亮,颜色和谐,人物表情和行为搞笑夸张,情节简洁易懂。

一种带有动物耳朵和尾巴等特征的日本动漫风格,通常以人类或近似人类的形象呈现,但却带有不同种类的动物耳朵和尾巴等特征。这种风格的作品与少女漫画(girls' manga)、少年漫画(boys' manga)等风格都有一定的关系。

将图片转为动漫风格:这个用到我们之前教的 img2img 功能,你只需要在 prompt 里加入图片 URL,然后加上以下 prompt 即可(为了更像原图,我加了 iw 参数):
panel from manga --iw 2
另一个我加了Naoko Takeuchi(美少女战士的作者),模型还是不善于生成人手:




不知道有没有人和我一样有喜欢买贴纸贴笔记本电脑的习惯。某宝虽厉害,但我希望的东西比较非主流,有一些无法满足我的需求,所以就想到让 AI 帮我画一些,以下用风暴兵和达斯维达为例,写一组 prompt:

生成的结果是这样的,你会发现就是多了一个白边,并且是矢量图风格

我非常喜欢那种有层次的剪纸风格(中文应该叫啥呢?我只知道英文叫 layered paper art)但这种要画出来,还挺困难的,于是想着用 AI 试试:

不知道各位是否还知道邮票这种东西,2023 年了,我还有集邮的习惯,所以我在想用 AI 生成邮票估计也很有意思,所以就试了下,让 AI 做几张星球大战的复古邮票:

海报的做法:

海报并不仅仅指电影海报,你还可以用它来做广告海报。广告海报则把类型换一下即可。但需要注意,广告海报里需要其他元素来体现「广告」,并不是说加了 advertising 就是广告了。

最简单的方法,当然就是直接问。如果问不到,倒是可以借助一些工具,Midjourney 支持图片转 prompt 功能。方法很简单。第一步在输入框输入 /describe:

点击 describe 后,会弹出一个添加文件的入口,上传文件,并点击回车。

Midjourney 就会返回结果,点击图片下方的 1、2、3、4 按钮,可以直接发 prompt 给 bot,让其生成图片,右边是分别用 #1 和 #4 prompt 生成的图片,我觉得用它来探寻原图的构图、主体、风格应该都不错,但不要预期能生成一个完全一样的图:

本章节,主要是翻译官方的 Discord FAQ 文章,我只挑了一些大家常见的问题进行翻译,各位可以在官方 Discord prompt-faqs 找到这些原稿。4K、HD 等所谓的 Rendering 词有用吗?官方解释 Rendering 词包括:

有用吗?官方的解释是:

官方解释:Word order matters. Early words are generally more influential.

小讯
上一篇 2026-04-09 08:21
下一篇 2026-04-08 09:46

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/217980.html