4 月 22 日凌晨 3 点,不少关注 AI 的朋友还没睡——因为 OpenAI 又"搞事情"了。这次登场的主角叫 GPT Image 2,从最初的小范围内测到正式公测,前后足足熬了将近一个月。
目前这款新模型在 ChatGPT 中以灰度测试的形式逐步推送,一部分用户打开对话框就能直接使用。如果你还没被灰度"翻牌子",也别着急,可以去大模型盲测榜 LM Arena 平台免费体验一把,效果几乎是一样的。
我熬夜把它翻来覆去测了一整晚,只想用一句话来形容当时的感受:
AI 生成的图和真实拍摄、真实截图之间的那条"界线",这一次是真的被磨平了。
过去我们看 AI 生图,总能一眼找出破绽:手指数量不对、文字乱码、光影怪异、透视拧巴……这些"AI 味儿"在 Image 2 面前,几乎全线退场。更夸张的是,在综合能力上,它已经超越了此前公认的生图王者 Nano Banana(也就是大家俗称的 Banana 2.0)。
那么问题来了——AI 与现实的视觉差距,真的消失了吗?
带着这个问题,我们一项一项来看。
做过生图的人都知道,文字一直是 AI 的老大难。哪怕是 GPT-4o 的第一代生图,一到中文长句、复杂排版,立刻"露馅"。而 Image 2 在这一块,直接做到了断层领先。
我让它生成一张 100 美元面值的美钞。出来的结果让我愣了几秒——
- 面值数字的字体粗细、花纹细节几乎 1:1;
- 序列号位置、字符排列方式正确;
- 财政部签名、左侧徽章、水印位置全部对得上。
并排放在真钞旁边,不仔细看根本分不清哪张是 AI 画的。
当然,这只是测试"能力边界",绝对不是鼓励大家去干违法的事,下面会单独开一节讲风险。
更可怕的是中文截图场景。我让它生成一张抖音个人主页截图:
再让它生成一张直播间画面——带货主播、左下角商品链接、小黄车、飘屏弹幕、右下角点赞爱心——整张图拿去发朋友圈,没几个人能看出是 AI 做的。
文字能写对只是第一步,懂排版才是功力。我让它仿照《黑神话:悟空》的风格,做一张"黑神话·八戒"的概念海报,要求:
- 主标题"黑神话 八戒"用大毛笔字,苍劲有力;
- 副标题用宋体,端正严肃;
- 中间题词小字用楷体,文气十足;
- 底部制作信息用黑体,规整干净。
结果它真就四种字体分层处理,字号、间距、墨色浓淡全部安排得明明白白,一眼看上去就是可以直接拿去做宣发物料的水平。
最让我意外的是它还原《新华字典》内页的能力。一张典型字典页包含:
- 主词条(大号宋体)
- 拼音标注
- 栏目名(黑体加粗)
- 字源演变:甲骨文 → 金文 → 小篆 → 楷体
- 释义正文、例句(楷体)
这些元素层级复杂、信息密度极高。Image 2 生成的版本,甲骨文字形的笔画走势都画得有模有样,字源演变的顺序也没搞错。
老版 GPT-4o 生图只能出 4:3,做社交媒体封面经常要二次裁切。这次 Image 2 直接补齐:
基本对齐了 Google Imagen 的主流比例标准。
必须实事求是地说,Image 2 还有两个明显短板:
- 输入图分辨率过低时,小字区域会出现乱码;
- 图中很小的人脸仍然会崩(比如直播间观众头像那种几十像素的小脸)。
但相比上一代,这已经是质的飞跃。
如果说文字渲染是"手上功夫",那逻辑推理就是"脑子活儿"。这一代 Image 2 最让我惊讶的升级,其实是它开始会"想"了。
我丢给它一个指令:
生成一张《蝙蝠侠 vs 超人》宇宙的主要角色关系图,按阵营分组,标注人物间关系,并自动生成图例。
出来的图让我直接拍案——
- 正义联盟阵营和反派阵营自动分色块归类;
- 蝙蝠侠、超人、神奇女侠、闪电侠、海王等角色头像+姓名排布整齐;
- 关系连线用实线表示盟友、虚线表示敌对、箭头表示情感线;
- 右下角自动生成图例,逻辑零错误。
同样一条指令丢给 Nano Banana,结果就有点惨了:
这还是在同一张参考图、同一条提示词的情况下得到的结果。差距非常直观。
我让它生成一张"随意指拆机图解"——就是那种你买了某个电子产品,拆开说明书上印的分步拆解图。
它生成的版本包含:
- 每个步骤的编号和文字说明(中文,零错别字);
- 关键零件的特写小图;
- 真实纸张的纹理和轻微折痕;
- 底部的品牌 logo 与页码。
打印出来夹进产品盒子里,和正规说明书没有任何区别。
这种"会思考"的能力,直接打开了一大片应用场景:
- 数据可视化:把几个数据点喂给它,直接出带标注的图表海报;
- PPT 美化:一页图文混排的目录页或概念页,秒出;
- 版面设计:杂志内页、产品手册、活动议程;
- 小红书图文:九宫格图文、教程帖封面、对比图。
以前这些活儿要么得请设计师,要么得在 Figma/PS 里磨半小时。现在?一句话的事。
能力再强,不能落地也白搭。我挑了几个最常见的商用场景一一测试。
我上传了 4 张无线耳机的实拍照(正面、侧面、开盖、佩戴),让它生成一张淘宝详情页长图。它自动完成了:
- ✅ 补充了俯视、45°、细节特写等其他角度;
- ✅ 加上"主动降噪""空间音频""续航 30h"等卖点文案;
- ✅ 排版做了视觉流,从产品概览 → 核心卖点 → 使用场景 → 参数表;
- ✅ 色调统一,质感高级。
唯一的小 bug:空间音频的小图标位置错位了,需要手动微调一下。
但说真的,一个中小电商的美工岗,日常 70% 的工作量是可以被这玩意儿接管的。
我拿了一张 Minimax 的官方海报,让它"重新设计一版,风格更国际化"。出来的成品——
- 字体选择更克制;
- 留白处理更高级;
- 主视觉的视觉重心做了重新分布。
说句可能要挨打的话:比官方原版好看。
这是我觉得对自媒体创作者最有用的玩法。
操作流程:
- 找一张你喜欢的博主封面当构图参考;
- 上传一张你自己的自拍;
- 指令:"参考第一张图的构图、光线、字体风格,把人物换成第二张图的我,主标题改为 XXX"。
结果:九成像。
唯一不稳定的是标题文字,有时候要"抽卡"两三次才能出一个满意的版本。
我翻出一张手机随手拍的模糊自拍,指令:
把这张图变成我手拿 Switch 2 坐在客厅沙发上玩游戏的场景,光线自然,4K 画质。
出来的成品完全看不出是从模糊图修复来的。人物五官清晰、Switch 2 的机身细节(包括新款磁吸 Joy-Con 的接缝)都对,客厅的环境光也很自然。
聊了这么多好的,必须得说点"不好"的——或者说,需要警惕的。
Image 2 的文字渲染和截图还原能力太强了,强到足以成为一把双刃剑。我能想到的潜在滥用场景至少包括:
- 伪造微信/支付宝聊天记录;
- 伪造银行转账截图、余额截图;
- 伪造资产证明、理财账户截图;
- 伪造身份证件、学历证书;
- 伪造明星/公众人物的社交媒体言论截图。
对于我们这些天天泡在 AI 圈的人来说,一眼还能分辨。但对于家里的长辈、不熟悉 AI 的朋友(我称之为"原始人朋友"),这种截图的欺骗性是毁灭级的。
所以在这里我想多说两句:
请合理使用这个工具。它应该是你提效的"新画笔",不是骗钱的"新工具"。
同时也希望 OpenAI 和各平台在接入层面加强:
- 生成图强制嵌入不可见水印;
- 平台端部署 AI 图自动检测机制;
- 对敏感内容(证件、货币、聊天记录)做生成前拦截。
回到开头的问题:AI 与现实的视觉差距,真的消失了吗?
我的答案是——在静态图层面,基本消失了。
Image 2 这次建立起的三大核心优势,已经足够它稳坐新王位:
对比 Nano Banana(Banana 2.0),Image 2 的领先是综合性、多维度的,而不是单点突破。
更重要的是,这一代模型完成了一次关键跃迁:从”玩一玩”升级为”能干活”。过去我们用 AI 生图大多是图个新鲜、发个朋友圈;现在,它真的可以进入商用工作流——电商详情页、公众号头图、自媒体封面、PPT 美化、海报设计……每一个都能实打实地省掉几个小时。
对设计师、电商从业者、自媒体创作者来说,我想说的还是那句老话:
与其担心被 AI 替代,不如 第一时间掌握这把新画笔。
真正会被淘汰的,从来不是”某个职业”,而是拒绝使用新工具的人。
最后留一个小提醒:提示词的精准度,决定 AI 输出的天花板。同样一个 Image 2,有人用它出垃圾,有人用它出作品——差别不在模型,在人。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/278904.html