4月21日,OpenAI正式发布新一代图像生成模型ChatGPT Images 2.0,底层模型名为gpt-image-2,通过ChatGPT、Codex及API三种渠道向用户开放。这是继gpt-image-1.5之后OpenAI对图像生成能力的一次全面升级,模型在文字渲染、多语言支持、指令跟随和复杂布局等方面均有显著改进。
核心能力:文字与多语言达到生产可用水平
Images 2.0最受关注的升级是文字渲染精度。新模型能够在图像中清晰准确地呈现小字、UI元素、图标和密集排版,彻底解决前代模型文字扭曲、乱码的行业通病。多语言方面,模型在中文、日语、韩语、印地语、孟加拉语等非拉丁文字上有质的飞跃,文字可作为设计的组成部分而非装饰元素,为本地化营销、出海广告等场景提供了直接可用的解决方案。
此外,新模型支持从3:1超宽到1:3超长的全范围宽高比,通过API最高可输出2K分辨率。2K以上分辨率目前仍处于beta阶段。
新增Thinking推理模式:先思考后生成
Images 2.0引入了此前在文本模型上已验证的推理机制。在Thinking模式下,模型会先推理布局逻辑、调用网络搜索获取实时信息、分析用户上传的参考材料,然后再进行图像生成。该模式下单次prompt可产出最多8张保持角色与物件一致性的连续图像,适合漫画分镜、角色设定表、系列营销素材等场景。知识截止时间更新至2025年12月。
分层开放策略:基础版免费,高级能力锁定付费档
基础版Images 2.0向所有ChatGPT和Codex用户开放,包括免费用户。Thinking推理模式、批量连续生成、更高质量输出等高级能力则限定Plus(20美元/月)、Pro(100美元或200美元/月)、Business(25美元/席位/月起)和Enterprise付费用户使用。
API方面,gpt-image-2按token计费:图像输入8美元/百万tokens、图像输出30美元/百万tokens、文本输入5美元/百万tokens、文本输出10美元/百万tokens。大尺寸场景下新模型比前代更便宜,1024×1536高质量输出约0.165美元/张;但1024×1024标准高质量输出约0.211美元/张,反而比前代0.133美元更贵。
市场背景:正面对标Google Nano Banana Pro
本次发布的市场背景是AI图像生成赛道的激烈竞争。Google在2026年2月发布的Nano Banana Pro(Gemini 3 Pro Image)率先推出"图中密集文字"能力,Images 2.0此次发布正面对标这一能力点。OpenAI官方披露,目前ChatGPT平台上每周有数亿用户生成超过10亿张图像,图像生成已成为ChatGPT最核心的多模态能力之一。
OpenAI产品负责人将Images 2.0定位为”战略性设计系统”而非单纯的创意工具,官方目标应用场景包括本地化广告、信息图、教育内容、设计工具和创意平台。对设计师、营销人员、教育工作者和开发者而言,AI图像生成正从”玩具”进入”生产工具”阶段。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/281797.html