2026年BAGEL：王炸！字节开源7B豆包版，对标GPT-4o与Gemini2.0的国内首个统一多模态图像编辑模型

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

 <svg xmlns="http://www.w3.org/2000/svg" style="display: none;"> <path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path> </svg>

今日文章介绍一款名为 BAGEL 的开源统一多模态模型，这是由字节开源的最新类似GPT-4O的7B参数的视觉大模型。其功能与 GPT-4o 和 Gemini 2.0 等专有系统类似，凭借原生多模态架构，能够实现实用且有价值的图像生成，输出精确、准确且逼真的图像。 BAGEL模型支持视觉内容理解（可用于图等咨询和问答）、文生图、图像编辑、风格迁移等。

• 视觉理解：BAGEL 是统一的生成与理解模型，基于大型语言模型预训练，具备推理与对话基础能力。可处理图像和文本输入，并以混合格式输出结果。例如拍照内容咨询，数学计算等推理。

• 文生图：BAGEL 在大规模交错的视频和网页数据上预训练，能够生成高保真、逼真的图像、视频帧或交错的图文内容。交错的数据（恰当对齐后）培养了模型自然的多模态思维链，使其能够在生成视觉输出前进行“思考”。

• 图像编辑：通过在交错的视频片段上预训练，BAGEL 能够自然地学习保留视觉身份和细节，同时捕捉视频中的复杂视觉运动，这使其在图像编辑方面非常有效。继承自视觉 - 语言模型的强大推理能力，让 BAGEL 的智能编辑能力轻松超越基本编辑任务。

• 风格迁移：凭借其对视觉内容和风格的深刻理解，BAGEL 可以轻松地将图像从一种风格转换为另一种风格，甚至可以将其转移到完全不同的世界中，仅需最少的对齐数据。

• 深度思考：BAGEL 引入思考模式，利用其多模态理解能力增强生成和编辑效果。通过推理提示，BAGEL 将简短的描述转化为详细且连贯的输出，确保生成内容具有细腻的背景、准确的细节和逻辑一致性，从而产生更丰富、更精确的结果。

在这里插入图片描述

• 项目主页：https://bagel-ai.org/

• github：https://github.com/bytedance-seed/BAGEL

性能评估：

在这里插入图片描述

本文使用ComfyUI-BAGEL插件体验。模型文末网盘下载

• ComfyUI-BAGEL：https://github.com/neverbiasu/ComfyUI-BAGEL

• BAGEL-7B-MoT：首次运行自动下载到目录 /ComfyUI/models/bagel/BAGEL-7B-MoT/ 。也可以手动下载，使用git lfs 或 huggingface_hub。

GPT plus 代充 只需 145

BAGEL视觉模型ComfyUI体验

BAGEL视觉模型工作流下载：

• RunningHUB-HiDream：BAGEL视觉模型 ：https://www.runninghub.cn/post//?inviteCode=kol01-rh059

• LIBLIB下载：https://www.liblib.art/modelinfo/cc4868ad12a6080cc6ab96fa10?mine=1&from=personal_page&versionUuid=18ef935f8f2e4e459d3f69af80c2e773

在这里插入图片描述

关于BAGEL推理节点参数：

• ：控制模型遵循文本提示的强度。禁用文本引导。典型范围：。

• ：控制模型保留输入图像细节的程度。禁用图像引导。典型范围：。

• ：应用 CFG 的去噪步骤的分数。后期步骤可以跳过 CFG 以减少计算。典型值：。

• ：移去噪步骤的分布。较高的值将更多步骤分配到开始部分（影响布局）；较低的值将更多步骤分配到末尾（改善细节）。

• ：总去噪步骤数。典型值：。

• ：CFG-Renorm 的最小值。禁用重范数。典型值：。

• ：CFG-Renorm 方法： - ：对所有标记和通道进行归一化（T2I 的默认方法）。- ：对每个标记的通道进行归一化。- ：类似于，但仅适用于文本条件（适用于编辑，可能导致模糊）。

• 如果遇见编辑后图像出现模糊，尝试使用 CFG-Renorm，减小或减小。

其他注意事项：

• BAGEL在图像编辑时会出现图像模糊，需要修改CFG-Renorm为global；或

或减小。

•当前使用的是7B模型满血版本，因此图文质量很不错。但是相对而言，耗时则边长，大约8分钟左右。当前温总还在性能优化中，期待更快速版本，实用性则更强。

• 在线体验-BAGEL：字节豆包开源版本|惊艳一致性和图像编辑：https://www.runninghub.cn/ai-detail/0/?inviteCode=kol01-rh059

• 更多图文和视频ComfyUI工作流参见个人主页：https://www.runninghub.cn/user-center/?utm_source=kol01-RH059

01.视觉理解-数字方程

02.视觉理解-图像反推

GPT plus 代充 只需 145

03.文生图-蒸汽朋克

04.图像编辑-1

GPT plus 代充 只需 145

提示词遵循很强，超越当前开源图像编辑。

05.图像编辑-竖起大拇指

GPT plus 代充 只需 145

![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/159.png?origin_url=data%3Aimage%2Fsvg%2Bxml%2C%253C%253Fxml%20version%3D’1.0’%20encoding%3D’UTF-8’%253F%253E%253Csvg%20width%3D’1px’%20height%3D’1px’%20viewBox%3D’0%200%201%201’%20version%3D’1.1’%20xmlns%3D’http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg’%20xmlns%3Axlink%3D’http%3A%2F%2Fwww.w3.org%2F1999%2Fxlink’%253E%253Ctitle%253E%253C%2Ftitle%253E%253Cg%20stroke%3D’none’%20stroke-width%3D’1’%20fill%3D’none’%20fill-rule%3D’evenodd’%20fill-opacity%3D’0’%253E%253Cg%20transform%3D’translate(-249.000000%2C%20-126.000000&pos_id=img-yP3Ahg6M-93)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

图文和人物一致性很强，在图像整个编辑中，提示词遵循达到出色效果，仅大拇指变化。模型深度思考如下：

06.风格迁移-3D PVC

GPT plus 代充 只需 145

07.风格迁移-粘土风格

08.风格迁移-照片墙

GPT plus 代充 只需 145

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。
在这里插入图片描述

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型实战项目&项目源码👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战项目来学习。（全套教程文末领取哈）
在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）
在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）
在这里插入图片描述

只要你是真心想学AI大模型，我这份资料就可以无偿分享给你学习，我国在这方面的相关人才比较紧缺，大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

2026年BAGEL：王炸！字节开源7B豆包版，对标GPT-4o与Gemini2.0的国内首个统一多模态图像编辑模型

BAGEL视觉模型ComfyUI体验

01.视觉理解-数字方程

02.视觉理解-图像反推

03.文生图-蒸汽朋克

04.图像编辑-1

05.图像编辑-竖起大拇指

06.风格迁移-3D PVC

07.风格迁移-粘土风格

08.风格迁移-照片墙

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

👉1.大模型入门学习思维导图👈

👉2.AGI大模型配套视频👈

👉3.大模型实际应用报告合集👈

👉4.大模型实战项目&项目源码👈

👉5.大模型经典学习电子书👈

👉6.大模型面试题&答案👈

相关推荐