1月22日,百度发布并上线原生全模态大模型文心5.0正式版。该模型参数达2.4万亿,采用原生全模态统一建模技术,具备全模态理解与生成能力,支持文本、图像、音频、视频等多种信息的输入与输出。
文心 ERNIE 5.0不仅代表了参数规模的新高度,更展现了一条区别于传统“拼接式”多模态方案的技术路线——原生全模态统一建模。这种从底层架构开始的深度融合,使得模型能够像人类一样同时理解文字描述、图像细节、音频情绪和视频逻辑,无需在不同模态之间进行损耗性的“翻译”。
技术报告:https://arxiv.org/abs/2602.04705
✅ 论文速读:
近两年多模态模型的主流路线,大多是“语言主干 + 各模态外挂解码器”:理解做得不错,但输出仍然偏文本中心;为了克服这一限制,最近的研究方法通过后期融合设计(late-fusion),将特定模态的解码器或生成器添加到预训练的语言模型中。
这类设计尽管有效,但天然存在三类硬伤:
ERNIE 5.0 的核心主张是:用一个统一的自回归范式,同时覆盖多模态理解与多模态生成,并且从头训练让各模态能力共同进化。
ERNIE 5.0 的设计目标是:文本、图像、音频、视频在同一套框架下完成理解与生成。
■ 关键点 A:共享 token 空间
■ 关键点 B:统一的 Next-Group-of-Tokens Prediction 目标
结果是:不同模态都被“拉回到”同一种自回归训练范式里,减少优化冲突。
多模态差异很大(语义、时序结构、训练动态都不同),要做“真统一”,必须有足够容量以及稳定训练手段。
因此ERNIE 5.0 的骨干网络采用的是超稀疏 MoE + 模态无关路由。
■ Ultra-sparse MoE:激活率 < 3%
■ Modality-agnostic Routing:路由不看“模态标签”
■ 训练稳定性:无辅助损失的负载均衡
采用auxiliary-loss-free load balancing,在万亿级MoE下维持路由使用更稳。
ERNIE 5.0 把图像视为单帧视频,视觉侧围绕统一范式做了两条关键设计:tokenizer与理解表示。
■ 视觉 tokenizer:2D → 3D 的渐进式统一
■ 视觉理解:CNN + ViT 双路融合 + Attention Patch Merger
■ 视觉生成:NFSP + Uni-RoPE + 抗误差累积
音频如果把 multi-codebook tokens 全部 flatten,会变成超长序列。ERNIE 5.0 用结构化建模解决:
■ 音频 tokenizer:RVQ 层级离散码
■ NCP:Next-Codec Prediction
传统是“训练大模型 → 再压缩(剪枝/蒸馏)”,成本高且尺寸固定。
ERNIE 5.0 提出elastic training(Once-for-All 思路扩展到预训练),在预训练期间同时优化一系列子网络,从而能够高效地利用单个大型模型按需生成更小、更易于部署的变体。
■ 三个维度一起弹性
■ 直接效果(报告中的结论)
多模态结合超稀疏 MoE 会让 RL 更敏感:采样偏置、稀疏奖励、熵塌缩、训练-推理不一致都会被放大。
ERNIE 5.0 的 post-training 主要靠一套“可扩展的稳定化组合拳”:
■ Rollout 效率:U-RB(Unbiased Replay Buffer)
■ 训练稳定:MISC + WPSM
■ 稀疏奖励:AHRL(自适应提示式 RL)
ERNIE 5.0 的 infra 重点解决三件事:万亿 MoE 的内存与通信、多 tokenizer 的负载不均、异构 attention mask 的效率。
从报告给的表格与文字结论看,ERNIE 5.0 强调的是“统一与均衡”而不是只押某个单点榜单:
整体来看:
简单用一句话来说:它不是在“多加几个模态头”,而是在把多模态理解与多模态生成彻底统一到一个自回归训练范式里,并用超稀疏 MoE + 弹性训练把规模、效率与部署灵活性一起做了。
更具体的三点启示:
END
感谢观看,欢迎关注/点赞/转发~🌟
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/231641.html