商汤SenseNova U1开源:8B参数实现图文理解生成统一

商汤SenseNova U1开源:8B参数实现图文理解生成统一当 GPT Image 2 让全网疯狂的时候 大多数国内用户面临一个现实问题 免费额度有限 遇到正事不够用 商汤开源的 SenseNova U1 瞄准了这个空档 用 8B 参数的小模型 复刻了不少 GPT Image 2 的核心能力 而且完全开源 不限次数 SenseNova U1 是商汤最新开源的原生理解生成统一模型 采用自研 NEO unify 架构

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



当 GPT-Image-2 让全网疯狂的时候,大多数国内用户面临一个现实问题:免费额度有限,遇到正事不够用。商汤开源的 SenseNova U1 瞄准了这个空档 – 用 8B 参数的小模型,复刻了不少 GPT-Image-2 的核心能力,而且完全开源、不限次数。

SenseNova U1 是商汤最新开源的原生理解生成统一模型,采用自研 NEO-unify 架构。与传统的「视觉编码器负责看 + 变分自编码器负责画」拼接方案不同,NEO-unify 从底层把图像和文本当作同一类信息来建模,去掉了中间转换环节。

本次开源包含两个版本:

  • SenseNova-U1-8B-MoT:8B 参数,端侧可跑
  • SenseNova-U1-A3B-MoT:38B 参数 MoE 架构,提供更强的能力

这是 SenseNova U1 最实用的能力。输入一段文字内容,模型能自动提炼关键信息,生成排版精致、层级清晰的信息图。涵盖数据图解、攻略长图、科普海报、知识卡片等多种类型。

在信息图生成基准测试中,SenseNova U1 平均得分达到 50.7,是开源模型最强,媲美部分闭源商业模型。

SenseNova U1 是业内首个支持连贯图文交错生成的模型。它不是「先写完文字再补图」,而是在推理过程中同步输出图文内容,风格和角色在多张图中保持一致。

典型场景:生成一个「煎牛排教程」,从食材准备到装盘,每一步都配有图,牛排的形象从头到尾保持高度一致,不会画着画着变成另一块肉。

SenseNova U1 还具备独特的图文交错思维链能力。给它一张刚泡好的茶的照片,让它画出「一小时后的样子」,模型会先做物理推理:茶叶沉降、茶汤变深、蒸汽减少、光影变化,然后据此生成对应图像。

关键数据:

  • 生成速度:约 15 秒出一张图(2K 分辨率约 9 秒)
  • 文字渲染:在 Text Rendering 维度几乎全面领先同量级模型
  • 视觉推理:VBVR 得分 60.5,WISE 得分 69.0,GEdit-Bench 得分 7.47
  • 性能效率比:在延迟 vs 质量曲线上,位于最靠左的位置 -- 同等质量下速度最快

  • GitHub:https://github.com/OpenSenseNova/SenseNova-U1
  • Hugging Face:https://huggingface.co/collections/sensenova/sensenova-u1

商汤同步开源了 SenseNova-Skills 技能包,把 U1 做成了 Agent 中可直接调用的工具。其中 sn-infographic 自带 87 种版式、66 种风格,挂进 OpenClaw 后一句 /skill sn-infographic "提示词" 即可出图。

技能包地址:https://github.com/OpenSenseNova/SenseNova-Skills

如果不想自己部署,商汤 AI 办公智能体「办公小浣熊 3.0」即将接入 SenseNova U1,可直接体验。

商汤在 README 中直接标注了当前不足:上下文最长 32K、人物在复杂场景中的细节偶有不稳定、长文字渲染偶尔有拼写或排版错误、连续性图文创作目前还是 beta 阶段。都标注了「持续改进中」。

小讯
上一篇 2026-04-30 12:02
下一篇 2026-04-30 12:00

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/282134.html