当 GPT-Image-2 让全网疯狂的时候,大多数国内用户面临一个现实问题:免费额度有限,遇到正事不够用。商汤开源的 SenseNova U1 瞄准了这个空档 – 用 8B 参数的小模型,复刻了不少 GPT-Image-2 的核心能力,而且完全开源、不限次数。
SenseNova U1 是商汤最新开源的原生理解生成统一模型,采用自研 NEO-unify 架构。与传统的「视觉编码器负责看 + 变分自编码器负责画」拼接方案不同,NEO-unify 从底层把图像和文本当作同一类信息来建模,去掉了中间转换环节。
本次开源包含两个版本:
- SenseNova-U1-8B-MoT:8B 参数,端侧可跑
- SenseNova-U1-A3B-MoT:38B 参数 MoE 架构,提供更强的能力
这是 SenseNova U1 最实用的能力。输入一段文字内容,模型能自动提炼关键信息,生成排版精致、层级清晰的信息图。涵盖数据图解、攻略长图、科普海报、知识卡片等多种类型。
在信息图生成基准测试中,SenseNova U1 平均得分达到 50.7,是开源模型最强,媲美部分闭源商业模型。
SenseNova U1 是业内首个支持连贯图文交错生成的模型。它不是「先写完文字再补图」,而是在推理过程中同步输出图文内容,风格和角色在多张图中保持一致。
典型场景:生成一个「煎牛排教程」,从食材准备到装盘,每一步都配有图,牛排的形象从头到尾保持高度一致,不会画着画着变成另一块肉。
SenseNova U1 还具备独特的图文交错思维链能力。给它一张刚泡好的茶的照片,让它画出「一小时后的样子」,模型会先做物理推理:茶叶沉降、茶汤变深、蒸汽减少、光影变化,然后据此生成对应图像。
关键数据:
- 生成速度:约 15 秒出一张图(2K 分辨率约 9 秒)
- 文字渲染:在 Text Rendering 维度几乎全面领先同量级模型
- 视觉推理:VBVR 得分 60.5,WISE 得分 69.0,GEdit-Bench 得分 7.47
- 性能效率比:在延迟 vs 质量曲线上,位于最靠左的位置 -- 同等质量下速度最快
- GitHub:https://github.com/OpenSenseNova/SenseNova-U1
- Hugging Face:https://huggingface.co/collections/sensenova/sensenova-u1
商汤同步开源了 SenseNova-Skills 技能包,把 U1 做成了 Agent 中可直接调用的工具。其中 sn-infographic 自带 87 种版式、66 种风格,挂进 OpenClaw 后一句 /skill sn-infographic "提示词" 即可出图。
技能包地址:https://github.com/OpenSenseNova/SenseNova-Skills
如果不想自己部署,商汤 AI 办公智能体「办公小浣熊 3.0」即将接入 SenseNova U1,可直接体验。
商汤在 README 中直接标注了当前不足:上下文最长 32K、人物在复杂场景中的细节偶有不稳定、长文字渲染偶尔有拼写或排版错误、连续性图文创作目前还是 beta 阶段。都标注了「持续改进中」。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/282134.html