商汤SenseNova U1开源：8B参数实现图文理解生成统一

科技前沿 • 2026-04-30 12:01 • 阅读 13

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

当 GPT-Image-2 让全网疯狂的时候，大多数国内用户面临一个现实问题：免费额度有限，遇到正事不够用。商汤开源的 SenseNova U1 瞄准了这个空档 – 用 8B 参数的小模型，复刻了不少 GPT-Image-2 的核心能力，而且完全开源、不限次数。

SenseNova U1 是商汤最新开源的原生理解生成统一模型，采用自研 NEO-unify 架构。与传统的「视觉编码器负责看 + 变分自编码器负责画」拼接方案不同，NEO-unify 从底层把图像和文本当作同一类信息来建模，去掉了中间转换环节。

本次开源包含两个版本：

这是 SenseNova U1 最实用的能力。输入一段文字内容，模型能自动提炼关键信息，生成排版精致、层级清晰的信息图。涵盖数据图解、攻略长图、科普海报、知识卡片等多种类型。

在信息图生成基准测试中，SenseNova U1 平均得分达到 50.7，是开源模型最强，媲美部分闭源商业模型。

SenseNova U1 是业内首个支持连贯图文交错生成的模型。它不是「先写完文字再补图」，而是在推理过程中同步输出图文内容，风格和角色在多张图中保持一致。

典型场景：生成一个「煎牛排教程」，从食材准备到装盘，每一步都配有图，牛排的形象从头到尾保持高度一致，不会画着画着变成另一块肉。

SenseNova U1 还具备独特的图文交错思维链能力。给它一张刚泡好的茶的照片，让它画出「一小时后的样子」，模型会先做物理推理：茶叶沉降、茶汤变深、蒸汽减少、光影变化，然后据此生成对应图像。

关键数据：

商汤同步开源了 SenseNova-Skills 技能包，把 U1 做成了 Agent 中可直接调用的工具。其中 sn-infographic 自带 87 种版式、66 种风格，挂进 OpenClaw 后一句 /skill sn-infographic "提示词" 即可出图。

技能包地址：https://github.com/OpenSenseNova/SenseNova-Skills

如果不想自己部署，商汤 AI 办公智能体「办公小浣熊 3.0」即将接入 SenseNova U1，可直接体验。

商汤在 README 中直接标注了当前不足：上下文最长 32K、人物在复杂场景中的细节偶有不稳定、长文字渲染偶尔有拼写或排版错误、连续性图文创作目前还是 beta 阶段。都标注了「持续改进中」。