2026年大语言模型-视觉理解测评 25-07月榜(豆包1.6／Sonnet4)

科技前沿 • 2026-04-04 12:00 • 阅读 0

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

#1 前言
对于首次阅读视觉理解测评系列的读者，关于本测评的创立背景，请参考4月榜单
4月作为视觉理解系列的开篇，本身具有探路性质，题目仅有15题，其中一些题目各模型得分分布并不均匀，最终体现在分数上则是中腰部拉不开差距。各模型频繁暴露诸多问题，如模型能力偏重文字识别，物品和场景识别，但在空间想象，图像层次，空间逻辑等方面的能力捉襟见肘。
在题目设计上，将考察维度划分为3个层级：
1）第一级，考察大模型看到的能力，能准确完整识别图中出现的各种元素。
2）第二级，考察大模型看懂的能力，在看到的基础上，理解各个元素的现实内涵，能结合上下文对看不见的部分做合理推测。
3）第三级，考察大模型拟人的能力，以人类具备的视觉能力为基准，考察大模型在想象，联想，空间感，预测等方面与人类的接近程度。
目前题目偏重考察第一级和第二级，少量考察第三级。随着未来多模态模型的进步，将逐步提高第三级考察题目的占比。

#2 参赛选手
本月新增：
豆包1.6系列
Step-R1-V-Mini 0606
Claude Sonnet 4系列
Hunyuan-turbos-vision & t1-vision 0619
GLM-4.1V-Flash

出榜模型：
Doubao-1.5-thinking-vision-pro（后继1.6系列）
Sonnet3.7系列（后继Sonnet4）
Step R1 mini（后继0606）

#3 题目和打分
题目使用的输入图像全部由笔者本地创建，使用1024*1024分辨率(或等效像素面积的图形)，使用矢量图形编辑器，输出无损PNG格式。

1、不同尺寸文字识别：只测试中文
2、不同尺寸手写体识别：只测试中文
4、菜单识别：基于图片菜单的多个子问题
5、国旗识别：大量无规则堆叠的国旗，确保露出关键特征
6、色盲测试：模拟色盲测试图，要求识别图中信息
7、面积计算：计算二维网格中若干多边形的面积
9、拼图：给若干有尺寸标注的拼图，要求拼成指定图案
10、移动规律：识别参考图中物件移动规律，求指定物件应用规律后的位置
12、物体着色：识别参考图中物件和颜色的关系，求指定物件的颜色
13、原型稿转静态HTML
14、App截图转静态HTML：要求复现所有UI细节
15、动效原型稿转HTML：要求实现所有动效
17、线段计数：识别不同粗细、间隔、颜色的线段数量
18、找不同：找出给定2幅图的所有不同之处
19、对角线长度：计算由若干正方形构成的不规则物体指定对角线长度
20、复杂设计图的HTML实现：提供充满设计细节的稿，要求准确还原布局，配色，样式等
21、图文混排问答：提供图文混排内容，回答多个推理问题
22、【New】表格识别：识别表格数据并进行综合理解
24、【New】图形变换规律：识别给定几组输入的图像变化规律
25、【New】综合文字识别：识别各种形式的文字

本月淘汰：
3、残缺文字识别（放进#25里）
11、无提示规律识别（放进#24里）

打分规则：
1、模型优先使用官方推荐的温度值(下文有备注)，如果没有推荐，则使用默认温度0.1。推理模型限制思考长度30K，输出长度10K，无法分别设置的模型，设置总输出为40K。非推理模型设置输出长度10K。模型支持的MaxToken达不到上限，就按模型上限。其他参数按模型默认。
2、每道题有至少1个得分点/用例，回答每正确一点即得1分。最终得分是得分除以得分点总数，再乘以10。（即每道题满分10分）
3、部分题目有额外扣分项，通常是标注在图片上的额外要求，如果不遵守即扣分。

#4 成绩解析

2026年大语言模型-视觉理解测评 25-07月榜(豆包1.6／Sonnet4)

相关推荐