#1 前言
对于首次阅读视觉理解测评系列的读者,关于本测评的创立背景,请参考4月榜单
4月作为视觉理解系列的开篇,本身具有探路性质,题目仅有15题,其中一些题目各模型得分分布并不均匀,最终体现在分数上则是中腰部拉不开差距。各模型频繁暴露诸多问题,如模型能力偏重文字识别,物品和场景识别,但在空间想象,图像层次,空间逻辑等方面的能力捉襟见肘。
在题目设计上,将考察维度划分为3个层级:
1)第一级,考察大模型看到的能力,能准确完整识别图中出现的各种元素。
2)第二级,考察大模型看懂的能力,在看到的基础上,理解各个元素的现实内涵,能结合上下文对看不见的部分做合理推测。
3)第三级,考察大模型拟人的能力,以人类具备的视觉能力为基准,考察大模型在想象,联想,空间感,预测等方面与人类的接近程度。
目前题目偏重考察第一级和第二级,少量考察第三级。随着未来多模态模型的进步,将逐步提高第三级考察题目的占比。
#2 参赛选手
本月新增:
豆包1.6系列
Step-R1-V-Mini 0606
Claude Sonnet 4系列
Hunyuan-turbos-vision & t1-vision 0619
GLM-4.1V-Flash
出榜模型:
Doubao-1.5-thinking-vision-pro(后继1.6系列)
Sonnet3.7系列(后继Sonnet4)
Step R1 mini(后继0606)
#3 题目和打分
题目使用的输入图像全部由笔者本地创建,使用1024*1024分辨率(或等效像素面积的图形),使用矢量图形编辑器,输出无损PNG格式。
1、不同尺寸文字识别:只测试中文
2、不同尺寸手写体识别:只测试中文
4、菜单识别:基于图片菜单的多个子问题
5、国旗识别:大量无规则堆叠的国旗,确保露出关键特征
6、色盲测试:模拟色盲测试图,要求识别图中信息
7、面积计算:计算二维网格中若干多边形的面积
9、拼图:给若干有尺寸标注的拼图,要求拼成指定图案
10、移动规律:识别参考图中物件移动规律,求指定物件应用规律后的位置
12、物体着色:识别参考图中物件和颜色的关系,求指定物件的颜色
13、原型稿转静态HTML
14、App截图转静态HTML:要求复现所有UI细节
15、动效原型稿转HTML:要求实现所有动效
17、线段计数:识别不同粗细、间隔、颜色的线段数量
18、找不同:找出给定2幅图的所有不同之处
19、对角线长度:计算由若干正方形构成的不规则物体指定对角线长度
20、复杂设计图的HTML实现:提供充满设计细节的稿,要求准确还原布局,配色,样式等
21、图文混排问答:提供图文混排内容,回答多个推理问题
22、【New】表格识别:识别表格数据并进行综合理解
24、【New】图形变换规律:识别给定几组输入的图像变化规律
25、【New】综合文字识别:识别各种形式的文字
本月淘汰:
3、残缺文字识别(放进#25里)
11、无提示规律识别(放进#24里)
打分规则:
1、模型优先使用官方推荐的温度值(下文有备注),如果没有推荐,则使用默认温度0.1。推理模型限制思考长度30K,输出长度10K,无法分别设置的模型,设置总输出为40K。非推理模型设置输出长度10K。模型支持的MaxToken达不到上限,就按模型上限。其他参数按模型默认。
2、每道题有至少1个得分点/用例,回答每正确一点即得1分。最终得分是得分除以得分点总数,再乘以10。(即每道题满分10分)
3、部分题目有额外扣分项,通常是标注在图片上的额外要求,如果不遵守即扣分。
#4 成绩解析
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/223615.html