作者|都一凡
机构|中国人民大学
研究方向|多模态大模型


-
Q1. 改变帧数对模型效果有什么影响? -
Q2. 改变视觉token的数量对模型效果有什么影响?


2.1.1 基于采样的方法
2.1.2 基于压缩的方法
- 增加视觉token的数量可以显著提升性能。基于采样的方法在 49 个token时达到峰值,而基于压缩的方法即使使用 196 个token也没有出现性能饱和。
- 当视觉上下文窗口大小受限时,基于压缩方法能够用更少的token有效保留更多的视觉信息,得到更好的表现。
讯享网



2.2.1 基于采样的方法
2.2.2 基于压缩的方法
由于计算内存的限制,我们将 设为 128,并选择 来探索帧数的扩展规律。为了与基于采样的方法进行公平比较,我们也将每帧的视觉token数量减少到 49。在实际操作中,我们使用三维均值池化,而不是先进行空间均值池化后再进行时间池化,以避免feature map的过度平滑。
讯享网
- 增加帧数能持续提升模型性能,甚至能弥补每帧视觉token压缩导致的性能下降。
- 在有限的视觉上下文窗口中,基于压缩的方法比基于采样的方法在更少帧数的情况下保留更多时间信息。

-
使用AnyRes编码方案,将每张图像划分为多个小块,模拟短视频。 -
在每一帧前添加时间提示,使视频表示为类似“1 <frame 1> 2 <frame 2> … n <frame n>”的格式。 -
增大batch size,从64增加到128,并训练2个epoch。

扫描二维码添加小助手微信

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/149723.html