梯度提升树(梯度提升树(GBDT)的基函数是?)使用递归范式传播特征的状态空间模型展示了与 Transformer 模型相当的强大表征能力和卓越的推理效率 然而 受序列固有几何约束的限制 它在建模远程依赖方面稍显不足 为了解决这个问题 我们提出了 GrootVL 网络 它首先基于空间关系和输入特征动态生成树形拓扑结构 然后 基于该无环图执行特征传播 从而打破原始序列约束以实现更强的表征能力 此外 我们引入了一种线性复杂的度动态规划算法
大家好,我是讯享网,很高兴认识大家。
使用递归范式传播特征的状态空间模型展示了与 Transformer 模型相当的强大表征能力和卓越的推理效率。然而,受序列固有几何约束的限制,它在建模远程依赖方面稍显不足。
为了解决这个问题,我们提出了 GrootVL 网络,它首先基于空间关系和输入特征动态生成树形拓扑结构。然后,基于该无环图执行特征传播,从而打破原始序列约束以实现更强的表征能力。此外,我们引入了一种线性复杂的度动态规划算法,在不增加计算成本的情况下增强远程交互。
GrootVL 是一个多功能的多模态框架,可以应用于视觉和文本任务。
大量实验表明,我们的方法在图像分类、目标检测和分割方面明显优于现有的结构化状态空间模型。此外,通过微调大语言模型,我们的方法在较小的训练成本下在多个文本任务中取得了一致的性能提升。

讯享网
GrootVL: Tree Topology is All You Need in State Space Model
论文链接:
https://arxiv.org/pdf/2406.02395
代码链接:
https://github.com/EasonXiao-888/GrootVL

主流基础模型主要基于 CNN 和 Transformer 架构,它们在视觉和语言任务中占主导地位。然而,CNN 的小感受野和 Transformer 的高度复杂性给平衡性能和效率带来挑战。
状态空间模型 (SSM)
试图打破这种僵局,它以循环范式对序列进行建模。
与之前的循环神经网络不同,这些方法利用结构参数初始化实现稳定的优化和优越的计算性能。
然而,它仍然容易受到循环神经网络共有的内在缺陷的影响,即捕获远程依赖的缺陷。
最近,Mamba
[1]
提出了一种改进的选择机制来减轻SSM遇到的挑战。这种方法在传播过程中引入了权重调制,扩大了有效感受野,并在 NLP 任务中取得了令人印象深刻的效果。此外,许多研究
[2][3][4]
旨在通过使用各种人工预定义的策略将 2D 图像特征映射到 1D 序列,从而将 Mamba 扩展到计算机视觉中。
▲ 图1. 视觉和文本信号的不同传播策略的比较
对于视觉任务,之前的策略 (a) 基于固定模式,而我们的方法可以根据输入特征自适应地生成传播拓扑路径。对于文本任务,与之前的方法 © 相比,我们的方法 (d) 可以打破文本序列的固有约束,促进远程信息的有效传输。
尽管这些方法成功地将 Mamba 嵌入视觉信号输入,但如图 1(a) 所示,光栅扫描和局部扫描策略都引入了相邻像素之间的空间不连续,但 Mamba 中的特征变换依赖于特征关系,因此这种扫描范式会阻碍序列中有效的信息流。
此外,连续扫描策略试图通过简单地调整不连续位置的传播方向来缓解这个问题。然而,所有这些方法都依赖于固定的传播轨迹,忽略了固有的空间结构,不能根据输入动态调整拓扑。

基于自适应树形拓扑结构的状态空间模型(Tree SSM)
本文试图探索一个新的视角——为状态空间模型中的特征传播引入输入感知的拓扑网络。为了实现这一点,我们开发了一个树状态空间模型如图 2 所示,并提出了一个称为 GrootVL 的新框架,该框架根据输入特征自适应地生成树拓扑结构,然后在其上执行特征传播。
具体来说,我们分别为视觉和语言任务设计了两个子网络 GrootV 和 GrootL,如图 1(b) 和图 1(d) 所示。对于视觉任务,我们首先基于相邻特征之间的差异在四连通平面图上构造一个最小生成树。这个过程可以自适应地将空间和语义信息编码到树结构中。
然后,我们迭代地遍历每个像素,将其视为根顶点,并使用 Mamba 的状态转移方式聚合其他像素的特征。直观地说,此操作需要对整个像素集进行两级遍历,导致相对于视觉像素级输入信号不可接受的二次复杂度。
然而,鉴于树图是非循环的,我们提出了一种动态规划算法来实现线性复杂度的传播。通过这种输入感知树拓扑,我们的方法能够实现更有效的远程交互,并保持与 Mamba 一致的线性复杂度。
此外,我们的方法还可以通过基于标记特征之间的差异构建树结构来应用于语言任务,这克服了文本序列的几何约束。使用与 GrootV 类似的聚合过程,GrootL 可以显着提高预训练大语言模型的语言表征能力。

具体来说,对于输入特征
,其中
是序列长度(或输入像素的数量)。我们为该特征构建一个无向
连通图
。其中,
是一个超参数,表示邻节点的数量。
在视觉任务中
预设为 4,表示每个像素都与其四个相邻像素相连。对于语言任务,我们默认设置
,表示每个标记都与前三个标记相连。此外,顶点
表示像素(或标记)嵌入集,
表示图的边集。边权重由相邻顶点之间的特征相异性计算得出。
此外,顶点之间的距离度量默认使用余弦距离。我们使用收缩 Boruvka 算法来修剪具有显著差异的边,从而获得一个最小生成树 (MST),其差异权重之和在所有生成树中最小。在传播过程中,我们迭代遍历每个顶点,将其视为根,并聚合剩余顶点的特征。直观地讲,在这样的几何配置中应用状态传播会优先在空间和特征距离较小的顶点之间进行交互。
参考 Mamba,我们使用与数据相关的转换矩阵进行状态传播。对于顶点
,我们对其向父节点的转换矩阵表示为
。因此,第
个顶点的状态聚合过程可以表示为:
其中
表示树中所有顶点的索引集。
表示超边
从MST中第
个顶点到第
个顶点的路径权重,
表示此超边上所有顶点的索引集。
对于视觉任务,我们迭代每个顶点,将其视为生成树的根,并聚合来自其他顶点的状态,从而获得变换后的状态
。对于文本任务,由于大型语言模型中的因果预测范式,我们仅将最后一个标记作为根,并从其他标记中进行聚合。
为了实现端到端训练,我们推导出输出隐藏状态
对输入变量
,
和
的导数,如下所示:
其中
表示以顶点
为根且为顶点
的子孙节点集合,
顶点为
的父节点。最后,输出特征
可以表示为:
其中
、
和
分别表
示
、
和
。
代表元素乘法(哈达玛积)。
对于视觉任务,树扫描算法需要对整个像素集进行两级遍历,导致相对于像素数量不可接受的二次复杂度
。为了缓解这个问题,我们利用动态规划过程来加速推理和训练过程,如算法 1(图 3)所示,其实现了线性复杂度
的传播,从而在保持计算效率的同时,实现更有效的远距离建模以及空间感知。
对于文本任务,我们按照语言的因果性质执行单向聚合方法如算法 2(图 4)所示。此外,我们为视觉树扫描和语言树扫描过程提供了反向传播过程以进行端到端的训练,其详细证明见论文附录 C。
▲ 图3. 视觉树拓扑扫描算法
▲ 图4. 文本树拓扑扫描算法
基于上述基础算子,我们可以将其有效应用于各类视觉和文本任务。
GrootV. 对于一个形状为 HxWx3 的输入图像信号,我们的目标是为下游任务获得其高质量的视觉特征。
为此,我们提出了一种有效的视觉架构 GrootV 如图 5 所示,它由 Stem module、Basic Block 和 Downsample Layer 组成。我们在三个尺度上开发了GrootV,即 GrootV-Tiny、GrootV-Small 和 GrootV-Base。
▲ 图5. GrootV框架示意图
GrootL. 我们基于树扫描算法提出了一种有效的应用于预训练 Mamba 的微调范式。具体来说,基于树的拓扑分支与单向滚动通过调制因子来合并。值得注意的是,这种范式不会引入任何额外的训练参数。相反,它利用预训练的状态转换参数通过结合拓扑结构以进行语义聚合。实验结果表明了我们方法的有效性。

实验结果与分析
我们在图像分类,目标检测,实例分割与语义分割下游视觉任务上进行验证。如图 6、7、8 中结果所示,我们的方法显著优于各类基于状态空间模型的方法,并能与最先进的基于 CNN 或者 Transformer 架构的方法相媲美。
▲ 图6. ImageNet-1K验证集上的图像分类结果
T、C 和 S 分别表示 Transformer、CNN 和 SSM 的模型类型。所有模型都以 224×224 的图像尺寸作为输入。
▲ 图7. COCO val2017数据集的结果
▲ 图8. ADE20K val数据集结果
输入图片都剪裁为 512×512。SS 和 MS 分别表示单尺度和多尺度测试。
我们将 130M 参数量的 Mamba 作为基础模型。为了验证我们的 GrootL 在自然语言理解中的有效性,我们首先用相同的训练设置在 Alpaca 数据上分别通过 LoRA 和 GrootL 对预训练 Mamba 进行微调。接着在公开 lm-evaluation-harness 项目中对多个 NLP benchmark 进行 zero-shot 验证,结果如图 9 所示。
▲ 图9. 文本下游任务验证结果
我们对树拓扑算法中多个配置进行消融实验。我们首先验证了树拓扑扫描相对于人工预设的光栅扫描和交叉扫描方式的优越性。接着,我们探索了相邻节点间边权重的刻画方式,尝试了曼哈顿距离,欧式距离和余弦距离三种方式。最后,我们仅针对单个节点进行状态聚合进行了实验从而验证了每个节点均需获取来自其余顶点信息的必要性。
▲ 图10. 消融实验
为了更好地说明我们的扫描策略的优越性,我们可视化了每个输入图像中红色十字标记的不同位置的亲和图。例如,当我们设置天空左上角的锚点,如图 11(a)第二行所示。我们的方法可以很容易地识别白色房屋、旗杆和天空,光栅扫描则无法实现。这证明了我们的算法具有保留详细结构信息的能力。更多的对比结果可见于论文的附录 D 中。
▲ 图11. 特定位置的Affinity Map,位置由输入信号中的红色十字标记。TP Scan代表树拓扑扫描算法与光栅扫描 © 相比,它能准确捕获更详细的结构信息。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/200276.html