STPP[时间金字塔池化]--SSN(Temporal Action Detection with Structured Segment Networks)时间动作定位

STPP[时间金字塔池化]--SSN(Temporal Action Detection with Structured Segment Networks)时间动作定位看完 SSN 网络其中一个重点就是文章所提出的 STPP 结构 文章或者有些解读对于我们这种初学者来说可能有一点点理解难度 特别是对于 L 和 Bl 这些参数 我看到有些网上的解释写的有些歧义 但实际上只要结合 SPP 的结构 理解 STPP 结构也并不困难 首先回顾 SPP 通过对 feature map 进行不同空间尺度的下采样

大家好,我是讯享网,很高兴认识大家。

        看完SSN网络其中一个重点就是文章所提出的STPP结构。文章或者有些解读对于我们这种初学者来说可能有一点点理解难度,特别是对于L和Bl这些参数,我看到有些网上的解释写的有些歧义。但实际上只要结合SPP的结构,理解STPP结构也并不困难。

        首先回顾SPP,通过对feature map进行不同空间尺度的下采样,并且对不同大小的特征输入可以得到固定大小输出。


讯享网

         对于STPP则是同样去理解,在Temporal上进行不同维度的下采样。一个stage中包含了很多snippets。通过下图的方式对这些snippets进行不同尺度的划分、采样。

        L代表多尺度等级,Bl代表每个level的具体下采样尺度,而公式所计算的u则代表上图中的白块(分别为2,3,4),u的值实际上是对自身时间范围内所包含的snippets的特征的平均。

        而STPP最后得到的输出同样和SPP类似,是将这些u值concat到一起。(在上图的例子中则是将2+3+4个u值concat)

        目前还没看代码,是从文章的角度去理解,如有错误,欢迎指正讨论。

小讯
上一篇 2025-02-23 20:17
下一篇 2025-01-07 20:17

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/21086.html