yolov3作者(一文看懂yolov3)

yolov3作者(一文看懂yolov3)文章题目 基于三维骨架的人体动作识别 全部作者 周小坡 张立武 张严 第一单位 中国科学院 软件研究所 出版时间 2024 33 10 1 12 摘 要 动作识别是计算机视觉领域的一项重要技术 根据输入数据的不同可以分为基于视频的动作识别和基于骨架的动作识别 三维骨架数据避免了光照 遮挡等因素的影响 对动作的描述更准确 现在 基于三维骨架的人体动作识别受到重视

大家好,我是讯享网,很高兴认识大家。




讯享网

文章题目:基于三维骨架的人体动作识别
全部作者:周小坡, 张立武, 张严
第一单位:中国科学院 软件研究所
出版时间:2024, 33(10): 1–12


动作识别是计算机视觉领域的一项重要技术, 根据输入数据的不同可以分为基于视频的动作识别和基于骨架的动作识别. 三维骨架数据避免了光照、遮挡等因素的影响, 对动作的描述更准确. 现在, 基于三维骨架的人体动作识别受到重视. 基于三维骨架的人体动作识别方法可以分为端到端的黑盒方法和基于模式识别的白盒方法. 黑盒的深度学习方法参数大, 能从大量的数据中学到分类知识, 但是深度学习方法难解释, 只能给出整体识别结果. 白盒的模式识别法相比黑盒方法, 其识别过程可解释、算法易调整, 但是现有的一些白盒方法主要从算法层面进行改进, 用公式去表示和区分动作, 没有体现动作之间的区别和联系. 所以设计一个分类过程可见的白盒方法, 使用树结构将动作数据有层次的组织起来, 根据相同动作之间的差异构建个体分类层次结构, 根据不同动作之间的区别构建动作分类层次结构. 然后将各种衡量算法纳入系统中, 选择最近邻和动态时间规整算法进行实验. 层次结构的优点是可以根据需求植入各种知识, 这样可以从不同的角度对动作进行分类. 实验中, 向层次结构植入动作关键姿态知识和人体结构知识, 随着知识的植入, 层次结构也会发生变化.



扫二维码阅读全文



图文精选


(1) 模型构建

为了能让计算机理解一个动作是什么样的, 需要为系统植入动作的知识, 即需要选择标准的动作样本作为模板, 但是由于不同人做的同一动作存在差异, 即使是同一人做的同一动作也会存在区别, 为了将这些动作能够分到同一个正确的区域内, 需要尽可能地选择合适的动作模板将这些动作包括在范围之内. 对于模板动作的选择, 如果数据量不大, 可以通过人工筛选的方法选择, 如果数据量过大, 可以通过数据统计得到. 以此方法去构造基于层次结构的动作识别模型, 其结构如图1所示. 

图1 基于层次结构的识别模型结构图

(2) 基于关键姿态的识别模型

根据关键姿态序列, 人们可以分辨出是什么动作.  本节的研究目的在于使用动作的关键姿态进行动作和 个体的识别, 以探索动作和姿态之间的关系.  例如, 为某个体的挥手动作选择的关键姿态如图2 所示. 从关键姿态图中可以看到, 只看关键姿态之间的 变化过程, 也能够区分出个体做的是什么动作, 所以关 键姿态能够表示动作信息.

图2 关键姿态图
(3) 基于动作分解的识别模型
在之前的实验中计算距离时, 将所有身体部位的 关节之间的距离累加在一起作为判断, 但是不同动作 有着不同的运动部位, 如果使用累加和进行度量, 会出 现某个动作因为无关部位的影响而被分到另外一类动 作中, 亦或者某个手脚运动幅度小的动作被错分到某 个手部运动剧烈的动作中等情况.  为了尽可能地消除这种影响, 对人体进行部位分 解: 左手、右手、左腿、右腿、躯干, 然后根据所有样 本给不同的部位划分出不同的动作. 对第1组动作数 据的部位动作划分如表1所示, 可以看到挥手动作会 存在着左手挥手、右手挥手、坐着挥手等状态, 对同 一动作的不同表现形式要全部记录下来.  然后为不同的部位创建不同的分类层次结构, 只关注不同 部位对应的关节, 即在提取模板时, 以部位的方式提取 模板. 以左腿为例, 为左腿创建伸直、弯曲、静止、弯 曲静止4个个体部位分类层次结构, 如图3所示. 然后 选择部位动作的平均动作模板去构建左腿动作分类层 次结构, 如图4所示.

表1 身体部位动作表

图3 个体左腿伸直分类层次结构

图4 左腿动作分类层次结构

(4) 实验结果与分析

a) 基于层次结构的动作识别方法实验结果

实验结果主要对动作分类准确率以及在动作准确 的情况下个体分类准确率进行分析, 首先是使用最近 邻进行分类, 第1组数据的结果如表2所示. 从结果中 可以看到, 对动作类别的识别有着较高的准确率, 但是 对个体的分类效果并不好, 这是因为将所有时间区域 内的帧都纳入计算中导致的. 然后使用DTW方法进行 分类, 结果如表2所示, 通过结果可以发现, 使用时间 动态规整后, 拍手与双手交叉的动作识别准确率有所 提升, 并且所有动作的个体识别准确率也都有提升. 从 两种方法的结果可以得知, 姿态之间的时间关系是非 常重要. 因此之后的第2组与第3组实验都使用动态 时间规整算法, 结果如表3所示.

表2 基于层次结构的识别模型第1组数据结果表(%)

表3 第2组与第3组数据结果表(%)

b) 基于关键姿态的识别模型实验结果

该部分实验在第1组和第3组数据上进行实验,  首先对第1组数据使用最近邻算法, 对动作分类的混 淆矩阵结果如表4所示. 从混淆矩阵中发现效果并不 好, 尤其是对起立和坐下两个动作. 使用最近邻算法时,  这两个动作会互相错分到对方的类别当中, 这是因为 起立和坐下都只有两个关键姿态, 并且两个关键姿态 在时间上的顺序刚好相反, 在使用最近邻时, 没有考虑 两个动作的关键姿态之间的时间关系, 因此对于这两 个动作的计算结果非常接近, 所以导致了错误分类. 所 以, 姿态之间的时间关系是非常重要的, 下面对第1组 和第3组数据使用动态时间规整的方法进行实验.  使用动态时间规整的结果如表5所示. 通过对结果 的数据分析发现, 模型的效果还可以, 动作的分类准确 率和个体的分类准确率都大幅度提升, 坐下和起立两个 动作也能正确分类, 说明关键姿态序列能够表示整个动 作, 同时也再次说明了姿态之间时间关系的重要性.

表4 关键姿态+最近邻: 动作类别混淆矩阵表 (%)

表5 关键姿态+DTW: 第1组和第3组数据结果表 (%)

c) 基于动作分解的识别模型实验结果
当有输入动作时, 将不同的部位分别输入到对应 的分类层次结构中, 得到每个部位的动作类别后, 选择 最大程度满足条件的整体动作作为最后的分类结果.  得到动作类别后, 将其输入到动作对应的个体分类层 次结构中, 在个体分类层次结构中, 只需要使用关键部 位即可. 将关键部位输入到对应的部位层次结构中, 最 后选择满足条件的个体.  首先使用所有帧进行分类, 然后使用关键姿态 进行分类, 两种方法在第1组和第3组数据的分类 结果如表6和表7所示. 从两个结果中可以看到,  无论是动作的识别准确率还是个体的识别准确率都 很高, 这说明人的整体动作可以根据部位进行分解.  通过对不同部位做的动作进行分析, 可以反推得到 整体动作. 但是使用关键姿态会降低个体的分类准 确率.

表6 基于身体部位的识别模型第1组数据结果表 (%)

表7 基于身体部位的识别模型第3组数据结果表 (%)

(5) 结语

本文对基于三维骨架的人体动作识别技术进行探讨, 提出了一个基于知识的、白盒的、可解释的识别系统. 首先植入了动作层级之间的关系, 建立了一颗利用层级关系的搜索树, 利用搜索树能够减少冗余比较, 加快搜索速度. 从结果中看到对动作的分类准确率高, 但是对个体的分类准确率却并不理想. 之后使用动态时间规划将输入动作与模板动作在时间关系上进行对应, 提高了对个体识别的准确率. 然后探索姿态与动作之间的关系, 为模板动作提取关键姿态, 将关键姿态知识植入系统. 使用动态时间规整, 将关键姿态之间的时间关系、关键姿态与输入动作的姿态之间的时间关系一一对应, 从结果可以看到, 动作与个体的识别效果都不错, 说明动作可以看作是一系列关键姿态在时间上的序列. 最后, 为了减少在判断动作时所有关节的累加和对最终分类结果的影响, 将人体划分5个部位, 通过分别对5个部位所作的动作进行分析, 综合考虑后反推身体的整体动作, 并且取得了较高的识别准确率.

联系我们

电 话:010-

微 信:csaWeChat

邮 箱:

网 站:http://www.c-s-a.org.cn

小讯
上一篇 2025-04-18 11:12
下一篇 2025-05-28 17:37

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/202603.html