论文标题:
导读:
腾讯RoboticsX实验室的新研究,它通过将前沿的预训练AI模型和强化学习技术应用到机器人控制领域,让机器狗MAX的灵活性和自主决策能力得到大幅提升。通过引入预训练模型和强化学习技术,机器狗可以分阶段进行学习,并有效的将不同阶段的技能、知识积累并存储下来,让机器狗在解决新的复杂任务时,不必重新学习,而是可以复用已经学会的姿态、环境感知、策略规划多个层面的知识,进行「举一反三」,灵活应对复杂环境。 ©️【深蓝AI】编译

▲图1|论文方法框架概览©️【深蓝AI】编译


其中,表示轨迹 的概率; 是初始状态的某种分布; 是折扣因子。
作者这里将深度生成模型的表达能力用于机器人控制的运动生成中来。具体来说,使用一种在图像生成中的深度表示学习方法VQ-VAE(向量量化变分自编码器),它结合了变分自编码器(VAE)和向量量化(VQ)的优势,用来学习离散潜在嵌入(discrete latent embeddings)。在VQ-VAE中,编码器将输入映射到一个潜在嵌入(latent embedding),而解码器则将嵌入映射回输出以恢复输入。VQ-VAE训练损失由reconstruction loss和commitment loss组成,如下所示:
←左右滑动查看完整公式→
其中, 是输入数据的重建损失(reconstruction loss); 是量化向量; 是一个停止梯度的算子; 是编码器的输出; 是离散潜在 嵌入中与最接近的嵌入;而超参数 平衡了最后两个项。值得说明是PMC的控制信号基于特定机器人的自身感知状态的条件生成。
◆Vector Quantized Primitive Motor Controller:在PMC中,使用一个条件编码器-解码器结构,以扩展VQ-VAE结构用于机器人控制。如图1所示,MLP编码器以来自动物运动数据的本体感知
和目标未来轨迹
为输入,将其映射到一个潜在变量
。另一方面,离散潜在嵌入表示为
,其中
是潜在嵌入的数量,
是每个潜在嵌入向量
的维度。然后,编码器的输出
与
中的所有嵌入进行比较,选择与
距离最近的
嵌入作为量化向量。这个向量量化过程可以表示为:
解码器 以状态 和嵌入 为输入,并输出 作为原始运动动作,这指定了比例-导数(PD)控制器的剩余目标关节位置。PMC被训练以模仿所有的动物运动数据。
◆Prioritized Sampling:通过单个PMC模仿所有运动轨迹,由于某些存在训练数据不平衡的问题,稀有的运动片段可能在模仿策略中表现不好。为了解决这个问题,作者没有采用在数据集中均匀采样运动轨迹,而是利用优先采样,其中数据集中的运动片段以以下概率进行采样:
■3.2 Environmental-Level Training
EPMC重用了PMC训练好的离散潜在嵌入和解码器。在PMC的基础上,它添加了一个新的网络结构来处理环境感知信息,这个网络接收环境信息(如地形高度图、前方深度图和雷达扫描结果)作为输入,并输出离散潜在嵌入的分类分布,指示哪个潜在嵌入最适合当前的环境状况和任务要求,这个嵌入随后被用来驱动PMC的解码器生成控制信号。此外,EPM还接收额外的外部指令,通过向穿越任务奖励中添加一个指令合规奖励来确定机器人的方向和速度。
◆Training Environments:除了在平坦地形和楼梯上的一般运动外,还涉及一些具有挑战性的穿越任务,包括匍匐、跳过连续障碍物和在连续地块上自由奔跑等生动的行为。
◆Generative Adversarial Learning for Flat Terrain Locomotion:对于平坦地形上的一般运动,由于运动数据也是在平坦地形上收集的,EPMC被要求严格保持自然运动并同时跟随指令。为了实现这一点,任务奖励被定义为对抗模仿奖励(adversarial imitation reward)加上指令合规奖励(command compliance reward)。
生成对抗模仿学习(GAIL)通过最小化从策略生成的轨迹分布与专家轨迹分布之间的距离来模仿专家轨迹。GAIL引入了一个可训练的判别器来区分这两种分布,并优化策略以迷惑判别器,从而生成难以区分的数据。该方法的判别器目标函数为:
←左右滑动查看完整公式→
其中, 表示PMC策略, 表示EPMC策略。模仿奖励定义为 。总奖励是指令合规奖励和模仿奖励的加权和。
◆Residual Control for Traversing Stairs:训练 EPMC 时,环境级网络必须适应各种形状的楼梯,并采用类似动物的自然动作。环境级网络为原始运动动作输出一个额外的残差控制偏移量,它帮助整个控制器更快适应不同形状的楼梯,同时仍保持自然的动作。

◆Simple Reward Structure:针对有些困难的穿越任务施加稀疏奖励,主要包括导航方向reward和速度跟踪reward。这些奖励鼓励机器人遵循给定的导航命令,同时保持稳定的运动。
◆Multi-Expert Distillation:使用策略蒸馏方法将所有学习到的环境级网络压缩为一个统一的网络。蒸馏损失函数定义如下:
←左右滑动查看完整公式→
其中 表示场景的索引, 表示统一的EPMC,轨迹是从统一的EPMC中采样的,环境 是从考虑的穿越任务中均匀采样得到的,而教师环境级网络 是根据环境选择的。
■3.3 Strategic-Level Training
策略层次训练建立在EPMC的基础上,重用了EPMC的知识,包括原始动作层次的解码器和环境适应层次的网络结构。在EPMC的基础上,添加了一个新的策略网络层,用于处理任务相关的信息,自身感知和外部感知,并输出导航命令,这些命令指导EPMC如何在游戏中进行动作选择。
作者采用了采用优先化自我对弈(Prioritized Fictitious Self-Play,PFSP),这是一种有效的多智能体强化学习训练方案,可以产生强大的AI代理。在PFSP中,使用优先级采样策略进行对手抽样。在这种训练模式下,当前训练中的模型会与历史存储的自己的模型进行对弈,以此来提高策略的复杂性和鲁棒性。
其中, 是一个加权函数, 是当前训练代理战胜对手 的概率, 是一个超参数。
■3.4 Transferring to Reality
为了更好进行在现实环境的能力迁移,作者通过随机化地形摩擦力、执行器扭矩限制,并定期在机器人的租部施加随机力量的扰动。此外,在障碍物周围还加入随机半径的充气圆柱体,以覆盖障碍物的边缘。其他方面,为了获取MAX机器人在现实世界实验中的外部感知信息和位置信息,通过采用动作捕捉系统,并为机器人创建了离线地形图。

实验将训练好的控制器部署在MAX机器人上,训练任务包括了imitation,traversing,distillation and self-play(for the chase tag game)任务。
▲图2 | PMC评估结果©️【深蓝AI】编译
■4.1 Primitive Behaviors
本部分对PMC生成的原始行为的性能进行了评估。PMC训练被构建为一个强化学习问题,使用基于策略梯度的强化学习算法(如PPO)来训练PMC。
图2_A显示了MAX机器人在真实世界中模仿动物数据集中几个不同运动片段时的几张快照。通过这些图像和视频可以观察到MAX展示了类动物运动的行为,并且PMC能够在不同地形中表现出足够的鲁棒性。
图2_B展示了仿真中模仿学习任务的训练曲线。标准化奖励指的是在[0,1]的标准化范围内,跟踪动物数据集中所有运动片段的平均奖励。从图中观察到,与其他基线相比,VQ-PMC获得了**的跟踪奖励。带有调度退火的β-VAE达到了相当的奖励,但由于手动设计的退火过程,其训练不稳定。使用恒定β的β-VAE方法未能成功跟踪这些运动片段。
图2_C展示了在仿真中收敛PMC生成轨迹的散点图。从图中可以观察到,不同的运动类型可以通过学习到的表示来理解,这些表示在低维空间中一般能够区分不同的运动。结果表明,深度生成模型的表现能力能够成功融入运动控制策略中。

图2_D总结了在仿真中所生成行为的步态分析结果。从图中可以看到,VQ-PMC能够准确再现动物运动数据中的运动,VQ-PMC的小提琴图形状与数据的形状比带有退火调度的β-VAE要匹配得更好。其余三组必须同时遵循随机命令并保持动物自然性,因此运动的自然性有所下降。然而,基于VQ的EPMC与基于β-VAE的EPMC相比,仍显示出与运动数据更接近的匹配,并且通过施加额外的对抗模仿奖励可以提高EPMC的自然性。
最后,图2E报告了在现实中通过零样本方式应用训练好的VQ-PMC时的仿真与现实之间的性能差距。正如预期的那样,考虑到仿真和现实之间存在动态差距,直接将训练好的控制器应用于真实机器人时,奖励会下降。
■4.2 Traversing Complex Obstacles
本节实验评估了EPMC控制器在解决各种穿越任务(例如:分别跨越了楼梯、跨杆、障碍物和块)中的表现。图3A-D展示了这些场景在真实环境中的情况。
▲图3 | PMC评估结果©️【深蓝AI】编译
图3_E上面的图表显示了在现实世界实验中,对不同高度和指令速度下,每个子任务10次重复的平均成功率,底部的图表则显示了这些子任务的平均输出扭矩。结果表明,训练好的控制器在各种设置下都保持了高成功率,输出扭矩即使在执行这些灵活行为时也分布在相对较小的绝对值范围内。在仿真中,成功率始终完美(100%),因为奖励和收敛条件保证了这一点。
图3_F比较了在平坦地形上根据指令训练环境级别网络时重用各种预训练网络的学习曲线。正如图中显示,相较于其他基线方法,VQ-PMC训练的原始层级网络显著加速了EPMC控制器的训练。
此外,在消融研究,本文方法与基线方法进行比较,该基线方法与该方法共享相同的神经网络架构,但其随机初始化且未重用预训练的原始级别网络。这些比较在四个穿越任务中的训练曲线如图3G所示。从图中可以看到,重用预训练的原始运动先验显著促进了EPMC控制器的训练,而从头开始训练则速度较慢,甚至无法解决任务,这考虑到了任务的难度和其中使用的稀疏奖励。
■4.3 Chase Tag Game
本小节评估了SEPMC在解决复杂下游任务中的能力。作者通过一个类似于人类儿童游戏“世界追逐大赛”(World Chase Tag)的多智能体追逐游戏,其中两个MAX机器人相互对抗。游戏场地设置了梯子和栏杆等障碍物,增加了游戏的复杂性。
▲图4 | 追逐游戏的过程快照©️【深蓝AI】编译
如图4(A-D)图展示了两个机器人相互对抗追逐的过程。
在图4_E中,展示了在现实世界游戏的一个完整回合的分析,其中曲线显示了两个MAX机器人的执行器扭矩、角速度、线速度和根高度。总体而言,两个MAX机器人的扭矩在整个游戏中都落在合理的范围内。

本研究提出了一种新的四足机器人动作通用学习框架,以便在不同的感知和任务层面上重用预训练知识。在原始动作层次(PMC)借助深度生成VQ-VAE模型,以学习离散的潜在表示,生成控制信号以促使机器人行为与真实动物相似。EPMC环境层次结合基础层次的知识,通过强化学习适应不同的环境和障碍物,如梯子、狭窄通道、栏杆和方块;SEPMC策略层次则专注于解决更复杂的多智能体追逐游戏,通过重用前两层次的知识,通过自我对抗和多智能体强化学习,训练出具有策略性的动作。最后成功地将所有这些训练好的控制器应用于MAX机器人,动物级策略和动作在现实任务中得以体现。
为了进一步展示该框架的普遍性和可扩展性,作者还展示了用机载传感器替代运动捕捉系统的便利性。通过借助一个额外的学生-教师蒸馏过程,以原先训练的环境层网络被视为教师,并以机载相机的深度图像作为输入的学生环境层网络,此外还有本体感知和导航指令。然后执行一个监督学习/蒸馏过程,以根据教师环境层网络的输出(即潜在代码)来训练学生环境层网络,作为标签。实验结果证明了MAX机器人同样具备逼真的敏捷性。
最后,作者也提出了未来的研究方向之一是用数据驱动的方法,以更成本更低的数据收集方式获取运动数据。例如,从在线视频资源中提取必要的运动信息,类似的工作已经在仿真中展示了人形机器人的不错成果。有望将此类技术转移到真实机器人控制中去。
-end-


<section style="padding: 5px 10px;background: rgb(249, 249, 249);border-radius: 3px;border-width: 1px;border-style: solid;border-color: rgb(239, 239, 239);margin-bottom: 8px;display: flex;justify-content: space-between;align-items: center;"> <section style="margin-right: 12px;flex: 1;"> <p data-recommend-title="t" style="font-size: 13px;color: rgb(51, 51, 51);line-height: 18px;margin-bottom: 20px;overflow: hidden;display: -webkit-box;-webkit-line-clamp: 2;-webkit-box-orient: vertical;">史上最快,仅需10ms的动态点云剔除方法</p> <p style="font-size: 11px;color: rgb(153, 153, 153);line-height: 16px;">2024-08-14</p> </section><span class="js_jump_icon h5_image_link" data-positionback="static" style="inset: auto;width: 51px;"><img src="https://mmbiz.qpic.cn/mmbiz_jpg/Nabxc8rdYrjQe7icjqxbOQIJKnq1WNKhd7f2dj5XMRbmare54hRicaZ727ViaNzlq3KxZLbgUhGEf3oVND4n1OBxA/640?wx_fmt=jpeg" data-ratio="0." data-src="https://mmbiz.qpic.cn/mmbiz_jpg/Nabxc8rdYrjQe7icjqxbOQIJKnq1WNKhd7f2dj5XMRbmare54hRicaZ727ViaNzlq3KxZLbgUhGEf3oVND4n1OBxA/640?wx_fmt=jpeg" data-w="1036" style="width: 51px;height: 51px;object-fit: cover;" width="51" /></span> </section> </section><section> <section style="padding: 5px 10px;background: rgb(249, 249, 249);border-radius: 3px;border-width: 1px;border-style: solid;border-color: rgb(239, 239, 239);margin-bottom: 8px;display: flex;justify-content: space-between;align-items: center;"> <section style="margin-right: 12px;flex: 1;"> <p data-recommend-title="t" style="font-size: 13px;color: rgb(51, 51, 51);line-height: 18px;margin-bottom: 20px;overflow: hidden;display: -webkit-box;-webkit-line-clamp: 2;-webkit-box-orient: vertical;">APIGen: 一场函数调用AI的革命,如何用6000万数据点打造超越GPT-4的LLM</p> <p style="font-size: 11px;color: rgb(153, 153, 153);line-height: 16px;">2024-08-13</p> </section><span class="js_jump_icon h5_image_link" data-positionback="static" style="inset: auto;width: 51px;"><img src="https://mmbiz.qpic.cn/mmbiz_jpg/Nabxc8rdYrhv0uurY40nu5FnJpfVVImeJbRPHjyutgaMGCOhWqhX7mnW7EyMYdicia4GRmYbzonmhk0XGoQCXKCA/640?wx_fmt=jpeg" data-ratio="0.425" data-src="https://mmbiz.qpic.cn/mmbiz_jpg/Nabxc8rdYrhv0uurY40nu5FnJpfVVImeJbRPHjyutgaMGCOhWqhX7mnW7EyMYdicia4GRmYbzonmhk0XGoQCXKCA/640?wx_fmt=jpeg" data-w="1080" style="width: 51px;height: 51px;object-fit: cover;" width="51" /></span> </section> </section></section></section><section style="text-align: right;"><strong style="color: rgb(255, 255, 255);text-align: right;font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;"><span style="background-color: rgb(107, 146, 214);"><em><span style="font-size: 14px;">*点击在看收藏并推荐本文*</span></em></span></strong></section><p style="display: none;"><mp-style-type data-value="10000"></mp-style-type></p>
讯享网
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/142130.html