2025年利用AI强化学习训练50级比卡超单挑70级超梦！

大家好，我是讯享网，很高兴认识大家。

先看下效果：
在这里插入图片描述
讯享网

环境
python3.6
window10
tensorflow-2.4.1

一共需要的文件
https://github.com/MichaelYipInGitHub/pokemon_pk/

搭建对战系统：
本来想用天池杯宝可梦分析赛里面的数据，但考虑到我要训练的是50级的比卡超和70级超梦，属性更高，所以官网上搜索比卡超和超梦的对应属性。
首先看看相克图
在这里插入图片描述

在这里插入图片描述
比卡超属性：

这里比卡超有四招：‘电击’, ‘打雷’, ‘抛摔’, ‘十万伏特’
在这里插入图片描述

超梦也有四招，都是攻击为主：‘念力’, ‘精神利刃’, ‘精神强念’, ‘精神击破’

在这里插入图片描述

招式伤害计算公式：

在这里插入图片描述

攻击与防御分别是攻击方的攻击或者特攻（取决于是物理招式、特殊招式或特殊情况），和防守方的防御或特防（取决于招式是物理招式、特殊招式或特殊情况）。这里简单点，because超能力对电都是1:1，这里不考虑加成。下面是计算伤害的函数：

 def get_hurt(self, level, my_attack, enemy_defend, power): hurt = ((2 * level + 10) / 250) * (my_attack / enemy_defend) * power + 2 return hurt

讯享网

利用tkinter创建画布：
在这里插入图片描述

这里的奖励机制是：
我伤害对方的血量 - 对方伤害我的血量
我赢了加1200分
我输了减1200分
这里的观测值有7个，分别是：
1.自己的血量
2.敌人的血量
3.招式一可使用次数
4.招式二可使用次数
5.招式三可使用次数
6.招式四可使用次数
7.补血可使用次数
可以选择action有5个，分别是：
1.招式一
2.招式二
3.招式三
4.招式四
5.补血

环境全部代码（pokemon_env.py）：
https://github.com/MichaelYipInGitHub/pokemon_pk/tree/main/com.michaelip.pokemon/pokemon_env.py
这里为什么将招式可用次数也归为观察值？因为当招式用完后如何处理，他是不能再出招了。
我一开始想法是，一个招式（比如打雷）的次数用完后，直接从神经网络输出的神经元抽掉一个，其他权重和偏差保持不变。但后来发现操作很复杂，如果算法不是神经网络，是一个table的话，可能容易操作一下，但涉及神经元后就比较麻烦，如果有哪位同学知道如何抽掉输出神经元而又保持其他权重和偏差不变的可以私信我讨论下。
这里我这样处理，如果招式用完后算法还是选中这个action的话，我会让这回合的奖励为0，没有奖励，让算法继续选一个action。同时招式的剩余数量也纳入观察值，意思是给机器知道，这招等于0 了，后面再怎么使用这个action， reward都是0.

本来也写了一个对方出招的function，就是判断所有招式用完后会自己输掉，但后面发现一个漏洞，就是比卡超一直用补血，在第六十多回合超梦就会用完所有招式而输掉，我初衷不是这样，所以这里让超梦可以无限出招，而我给出的补血药也是够用的，让算法自己找出一条最优策略。

搭建算法系统：
一开始我是考虑用DQN，或者policy gradient , 或者是PPO

在这里插入图片描述

算法模型全部代码如下（RL_brain_DQN.py）：

https://github.com/MichaelYipInGitHub/pokemon_pk/tree/main/com.michaelip.pokemon/RL_brain_DQN.py

这里建立两个神经网络，target_net 和 evaluate_net，两个网络结构相同，只是target网络的参数在一段时间后会被eval网络更新。
两层全连接，隐藏层神经元个数都是343个，最后先更新target_net ，用target_net - evaluate_net，意思就是选这个action后，这个action得到的reward和之前猜测的值有何不同，用来求误差。
每200步替换一次两个网络的参数，eval网络的参数实时更新，并用于训练 target网络的用于求loss，每200步将eval的参数赋给target实现更新。

这是运行文件（run_this.py）全部代码：
https://github.com/MichaelYipInGitHub/pokemon_pk/tree/main/com.michaelip.pokemon/run_this.py

一开始验证环境和模型是否正确，我们将超梦的等级调到40级，所有招式的威力一样，比卡超一一样，只留一招打雷，看最后训练出来的结果是不是每招都使用打雷。

在这里插入图片描述

结果：
在这里插入图片描述

在这里插入图片描述

So far so good~训练结果还是让人满意，到后面比卡超只会用打雷，损失值也慢慢减少，基本上后面都是赢。ok，我们恢复正常参数，让真实的50级比卡超PK 70级超梦！

在这里插入图片描述

对战开始：

在这里插入图片描述

到此为止， 50级的比卡超总算是能战胜超梦~但如果想提高胜率，还需要增加一些优化。
Epsilon 优化
因为我们每选一个action我都要随机判断，随机值大于epsilon （初始设置为0.9），用随机的action， which mean百分之十的记录是在探索新路，但随着我训练的增加，epsilon 也相应地增加，每次增加0.0001，也就说我的探索也逐渐减少。
在这里插入图片描述

讯享网# increasing epsilon self.epsilon = self.epsilon + self.epsilon_increment if self.epsilon < self.epsilon_max else self.epsilon_max

more_reward = 0 if action == 4 and self.hp_up_current_num > 0 and (self.my_current_hp / self.my_hp) < 0.63: more_reward = 800 elif (self.my_current_hp / self.my_hp) >= 0.63 and action in (0, 1, 2, 3): more_reward = 800 reward = 1 * (self._my_current_hp - self.my_current_hp) - 1 * (self._enemy_current_hp - self.enemy_current_hp) \ + more_reward

在这里插入图片描述

由上图所示，左边是没加奖励干预的，右边是加了奖励干预，加了干预的xue微收敛得快一点（虽然不是很明显/苦笑）。
但实际胜率还是挺高的，可以去到百分之九十！甚至百分之百！
在这里插入图片描述

后续
1.这里我只训练了400步，可以成功打赢70级超梦，胜率可以达到90%，但如果我疯狂训练，跑10万次：

在这里插入图片描述

但貌似跑到最后连赢都赢不了，误差还慢慢增大，我试过换成double DQN 去减少过拟合，但效果也不太理想，训练十万步还不如几百步的训练量好，莫非机器也闹情绪。。。
我也在尝试其他算法，就像PPO，就如我之前所料，很难收敛，但偏差得太厉害，有可能我参数试得不够，后续我可能会再试一试。
2.之前引导奖励80，尝试放大到，训练步数增大到5000步

讯享网 more_reward = 0 if action == 4 and self.hp_up_current_num > 0 and (self.my_current_hp / self.my_hp) < 0.63: more_reward =  elif (self.my_current_hp / self.my_hp) >= 0.63 and action in (0, 1, 2, 3): more_reward =

在这里插入图片描述

倒数一千局，局局都胜，成绩可以说相当骄人了，看来引导奖励是个key。

Thanks for watching!

Referrence:
https://mofanpy.com/
https://wiki.52poke.com/wiki/%E4%B8%BB%E9%A1%B5

2025年利用AI强化学习训练50级比卡超单挑70级超梦！

相关推荐