一个AI玩41个游戏,谷歌最新多游戏决策Transformer综合表现分是DQN的两倍
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
谷歌AI宣布,在 多任务学习 上取得了巨大进展: 他们搞出一个会玩41款雅达利游戏的AI,而且采用的新训练方法比起其他算法, 训练效率大大提升 ! 此前会玩星际争霸的CherryPi和火出圈的AlphaGo都属于 单游戏 智能体 (Agent) ,也就是说,一个AI只会玩一种游戏。 多游戏 智能体这边, 现有的训练 算法屈指可数:主要包括时间差分学习算法 (Temporal Difference Learning,TD) 和行为克隆 (Behavioral Cloning,BC) 等。 不过为了让一个智能体同时学会玩多款游戏,之前的这些方法的训练过程都很漫长。 现在, 谷歌采用了一个新 决策Transformer 架构来训练智能体,能够在少量的新游戏数据上迅速进行微调,使训练速度变得更快,而且训练效果也是杠杠的—— 该多游戏智能体玩41款游戏的表现综合得分,是DQN等其他多游戏智能体的2倍左右,甚至可以和只在单个游戏上训练的智能体媲美。 △ 100%表示每款游戏的人类平均水平,灰色条代表单游戏智能体,蓝色条代表多游戏智能体 下面就来看看这个性能优秀的多游戏智能体。
新决策Transformer三大亮点这个处理多款游戏学习的Transformer,采用了一个将强化学习 ( Reinforcement Learning,RL) 问题视为条件序列建模的架构,它根据智能体和环境之间过去的互动以及预期收益,来指导智能体的下一步活动。 说到强化学习,其讨论的主要问题是:在训练过程中,一个面对复杂环境的智能体,如何通过在每个Time Step里感知当前状态和Reward来指导下一步动作,以最终最大化累计收益 (Return) 。 传统的深度RL智能体 (如DQN、SimPLe、Dreamer等) 会学习一个策略梯度 (Policy Gradient) ,让高Reward的轨迹出现概率变大,低Reward的轨迹出现概率变小。 这就导致它出现一些问题:即需要手动定义一个信息量很大的标量值范围,包含针对于每个特定游戏的适当信息。这是个相当浩大的工程,而且拓展性较差。 为了解决这个问题,谷歌团队提出了一个新方法。
训练纳入数据更多样化谷歌的这个新决策Transformer,把从入门玩家到高级玩家的经验数据都映射到相应的收益量级 (Return Magnitude) 中。 开发者们认为,这样可以让AI模型更全面地“了解”游戏,从而让其更稳定并提高其玩游戏的水平。 他们根据智能体在训练期间与环境的互动,建立了一个收益的大小分布模型。在这个智能体玩游戏时,只需添加一个优化偏差来提升高Reward出现的概率。 此外,为了在训练期间更全面地捕捉智能体与环境互动的时空模式,开发者还将输入的全局图像改成了像素块,这样模型就可以关注局部动态,以掌握游戏相关的更多细节信息。 △ 决策Transformer基本架构示意图
99科技网:http://www.99it.com.cn
