【游戏AI实例参考】2 – OpenAI Five for DOTA2(openai five知乎)

I. OpenAI Five在Dota2中的模型详解

OpenAI Five是一种在Dota2游戏中操作多个英雄进行团队战役的AI模型。相比于之前的人工智能系统AlphaGo-Zero,OpenAI Five需要处理的特点数量更多,到达了19+2*#Pickups+8*#Units+9*#Heros。这使得OpenAI Five在语义信息的处理上超出了AlphaGo-Zero。

在与Dota2世界冠军团队OG的总决赛中,OpenAI Five以2比0的差异比分大败了对手。这一成功标志着OpenAI Five成为第一个在电竞游戏中击败世界冠军的AI,为人工智能在电子竞技领域的发展开辟了新的可能性。

A. OpenAI Five处理的特点数量远超AlphaGo-Zero

OpenAI Five需要处理的特点数量为19+2*#Pickups+8*#Units+9*#Heros。这些特点包括地图信息、单位属性和英雄属性等。相比于AlphaGo-Zero只需要处理固定大小的棋盘信息,OpenAI Five需要处理的特点数量更多,使其在语义信息方面更加丰富。

B. OpenAI Five与世界冠军Dota2团队OG的总决赛

在与OG的总决赛中,OpenAI Five以2比0的差异比分击败了对手。这一成功意味着OpenAI Five成为第一个在电竞游戏中击败世界冠军的AI。这一壮举对人工智能在电子竞技领域的利用具有重要意义,为AI的进一步发展提供了新的方向。

II. OpenAI Five在知乎引发的讨论

OpenAI Five的成功引发了人们对人工智能的讨论,特别是在知乎上。知乎是一个专业讨论人工智能领域话题的平台,人们在这里就人工智能的发展前景和道德问题进行了广泛的讨论。

A. OpenAI Five引发了关于人工智能的热烈讨论

OpenAI公司发布人工智能对话模型ChatGPT后在知乎引发了广泛讨论。人们对人工智能的未来发展前景进行了深入探讨,并对人工智能可能带来的道德问题进行了思考。

B. OpenAI Five在人机对抗中的意义

OpenAI Five的成功是人机对抗发展的一个重要里程碑。与OpenAI Five类似,Libratus和AlphaStar等系统也曾在人机对抗中击败了人类职业选手。这些例子表明决策智能在人机对抗中获得了重要进展。

III. OpenAI Five的团队合作机制

OpenAI Five的团队合作是由参数控制的。团队合作的程度影响着每一个AI英雄关注个人发展状态的程度。OpenAI Five在游戏中的训练量远超人类玩家,从自我训练中提取经验,类似于围棋AI的训练方法。

A. OpenAI Five的团队合作由参数控制

OpenAI Five的团队合作程度由参数控制,这影响了每一个AI英雄关注个人发展状态的程度。参数的调剂可使AI团队更重视个人发展,也能够使其更重视团队合作。这类团队合作机制使得OpenAI Five能够在Dota2中进行有效的团队协作。

B. OpenAI Five与人类玩家的差距

OpenAI Five在Dota2中的训练量远超人类玩家。OpenAI Five通过大量的自我训练来提取经验,并且能够从中学习到更优的策略。这类训练方式使得OpenAI Five能够超出人类玩家,并在与世界冠军团队OG的总决赛中获得成功。

IV. 其他基于游戏训练AI智能体的公司

除OpenAI,还有一些其他公司也在进行基于游戏训练的AI智能体研究。索尼和腾讯分别在《GT赛车》和《王者光荣》这两款游戏中进行了类似的研究,并获得了一定的成果。

A. 索尼和腾讯在游戏训练AI智能体方面的研究

索尼基于《GT赛车》进行了AI强化学习算法的研究,该研究成果登上了《Nature》杂志封面。腾讯则基于《王者光荣》进行了类似的研究,并在该游戏中获得了一定的突破。

B. 游戏训练AI智能体的发展趋势

愈来愈多的科技公司开始进行基于游戏训练的AI智能体研究。游戏训练提供了一个复杂但受控的环境,用于开发决策智能。通过不断的研究和发展,游戏训练AI智能体有望在未来获得更大的突破。

openai five知乎的进一步展开说明

2018年上半年备受关注的 OpenAI-Five DOTA2 5v5 AI

本文将对 OpenAI 团队在2018年上半年所开发的名为 OpenAI-Five 的 DOTA2 5v5 AI 进行详细研究和探究,旨在发掘一些对AI开发有用的信息。

OpenAI 团队在2017年年中已成功开发了一款名为影魔的 AI ,在与职业选手对战中取得了完胜。而这款在2018年开发的 AI 在天梯分上到达了平均6500分(最近情况不详,大概是全球前1000名),技术水平非常高。

一、OpenAI-Five 的收获

OpenAI-Five 从随机权重开始训练,为了不“策略崩溃”,80%的游戏和自己战役,20%的游戏和过去的自己战役,通过强化学习不断迭代训练。为了解决延迟嘉奖的问题,他们通过最大化未来嘉奖的指数衰减总和来解决。AI的团队性其实不是通过额外的团队策略机制实现的,而是通过团队平均嘉奖的情势来影响个体 AI 的决策。

通过超参数来决定 AI 对个体嘉奖和团队平均嘉奖的重视程度,博客原文中有这样一句:“We anneal its value from 0 to 1 over training”,从训练当选出最好的超参数。不过有一个疑问,这个超参数看起来应当在一场比赛中产生变化才公道,比如前期更重视个体嘉奖,后期更重视团队嘉奖,不知道这句原文是不是是这个意思。

原文中提到,DOTA2 游戏环境一次 tick 花费几毫秒,OpenAI-Five 每4帧获得一个样本,这意味着即便加速游戏运行,实际运行时仍需要每10毫秒~100毫秒获得一次样本,并没有具体说明。

原文中表示,每天相当于打了180年,因而可知同时并行训练了6480场比赛。他们使用了PPO算法进行强化学习,其中Actor网络结构为:输入网络 + 共享网络 + 输出网络。输入网络由层次结构的状态(约20000维)+ FC-relu + concat + max-pool 构成,共享网络由1024个节点的LSTM组成,最后的输出包括操作、技能X偏移、技能Y偏移、移动目标X、移动目标Y、传送目标、操作延迟帧数、选择目标共8个项目,每一个项目都是一个FC+Softmax分类网络。

在输入特点中,位置信息是绝对位置,还有单位类型、动作,都进行了嵌入,还有三个特点值需要特别注意:敌方攻击自己的信息(被友方英雄攻击是反补),过去12帧的血量信息(多是指短时间内的掉血情况),和与所有友方和敌方的距离,值得参考。

在输入网络中,不定数量的单位状态由FC以后的max-pool进行合并,这意味着所有单位使用的是同一组网络和参数,而max-pool则根据max位置的上一层单位网络迭代BP。

在输出网络中,操作输出网络在FC层输出向量与当前可履行操作的热编码向量进行点乘,而选敌输出网络则在FC输出向量与单位的attention keys进行点乘。OpenAI的APM为150⑴70。

使用二元嘉奖效果更好。除包括终究的成功,还将中间的小嘉奖纳入斟酌范围,这样训练更加安稳,效果更好。而且区别于分层强化学习的方法,OpenAI-Five直接使用了一个5分钟半衰期的嘉奖衰减系数来实现长时间期望。

技能加点和物品租赁是通过脚本完成的。根据公然的信息,推测一天大约进行了23万场比赛,总计6天,总训练场次约为140万。

结论:总的来讲,OpenAI-Five 的方法相对来讲比较简单朴素。通常来讲,解决复杂的强化学习问题需要应对以下几个挑战和相应的解决方案:状态空间巨大,解决方法可以是先通过World Models进行抽象,然后再做决策;局面不完全可见,一般需要进行搜索,比如AlphaGo的蒙特卡洛树搜索;动作空间巨大,可使用模仿学习或结合层次强化学习的方法解决;时间尺度长,可以采取时间维度上的层次强化学习来解决这个问题。

使人惊讶的是,OpenAI并没有使用上述任何方法,而仅仅通过使用高gamma值的PPO基础算法就解决了所有这些挑战。这表明,通过大量的计算,强化学习的基础算法也能应对这些挑战。另外,虽然World Models、MCTS、IL、HRL等方法是学术界目前研究重点,但OpenAI-Five并没有使用这些方法,这或许说明了OpenAI-Five的潜伏提升空间。将这些更高效的方法公道利用,可以加速模型的学习速度,增强模型的迁移能力,帮助模型突破当前的限制。

另外,OpenAI-Five在工程特性方面表现出色,可以从reward数值的设置和调剂、输入特点和输出网络处理等方面看出。这些细节处理为基于规则的游戏AI和基于机器学习的游戏AI开发提供了思路。

二、OpenAI-Five DOTA2的嘉奖细节

下面是DOTA2专家给出的具体嘉奖信息,经过微调:

2.1 个体属性嘉奖:击杀一个英雄取得的嘉奖是负值,以抵消击杀所带来的过大嘉奖,例如经验和金钱。

2.2 建筑嘉奖:根据血量百分比的线性函数计算,建筑嘉奖 = 权重 * (1 + 2 * 血量百分比)。

另外还有一些额外的团队嘉奖:

2.3 分路嘉奖:游戏开始时,为每一个英雄分配一条“线”(分路),如果离开这条路就会遭到0.02的惩罚,以此来培养AI对“线”的概念。

2.4 零和嘉奖:每一个英雄的嘉奖都要减去敌方队伍嘉奖的均值:hero_rewards[i] -= mean(enemy_rewards)。这主要是为了避免共赢的情况,虽然实际上是嘉奖设置不完善,但目前没有更好的解决方法。

2.5 嘉奖随时间缩放:为了突出前期的重要性,将reward使用下面的公式进行缩放,减小后期的嘉奖:hero_rewards[i] *= 0.6 ** (T/10 min)。

三、总结

总的来讲,OpenAI-Five的方法比较简单直接。一般来讲,解决复杂的强化学习问题需要应对状态空间巨大、局面不完全可见、动作空间巨大和时间尺度长等挑战,而OpenAI-Five并没有使用这些方法,却能通太高gamma值的PPO基础算法解决。这表明,通过大量计算,强化学习的基础算法也能解决这些挑战。而World Models、MCTS、IL、HRL等方法被广泛研究,这或许意味着OpenAI-Five还存在潜伏的提升空间。如果能公道使用这些更高效的方法,可以加快模型的学习速度,增强模型的迁移能力,并帮助模型突破现有的限制。

另外,OpenAI-Five在工程特性方面表现出色。从嘉奖数值的设置和调剂、输入特点和输出网络的处理等细节可以看出,这些处理为基于规则的游戏AI和基于机器学习的游戏AI的开发提供了思路。

openai five知乎的常见问答Q&A

问题1:OpenAI-Five 模型是甚么?

答案:OpenAI-Five 是由OpenAI开发的一种人工智能模型,专门设计用于在Dota 2游戏中进行5v5团队战役。它由多个神经网络组成,通过强化学习的方法进行训练和优化。OpenAI-Five不单单是一个个体AI,而是一个多智能体系统,可以与其他AI智能体合作,实现团队协作和策略制定。

  • OpenAI-Five使用的核心算法是PPO(Proximal Policy Optimization),它能够根据当前的状态和嘉奖,选择最优的行动策略,并通过不断迭代和优化来提高表现。
  • OpenAI-Five在训练进程中,通过与本身对战和与过去本身对战等方式进行强化学习,以不断提高游戏水平和策略。
  • OpenAI-Five的训练装备包括256个GPU和128,000个CPU,其训练量相当于人类玩家180年的积累。

ChatGPT相关资讯

ChatGPT热门资讯

X

截屏,微信识别二维码

微信号:muhuanidc

(点击微信号复制,添加好友)

打开微信

微信号已复制,请打开微信添加咨询详情!