【游戏AI实例参考】2 – OpenAI Five for DOTA2(openai five知乎)

ChatGPT账号购买平台发布时间：2024-02-21 浏览量：16

I. OpenAI Five在Dota2中的模型详解

OpenAI Five是一种在Dota2游戏中操作多个英雄进行团队战役的AI模型。相比于之前的人工智能系统AlphaGo-Zero，OpenAI Five需要处理的特点数量更多，到达了19+2*#Pickups+8*#Units+9*#Heros。这使得OpenAI Five在语义信息的处理上超出了AlphaGo-Zero。

在与Dota2世界冠军团队OG的总决赛中，OpenAI Five以2比0的差异比分大败了对手。这一成功标志着OpenAI Five成为第一个在电竞游戏中击败世界冠军的AI，为人工智能在电子竞技领域的发展开辟了新的可能性。

A. OpenAI Five处理的特点数量远超AlphaGo-Zero

OpenAI Five需要处理的特点数量为19+2*#Pickups+8*#Units+9*#Heros。这些特点包括地图信息、单位属性和英雄属性等。相比于AlphaGo-Zero只需要处理固定大小的棋盘信息，OpenAI Five需要处理的特点数量更多，使其在语义信息方面更加丰富。

B. OpenAI Five与世界冠军Dota2团队OG的总决赛

在与OG的总决赛中，OpenAI Five以2比0的差异比分击败了对手。这一成功意味着OpenAI Five成为第一个在电竞游戏中击败世界冠军的AI。这一壮举对人工智能在电子竞技领域的利用具有重要意义，为AI的进一步发展提供了新的方向。

II. OpenAI Five在知乎引发的讨论

OpenAI Five的成功引发了人们对人工智能的讨论，特别是在知乎上。知乎是一个专业讨论人工智能领域话题的平台，人们在这里就人工智能的发展前景和道德问题进行了广泛的讨论。

A. OpenAI Five引发了关于人工智能的热烈讨论

OpenAI公司发布人工智能对话模型ChatGPT后在知乎引发了广泛讨论。人们对人工智能的未来发展前景进行了深入探讨，并对人工智能可能带来的道德问题进行了思考。

B. OpenAI Five在人机对抗中的意义

OpenAI Five的成功是人机对抗发展的一个重要里程碑。与OpenAI Five类似，Libratus和AlphaStar等系统也曾在人机对抗中击败了人类职业选手。这些例子表明决策智能在人机对抗中获得了重要进展。

III. OpenAI Five的团队合作机制

OpenAI Five的团队合作是由参数控制的。团队合作的程度影响着每一个AI英雄关注个人发展状态的程度。OpenAI Five在游戏中的训练量远超人类玩家，从自我训练中提取经验，类似于围棋AI的训练方法。

A. OpenAI Five的团队合作由参数控制

OpenAI Five的团队合作程度由参数控制，这影响了每一个AI英雄关注个人发展状态的程度。参数的调剂可使AI团队更重视个人发展，也能够使其更重视团队合作。这类团队合作机制使得OpenAI Five能够在Dota2中进行有效的团队协作。

B. OpenAI Five与人类玩家的差距

OpenAI Five在Dota2中的训练量远超人类玩家。OpenAI Five通过大量的自我训练来提取经验，并且能够从中学习到更优的策略。这类训练方式使得OpenAI Five能够超出人类玩家，并在与世界冠军团队OG的总决赛中获得成功。

IV. 其他基于游戏训练AI智能体的公司

除OpenAI，还有一些其他公司也在进行基于游戏训练的AI智能体研究。索尼和腾讯分别在《GT赛车》和《王者光荣》这两款游戏中进行了类似的研究，并获得了一定的成果。

A. 索尼和腾讯在游戏训练AI智能体方面的研究

索尼基于《GT赛车》进行了AI强化学习算法的研究，该研究成果登上了《Nature》杂志封面。腾讯则基于《王者光荣》进行了类似的研究，并在该游戏中获得了一定的突破。

B. 游戏训练AI智能体的发展趋势

愈来愈多的科技公司开始进行基于游戏训练的AI智能体研究。游戏训练提供了一个复杂但受控的环境，用于开发决策智能。通过不断的研究和发展，游戏训练AI智能体有望在未来获得更大的突破。

openai five知乎的进一步展开说明

2018年上半年备受关注的 OpenAI-Five DOTA2 5v5 AI

本文将对 OpenAI 团队在2018年上半年所开发的名为 OpenAI-Five 的 DOTA2 5v5 AI 进行详细研究和探究，旨在发掘一些对AI开发有用的信息。

OpenAI 团队在2017年年中已成功开发了一款名为影魔的 AI ，在与职业选手对战中取得了完胜。而这款在2018年开发的 AI 在天梯分上到达了平均6500分（最近情况不详，大概是全球前1000名），技术水平非常高。

一、OpenAI-Five 的收获

OpenAI-Five 从随机权重开始训练，为了不“策略崩溃”，80%的游戏和自己战役，20%的游戏和过去的自己战役，通过强化学习不断迭代训练。为了解决延迟嘉奖的问题，他们通过最大化未来嘉奖的指数衰减总和来解决。AI的团队性其实不是通过额外的团队策略机制实现的，而是通过团队平均嘉奖的情势来影响个体 AI 的决策。

通过超参数来决定 AI 对个体嘉奖和团队平均嘉奖的重视程度，博客原文中有这样一句：“We anneal its value from 0 to 1 over training”，从训练当选出最好的超参数。不过有一个疑问，这个超参数看起来应当在一场比赛中产生变化才公道，比如前期更重视个体嘉奖，后期更重视团队嘉奖，不知道这句原文是不是是这个意思。

原文中提到，DOTA2 游戏环境一次 tick 花费几毫秒，OpenAI-Five 每4帧获得一个样本，这意味着即便加速游戏运行，实际运行时仍需要每10毫秒~100毫秒获得一次样本，并没有具体说明。

原文中表示，每天相当于打了180年，因而可知同时并行训练了6480场比赛。他们使用了PPO算法进行强化学习，其中Actor网络结构为：输入网络 + 共享网络 + 输出网络。输入网络由层次结构的状态（约20000维）+ FC-relu + concat + max-pool 构成，共享网络由1024个节点的LSTM组成，最后的输出包括操作、技能X偏移、技能Y偏移、移动目标X、移动目标Y、传送目标、操作延迟帧数、选择目标共8个项目，每一个项目都是一个FC+Softmax分类网络。

在输入特点中，位置信息是绝对位置，还有单位类型、动作，都进行了嵌入，还有三个特点值需要特别注意：敌方攻击自己的信息（被友方英雄攻击是反补），过去12帧的血量信息（多是指短时间内的掉血情况），和与所有友方和敌方的距离，值得参考。

在输入网络中，不定数量的单位状态由FC以后的max-pool进行合并，这意味着所有单位使用的是同一组网络和参数，而max-pool则根据max位置的上一层单位网络迭代BP。

在输出网络中，操作输出网络在FC层输出向量与当前可履行操作的热编码向量进行点乘，而选敌输出网络则在FC输出向量与单位的attention keys进行点乘。OpenAI的APM为150⑴70。

使用二元嘉奖效果更好。除包括终究的成功，还将中间的小嘉奖纳入斟酌范围，这样训练更加安稳，效果更好。而且区别于分层强化学习的方法，OpenAI-Five直接使用了一个5分钟半衰期的嘉奖衰减系数来实现长时间期望。

技能加点和物品租赁是通过脚本完成的。根据公然的信息，推测一天大约进行了23万场比赛，总计6天，总训练场次约为140万。

结论：总的来讲，OpenAI-Five 的方法相对来讲比较简单朴素。通常来讲，解决复杂的强化学习问题需要应对以下几个挑战和相应的解决方案：状态空间巨大，解决方法可以是先通过World Models进行抽象，然后再做决策；局面不完全可见，一般需要进行搜索，比如AlphaGo的蒙特卡洛树搜索；动作空间巨大，可使用模仿学习或结合层次强化学习的方法解决；时间尺度长，可以采取时间维度上的层次强化学习来解决这个问题。

使人惊讶的是，OpenAI并没有使用上述任何方法，而仅仅通过使用高gamma值的PPO基础算法就解决了所有这些挑战。这表明，通过大量的计算，强化学习的基础算法也能应对这些挑战。另外，虽然World Models、MCTS、IL、HRL等方法是学术界目前研究重点，但OpenAI-Five并没有使用这些方法，这或许说明了OpenAI-Five的潜伏提升空间。将这些更高效的方法公道利用，可以加速模型的学习速度，增强模型的迁移能力，帮助模型突破当前的限制。

另外，OpenAI-Five在工程特性方面表现出色，可以从reward数值的设置和调剂、输入特点和输出网络处理等方面看出。这些细节处理为基于规则的游戏AI和基于机器学习的游戏AI开发提供了思路。

二、OpenAI-Five DOTA2的嘉奖细节

下面是DOTA2专家给出的具体嘉奖信息，经过微调：

2.1 个体属性嘉奖：击杀一个英雄取得的嘉奖是负值，以抵消击杀所带来的过大嘉奖，例如经验和金钱。

2.2 建筑嘉奖：根据血量百分比的线性函数计算，建筑嘉奖 = 权重 * (1 + 2 * 血量百分比)。

另外还有一些额外的团队嘉奖：

2.3 分路嘉奖：游戏开始时，为每一个英雄分配一条“线”（分路），如果离开这条路就会遭到0.02的惩罚，以此来培养AI对“线”的概念。

2.4 零和嘉奖：每一个英雄的嘉奖都要减去敌方队伍嘉奖的均值：hero_rewards[i] -= mean(enemy_rewards)。这主要是为了避免共赢的情况，虽然实际上是嘉奖设置不完善，但目前没有更好的解决方法。

2.5 嘉奖随时间缩放：为了突出前期的重要性，将reward使用下面的公式进行缩放，减小后期的嘉奖：hero_rewards[i] *= 0.6 ** (T/10 min)。

三、总结

总的来讲，OpenAI-Five的方法比较简单直接。一般来讲，解决复杂的强化学习问题需要应对状态空间巨大、局面不完全可见、动作空间巨大和时间尺度长等挑战，而OpenAI-Five并没有使用这些方法，却能通太高gamma值的PPO基础算法解决。这表明，通过大量计算，强化学习的基础算法也能解决这些挑战。而World Models、MCTS、IL、HRL等方法被广泛研究，这或许意味着OpenAI-Five还存在潜伏的提升空间。如果能公道使用这些更高效的方法，可以加快模型的学习速度，增强模型的迁移能力，并帮助模型突破现有的限制。

另外，OpenAI-Five在工程特性方面表现出色。从嘉奖数值的设置和调剂、输入特点和输出网络的处理等细节可以看出，这些处理为基于规则的游戏AI和基于机器学习的游戏AI的开发提供了思路。

openai five知乎的常见问答Q&A

问题1：OpenAI-Five 模型是甚么？

答案：OpenAI-Five 是由OpenAI开发的一种人工智能模型，专门设计用于在Dota 2游戏中进行5v5团队战役。它由多个神经网络组成，通过强化学习的方法进行训练和优化。OpenAI-Five不单单是一个个体AI，而是一个多智能体系统，可以与其他AI智能体合作，实现团队协作和策略制定。

OpenAI-Five使用的核心算法是PPO（Proximal Policy Optimization），它能够根据当前的状态和嘉奖，选择最优的行动策略，并通过不断迭代和优化来提高表现。
OpenAI-Five在训练进程中，通过与本身对战和与过去本身对战等方式进行强化学习，以不断提高游戏水平和策略。
OpenAI-Five的训练装备包括256个GPU和128,000个CPU，其训练量相当于人类玩家180年的积累。

TikTok千粉号购买平台：https://tiktokusername.com/