星际争霸2战役攻略,星际争霸2的战役顺序是怎样的
作者:本站作者1,星际争霸2的战役顺序是怎样的
据我所知...星际2现在和一部网络对战游戏差不多,既然是网络对战,应该能存档,但是呢,暴雪它偏偏不在单机中放这个功能!等到正式版出来才有吧...
展开全部 《自由之翼》下来《虫群之心》下来《虚空之遗》
展开全部 自由之翼(吉姆雷诺救出凯丽甘) ——群虫之心(剀姐终结了蒙斯克的统治)——虚空之遗(剀姐成神)
2,星际争霸2自由之翼战役“超新星”怎么打??
这关给的是女妖轰炸机 两种打法,残酷都可行。
1,放弃女妖,枪兵+掠夺+医疗船,一片矿一片矿的推进,躲好闪电,就行。
2,只用少量防守部队,不停出女妖,尽可能多,然后基地飘到地图右下角 等待大火焚烧,在火即将要烧到的时候(敌人兵也烧差不多了)女妖齐上轰炸。
制作背景
游戏描述了26世纪初期,位于银河系中心的三个种族在克普鲁星际空间中争夺霸权的故事。三个种族分别是:地球人的后裔人族(Terran)、一种进化迅速的生物群体虫族(Zerg),以及一支高度文明并具有心灵力量的远古种族神族(Protoss)。游戏三个独特种族的创新设计得到了好评。
《星际争霸》提供了一个游戏战场,用以玩家之间进行对抗。这也是该游戏以及所有即时战略游戏的核心内容。在这个游戏战场中,玩家可以操纵任何一个种族,在特定的地图上采集资源,生产兵力,并摧毁对手的所有建筑取得胜利。游戏同时为玩家提供了多人对战模式。
在韩国这一项目尤为盛行,并发展出了职业的游戏比赛。大量选手在电视联赛上进行对抗,赢得了很高的知名度。
3,星际争霸2自由之翼单人战役一共有几个任务?还想要任务的简介和成...
26个其中有一些是分支,有一关是隐藏关,隐藏关要在奥丁奇袭那一关的右下角那里打爆下面的一个实验室,直接A掉他就会有一个机密文件出来,捡到那个机密文件过了关在舰桥的星图那里就会有一个隐藏关出现。
一共是26个,其中一个是隐藏任务,打开方式是在任务(惊爆内幕)中,五点钟方向过桥摧毁红色建筑物,好想叫什么研究所的,如楼上说的,掉出一个机密文件,解锁隐藏关,再加上其他二十五个任务,共二十六个任务,祝楼主游戏愉快!!
正常是25个任务,有分支任务可以选择。
一共26个任务,详情请搜索“星际争霸2攻略”
4,星际争霸2战役攻略
守护圣物那关?
要是那关的话你需要在一开始就行动起来。开始给你MM拿着 些兵把所有的部队救下来,顺便清理干净埋地狗和刺蛇。用救来的人和吃到的水晶转化成少量护士和大量枪兵,并且上方的口需要房子堵口,并钻里4个MM并且在补一个地堡,然后再堵下面的口。然后先从最下面的基地开刀。一开始等下面的第一波兵冲出来清理干净后就要动手了。现上高地把守高地的怪清理干净然后再上去瞬间秒杀坑道虫,因为主要来兵就是他。基地造不出几个兵。然后优先点地堡,刺蛇。其余的后收拾就赶趟。下面的基地清理完毕。这是下面就不会刷兵。然后再从下面直接往里冲。灭了几个地堡马上就能看见坑道虫,干掉后下面就又能清理干净了。关键就是上面的高地。4个(好像4个N久不玩了)地堡加上虫族算是主力都在那里兵力不够是绝对冲不上去的。如果那里冲下来了就基本完成了。然后就集结4伙力量在他的4个基地处进行三角式巡逻。然后就观看80级牛头人陆战队员并等待胜利吧。基本上坑道冲后期刷出来控制一下先点掉他就没兵了。其余的兵力都守在2个入口处。空头那几个狗子和农民造地堡直接几个兵就能消灭。
前期注意家里高地下2防空塔处留MM防第一波飞龙。然后高地上方上侧补上1防空塔防飞龙,并且地堡后期要进机枪防空头。记得上侧入口最少留3农民开自动维修。是兵营堵口还是房子自定,当然要有2个地堡和足够维修堵口建筑的空间,卡死了很容易被刺蛇点掉地堡。
5,星际2战役成就残酷难度攻略
这个需要多打几遍 残酷的要是不选对科技很难全通 全成就那更是…… 这个就是这么设定的 以免刷军费 最好的方法是:普通 攒军费顺便拿下8小时 残酷 有钱就升级(当然一些没用的就不要升),29关全任务拿下K姐头像 总共2遍 时间上24小时足够
说真的,大部分成就都是比较容易,唯独个别关卡的个别难拿而已,我是直接开了修改器,开了无敌才全部拿完,不然的话就要无限读取,都快疯了,读取了几十次
不算时间 只算你打任务的时候的时间 我这边有个存挡 载入后直接拿到 需要的话留信箱
6,星际争霸2秘籍大全。
1、WhatIsBestInLife立刻获胜
2、LetsJustBugOutAndCallItEven立刻失败
3、TookTheRedPill取消战争迷雾
4、Bunker55AliveInside无限人口
5、TerribleTerribleDamage开启无敌模式
6、SpectralTiger增加5000晶矿
7、RealMenDrillDeep增加5000气矿
8、WhoRunBartertown增加5000晶矿+气矿
9、SoSayWeAll取消科技的要求
简介:
《星际争霸》(StarCraftⅡ)是由暴雪娱乐在2010年7月27日推出的一款即时战略游戏,是《星际争霸》系列的第二部作品。游戏以三部曲的形式推出,即《星际争霸Ⅱ:自由之翼》(Wings of Liberty)、《星际争霸Ⅱ:虫群之心》(Heart of the Swarm)和《星际争霸Ⅱ:虚空之遗》(Legacy of the Void)。
《星际争霸Ⅱ》剧情上延续了《星际争霸》初代作品的剧情和世界观,保留了一些《星际争霸》的兵种与建筑,同时一些兵种被赋予了新的技能,一些兵种被淘汰或代替了。旧有兵种、升级兵种以及全新的兵种一一登场,为了各自种族的生存,展开搏杀,战火烧遍整个星系。
游戏结构类似于《星际争霸》,主要的游戏技巧着重在资源上,玩家用采集的资源建造不同的建筑、军队并进行升级。
7,星际争霸2存档位置
星际争霸2存档位置文件是放在“我的文档”—“StarCraft IIAccounts126059073-S2-2-43417Saves”。 1. 点击“Campaign”,进入已经保存的战役进度文件。 2. 如果当时忘记了保存怎么办,星际2拥有强大的自动保存功能,打开“C:Documents and Settings管理员My DocumentsStarCraft IIAccounts126059073-S2-2-43417Saves” 3. 点击“Unsaved”,就可以找到之前系统自动保存的战役任务星际争霸2存档进度文件了。
我的文档下StarCraft II文件夹中SAVES 及ACCONTS下一串数字的文件夹下一个数字和字母在一起的文件夹下SAVES
在SAVES文件夹中,就在星际争霸2的目录下面哦,望采纳亲
c盘里,存在c:users我的用户名documentsstarcraft II下,users就是“用户”,“documents”是文档,在c盘下可能显示的文件夹名不是英文的,而是中文的。
我的是在我的文档里 打开地图编辑器 点击打开 浏览的文件夹 就是存地图的那个与存档在同一目录下,存地图的每个文件夹里找找,存档地图编辑器可以打开 我有过这样找的经历
My DocumentsStarCraft IISaves
8,星际争霸2秘籍大全
WhatIsBestInLife 立刻获胜
LetsJustBugOutAndCallItEven 立刻失败
TookTheRedPill 取消战争迷雾
Bunker55AliveInside 无限人口
TerribleTerribleDamage 开启无敌模式
SpectralTiger 增加5000晶矿
RealMenDrillDeep 增加5000气矿
WhoRunBartertown 增加5000晶矿+气矿
SoSayWeAll 取消科技的要求
IAmIronMan 立刻获得所有升级
CatFoodForPrawnGuns 开启快速建造和升级
HanShotFirst 取消技能冷却时间
TyuHasLeftTheGame 取消胜利条件,可以无限游戏下去
NeverGiveUpNeverSurrender 允许战败后继续游戏
ImADoctorNotARoachJim 开启单位快速治愈
MoreDotsMoreDots 取消所有单位和建筑费用
剧情模式作弊码 效果描述>>效果演示
WhySoSerious 获得500万资金
LeaveYourSleep 解锁所有剧情任务(可以选择任意任务)
EyeOfSauron 解锁所有剧情影片(必须在任务场景之外使用-如在海伯利昂号中使用)
StayClassyMarSara 解锁所有UNN新闻播报
HoradricCube 解锁所有获得研究科技
自定义地图作弊码 效果描述
Jaynestown 获得5000 Terrazine资源
《星际争霸2》操作常识及各种族小技巧
尽管对于很多玩过星际的玩家,甚至是很多的war3玩家来说,下列很多常识和技巧对于他们来说已经是耳熟能详了,我们还是希望带给广大玩家一些实用的技巧。
1.玩家可以通过点击左键来选中单位,也可以通过拖拽选择框来选择群组单位。
2.在按住shift键的同时选中单位或拖动选择框,可以在玩家的既定分组中加入单位。
3.同样的,玩家也可以通过在按住shift键的同时点击某单位来将其从某个组队中删除。
4.按住CTRL键的同时点击某个单位可以将屏幕中所有该类单位选中。
5.按住shift+ctrl键的同时点击某单位可以将该类单位加入玩家的既定分组中。
6.同样的,在按住shift+ctrl键的同时点击某单位也可以将该类单位从某分组中删除。
7.点击右键可以让某一单位执行命令。如果玩家点击某一区域,单位就会像该区域移动;点击敌方的单位,部队便会对其发起攻击;右键单击盟友或者己方单位,部队就会自动跟随该单位;选中农民并右键单击在矿区,农民便会自动进行资源采集。
8.A键位攻击键,选中某单位并用A键点击敌方部队,己方单位便会对其进行攻击。A键与移动命令有所不同,移动命令只会让己方单位穿过某单位而不会对其进行攻击;A键也称作移动攻击命令,俗称A地面,是我们在游戏中最常使用的命令。
9.另外一种让部队进行攻击的热键是按住shift键的同时右键地面。
10.产兵建筑有一个集结点功能,它能给生产出来的单位设定一个统一的出生点,选中某建筑,然后右击某区域或单位便可设立集结点。
11.与星际1不同的是,从产兵单位中出来的单位在走向集结点的过程中如果遇到敌方单位会自动发起攻击,而不是忽略敌方单位。
12.用左键点击某一移动单位的头像,游戏画面会自动追踪该单位的移动。
13.总的来说,左键用于选择单位或技能,右键用于执行命令,shift键用于添加或删除某一单位,shift+ctrl用于添加或剔除某一类单位。
9,史上最囧挑战全关卡图文攻略_
游戏简介:最囧挑战是全新上线的爆笑烧脑游戏。游戏包含66关设计搞笑的囧谜题,每一关看似简单却充满挑战,要想通关并非易事。快来跟你的好友一起挑战思维极限!圣诞节来临,最囧挑战新增了圣诞元素,并祝每一位玩家圣诞快乐。希望大家能够在游戏中度过一个轻松、有趣的节日。最囧挑战是一款全新的免费益智游戏,包含了一系列荒谬搞笑的脑经急转弯谜题,每一关都是对你智商和思维的全面挑战。千万小心,要想不被谜题骗到,就必须脑力全开,摈弃之前所有传统过时的老套思维。游戏中,每一道谜题都是独一无二的,需要你不断地思考和尝试,什么创新思维、逆向思维、联想思维、发散思维,脑汁榨干了都还嫌不够。但在谜题的挑战中,我们也能不断发现游戏的各种乐趣,发出“原来游戏还可以这样玩”的感叹。因此,这也是一款最适合跟家人和朋友聚会时一起玩的游戏。
最囧挑战第1关攻略:
把“按钮”图标拖走能看到“真正的按钮”图标,点击“真正的按钮”图标10次即可过关
最囧挑战第2关攻略:
输入设备当前时间,点击“提交”即可过关。
最囧挑战第3关攻略:
本关需要注意的是题目中的“所有东西”,因此要把题目也一起放入冰箱中(句号也要)。
最囧挑战第4关攻略:
本关需要注意的是题目要求的是水果,因此从小到大切草莓、石榴、西瓜即可过关。
最囧挑战第5关攻略:
点击“B.2”即可过关。
后续答案请见:网页链接
10,星际争霸2战役全剧情
是这样的。塞尔纳加是创造神族和虫族的造物主,他们先创造了神族,然后于艾尔传授了神族卡哈之道(光明圣堂武士的终极教义),但是他们发现神族这个种族呆板而且统治方式落后,科技和政体差异太大使他们放弃了神族,而创造了一个全新的种族虫族,神族对塞尔纳加的抛弃感到无助和憎恨,但是他们也坚持着自己的生活方式,创造了宇宙最先进的文明,并且爆发了黑暗圣堂武士的驱逐之战(跟ADUN有关,黑暗圣堂武士本来因该被Adun处绝,但是dun却牺牲了自己,选择把黑暗圣堂武士们流放到了无尽的虚空,黑暗圣堂武士从此在行星Sakuras建立了家园,也是现在神族的居住地{母巢之战里的神族第一关就是逃离艾尔})。而当塞尔纳加创造了虫族之后,也创造出了虫族的终极主宰,主脑。但是主脑在学习中发现,他不想被塞尔纳加控制,于是发生了叛变,将塞尔纳加的整个殖民舰队给毁灭了(塞尔纳加有没有被灭族并没有详细说明,但是从此就没有了音讯,有说法是被灭族了,也有说法是黑暗之音就是塞尔纳加以前被放逐的背叛者,而mobiles fundation和一代的Samirel Duran 也是为他工作的。神族被灭族只是个预言,在二带里刀锋女王并没有死,而是被净化了,所以预言被打破。虫族的命运等下个资料片来揭晓,神族目前应该是空前的团结吧,毕竟没有了种族歧视,光明和黑暗派并肩作战。
自由之翼的大致是雷诺在打蒙斯克时中途出来个泰克斯,要让雷诺找神族神器,好发财,雷诺抢了蒙斯克的矿场,弄到了第一块碎片,突然虫族进攻,快顶不住时海伯利昂号来把他们接走了,接着继续打神族,抢神器,中间他们劫了蒙斯克的火车,泰克斯偷了蒙斯克的奥丁(巨型雷神),大闹克哈行星,发布了蒙斯克的反面信息,收集齐了碎片,要交给的那个人竟是小蒙斯克,最后和小蒙斯克联合起来撬翻了虫族母星(查尔行星),用神器恢复凯利根(雷诺未婚妻、刀锋女王)原来的样子,泰克斯为了什么阴谋(很复杂,一时半会儿说不清)想杀了凯利根,结果被雷诺反杀……(结束)
救回了女王推帝国.女王又被控制.神族再去救
《自由之翼》还是《虫群之心》?官网和论坛都有很完整的,自己去看吧
11,星际2攻略。。
星际2剧情战役攻略: http://www.sc2p.com/zhanyi/
作弊码 效果 TerribleTerribleDamage 无敌模式 WhySoSerious 5,000,000,000资金(剧情模式) MoreDotsMoreDots 取消建造建筑费用 YpoonsVoicemail 取消失败条件 TyuHasLeftTheGame 取消胜利的条件 SoSayWeAll 取消科技的要求 Stroaksmolts 5,000晶矿 Smoldersbolds 5,000晶矿+气矿 RealMenDrillDeep 获得5000单位的气矿 IAmIronman 武器,盔甲,盾牌升1级,研究所有技能 EyeOfSauron 解锁所有剧情影片(必须在任务场景之外使用-如在海伯利昂号中使用) JaynesTown 获得更多的资源 FSBComunicacion 快速治疗 ReversingNazaire 快速建筑 DZMHairSpring 资源自定义?需要测试,可能格式:"DZMHairSpring<#>" SawnOutOfMemory 消除迷雾效果 Qrotero 取消日夜交替 MintmansOperator 无限人口 CadEasyGoin 立刻失败 cMethodFeedback 立刻获胜 LyingPect 剧情任务选择 WapBoinkers 获得研究点数(剧情模式) HanShotFirst 取消技能冷却时间 Furabranchery 打开UNN新闻播报列表(剧情模式) OverEngineeredCodPiece 播放歌曲"Terran up the Night"
希望本回答对您有用,祝您游戏愉快,更多星际2最新信息请前往 星际派 www.sc2p.com 查看
星际2的所有秘籍请看这里: http://sc2.178.com/201008/74731014569.html 关于单人战役攻略你可以看这里: http://sc2.178.com/201008/75597032881.html
12,1-10落败,5分钟崩盘:星际2职业高手史上首次被AI击溃,AlphaStar...
编者按:本文来自微信公众号“量子位”(ID:QbitAI),作者 边策 栗子 夏乙。36氪经授权转载。
5分36秒的战斗后,LiquidMaNa打出:GG。
DeepMind开发的全新AI程序AlphaStar,在今天凌晨的《星际争霸2》人机大战直播节目中,轻松战胜2018 WCS Circuit排名13、神族最强10人之一的MaNa。
实际上,AlphaStar以10-1的战绩,全面击溃了人类职业高手。
战败的不止MaNa,还有另一位高手TLO。
人工智能在《星际争霸2》上的进步速度,远远超过了此前外界的预期。毕竟与下围棋这件事相比,星际2要难得多。
在围棋世界,动作空间只有361种,而星际2大约是1026。
与围棋不同,星际玩家面对的是不完美信息博弈。“战争迷雾”意味着玩家的规划、决策、行动,要一段时间后才能看到结果。
这意味着,AI需要学到长远的布局谋篇的策略能力。
即便如此,AlphaStar最终还是学会了如何打星际2。即便此次黄旭东保持克制、谁也没奶,但既定的事实已经无法更改。
直播进行到一半,就有网友在他的微博下留言:比国足输伊朗还惨。
尽管10战连败,人类职业高手仍然对人工智能不吝称赞:不可思议。MaNa说,我从AI身上学到了很多。以及,今天最后一局MaNa也为人类争取到了仅有的胜利!
赛后,TLO的说法跟李世乭输给AlphaGo后很像。他说:相信我,和AlphaStar比赛很难。不像和人在打,有种手足无措的感觉。他还说,每局比赛都是完全不一样的套路。
为什么AI这么强?别的先不展开讲,这里只说一个点。其实在比赛之前,AlphaStar的训练量,相当于打了200年实时对抗的星际2。
总而言之,谷歌DeepMind历时两年,终于让人工智能更进一步,AlphaGo有了新的接班人AlphaStar。
DeepMind CEO哈萨比斯说,AlphaStar的技术未来可用于预测天气、气候建模等需要very long sequences的应用场景。
一次里程碑意义的战斗,落下帷幕。
一次人类的新征程,正式开场。
AlphaStar:10-1
实际上,今天的人机大战主要内容并不是直播,而是回顾人机大战的结果。简单交待一下相关信息,比赛在Catalyst地图上进行,这张地图中文名叫“汇龙岛”。
图上设置了很多隘口和高地,网友说,这张图群龙盘踞,大战一触即发,官方称“能创造出许多有意思的进攻路径和防守阵形”。
游戏版本是去年10月的4.6.2,双方都使用神族(星灵)。
第一场比赛,发生在去年12月12日。
AlphaStar对TLO。
第一局人类选手TLO开局两分钟后就率先发难,不过AlphaStar扛下来,并且逐渐扭转了战局,迅速累积起资源优势。
5分钟左右,AlphaStar以追猎者为主要作战单位,开始向TLO发起试探性的攻击。并且在随后的时间里,持续对TLO展开骚扰,直至取胜。
DeepMind介绍,比赛中,实际上AlphaGo的APM比TLO要低。AlphaStar的APM中值是277,而TLO的APM中值是390。而大部分其他bot的APM,都高达几千甚至数万。
前三局基本都是这样。TLO说第四局就像换了个AI一样,打法完全变了,很接近典型神族打法。
当然,他又输了。这个感觉没错,其实他每次对阵的AI都不一样……
最后的结果是0-5,TLO一局没赢。不过他说:如果我多练练神族,我能轻易打败这些AI。毕竟TLO这些年一直主要在练虫族。
五局比赛打完,DeepMind团队为了庆祝喝了点酒,产生了一个大胆的想法:
再训练训练,和玩神族的职业选手打一场。
于是,快到圣诞节的时候,他们请来了Liquid的神族选手MaNa。
第二场比赛,发生在去年12月19日。
据说,MaNa五岁就开始打星际了。
在对战MaNa之前,AlphaStar又训练了一个星期。双方展开较量之前,MaNa只知道TLO输了,不知道是5-0,而且,明显没有TLO上次来那么紧张。
面对神族最强10人之一,DeepMind认为比赛会很精彩,但对胜利没什么自信。
双方第一局对决,AlphaStar在地图的左上角,MaNa在右下。4分钟,AlphaStar派出一队追猎者,开始进攻。基本上算是一波就推了MaNa。
正如开始所说,5分36秒,MaNa打出GG。
然后第二局也输了。这时候MaNa紧张起来,第三局决心翻盘。7分30秒,AlphaStar出动了一支大军打到MaNa家,MaNa GG。
最精彩的是第四局,MaNa的操作让现场解说叹为观止,他自己赛后也坦言”真是尽力了“。但最后,他的高科技军团在一群追猎者的360度包围下,全灭。MaNa打出了GG。
而且,AlphaStar完成360度包围这一高难度操作时,APM只有250左右。
第四局全程:
需要说明的是,其实在这局比赛中,AlphaStar的APM几乎已经失控,几度飙到1000多。量子位抓到了一些这样的瞬间。
MaNa说,输了好失望,我能出的单位都出了,最后输给了一群追猎者?他还说,AlphaStar的微操太厉害了。incredible。跟AI学东西,这种经历挺好。
人类扳回一城
今天的直播的最后,是现场的表演局(Exhibition game),直播MaNa对战AlphaStar。
在这场比赛中,MaNa采用了一种更激进的打法,一开局就造了更多的农民(探机),这说不定是上个月刚刚跟AlphaStar学来的战术。
12分钟后,MaNa一路拆掉AlphaStar的各种建筑,击败了无法打出GG的AlphaStar。
总算是帮人类挽回一些颜面。
这场比赛,全程在此:
另外DeepMind也放出了全部11局对决的视频,有兴趣可以前往这个地址查看:
网页链接
之前的10局比赛,DeepMind还拍成了一个纪录片。
解读AlphaStar
DeepMind和暴雪周三发出预告后,热情的网友们就已经把各种可能的技术方案猜了一遍。
现在答案揭晓:
AlphaStar学会打星际,全靠深度神经网络,这个网络从原始游戏界面接收数据 (输入) ,然后输出一系列指令,组成游戏中的某一个动作。
再说得具体一些,神经网络结构对星际里的那些单位,应用一个Transformer,再结合一个深度LSTM核心,一个自动回归策略 (在头部) ,以及一个集中值基线 (Centralised Value Baseline)。
DeepMind团队相信,这个进化了的模型,可以为许多其他机器学习领域的难题带来帮助:主要针对那些涉及长期序列建模、输出空间很大的问题,比如语言建模和视觉表示。
AlphaStar还用了一个新的多智能体学习算法。
这个神经网络,经过了监督学习和强化学习的训练。
最开始,训练用的是监督学习,素材来自暴雪发布的匿名人类玩家的游戏实况。
这些资料可以让AlphaStar通过模仿星际天梯选手的操作,来学习游戏的宏观和微观策略。
最初的智能体,游戏内置的精英级 (Elite) AI就能击败,相当于人类的黄金段位 (95%) 。
而这个早期的智能体,就是强化学习的种子。
在它的基础之上,一个连续联赛 (Continuous League) 被创建出来,相当于为智能体准备了一个竞技场,里面的智能体互为竞争对手,就好像人类在天梯上互相较量一样:
从现有的智能体上造出新的分支,就会有越来越多的选手不断加入比赛。新的智能体再从与对手的竞争中学习。
这种新的训练形式,是把从前基于种群 (Population-Based) 的强化学习思路又深化了一些,制造出一种可以对巨大的策略空间进行持续探索的过程。
这个方法,在保证智能体在策略强大的对手面前表现优秀的同时,也不忘怎样应对不那么强大的早期对手。
随着智能体联赛不断进行,新智能体的出生,就会出现新的反击策略 (Counter Strategies) ,来应对早期的游戏策略。
一部分新智能体执行的策略,只是早期策略稍稍改进后的版本;而另一部分智能体,可以探索出全新的策略,完全不同的建造顺序,完全不同的单位组合,完全不同的微观微操方法。
早期的联赛里,一些俗气的策略很受欢迎,比如用光子炮和暗黑圣堂武士快速rush。
这些风险很高的策略,在训练过程中就被逐渐抛弃了。同时,智能体会学到一些新策略;比如通过增加工人来增加经济,或者牺牲两个先知来来破坏对方的经济。
这个过程就像人类选手,从星际争霸诞生的那年起,不断学到新的策略,摒弃旧的策略,直到如今。
除此之外,要鼓励联赛中智能体的多样性,所以每个智能体都有不同的学习目标:比如一个智能体的目标应该设定成打击哪些对手,比如该用哪些内部动机来影响一个智能体的偏好。
而且,智能体的学习目标会适应环境不断改变。
神经网络给每一个智能体的权重,也是随着强化学习过程不断变化的。而不断变化的权重,就是学习目标演化的依据。
权重更新的规则,是一个新的off-policy演员评论家强化学习算法,里面包含了经验重播 (Experience Replay) ,自我模仿学习 (Self-Imitation Learning) 以及策略蒸馏 (Policy Distillation) 等等机制。
为了训练AlphaStar,DeepMind用谷歌三代TPU搭建了一个高度可扩展的分布式训练环境,支持许多个智能体一起从几千个星际2的并行实例中学习。每个智能体用了16个TPU。
智能体联赛进行了14天,这相当于让每一个智能体都经历了连打200年游戏的训练时间。
最终的AlphaStar智能体,是联赛中所有智能体的策略最有效的融合,并且只要一台普通的台式机,一块普通的GPU就能跑。
AlphaStar打游戏的时候,在看什么、想什么?
上图,就是DeepMind展示的AI打游戏过程。
原始的观察里数据输入到神经网络之中,产生一些内部激活,这些激活会转化成初步的决策:该做哪些操作、点击什么位置、在哪建造建筑等等。另外,神经网络还会预测各种操作会导致的结果。
AlphaStar看到的游戏界面,和我们打游戏时看到的小地图差不多:一个小型完整地图,能看到自己在地图上的所有单位、以及敌方所有可见单位。
这和人类相比有一点点优势。人类在打游戏的时候,要明确地合理分配注意力,来决定到底要看哪一片区域。
不过,DeepMind对AlphaStar游戏数据的分析显示,它观察地图时也有类似于人类的注意力切换,会平均每分钟切换30词左右关注的区域。
这,是12月打的10场游戏的情况。
今天直播中和MaNa对战的AI,就略有不同。
连胜之后,DeepMind团队总会有大胆的想法冒出来——他们迭代了第二版AlphaStar,这一版和人类观察地图的方式是一样的,也要不停选择将视野切换到哪,只能看到屏幕上视野范围内的信息,而且只能在这个范围内操作。
视野切换版AlphaStar经过7天训练,达到了和第一版差不多的水平。
不过,这个版本的智能体原型还是在今天的直播中输给了MaNa,成为了10-1里的1。
DeepMind对他们的AI仍然充满信心,他们在博客中说,这个智能体只训练了7天,希望能在不久的将来,能测试一个完全训练好了的视野版智能体。
现在,AlphaStar还只能玩神族。DeepMind说,他们为了在内部测试中减少训练时间和变量,决定先只玩一个种族。
不过,这不代表它就学不会其他种族。同样的训练流程,换个种族还是一样用。
星际界的樊麾和带路党
这次人机大战背后,有很多人的努力,我们这次重点介绍三个人。
首先是AlphaStar的两个人类对手。
TLO是一位德国职业星际2选手,原名Dario Wünsch,1990年7月13日出生。现在效力于职业游戏战队Liquid。
之前TLO有个称号:随机天王。星际2的公测阶段,他使用哪个种族都得心应手,不过后来,TLO开始逐渐专攻于虫族。
根据官方公布的数据,TLO在2018 WCS Circuit排名:44。
国内关于TLO的资料,不少都是几年前的对战,现在TLO应该已经在自己职业生涯的末期,可以算是一位久经沙场的老将。
MaNa是一位出生于波兰的职业星际2选手,原名Grzegorz Komincz,1993年12月14日出生,目前也效力于Liquid。
与TLO相比,MaNa是一个正值当打之年的选手。
而且,他更擅长的是神族。尽管他打出GG的速度更快……
MaNa去年获得WCS Austin的第二名。根据官方公布的数据,他在2018 WCS Circuit排名:13。
MaNa和TLO和AlphaStar的对战,发生在去年12月。地点在伦敦,就是DeepMind的总部。这不禁让人想起当年AlphaGo的故事。
AlphaGo名不见经传时,也是悄悄把樊麾请到了伦敦,然后把樊麾杀得有点怀疑“棋”生。然后开始向全世界公布突破性的进展。
TLO和MaNa,应该就是星际2界的樊麾了吧。
第三个是AlphaStar的教父:Oriol Vinyals。
他是DeepMind星际2项目的核心负责人。我们在此前的报道里介绍过他。1990年代,十几岁的Oriol Vinyals成了西班牙《星际争霸》全国冠军。
他之所以玩这款科幻策略游戏,是因为比其他打打杀杀的游戏更需要动脑子。维纽斯说:“没上大学之前,这款游戏就让我在生活中怀有更强的战略思维。”
Vinyals的战略思维的确获得了回报:在巴塞罗那学习了电信工程和数学之后,维纽斯去过微软研究院实习,获得了加州大学伯克利的计算机博士学位,接着加入谷歌大脑团队,开始从事人工智能开发工作,然后又转入谷歌旗下DeepMind团队。
他又跟“星际争霸”打起了交道。
但这一次不是他亲自玩,而是教给机器人怎么玩。在人工智能成为全球最优秀的围棋选手后,星际成为了下一个攻克目标。
AI打星际的意义
早在2003年人类就开始尝试用AI解决即时战略(RTS)游戏问题。那时候AI还连围棋问题还没有解决,而RTS比围棋还要复杂。
直到2016年,“阿尔法狗”打败了李世石。DeepMind在解决围棋问题后,很快把目光转向了《星际2》。
与国际象棋或围棋不同,星际玩家面对的是“不完美信息博弈”。
在玩家做决策之前,围棋棋盘上所有的信息都能直接看到。而游戏中的“战争迷雾”却让你无法看到对方的操作、阴影中有哪些单位。
这意味着玩家的规划、决策、行动,要一段时间后才能看到结果。这类问题在现实世界中具有重要意义。
为了获胜,玩家必须在宏观战略和微观操作之间取得平衡。
平衡短期和长期目标并适应意外情况的需要,对脆弱和缺乏灵活性的系统构成了巨大挑战。
掌握这个问题需要在几个AI研究挑战中取得突破,包括:
博弈论:星际争霸没有单一的最佳策略。因此,AI训练过程需要不断探索和拓展战略知识的前沿。
不完美信息:不像象棋或围棋那样,棋手什么都看得到,关键信息对星际玩家来说是隐藏的,必须通过“侦察”来主动发现。
长期规划:像许多现实世界中的问题一样,因果关系不是立竿见影的。游戏可能需要一个小时才能结束,这意味着游戏早期采取的行动可能在很长一段时间内都不会有回报。
实时:不同于传统的棋类游戏,星际争霸玩家必须随着游戏时间的推移不断地执行动作。
更大的操作空间:必须实时控制数百个不同的单元和建筑物,从而形成可能的组合空间。此外,操作是分层的,可以修改和扩充。
为了进一步探索这些问题,DeepMind与暴雪2017年合作发布了一套名为PySC2的开源工具,在此基础上,结合工程和算法突破,才有了现在的AlphaStar。
除了DeepMind以外,其他公司和高校去年也积极备战:
4月,南京大学的俞扬团队,研究了《星际2》的分层强化学习方法,在对战最高等级的无作弊电脑情况下,胜率超过93%。
9月,腾讯AI Lab发布论文称,他们构建的AI首次在完整的虫族VS虫族比赛中击败了星际2的内置机器人Bot。
11月,加州大学伯克利分校在星际2中使用了一种新型模块化AI架构,用虫族对抗电脑难度5级的虫族时,分别达到 94%(有战争迷雾)和 87%(无战争迷雾)的胜率。
下一步
今天AI搞定了《星际2》,DeepMind显然不满足于此,他们的下一步会是什么?
哈萨比斯在赛后说,虽然星际争霸“只是”一个非常复杂的游戏,但他对AlphaStar背后的技术更感兴趣。其中包含的超长序列的预测,未来可以用在天气预测和气候建模中。
他还透露将在期刊上发表经过同行评审的论文,详细描述AlphaStar的技术细节。一起期待吧~
*本文由腾讯新闻、量子位共同出品,作者系量子位,腾讯新闻同步首发,未经授权,不得转载。
13,“击败星际争霸II职业玩家”的AlphaStar是在作弊?_
编者按:本文来自微信公众号“机器之心”(ID:almosthuman2014),作者 机器之心编辑部。36氪经授权转载。
DeepMind 的人工智能 AlphaStar 一战成名,击败两名人类职业选手。掌声和欢呼之余,它也引起了一些质疑。
在前天 DeepMind 举办的 AMA 中,AlphaStar 项目领导者 Oriol Vinyals 和 David Silver、职业玩家 LiquidTLO 与 LiquidMaNa 回答了一些疑问。不过困惑依然存在……
近日,Aleksi Pietik?inen 在 Medium 上发表了文章,提出了几点疑问,在 Twitter 和 Reddit 上引起了极大的关注:
AlphaStar 使用了超人的速度,达到了超人的准确度。
DeepMind 称限制了 AI 的操作速度,不至于人类无法企及。但他们并未做到,且大概率意识到自己没做到。
AlphaStar 拥有超人速度的原因可能是忘了考虑人类的无效点击。作者怀疑 DeepMind 想限制它使它更像人类,但是却没有做到。我们需要一些时间弄清楚这一点,不过这也正是作者写本文的原因。
前谷歌大脑科学家 Denny Britz 也转载了此文章并在 Twitter 上表示:「有时候诚实和谦虚一点,就像『目前已经做得不错了,但我们还没有达到最优,还有很长的路要走。』而不是『看!那职业选手被击败了!!』,这样才能走得更远。
最让我烦恼的是,虽然 AlphaStar 在很多方面都有令人惊讶的结果,但其声称『限制在人类的操作水平』的解释让整个事件变得更像是在做公关,对于不熟悉机器学习和星际争霸的人来说这就是误导。」
让我们看看 AlphaStar 究竟哪里「作弊」了,以下为机器之心对该文章的编译介绍:
首先,我必须声明我是门外汉。最近我一直追踪 AI 发展和星际争霸 2,不过我在这两个领域都不是专家。如有错漏,请见谅。其次,AlphaStar 确实是一项巨大成就,我很期待看到它以后的发展。
AlphaStar 的超人速度
AlphaStar 团队领导 David Silver:「AlphaStar 不能比人类选手反应速度快,也不会比人类选手执行更多点击。」
2018 年,来自芬兰的虫族选手「Serral」Joona Sotala 制霸星际 2。他是目前的世界冠军,且他在当年的九场大型赛事中取得了七次冠军,在星际 2 历史上是史无前例的选手。他的操作速度非常快,可能是世界上最快的星际 2 选手。
在 WCS2018 上,Serral 的毒爆虫让局势逆转。
在比赛中,我们可以看到 Serral 的 APM(actions per minute)。APM 基本上表示选手点击鼠标和键盘的速度。Serral 无法长时间保持 500 APM。视频中有一次 800 APM 的爆发,但只持续了一秒,而且很可能是因为无效点击。
世界上速度最快的人类选手能够保持 500 APM 已经很不错了,而 AlphaStar 一度飙到 1500+。这种非人类的 1000+ APM 的速度竟然持续了 5 秒,而且都是有意义的动作。
一分钟 1500 个动作意味着一秒 25 个动作。人类是无法做到的。我还要提醒大家,在星际 2 这样的游戏中,5 秒是很长一段时间,尤其是在大战的开始。
如果比赛前 5 秒的超人执行速度使 AI 占了上风,那么它以大幅领先优势获取胜利可能是由于雪球效应。
一位解说指出平均 APM 仍是可接受的,但很明显这种持续时间并非人类所能为。
AlphaStar 的无效点击、APM 和外科手术般的精准打击
大部分人类都会出现无效点击。无意义的点击并没有什么用。例如,人类选手在移动军队时,可能会点击目的地不止一次。这有什么作用呢?并没有。军队不会因为你多点击了几下就走得更快。那么人类为什么还要多点击呢?原因如下:
1. 无效点击是人类想要加快操作速度的自然结果。
2. 帮助活跃手指肌肉。
我们前面说过 Serral 最令人震惊的不是他的速度而是准确度。Serral 不只是具备高 APM,还具备非常高的 effective-APM(下文中简略为 EAPM),即仅将有效动作计算在内的 APM。
一位前职业玩家在看到 Serral 的 EAPM 后发推表示震惊:
Serral 的 EAPM 是 344,这实际上已经是前所未有了。APM 和 EAPM 的区别也涉及 AlphaStar。如果 AlphaStar 没有无效动作,这是不是说明它的巅峰 EAPM 等于巅峰 APM?这样的话 1000+的爆发更加非人类了。
我们还需要考虑 AlphaStar 具备完美的准确率,它的性能好到「荒谬」的程度。它总能点击到想去的地方,而人类会有误点击。AlphaStar 可能不会一直使用巅峰状态,但在关键时刻,它的速度是世界最快选手的 4 倍,而准确率更是人类专业玩家想都不敢想的。
星际 2 中存在一个共识:AlphaStar 的执行序列人类无法复制。其速度和准确率突破了人类现有极限。
AlphaStar 只能执行人类选手可以复制的动作?David Silver 不认同这种看法。
正确做事 vs 快速做事
AlphaStar 的首席设计工程师 Oriol Vinyals:我们正在努力构建拥有人类惊人学习能力的智能系统,因此确实需要让我们的系统以尽可能「像人类一样」的方式学习。
例如,通过非常高的 APM,将游戏推向极限可能听起来很酷,但这并不能真正帮助我们衡量智能体的能力和进步,使得基准测试毫无用处。
为什么 DeepMind 想限制智能体像人类一样玩游戏?为什么不让它放飞自我?原因是星际争霸 2 是一个可以通过完美操作攻破的游戏。
在这个 2011 年的视频(网页链接)中,AI 攻击一组坦克,其中一些小狗实现了完美的微操。例如,在受到坦克攻击时让周围的小狗都躲开。
通常情况下,小狗不能对坦克做出太大 伤害,但由于 AI 完美的微操,它们变得更加致命,能够以最小的损失摧毁坦克。
当单元控制足够好时,AI 甚至不需要学习策略。而在没有这种微操时,100 只小狗冲进 20 架坦克中只能摧毁两架坦克。
并不一定对创建可以简单击败星际争霸专业玩家的 AI 感兴趣,而是希望将这个项目作为推进整个 AI 研究的垫脚石。
虽然这个研究项目的重要成员声称具有人类极限限制,但事实上智能体非常明显地打破了这些限制,尤其是当它利用超人速度的操作来赢得游戏时,这是完全无法让人满意的。
AlphaStar 能够在单位控制方面超越人类玩家,当游戏开发者仔细平衡游戏时,肯定不会去考虑这一点。这种非人类级别的控制可以模糊人工智能学习的任何战略思维评估。
它甚至可以使战略思维变得完全没有必要。这与陷入局部极大值不同。当 AI 以非人类级别的速度和准确率玩游戏时,滥用卓越的控制能力很可能变成了玩游戏时的最佳策略,这听起来有些令人失望。
这是专业人士在以 1-5 的比分输掉比赛之后所说的 AI 优点和缺点:
MaNa:它最强的地方显然是单位控制。在双方兵力数量相当的情况下,人工智能赢得了所有比赛。在仅有的几场比赛中我们能够看到的缺点是它对于技术的顽固态度。
AlphaStar 有信心赢得战术上的胜利,却几乎没有做任何其它事情,最终在现场比赛中也没有获得胜利。我没有看到太多决策的迹象,所以我说人工智能是在靠操作获得胜利。
在 DeepMind 的 Replay 讲解和现场比赛之后,星际争霸玩家群体几乎一致认为 AlphaStar 几乎完全是因为超人的速度、反应时间和准确性而获得优势的。
与之对抗的职业选手似乎也同意。有一个 DeepMind 团队的成员在职业玩家测试它之前与 AlphaStar 进行了比赛。他估计也同意这种观点。
David Silver 和 Oriol Vinyal 不断重复声称 AlphaStar 如何能够完成人类可以做的事情,但正如我们已经看到的那样,这根本不是真的。
在这个视频中关于「AlphaStar 如何能够完成人类可以做的事情」的描述非常粗略。
为什么 DeepMind 允许 AlphaStar 拥有超人的操作能力
现在让我们回顾一下这篇文章的主要观点:
我们知道了 APM、EAPM 和无效点击等概念;
我们对人类玩家操作能力的上限有一个粗略的了解;
我们知道了 AlphaStar 的游戏玩法与开发人员声称允许执行的游戏玩法完全矛盾;
我们的一个共识是 AlphaStar 通过超人的控制能力赢得了比赛,甚至不需要卓越的战略思维;
我们知道,DeepMind 的目标不是创建一个只能微操的 AI,或者以从未打算过的方式滥用技术;
令人难以置信的是,在 DeepMind 的星际争霸 AI 团队中没有人质疑爆发的 1500+ APM 是否对于人类而言可及。他们的研究人员可能比我更了解这个游戏。他们正与拥有星际争霸系列 IP 的游戏公司暴雪密切合作,使 AI 尽可能接近人类才符合他们的利益(参见本文前面提到的 David Silver 和 Oriol Vinyals 的提到的前几个要点和使命陈述)。
这是我对事情真相的猜测:
1)在项目一开始,DeepMind 同意对 AlphaStar 施加严格的 APM 限制。因此 AI 不会在演示中出现超人的操作速度。如果让我来设计这些限制,可能包含如下几项:
整场比赛的平均 APM;
在短时间内爆发的最大 APM。我认为每秒加上 4-6 次点击是合理的。还记得 Serral 和他的 344 EAPM 超越了竞争对手?这还不到每秒 6 次点击。与 MaNa 对战的 AlphaStar 版本在连续的时间段内每秒可以执行 25 次点击。这比人类可以做到的最快无效点击速度要快得多,我认为原始限制是不允许这样做的。
点击之间的最短间隔。即使 AI 的速度爆发被限制,它仍然可以在当前所处时间段的某个时刻执行几乎瞬时的动作并且仍然以非人类的方式执行。人类显然无法做到这一点。
有些人会主张还可以在准确率上添加随机性来进行限制,但我怀疑这会过多地阻碍训练的速度。
2)接下来,DeepMind 会下载数以千计高排名的业余游戏视频并开始模仿学习。在这个阶段,智能体只是试图模仿人类在游戏中所做的事情。
3)智能体采用无效点击的行为。这很可能是因为人类玩家在游戏过程中使用了这种点击行为。几乎可以肯定,这是人类执行的最单调重复的行为模式,因此很可能深深扎根于智能体的行为中。
4)AlphaStar 爆发的最大 APM 受限于人类进行无效点击的速度。由于 AlphaStar 执行的大多数操作都是无效点击,因此没有足够的 APM 可用于在战斗中进行实验。如果智能体未进行实验,则无法学习。以下是其中一位开发人员昨天在 AMA 上所说的话:
AlphaStar 的首席设计工程师 Oriol Vinyals:训练人工智能玩低 APM 非常有趣。在早期,我们让智能体以非常低的 APM 进行训练,但它们根本没有微操。
5)为了加速开发,他们改变 APM 限制以允许高速爆发。以下是 AlphaStar 在演示中使用的 APM 限制:
AlphaStar 的首席设计工程师 Oriol Vinyals:尤其是,我们在 5 秒的时间段内设置的最大 APM 为 600,在 15 秒内最大为 400,30 秒内最大为 320,在 60 秒内最大为 300。如果智能体在此期间执行更多的操作,我们会删除/忽略这些操作。这些是根据人类统计数据设置的。
这相当于通过统计数字作弊。乍一看,对星际不太了解的人可能会觉得这样做很合理,但它会允许我们之前讨论的超人速度爆发以及超人鼠标精度,这是不太合理的。
人类进行无效点击的速度是有限的。最典型的无效点击形式是对一个单位发出移动或攻击命令。这是通过用鼠标点击地图某个位置来完成的。
请尽你最快的速度点击鼠标试试。智能体学会了这种无效点击。它不会点击地太快,因为它模仿的人类无法点击太快。而能让它达到超人速度的额外 APM 可以被认为是「自由的」APM,它可以用于更多次尝试。
6)自由的 APM 被用于在交战中进行实验。这种交互在训练中经常发生。AlphaStar 开始学习新的行为以带来更好的结果,它开始摆脱经常发生的无效点击。
7)如果智能体学会了真正有用的动作,为什么 DeepMind 不回到最初对 APM 更苛刻、更人性化的限制呢?他们肯定意识到了其智能体正在执行超人的动作。
星际社区一致认为 AlphaStar 拥有超人的微操技术。人类专家在 ama 中表示,AlphaStar 的最大优势不是其单位控制,而其最大的弱点也不是战略思维。
DeepMind 团队中玩星际的人肯定也是这么想的,理由是因为智能体偶尔还是会进行无效点击。
虽然在玩游戏的大部分时间里,它能直接执行有效动作,但它还是经常做无效点击。这一点在它与 MaNa 的比赛中很明显,该智能体在 800APM 上无意义地点击移动命令。
尽管这完全没必要,而且消耗了它的 APM 资源,但它仍不忘记这么干。无效点击会在大规模战争中对智能体造成很大伤害,它的 APM 上限可能会被修改以使它在这些对抗中表现良好。
不要在意这些细节?
现在你明白是怎么回事儿了。我甚至怀疑人工智能无法忘记它在模仿人类玩家过程中学习到的无效点击行为,因而 DeepMind 不得不修改 APM 上限以允许实验进行。
这么做的缺点就是人工智能有了超越人类能力的操作次数,从而导致 AI 以超越人类的手速,不用战术战略就能打败人类。
我们对 APM 如此关心,是因为 DeepMind 击败人类职业玩家的方式与他们所希望的方式,以及所声称的「正确」方式完全相反。而 DeepMind 放出的游戏 APM 统计图也让我们对此有所洞悉:
这种统计方式似乎是在误导不熟悉星际争霸 2 的人。它似乎在把 AlphaStar 的 APM 描述为合理的。我们可以看看 MaNa 的数据,尽管他的 APM 均值比 AlphaStar 要高,但在最高值上 AI 远高于人类,更不用说在高 APM 时人类操作的有效性了。
请注意:MaNa 的峰值是 750,而 AlphaStar 高于 1500。想象一下,MaNa 的 750 包含 50% 的无效点击,而 AlphaStar 的 EAPM 几乎完美……
至于 TLO 的「逆天」手速,星际争霸主播黄旭东和孙一峰在直播时认为他明显使用了加速键盘(通过特殊品牌的键盘热键功能,设置某单个快捷键/组合键代替多次鼠标点击)。
加速键盘可以让人类的 APM 达到不可理喻的高度,比如 15,000 多——但并不会提升你的有效操作。
然而,你用加速键盘能做的唯一一件事就是无效施法。出于某些莫名的原因,TLO 在滥用这个技术,这种操作的统计结果让不熟悉星际争霸的人看起来好像 AlphaStar 的 APM 是在合理范围之内的。
DeepMind 的介绍性博客并没有提到 TLO 荒谬数字的原因,如果没有解释,这个数字就不应该被列在图中。
这简直是在统计数字上作弊。
可以说有局限性,可以说潜力巨大
AlphaStar 星际争霸 2 的人机大战吸引了人工智能领域里很多专业人士的关注,它对于 AI 技术的发展会有什么样的启示。比赛过后,Facebook 研究科学家田渊栋在知乎上表示:
昨天晚上抽空看了一下 DM 的 demonstration 还有 live 的比赛。确实做得很好。
我星际水平很烂,星际 2 也玩得不多,相信大家已经看到了大量的游戏评论,我就跳过了。
整个系统和 AlphaGo 第一版很接近,都是先用监督学习学会一个相当不错的策略,然后用自对弈(self-play)加强。当然有两个关键的不同点,其一是自对弈用的是 population-based 以防止掉进局部解(他们之前在 Quake 3 上也用到了)。
其二是在 network 里面加了一些最近发表的神经网络模型,以加强 AI 对于游戏全局和历史长程关联性的建模能力(比如说用 transformer,比如说让 AI 可以一下子看到全部可见区域),这两点对于不完全信息游戏来说是至关重要的。
因为不完全信息游戏只能通过点滴的历史积累来估计出当前的状态,尤其是对手的状态,多一点历史记录就能学得更好些,这个我们做过一些即时战略游戏(MiniRTS)的研究,很有体会。
星际一个很大的问题是输出的行动空间(action space)巨大无比,我记得他们在一开始做的基线(baseline)算法里面用了 language model 输出精确到单位的行动(unit-level action),但在 DM 的 blog 里面却说每个时间节点上只有 10 到 26 种不同的合法行动。
然后在他们的 demonstration 里面「considered Build/Train」下面有 33 个输出。这些都让人非常困惑。或许他们在监督学习的时候已经建立了一些子策略(比如说通过聚类的方法),然后在训练的时候直接调用这些子策略就行了。但具体细节不明,期待完整论文出来。
另外,这次 AlphaStar 没有用基于模型进行规划的办法,目前看起来是完全用经典的 off-policy actor-critic 加大量 CPU 硬来,就有这样的效果。
关于 AlphaStar 输掉的那局。实话说被简单的空投战术重复几次给拖死了,让人大跌眼镜。联想到 OpenAI Five 对职业选手也输了,主要还是应变能力不强,无法对新战术新模式及时建模。
围棋因为游戏规则和双方信息完全透明,下棋的任何一方都可以用蒙特卡罗树搜索(MCTS)对当前局面进行临时建模和分析,但不完全信息博弈因为得要估计对手情况就没有那么简单。
AlphaStar 目前似乎是无模型的(model-free,Reddit 上的解答确认了这一点)。我不知道是不是在进行充分的训练之后,纯粹无模型(model-free)的方法可以完全达到树搜索的效果——但至少我们能看到在围棋上。
就算是用相当好的模型比如说 OpenGo,要是每盘都不用搜索而只用策略网络的最大概率值来落子,还是会经常犯错。
所以说,若是在不完全信息博弈里面用上了基于模型(model-based)的方法,并且能够稳定地强于无模型(model-free)方法,那在算法上会是一个比较大的突破。
所以其实深度强化学习还是有很多很多很多没有解决的问题,你可以说它有很大局限性,也可以说它潜力巨大。
在这之上,更难的一个问题是如何让 AI 具有高层推理的能力。人对将来的预测是非常灵活且极为稳定的,可能会想到一秒后,也可能会想到一年后,而且对新模式可以很快概括总结并加以利用。
但真写点算法去模仿人的预测能力,就会出现各种各样的问题,比如说对没探索过的地方过于自信,多次预测产生累计误差等等。那么到底什么样的预测模型是稳定有效且灵活的,目前还是研究热点,没有一个统一的答案。
对应到星际上,人在全局战略上的优化效率要远远高于 AlphaStar,比如说一句「造两个凤凰去灭了那个来空投的棱镜」,可能就顶 AlphaStar 自对弈几天几夜。
这个效率的差距(可能是指数级的)是否可以用大量计算资源去填补,会是和顶尖高手对局胜败的关键所在。
参考内容:
网页链接
网页链接