资讯

展开

星际争霸新手攻略视频,星际争霸1怎么入门

作者:本站作者

1,星际争霸1怎么入门

入门么...最好的办法是打一遍战役关,系统会教你什么兵该怎么造,有什么用.打到靠后的关卡,虽然不给这样的提示了,但每关多出来的那一点点新单位就是过关的关键. 打个比方说,有一关人族偷战列巡洋舰的,会用到鬼兵的锁定,用到护士的解除...尤其是神族的战役,使用魔法步步为营的感觉很惊险...等等. 我可以很负责地说,战役里有些关的难度,比和某些玩家对战要难得多
新手建议你玩人族,相对均衡 星际1上手有点难,基本上就是多练习,首先把本族的单位所有数据背下来,然后找到一种建筑和建造士兵的节奏,接着研究战术和细节或者训练操作,等到一盘游戏没有让手闲着超过四秒就基本可以了……
你得先知道那些建筑可以造那些兵,先把这些搞清楚才可以进行下个步骤
百度去找小色教打星际 星际一般都是单机版打电脑开始,多看一些第一视角的视频。先期可以尝试玩人族.容易防守,也有部分人APM高可以尝试玩神族,
锤子。应该先研究怎么采矿,怎么采气,怎么造农民。怎么拉人,怎么走路。
新人上手用虫族比较好,一上来狂暴农民,矿多了打得舒服,先和电脑打,让电脑多虐几次就好了
我想玩魔兽可惜不会呢啊

星际争霸新手攻略视频,星际争霸1怎么入门

2,星际争霸怎么玩好

如果纯新手看看这个 一片矿共有8个水晶2个气矿,每个水晶2个农民采集时最佳效果,但是3个农民采可以达到满负荷采集。每个气矿3个农民就可以达到最好效果了。所以一共是16个农民采水晶+6个采气共22个是最佳效果。24个农民采水晶可以达到满负荷。不过单矿其实16个采水晶就最好。因为3农民采一个水晶比2农民一分钟多采不了几块钱。但是虽然16农民采水晶就达到最佳了,但是人族最好多造三四个。因为人族农民总得拉出去造建筑。开局就是不停造SCV,第9个SCV出来造补给站,这样刚好不卡人口。补给站造完了造兵营。就可以出机枪兵了。如果不打算很快开矿的话,第14和SCV造出来的时候就可以造第一个气矿了。想出重工厂的兵就等够100气体了造重工厂。想出兵营里的收割者或者掠夺者就在有50气的时候给兵营挂科技实验室。 基本初期就这样了。 星际2要玩好真的很困难,这游戏对操作要求真的很高,而且还要星际1的基础。做剧情任务,先和1个电脑对战,难度普通到残酷,如果可以过了困难,试试多和几个电脑对战,然后再和人对战! 希望对你有帮助!
先把挑战任务全过黄金评级,再打赢极难电脑,你就近乎白银组水准了,然后再多练练开局,侦查,运营就可以。
单对单PK多练习
想玩好可以多去看看PLU的视频.. 当然最基础的你得懂

星际争霸新手攻略视频,星际争霸1怎么入门

3,如何玩星际争霸

T(人)P(神)Z(虫),每个种族都有特点.你初玩最好玩神族,因为神族比较容易防御.每个种族的建筑都是有依次顺序的(都一样).比如说神族:点个奴隶先在空间(点着奴隶按键盘BP),等早好了用鼠标泥巴空间造在你所看好的位置,绿色阴影下是能放置建筑的地方(每个建筑都必须造在绿色阴影之中).造完BP,接着造BG(兵营),BY(龙骑营),这两个建筑在前期可多造几个.接着早BA(油矿)油矿用3个奴隶去采集,多了每用.然后才可以造VR(反隐形) VS(小飞机场) VC(魔法营),造完这些后面的建筑都亮的差不多了, 你可依次造起来.每个建筑里的兵和技能都是相对照的.熟练的掌握这些你需要长期的锻炼.玩的久了, 你会发现兵种的配合和技能的使用,升级等.你现在的阶段先点着奴隶早BP(空间)---BF,造完BF才可以造BC(防御堡),造在你想防御的位置..记住刚开始得让奴隶去采水晶,奴隶越多金钱涨的越快,像火山样子的是用来造油矿的,点着奴隶按BA(气矿),坐落在上面.金钱和油钱是用来生产兵用的,.慢慢练习吧,这个游戏很经典!

去优酷,搜索“小色教你玩星际”,其作者人品与水平都一般,但是作为初学者,还是很有用的。

打星际开始最好还是多练练套路,这是增强实力的最好办法,打得多了,自然知道怎么应付对手了。

275254774~~ 交流~一起玩星际
455306627 交流交流
我们一起玩啊我也是菜鸟哦
你可以先调密码玩,把各种兵种,建筑搞清楚后再不用密码,找一些比赛视频和第一视角视频看。

星际争霸新手攻略视频,星际争霸1怎么入门

4,星际争霸怎么玩

星际经典啊没玩过绝对是一种遗憾。 楼主玩过魔兽没?玩过红警没?干脆说楼主以前玩过即时战略游戏没?如果玩过那就好办了,没必要多讲自己研究吧,即时战略游戏的模式基本大同小异。因为楼主是第一次玩星际现在只要解决语言的问题了就行了 ,OK?去这里 http://www.wfbrood.com/Soft/ShowSoft.asp?SoftID=224 下载完美汉化吧(HanStar1.74完美破解版,支持到星际1.13版。这个可以解压缩到任意位置,星际是不存在汉化补丁的,它仅属于外挂性质,玩星际时同时运行即可) 至于游戏细节,策略技巧等方面的问题,去自己看吧 新浪星际专区 http://games.sina.com.cn/zhuanqu/sc/indexpage.shtml 太平洋星际专区 http://www.pcgames.com.cn/fight/starcraft/ 再补充一点,现在的显示器一般都用17纯平的吧?那样玩星际效果很差粗糙的全是锯齿,因为星际(640*480)是没有高分辨率可调的,在老式的小显示器上才能正常。 想玩的爽又不想换显示器,唯一的办法就是窗口化 窗口化补丁 http://games.sina.com.cn/downgames/edit/2004/03/2276472.shtml

打开游戏界面,四个选项,Multiplayer(多人模式,用来链接局域网实现人与人对战)、Single Player(单机模式,只能打电脑,可以使用秘笈)、Campaign Edit(编辑地图,估计你弄不好,就不要管了,以后应该会用的)。
首先建议你开始用单机模式打,进入Single Player后选Expansion进入,然后是输入ID,随便输几个字母或数字就行了,输入完成以后点OK【OK以后的界面里会出现三个种族,Terren(人族),Protoss(神族),Zerg(种族)】,选下面中间的Play Custom进入地图选择界面(Create maps),选一个经典的地图吧,点击地图列表里的Ladder,选择Lost Temple.scm,你的ID会出现在下面的选手列表的第一个位置里,下面是三个Computer(建议关掉两个电脑,点击Computer出现下拉列表,光标移动到Closed)。然后选种族(我前面说的那三个),种族选好后点OK就能进入游戏了。按F10可以在游戏中调出菜单,可以调速,调音量暂停游戏,退出游戏等等。至于游戏怎么玩,每个种族不一样,要慢慢学,给你个网站, http://games.sina.com.cn/zhuanqu/sc/indexpage.shtml 中英文对照,自己多研究研究(熟练了以后就可以到浩方或是VS对战平台上找人PK了)。

星际教学视屏

PLU的我教我教我教教教

http://v.youku.com/v_playlist/f1306739.html

小色教你打星际

http://www.wfbrood.com/movie/xiaose.html

我也教你 很容易上车

http://sc.aomeisoft.com/

你想要的全能在星际争霸中文网上找到

不会吧??

总体来说星际很简单的我 告诉你一个密码 是加钱和加矿的 show me the money 在里面只要有了钱你就可以随心所欲了 ,剩下的你就自己慢慢摸索吧 , 不好意思我这个人不是很会说话

可以去PLU去看看```

5,星际争霸新手教程

用农民(基地旁边那个)采集蓝色的晶矿,可以增加晶矿数(也称矿),晶矿是你资产的主要来源,要多采。点击基地,在右下方有个的正方形选项,就是单位,点击它几次,就会造几个农民,用鼠标放在单位上,会出现多少钱,再整合你右上方的晶矿数,适可而止。继续发展,你需要用农民点击右下角框中的左下角选项,可以选择建筑并建造。在你的基地旁有2座气矿,在建筑选项中可以建造气矿厂在上面,之后才可以采集气矿。至于后面的发展,相信你能自己琢磨出来。(另外,有些建筑中有研究项目,有的可以研究3次,有的只可以1次。)
高手的一个标准是操作,然而星际争霸2中最重要的也是如此,这里列出星际2快捷键的检索表为了简单操作所以一定要会用你的星际2快捷键。 星际2快捷键索引: 星际2快捷键兵种操作 : m 移动 s 停止动作 h 原地驻守 p 巡逻 a 移动攻击 工人单位操作 g 采集资源 c 返还资源 b 建造基础建筑 v 建造高级建筑 星际2快捷键运输单位操作 : o 装载单位 d 卸载所有单位到指定地点 星际2快捷键建筑操作 : y 设定集结点 w (虫族基地)设定工蜂集结点 w (神族)选择所有折跃门 星际2快捷键单位操作 f1 选择闲置的农民单位 鼠标左键 选择单一单位 / 执行所选命令 拖动鼠标左键 选择区域内单位 鼠标右键 (选择单位时)移动 / 攻击目标 ctrl+鼠标右键 (选择单位时)移动攻击 ctrl+数字键 (选择单位时)对选定的单位进行编队 数字键 选择指定编队的单位 shift+数字键 (选择单位时)将选择的单位追加编入到目标编队 tab (选择多种单位时)在多种单位间切换 星际2快捷键菜单操作 o 游戏选项设置 p 暂停游戏 e 退出游戏 g 返回游戏 退出游戏菜单 q 退出游戏 e 退出星际2程序 c 取消 星际2快捷键录像、观众和裁判模式 a 对比现有可战斗兵种所占的水晶、气和人口 d 对比当前正在生产中的单位、建造中的建筑和正在研发的科技 i 对比当前一分钟水晶和气的采集量和正在采矿的农民总数 l 对比已经损失的单位数量和所占资源 m 对比单位分钟内的操作数(apm) r 对比现有的水晶、气和人口 s 对比消耗在经济、科技和兵力上的资源总量 u 对比现有的单位 n 关闭左上角的对比窗口 e 显示所有玩家的视野 f1~f8 各个玩家视野切换,再按一次可以换成第一视角 c 显示当前玩家的第一视角 h 显示/隐藏单位血量条 +/- 提高/降低录像播放速度 p 暂停/播放录像 星际2快捷键游戏内基本操作 f10 游戏菜单 f11 聊天记录 f12 帮助信息 alt+g 地图标记 alt+t 显示/隐藏小地图地形 alt+f 结盟选项 ctrl+alt+f 显示fps page up / page down 调节视角 上/下/左/右 滚动屏幕 鼠标滚轮 调节视角高度 拖动鼠标滚轮 以鼠标滚动屏幕 shift+任意指令 创建指令序列 空格space 将视野移动到最近一次或上一次警告区域 退格backspace 将视野移动到本方基地 alt 显示/隐藏单位血量条 print screen 截图
2L的那个多玩网友,我看了你的教程,我快傻了.. 开一个矿....用1个农民采集...我勒个去!
你玩什么族的- - 神族快速打法,简单又实用:4农民分4矿,基地农民猛戳到9出一个水晶。矿到150 拉一个农民造1兵站再去探路。兵站传送的时候3水晶塔+猛戳农民到一共12个采矿1探路。然后狂战士猛戳ING。4狂战就可以出门了。根据探到的路找到敌人。解决掉敌人的兵后大概剩1个残废,然后猛戳他家兵营,出兵就打。这时候家里的狂战士不能断,到拆兵营的时候估计有5个以上了。全送他家里。 (本战术对新手打新手适用)
我上手的时候是玩人族,当时因为很菜,所以一般都会打密码,关键的是自己去体悟,人族比较麻烦,因为需要微操,如果说你是魔兽高手的话一般来说不用担心这一点,初期都是所有农民去采矿,主场一直造农民,每次造一个就好,不要积压金钱,然后先出兵营,150的矿,出兵营的同时钱够100了就起住房,农民尽量多点,一般是一个农民采一个矿脉,远点的矿就2个农民,气矿的话是3个农民,兵营好了就多出机枪兵,记住注意人口,同时还要记得造150的那个,那个出了就可以造出火兵和医生,医生很好用,治疗很快,比魔兽快多了,所以前期很重要,记住升级射程,就在刚才那个150里面的第一个,兵营一般造3个就够了后面的就靠你自己去摸索了,记住坦克很好用,可以架起来,关键是坦克营的那个附件,附件里面的那个坦克图标就是升级了坦克可以架起来的 然后说下虫族,虫族应该是上手比较容易的吧,就一直爆农民采矿,(虫族一个主场最多可以同时造3个兵,那些小虫子会慢慢出现,所以后期爆主场是相当重要的)等钱到了200,马上把狗潭造出来,记住,狗潭出了,在家里造几个防卫塔,然后气站一定要出,出了才能造出口水营,出口水营前记得先把主场升级了,只要有1个主场就行,然后主场升级的同时出口水营,主场升级完了记得把口水营里面的200矿和200气的升了,这样就能出地刺了,地刺是口水兵变的,50的矿和100的气,2人口,地刺主要用来看家,很有效,地面群攻~然后就开始升级兵种的能力,75快钱那个东西造出来就可以升级了,造3个出来,3样一起升级,家里面保证好了,然后就爆主场吧,爆主场了就爆口水兵,记得带上住房一起去打,可以侦测隐形的,口水营里面那个口水兵样子的记得升了,可以增加口水的移动速度。 神族,看你要怎么玩,如果要快战的话,神族很占便宜,因为它的兵100一个,可以1VS3只狗(没升狂狗的)1VS2个机枪兵(没有医生的),还是一样,爆农民,出水晶,紧接着出兵营和升级兵种的那个(150快钱),出了才可以出防卫塔,记住,神族除了主场所有建筑都需要水晶才能运行,水晶也就是人口,所以善于看好位置造水晶很重要,神族防卫塔很强,如果你是与电脑玩的话,你一直出防卫塔都能灭了它,所以善于使用防卫塔很重要,快战的话你就直接爆兵营和兵营里面叉叉兵就可以把他灭了的,如果是慢的话,最好就是先防守好,然后出机场(第2版的中间最上面那个,前提是你要造出第一版200快钱那个)然后把机场下面那2个都造出来,这样你才能出大舰和燕尾~第二版的最左边那一列都要造,可以出小铃铛,可以侦测隐形单位,它本身也是隐形的,所以侦测显得更容易了,第二版最右边的第一个造出来里面可以升级叉叉兵的移动速度,造出了这个才能造下面那个东西,(下面那个出了以后先把里面的第一个升了,这样你的电兵才能放电)这样你就可以出电兵和隐刀了,隐刀不升级的话有40的攻击,而且是隐形的。大舰和燕尾是相互掩护的,燕尾可以使得你自己的单位在燕尾的一定范围内隐形,记住大舰要升级,那样你才能带8架小飞机,燕尾有个时空传送的技能,可以使你的兵传送过去燕尾所在的地方,记住大舰一定要带起小铃铛,侦测隐形是相当重要的 当然,我的建议是你先把游戏任务,就在单人游戏里面哪里上面站起的3个人,3个种族的任务,全部做完了或许你会有自己的体悟,关键还是与人切磋才能熟悉起来,下面是密码: 1W钱和气:show me the money 人口:food for thought 地图全亮:black sheep wall 魔力无限:the gathering 无敌:power overwhelming 快建:operation cwal(敌人与你同享密码,无敌的时候电脑打不到电脑,只有你才能打到)

6,110落败5分钟崩盘星际2职业高手史上首次被AI击溃AlphaStar

编者按:本文来自微信公众号“量子位”(ID:QbitAI),作者 边策 栗子 夏乙。36氪经授权转载。

5分36秒的战斗后,LiquidMaNa打出:GG。

DeepMind开发的全新AI程序AlphaStar,在今天凌晨的《星际争霸2》人机大战直播节目中,轻松战胜2018 WCS Circuit排名13、神族最强10人之一的MaNa。

实际上,AlphaStar以10-1的战绩,全面击溃了人类职业高手。

战败的不止MaNa,还有另一位高手TLO。

人工智能在《星际争霸2》上的进步速度,远远超过了此前外界的预期。毕竟与下围棋这件事相比,星际2要难得多。

在围棋世界,动作空间只有361种,而星际2大约是1026。

与围棋不同,星际玩家面对的是不完美信息博弈。“战争迷雾”意味着玩家的规划、决策、行动,要一段时间后才能看到结果。

这意味着,AI需要学到长远的布局谋篇的策略能力。

即便如此,AlphaStar最终还是学会了如何打星际2。即便此次黄旭东保持克制、谁也没奶,但既定的事实已经无法更改。

直播进行到一半,就有网友在他的微博下留言:比国足输伊朗还惨。

尽管10战连败,人类职业高手仍然对人工智能不吝称赞:不可思议。MaNa说,我从AI身上学到了很多。以及,今天最后一局MaNa也为人类争取到了仅有的胜利!

赛后,TLO的说法跟李世乭输给AlphaGo后很像。他说:相信我,和AlphaStar比赛很难。不像和人在打,有种手足无措的感觉。他还说,每局比赛都是完全不一样的套路。

为什么AI这么强?别的先不展开讲,这里只说一个点。其实在比赛之前,AlphaStar的训练量,相当于打了200年实时对抗的星际2。

总而言之,谷歌DeepMind历时两年,终于让人工智能更进一步,AlphaGo有了新的接班人AlphaStar。

DeepMind CEO哈萨比斯说,AlphaStar的技术未来可用于预测天气、气候建模等需要very long sequences的应用场景。

一次里程碑意义的战斗,落下帷幕。

一次人类的新征程,正式开场。

AlphaStar:10-1

实际上,今天的人机大战主要内容并不是直播,而是回顾人机大战的结果。简单交待一下相关信息,比赛在Catalyst地图上进行,这张地图中文名叫“汇龙岛”。

图上设置了很多隘口和高地,网友说,这张图群龙盘踞,大战一触即发,官方称“能创造出许多有意思的进攻路径和防守阵形”。

游戏版本是去年10月的4.6.2,双方都使用神族(星灵)。

第一场比赛,发生在去年12月12日。

AlphaStar对TLO。

第一局人类选手TLO开局两分钟后就率先发难,不过AlphaStar扛下来,并且逐渐扭转了战局,迅速累积起资源优势。

5分钟左右,AlphaStar以追猎者为主要作战单位,开始向TLO发起试探性的攻击。并且在随后的时间里,持续对TLO展开骚扰,直至取胜。

DeepMind介绍,比赛中,实际上AlphaGo的APM比TLO要低。AlphaStar的APM中值是277,而TLO的APM中值是390。而大部分其他bot的APM,都高达几千甚至数万。

前三局基本都是这样。TLO说第四局就像换了个AI一样,打法完全变了,很接近典型神族打法。

当然,他又输了。这个感觉没错,其实他每次对阵的AI都不一样……

最后的结果是0-5,TLO一局没赢。不过他说:如果我多练练神族,我能轻易打败这些AI。毕竟TLO这些年一直主要在练虫族。

五局比赛打完,DeepMind团队为了庆祝喝了点酒,产生了一个大胆的想法:

再训练训练,和玩神族的职业选手打一场。

于是,快到圣诞节的时候,他们请来了Liquid的神族选手MaNa。

第二场比赛,发生在去年12月19日。

据说,MaNa五岁就开始打星际了。

在对战MaNa之前,AlphaStar又训练了一个星期。双方展开较量之前,MaNa只知道TLO输了,不知道是5-0,而且,明显没有TLO上次来那么紧张。

面对神族最强10人之一,DeepMind认为比赛会很精彩,但对胜利没什么自信。

双方第一局对决,AlphaStar在地图的左上角,MaNa在右下。4分钟,AlphaStar派出一队追猎者,开始进攻。基本上算是一波就推了MaNa。

正如开始所说,5分36秒,MaNa打出GG。

然后第二局也输了。这时候MaNa紧张起来,第三局决心翻盘。7分30秒,AlphaStar出动了一支大军打到MaNa家,MaNa GG。

最精彩的是第四局,MaNa的操作让现场解说叹为观止,他自己赛后也坦言”真是尽力了“。但最后,他的高科技军团在一群追猎者的360度包围下,全灭。MaNa打出了GG。

而且,AlphaStar完成360度包围这一高难度操作时,APM只有250左右。

第四局全程:

需要说明的是,其实在这局比赛中,AlphaStar的APM几乎已经失控,几度飙到1000多。量子位抓到了一些这样的瞬间。

MaNa说,输了好失望,我能出的单位都出了,最后输给了一群追猎者?他还说,AlphaStar的微操太厉害了。incredible。跟AI学东西,这种经历挺好。

人类扳回一城

今天的直播的最后,是现场的表演局(Exhibition game),直播MaNa对战AlphaStar。

在这场比赛中,MaNa采用了一种更激进的打法,一开局就造了更多的农民(探机),这说不定是上个月刚刚跟AlphaStar学来的战术。

12分钟后,MaNa一路拆掉AlphaStar的各种建筑,击败了无法打出GG的AlphaStar。

总算是帮人类挽回一些颜面。

这场比赛,全程在此:

另外DeepMind也放出了全部11局对决的视频,有兴趣可以前往这个地址查看:

网页链接

之前的10局比赛,DeepMind还拍成了一个纪录片。

解读AlphaStar

DeepMind和暴雪周三发出预告后,热情的网友们就已经把各种可能的技术方案猜了一遍。

现在答案揭晓:

AlphaStar学会打星际,全靠深度神经网络,这个网络从原始游戏界面接收数据 (输入) ,然后输出一系列指令,组成游戏中的某一个动作。

再说得具体一些,神经网络结构对星际里的那些单位,应用一个Transformer,再结合一个深度LSTM核心,一个自动回归策略 (在头部) ,以及一个集中值基线 (Centralised Value Baseline)。

DeepMind团队相信,这个进化了的模型,可以为许多其他机器学习领域的难题带来帮助:主要针对那些涉及长期序列建模、输出空间很大的问题,比如语言建模和视觉表示。

AlphaStar还用了一个新的多智能体学习算法。

这个神经网络,经过了监督学习和强化学习的训练。

最开始,训练用的是监督学习,素材来自暴雪发布的匿名人类玩家的游戏实况。

这些资料可以让AlphaStar通过模仿星际天梯选手的操作,来学习游戏的宏观和微观策略。

最初的智能体,游戏内置的精英级 (Elite) AI就能击败,相当于人类的黄金段位 (95%) 。

而这个早期的智能体,就是强化学习的种子。

在它的基础之上,一个连续联赛 (Continuous League) 被创建出来,相当于为智能体准备了一个竞技场,里面的智能体互为竞争对手,就好像人类在天梯上互相较量一样:

从现有的智能体上造出新的分支,就会有越来越多的选手不断加入比赛。新的智能体再从与对手的竞争中学习。

这种新的训练形式,是把从前基于种群 (Population-Based) 的强化学习思路又深化了一些,制造出一种可以对巨大的策略空间进行持续探索的过程。

这个方法,在保证智能体在策略强大的对手面前表现优秀的同时,也不忘怎样应对不那么强大的早期对手。

随着智能体联赛不断进行,新智能体的出生,就会出现新的反击策略 (Counter Strategies) ,来应对早期的游戏策略。

一部分新智能体执行的策略,只是早期策略稍稍改进后的版本;而另一部分智能体,可以探索出全新的策略,完全不同的建造顺序,完全不同的单位组合,完全不同的微观微操方法。

早期的联赛里,一些俗气的策略很受欢迎,比如用光子炮和暗黑圣堂武士快速rush。

这些风险很高的策略,在训练过程中就被逐渐抛弃了。同时,智能体会学到一些新策略;比如通过增加工人来增加经济,或者牺牲两个先知来来破坏对方的经济。

这个过程就像人类选手,从星际争霸诞生的那年起,不断学到新的策略,摒弃旧的策略,直到如今。

除此之外,要鼓励联赛中智能体的多样性,所以每个智能体都有不同的学习目标:比如一个智能体的目标应该设定成打击哪些对手,比如该用哪些内部动机来影响一个智能体的偏好。

而且,智能体的学习目标会适应环境不断改变。

神经网络给每一个智能体的权重,也是随着强化学习过程不断变化的。而不断变化的权重,就是学习目标演化的依据。

权重更新的规则,是一个新的off-policy演员评论家强化学习算法,里面包含了经验重播 (Experience Replay) ,自我模仿学习 (Self-Imitation Learning) 以及策略蒸馏 (Policy Distillation) 等等机制。

为了训练AlphaStar,DeepMind用谷歌三代TPU搭建了一个高度可扩展的分布式训练环境,支持许多个智能体一起从几千个星际2的并行实例中学习。每个智能体用了16个TPU。

智能体联赛进行了14天,这相当于让每一个智能体都经历了连打200年游戏的训练时间。

最终的AlphaStar智能体,是联赛中所有智能体的策略最有效的融合,并且只要一台普通的台式机,一块普通的GPU就能跑。

AlphaStar打游戏的时候,在看什么、想什么?

上图,就是DeepMind展示的AI打游戏过程。

原始的观察里数据输入到神经网络之中,产生一些内部激活,这些激活会转化成初步的决策:该做哪些操作、点击什么位置、在哪建造建筑等等。另外,神经网络还会预测各种操作会导致的结果。

AlphaStar看到的游戏界面,和我们打游戏时看到的小地图差不多:一个小型完整地图,能看到自己在地图上的所有单位、以及敌方所有可见单位。

这和人类相比有一点点优势。人类在打游戏的时候,要明确地合理分配注意力,来决定到底要看哪一片区域。

不过,DeepMind对AlphaStar游戏数据的分析显示,它观察地图时也有类似于人类的注意力切换,会平均每分钟切换30词左右关注的区域。

这,是12月打的10场游戏的情况。

今天直播中和MaNa对战的AI,就略有不同。

连胜之后,DeepMind团队总会有大胆的想法冒出来——他们迭代了第二版AlphaStar,这一版和人类观察地图的方式是一样的,也要不停选择将视野切换到哪,只能看到屏幕上视野范围内的信息,而且只能在这个范围内操作。

视野切换版AlphaStar经过7天训练,达到了和第一版差不多的水平。

不过,这个版本的智能体原型还是在今天的直播中输给了MaNa,成为了10-1里的1。

DeepMind对他们的AI仍然充满信心,他们在博客中说,这个智能体只训练了7天,希望能在不久的将来,能测试一个完全训练好了的视野版智能体。

现在,AlphaStar还只能玩神族。DeepMind说,他们为了在内部测试中减少训练时间和变量,决定先只玩一个种族。

不过,这不代表它就学不会其他种族。同样的训练流程,换个种族还是一样用。

星际界的樊麾和带路党

这次人机大战背后,有很多人的努力,我们这次重点介绍三个人。

首先是AlphaStar的两个人类对手。

TLO是一位德国职业星际2选手,原名Dario Wünsch,1990年7月13日出生。现在效力于职业游戏战队Liquid。

之前TLO有个称号:随机天王。星际2的公测阶段,他使用哪个种族都得心应手,不过后来,TLO开始逐渐专攻于虫族。

根据官方公布的数据,TLO在2018 WCS Circuit排名:44。

国内关于TLO的资料,不少都是几年前的对战,现在TLO应该已经在自己职业生涯的末期,可以算是一位久经沙场的老将。

MaNa是一位出生于波兰的职业星际2选手,原名Grzegorz Komincz,1993年12月14日出生,目前也效力于Liquid。

与TLO相比,MaNa是一个正值当打之年的选手。

而且,他更擅长的是神族。尽管他打出GG的速度更快……

MaNa去年获得WCS Austin的第二名。根据官方公布的数据,他在2018 WCS Circuit排名:13。

MaNa和TLO和AlphaStar的对战,发生在去年12月。地点在伦敦,就是DeepMind的总部。这不禁让人想起当年AlphaGo的故事。

AlphaGo名不见经传时,也是悄悄把樊麾请到了伦敦,然后把樊麾杀得有点怀疑“棋”生。然后开始向全世界公布突破性的进展。

TLO和MaNa,应该就是星际2界的樊麾了吧。

第三个是AlphaStar的教父:Oriol Vinyals。

他是DeepMind星际2项目的核心负责人。我们在此前的报道里介绍过他。1990年代,十几岁的Oriol Vinyals成了西班牙《星际争霸》全国冠军。

他之所以玩这款科幻策略游戏,是因为比其他打打杀杀的游戏更需要动脑子。维纽斯说:“没上大学之前,这款游戏就让我在生活中怀有更强的战略思维。”

Vinyals的战略思维的确获得了回报:在巴塞罗那学习了电信工程和数学之后,维纽斯去过微软研究院实习,获得了加州大学伯克利的计算机博士学位,接着加入谷歌大脑团队,开始从事人工智能开发工作,然后又转入谷歌旗下DeepMind团队。

他又跟“星际争霸”打起了交道。

但这一次不是他亲自玩,而是教给机器人怎么玩。在人工智能成为全球最优秀的围棋选手后,星际成为了下一个攻克目标。

AI打星际的意义

早在2003年人类就开始尝试用AI解决即时战略(RTS)游戏问题。那时候AI还连围棋问题还没有解决,而RTS比围棋还要复杂。

直到2016年,“阿尔法狗”打败了李世石。DeepMind在解决围棋问题后,很快把目光转向了《星际2》。

与国际象棋或围棋不同,星际玩家面对的是“不完美信息博弈”。

在玩家做决策之前,围棋棋盘上所有的信息都能直接看到。而游戏中的“战争迷雾”却让你无法看到对方的操作、阴影中有哪些单位。

这意味着玩家的规划、决策、行动,要一段时间后才能看到结果。这类问题在现实世界中具有重要意义。

为了获胜,玩家必须在宏观战略和微观操作之间取得平衡。

平衡短期和长期目标并适应意外情况的需要,对脆弱和缺乏灵活性的系统构成了巨大挑战。

掌握这个问题需要在几个AI研究挑战中取得突破,包括:

博弈论:星际争霸没有单一的最佳策略。因此,AI训练过程需要不断探索和拓展战略知识的前沿。

不完美信息:不像象棋或围棋那样,棋手什么都看得到,关键信息对星际玩家来说是隐藏的,必须通过“侦察”来主动发现。

长期规划:像许多现实世界中的问题一样,因果关系不是立竿见影的。游戏可能需要一个小时才能结束,这意味着游戏早期采取的行动可能在很长一段时间内都不会有回报。

实时:不同于传统的棋类游戏,星际争霸玩家必须随着游戏时间的推移不断地执行动作。

更大的操作空间:必须实时控制数百个不同的单元和建筑物,从而形成可能的组合空间。此外,操作是分层的,可以修改和扩充。

为了进一步探索这些问题,DeepMind与暴雪2017年合作发布了一套名为PySC2的开源工具,在此基础上,结合工程和算法突破,才有了现在的AlphaStar。

除了DeepMind以外,其他公司和高校去年也积极备战:

4月,南京大学的俞扬团队,研究了《星际2》的分层强化学习方法,在对战最高等级的无作弊电脑情况下,胜率超过93%。

9月,腾讯AI Lab发布论文称,他们构建的AI首次在完整的虫族VS虫族比赛中击败了星际2的内置机器人Bot。

11月,加州大学伯克利分校在星际2中使用了一种新型模块化AI架构,用虫族对抗电脑难度5级的虫族时,分别达到 94%(有战争迷雾)和 87%(无战争迷雾)的胜率。

下一步

今天AI搞定了《星际2》,DeepMind显然不满足于此,他们的下一步会是什么?

哈萨比斯在赛后说,虽然星际争霸“只是”一个非常复杂的游戏,但他对AlphaStar背后的技术更感兴趣。其中包含的超长序列的预测,未来可以用在天气预测和气候建模中。

他还透露将在期刊上发表经过同行评审的论文,详细描述AlphaStar的技术细节。一起期待吧~

*本文由腾讯新闻、量子位共同出品,作者系量子位,腾讯新闻同步首发,未经授权,不得转载。

7,击败星际争霸II职业玩家的AlphaStar是在作弊

编者按:本文来自微信公众号“机器之心”(ID:almosthuman2014),作者 机器之心编辑部。36氪经授权转载。

DeepMind 的人工智能 AlphaStar 一战成名,击败两名人类职业选手。掌声和欢呼之余,它也引起了一些质疑。

在前天 DeepMind 举办的 AMA 中,AlphaStar 项目领导者 Oriol Vinyals 和 David Silver、职业玩家 LiquidTLO 与 LiquidMaNa 回答了一些疑问。不过困惑依然存在……

近日,Aleksi Pietik?inen 在 Medium 上发表了文章,提出了几点疑问,在 Twitter 和 Reddit 上引起了极大的关注:

AlphaStar 使用了超人的速度,达到了超人的准确度。

DeepMind 称限制了 AI 的操作速度,不至于人类无法企及。但他们并未做到,且大概率意识到自己没做到。

AlphaStar 拥有超人速度的原因可能是忘了考虑人类的无效点击。作者怀疑 DeepMind 想限制它使它更像人类,但是却没有做到。我们需要一些时间弄清楚这一点,不过这也正是作者写本文的原因。

前谷歌大脑科学家 Denny Britz 也转载了此文章并在 Twitter 上表示:「有时候诚实和谦虚一点,就像『目前已经做得不错了,但我们还没有达到最优,还有很长的路要走。』而不是『看!那职业选手被击败了!!』,这样才能走得更远。

最让我烦恼的是,虽然 AlphaStar 在很多方面都有令人惊讶的结果,但其声称『限制在人类的操作水平』的解释让整个事件变得更像是在做公关,对于不熟悉机器学习和星际争霸的人来说这就是误导。」

让我们看看 AlphaStar 究竟哪里「作弊」了,以下为机器之心对该文章的编译介绍:

首先,我必须声明我是门外汉。最近我一直追踪 AI 发展和星际争霸 2,不过我在这两个领域都不是专家。如有错漏,请见谅。其次,AlphaStar 确实是一项巨大成就,我很期待看到它以后的发展。

AlphaStar 的超人速度

AlphaStar 团队领导 David Silver:「AlphaStar 不能比人类选手反应速度快,也不会比人类选手执行更多点击。」

2018 年,来自芬兰的虫族选手「Serral」Joona Sotala 制霸星际 2。他是目前的世界冠军,且他在当年的九场大型赛事中取得了七次冠军,在星际 2 历史上是史无前例的选手。他的操作速度非常快,可能是世界上最快的星际 2 选手。

在 WCS2018 上,Serral 的毒爆虫让局势逆转。

在比赛中,我们可以看到 Serral 的 APM(actions per minute)。APM 基本上表示选手点击鼠标和键盘的速度。Serral 无法长时间保持 500 APM。视频中有一次 800 APM 的爆发,但只持续了一秒,而且很可能是因为无效点击。

世界上速度最快的人类选手能够保持 500 APM 已经很不错了,而 AlphaStar 一度飙到 1500+。这种非人类的 1000+ APM 的速度竟然持续了 5 秒,而且都是有意义的动作。

一分钟 1500 个动作意味着一秒 25 个动作。人类是无法做到的。我还要提醒大家,在星际 2 这样的游戏中,5 秒是很长一段时间,尤其是在大战的开始。

如果比赛前 5 秒的超人执行速度使 AI 占了上风,那么它以大幅领先优势获取胜利可能是由于雪球效应。

一位解说指出平均 APM 仍是可接受的,但很明显这种持续时间并非人类所能为。

AlphaStar 的无效点击、APM 和外科手术般的精准打击

大部分人类都会出现无效点击。无意义的点击并没有什么用。例如,人类选手在移动军队时,可能会点击目的地不止一次。这有什么作用呢?并没有。军队不会因为你多点击了几下就走得更快。那么人类为什么还要多点击呢?原因如下:

1. 无效点击是人类想要加快操作速度的自然结果。

2. 帮助活跃手指肌肉。

我们前面说过 Serral 最令人震惊的不是他的速度而是准确度。Serral 不只是具备高 APM,还具备非常高的 effective-APM(下文中简略为 EAPM),即仅将有效动作计算在内的 APM。

一位前职业玩家在看到 Serral 的 EAPM 后发推表示震惊:

Serral 的 EAPM 是 344,这实际上已经是前所未有了。APM 和 EAPM 的区别也涉及 AlphaStar。如果 AlphaStar 没有无效动作,这是不是说明它的巅峰 EAPM 等于巅峰 APM?这样的话 1000+的爆发更加非人类了。

我们还需要考虑 AlphaStar 具备完美的准确率,它的性能好到「荒谬」的程度。它总能点击到想去的地方,而人类会有误点击。AlphaStar 可能不会一直使用巅峰状态,但在关键时刻,它的速度是世界最快选手的 4 倍,而准确率更是人类专业玩家想都不敢想的。

星际 2 中存在一个共识:AlphaStar 的执行序列人类无法复制。其速度和准确率突破了人类现有极限。

AlphaStar 只能执行人类选手可以复制的动作?David Silver 不认同这种看法。

正确做事 vs 快速做事

AlphaStar 的首席设计工程师 Oriol Vinyals:我们正在努力构建拥有人类惊人学习能力的智能系统,因此确实需要让我们的系统以尽可能「像人类一样」的方式学习。

例如,通过非常高的 APM,将游戏推向极限可能听起来很酷,但这并不能真正帮助我们衡量智能体的能力和进步,使得基准测试毫无用处。

为什么 DeepMind 想限制智能体像人类一样玩游戏?为什么不让它放飞自我?原因是星际争霸 2 是一个可以通过完美操作攻破的游戏。

在这个 2011 年的视频(网页链接)中,AI 攻击一组坦克,其中一些小狗实现了完美的微操。例如,在受到坦克攻击时让周围的小狗都躲开。

通常情况下,小狗不能对坦克做出太大 伤害,但由于 AI 完美的微操,它们变得更加致命,能够以最小的损失摧毁坦克。

当单元控制足够好时,AI 甚至不需要学习策略。而在没有这种微操时,100 只小狗冲进 20 架坦克中只能摧毁两架坦克。

并不一定对创建可以简单击败星际争霸专业玩家的 AI 感兴趣,而是希望将这个项目作为推进整个 AI 研究的垫脚石。

虽然这个研究项目的重要成员声称具有人类极限限制,但事实上智能体非常明显地打破了这些限制,尤其是当它利用超人速度的操作来赢得游戏时,这是完全无法让人满意的。

AlphaStar 能够在单位控制方面超越人类玩家,当游戏开发者仔细平衡游戏时,肯定不会去考虑这一点。这种非人类级别的控制可以模糊人工智能学习的任何战略思维评估。

它甚至可以使战略思维变得完全没有必要。这与陷入局部极大值不同。当 AI 以非人类级别的速度和准确率玩游戏时,滥用卓越的控制能力很可能变成了玩游戏时的最佳策略,这听起来有些令人失望。

这是专业人士在以 1-5 的比分输掉比赛之后所说的 AI 优点和缺点:

MaNa:它最强的地方显然是单位控制。在双方兵力数量相当的情况下,人工智能赢得了所有比赛。在仅有的几场比赛中我们能够看到的缺点是它对于技术的顽固态度。

AlphaStar 有信心赢得战术上的胜利,却几乎没有做任何其它事情,最终在现场比赛中也没有获得胜利。我没有看到太多决策的迹象,所以我说人工智能是在靠操作获得胜利。

在 DeepMind 的 Replay 讲解和现场比赛之后,星际争霸玩家群体几乎一致认为 AlphaStar 几乎完全是因为超人的速度、反应时间和准确性而获得优势的。

与之对抗的职业选手似乎也同意。有一个 DeepMind 团队的成员在职业玩家测试它之前与 AlphaStar 进行了比赛。他估计也同意这种观点。

David Silver 和 Oriol Vinyal 不断重复声称 AlphaStar 如何能够完成人类可以做的事情,但正如我们已经看到的那样,这根本不是真的。

在这个视频中关于「AlphaStar 如何能够完成人类可以做的事情」的描述非常粗略。

为什么 DeepMind 允许 AlphaStar 拥有超人的操作能力

现在让我们回顾一下这篇文章的主要观点:

我们知道了 APM、EAPM 和无效点击等概念;

我们对人类玩家操作能力的上限有一个粗略的了解;

我们知道了 AlphaStar 的游戏玩法与开发人员声称允许执行的游戏玩法完全矛盾;

我们的一个共识是 AlphaStar 通过超人的控制能力赢得了比赛,甚至不需要卓越的战略思维;

我们知道,DeepMind 的目标不是创建一个只能微操的 AI,或者以从未打算过的方式滥用技术;

令人难以置信的是,在 DeepMind 的星际争霸 AI 团队中没有人质疑爆发的 1500+ APM 是否对于人类而言可及。他们的研究人员可能比我更了解这个游戏。他们正与拥有星际争霸系列 IP 的游戏公司暴雪密切合作,使 AI 尽可能接近人类才符合他们的利益(参见本文前面提到的 David Silver 和 Oriol Vinyals 的提到的前几个要点和使命陈述)。

这是我对事情真相的猜测:

1)在项目一开始,DeepMind 同意对 AlphaStar 施加严格的 APM 限制。因此 AI 不会在演示中出现超人的操作速度。如果让我来设计这些限制,可能包含如下几项:

整场比赛的平均 APM;

在短时间内爆发的最大 APM。我认为每秒加上 4-6 次点击是合理的。还记得 Serral 和他的 344 EAPM 超越了竞争对手?这还不到每秒 6 次点击。与 MaNa 对战的 AlphaStar 版本在连续的时间段内每秒可以执行 25 次点击。这比人类可以做到的最快无效点击速度要快得多,我认为原始限制是不允许这样做的。

点击之间的最短间隔。即使 AI 的速度爆发被限制,它仍然可以在当前所处时间段的某个时刻执行几乎瞬时的动作并且仍然以非人类的方式执行。人类显然无法做到这一点。

有些人会主张还可以在准确率上添加随机性来进行限制,但我怀疑这会过多地阻碍训练的速度。

2)接下来,DeepMind 会下载数以千计高排名的业余游戏视频并开始模仿学习。在这个阶段,智能体只是试图模仿人类在游戏中所做的事情。

3)智能体采用无效点击的行为。这很可能是因为人类玩家在游戏过程中使用了这种点击行为。几乎可以肯定,这是人类执行的最单调重复的行为模式,因此很可能深深扎根于智能体的行为中。

4)AlphaStar 爆发的最大 APM 受限于人类进行无效点击的速度。由于 AlphaStar 执行的大多数操作都是无效点击,因此没有足够的 APM 可用于在战斗中进行实验。如果智能体未进行实验,则无法学习。以下是其中一位开发人员昨天在 AMA 上所说的话:

AlphaStar 的首席设计工程师 Oriol Vinyals:训练人工智能玩低 APM 非常有趣。在早期,我们让智能体以非常低的 APM 进行训练,但它们根本没有微操。

5)为了加速开发,他们改变 APM 限制以允许高速爆发。以下是 AlphaStar 在演示中使用的 APM 限制:

AlphaStar 的首席设计工程师 Oriol Vinyals:尤其是,我们在 5 秒的时间段内设置的最大 APM 为 600,在 15 秒内最大为 400,30 秒内最大为 320,在 60 秒内最大为 300。如果智能体在此期间执行更多的操作,我们会删除/忽略这些操作。这些是根据人类统计数据设置的。

这相当于通过统计数字作弊。乍一看,对星际不太了解的人可能会觉得这样做很合理,但它会允许我们之前讨论的超人速度爆发以及超人鼠标精度,这是不太合理的。

人类进行无效点击的速度是有限的。最典型的无效点击形式是对一个单位发出移动或攻击命令。这是通过用鼠标点击地图某个位置来完成的。

请尽你最快的速度点击鼠标试试。智能体学会了这种无效点击。它不会点击地太快,因为它模仿的人类无法点击太快。而能让它达到超人速度的额外 APM 可以被认为是「自由的」APM,它可以用于更多次尝试。

6)自由的 APM 被用于在交战中进行实验。这种交互在训练中经常发生。AlphaStar 开始学习新的行为以带来更好的结果,它开始摆脱经常发生的无效点击。

7)如果智能体学会了真正有用的动作,为什么 DeepMind 不回到最初对 APM 更苛刻、更人性化的限制呢?他们肯定意识到了其智能体正在执行超人的动作。

星际社区一致认为 AlphaStar 拥有超人的微操技术。人类专家在 ama 中表示,AlphaStar 的最大优势不是其单位控制,而其最大的弱点也不是战略思维。

DeepMind 团队中玩星际的人肯定也是这么想的,理由是因为智能体偶尔还是会进行无效点击。

虽然在玩游戏的大部分时间里,它能直接执行有效动作,但它还是经常做无效点击。这一点在它与 MaNa 的比赛中很明显,该智能体在 800APM 上无意义地点击移动命令。

尽管这完全没必要,而且消耗了它的 APM 资源,但它仍不忘记这么干。无效点击会在大规模战争中对智能体造成很大伤害,它的 APM 上限可能会被修改以使它在这些对抗中表现良好。

不要在意这些细节?

现在你明白是怎么回事儿了。我甚至怀疑人工智能无法忘记它在模仿人类玩家过程中学习到的无效点击行为,因而 DeepMind 不得不修改 APM 上限以允许实验进行。

这么做的缺点就是人工智能有了超越人类能力的操作次数,从而导致 AI 以超越人类的手速,不用战术战略就能打败人类。

我们对 APM 如此关心,是因为 DeepMind 击败人类职业玩家的方式与他们所希望的方式,以及所声称的「正确」方式完全相反。而 DeepMind 放出的游戏 APM 统计图也让我们对此有所洞悉:

这种统计方式似乎是在误导不熟悉星际争霸 2 的人。它似乎在把 AlphaStar 的 APM 描述为合理的。我们可以看看 MaNa 的数据,尽管他的 APM 均值比 AlphaStar 要高,但在最高值上 AI 远高于人类,更不用说在高 APM 时人类操作的有效性了。

请注意:MaNa 的峰值是 750,而 AlphaStar 高于 1500。想象一下,MaNa 的 750 包含 50% 的无效点击,而 AlphaStar 的 EAPM 几乎完美……

至于 TLO 的「逆天」手速,星际争霸主播黄旭东和孙一峰在直播时认为他明显使用了加速键盘(通过特殊品牌的键盘热键功能,设置某单个快捷键/组合键代替多次鼠标点击)。

加速键盘可以让人类的 APM 达到不可理喻的高度,比如 15,000 多——但并不会提升你的有效操作。

然而,你用加速键盘能做的唯一一件事就是无效施法。出于某些莫名的原因,TLO 在滥用这个技术,这种操作的统计结果让不熟悉星际争霸的人看起来好像 AlphaStar 的 APM 是在合理范围之内的。

DeepMind 的介绍性博客并没有提到 TLO 荒谬数字的原因,如果没有解释,这个数字就不应该被列在图中。

这简直是在统计数字上作弊。

可以说有局限性,可以说潜力巨大

AlphaStar 星际争霸 2 的人机大战吸引了人工智能领域里很多专业人士的关注,它对于 AI 技术的发展会有什么样的启示。比赛过后,Facebook 研究科学家田渊栋在知乎上表示:

昨天晚上抽空看了一下 DM 的 demonstration 还有 live 的比赛。确实做得很好。

我星际水平很烂,星际 2 也玩得不多,相信大家已经看到了大量的游戏评论,我就跳过了。

整个系统和 AlphaGo 第一版很接近,都是先用监督学习学会一个相当不错的策略,然后用自对弈(self-play)加强。当然有两个关键的不同点,其一是自对弈用的是 population-based 以防止掉进局部解(他们之前在 Quake 3 上也用到了)。

其二是在 network 里面加了一些最近发表的神经网络模型,以加强 AI 对于游戏全局和历史长程关联性的建模能力(比如说用 transformer,比如说让 AI 可以一下子看到全部可见区域),这两点对于不完全信息游戏来说是至关重要的。

因为不完全信息游戏只能通过点滴的历史积累来估计出当前的状态,尤其是对手的状态,多一点历史记录就能学得更好些,这个我们做过一些即时战略游戏(MiniRTS)的研究,很有体会。

星际一个很大的问题是输出的行动空间(action space)巨大无比,我记得他们在一开始做的基线(baseline)算法里面用了 language model 输出精确到单位的行动(unit-level action),但在 DM 的 blog 里面却说每个时间节点上只有 10 到 26 种不同的合法行动。

然后在他们的 demonstration 里面「considered Build/Train」下面有 33 个输出。这些都让人非常困惑。或许他们在监督学习的时候已经建立了一些子策略(比如说通过聚类的方法),然后在训练的时候直接调用这些子策略就行了。但具体细节不明,期待完整论文出来。

另外,这次 AlphaStar 没有用基于模型进行规划的办法,目前看起来是完全用经典的 off-policy actor-critic 加大量 CPU 硬来,就有这样的效果。

关于 AlphaStar 输掉的那局。实话说被简单的空投战术重复几次给拖死了,让人大跌眼镜。联想到 OpenAI Five 对职业选手也输了,主要还是应变能力不强,无法对新战术新模式及时建模。

围棋因为游戏规则和双方信息完全透明,下棋的任何一方都可以用蒙特卡罗树搜索(MCTS)对当前局面进行临时建模和分析,但不完全信息博弈因为得要估计对手情况就没有那么简单。

AlphaStar 目前似乎是无模型的(model-free,Reddit 上的解答确认了这一点)。我不知道是不是在进行充分的训练之后,纯粹无模型(model-free)的方法可以完全达到树搜索的效果——但至少我们能看到在围棋上。

就算是用相当好的模型比如说 OpenGo,要是每盘都不用搜索而只用策略网络的最大概率值来落子,还是会经常犯错。

所以说,若是在不完全信息博弈里面用上了基于模型(model-based)的方法,并且能够稳定地强于无模型(model-free)方法,那在算法上会是一个比较大的突破。

所以其实深度强化学习还是有很多很多很多没有解决的问题,你可以说它有很大局限性,也可以说它潜力巨大。

在这之上,更难的一个问题是如何让 AI 具有高层推理的能力。人对将来的预测是非常灵活且极为稳定的,可能会想到一秒后,也可能会想到一年后,而且对新模式可以很快概括总结并加以利用。

但真写点算法去模仿人的预测能力,就会出现各种各样的问题,比如说对没探索过的地方过于自信,多次预测产生累计误差等等。那么到底什么样的预测模型是稳定有效且灵活的,目前还是研究热点,没有一个统一的答案。

对应到星际上,人在全局战略上的优化效率要远远高于 AlphaStar,比如说一句「造两个凤凰去灭了那个来空投的棱镜」,可能就顶 AlphaStar 自对弈几天几夜。

这个效率的差距(可能是指数级的)是否可以用大量计算资源去填补,会是和顶尖高手对局胜败的关键所在。

参考内容:

网页链接

网页链接

文章TAG:星际争霸新手攻略视频  星际争霸1怎么入门  星际  星际争霸  争霸  
相关教程
猜你喜欢