柯洁对战alpha攻略,柯洁与AlphaGo的三番棋决战哪一方会赢,为什么
作者:本站作者1,柯洁与AlphaGo的三番棋决战哪一方会赢,为什么
柯洁与AlphaGo的三番棋2113决战,AlphaGo赢了。 2017年5月23日,柯洁执黑迎战谷歌AlphaGo,最终柯洁在收官5261阶段不敌AlphaGo,第一局以失败告终。 2017年5月25日,人机大战三番棋第二局战罢,柯洁虽4102然发挥神勇,但因为中盘战斗劫材不利,中盘败北。AlphaGo2-0领先,已经赢得了三番棋的胜利。根据规则,第三局仍如1653期在27日举行。 2017年5月27日,乌镇围棋峰会最后一天,也是万众瞩回目的柯洁AlphaGo最后一场,面对AlphaGo,柯洁使出全身解数仍无济于事最终投子认答负,本次人机大战最终以柯洁三连败告终。
2,柯洁对战阿尔法狗结果 柯洁对战阿尔法狗第一场赢了吗
展开全部 柯洁对战阿尔法狗结果,柯洁对战阿尔法狗第一场没有赢。 2017年5月23日,当今世界围棋第一人柯洁九段执黑289手,以四分之一子的微弱劣势负于计算机围棋程序“阿尔法围棋”,在围棋“人机大战”三番棋中以0比1落后。 经过大约4个半小时的较量,柯洁遗憾惜败,而四分之一子已经是在围棋规则之下最小的差距。与柯洁一样拥有世界冠军头衔的唐韦星九段表示,柯洁已经下得很好了,但是对手的表现更加出色。 布局阶段,柯洁在第七手就走出了模仿阿尔法围棋的开局不久“点三三”的下法,阿尔法围棋的应对滴水不漏。中盘阶段,白棋在左上一带的下法让柯洁频频长考,随后白54的后手“断”更是令柯洁和在研究室观战的职业棋手们感到不可思议。 此后,白棋吃掉下边3子之后抢得先手打入右边,占据了较为明显的优势。后半盘阿尔法围棋的表现依然稳定,黑棋盘面领先6目、贴不出目的局面(根据规则黑贴三又四分之三子,相当于7目半)难以改变。虽然柯洁拼到最后,阿尔法围棋官子阶段有所退让,但仍以四分之一子的优势获胜。
3,yolo是什么意思?_
YOLO,美语新词,是You Only Live Once的首字母缩略词,意为你只能活一次,应该活在当下,大胆去做。
YOLO的寓意是人应该享受人生,即使需要承担风险。就是鼓励人们不怕冒险,想做什么就做什么,享受人生,因为只会活一次。
该词最早起源于YOLO商标,现在这一句话常常用在青少年的对话和音乐当中。也代表了当代年轻人的生活态度。
词典编纂者Ben Zimmer发现该新词最早起源于YOLO商标,释义为You Only Live Once,现在这一句话常常用在青少年的对话和音乐当中。加拿大饶舌歌手德雷克的《The Motto》使此句普及于网络中;BTS的歌曲《INTRO : O!RUL8,2?》和《Go Go》分别使用了"You only live once" 和"YOLO" 。2016年该新词首次作为词条收录于牛津词典。2019年中国男子流行演唱组合R1SE在其第二张专辑《炸裂狂想曲》中以柯洁与ALPHAGO人机对战为背景创作的《Never Surrender》中提到“我的格言是YOLO”。
4,【视野】王思聪怒怼柯洁,可惜网友这次站柯洁反而围剿王思聪_搜狗...
人机大战第一局在浙江桐乡打响,柯洁在微博发表战前感想,王思聪怼柯洁,李世石出战时你那嚣张劲哪去了?网友在留言下不满怒怼王思聪:“人家嚣张是因为人家蝉联世界冠军,你嚣张只是因为你是王健林的儿子。”
柯洁与Alphago的人机大战第一场结束,Alphago执白战胜了柯洁,胜四分之一子。柯洁在赛前前一夜抒发自己的心声,“无论输赢,这都将是我与人工智能最后的三盘对局”,柯洁认为“现在的AI进步之快远超我们的想象。像国产的绝艺、日产的ZEN虽然和AIphago还有着较大差距,但已经表现出超强的实力了。。。我相信未来是属于人工智能的。”
而此后,王思聪转发评论称:“当时李和alphago下的时候你那嚣张劲儿哪去了?”疑似在暗讽柯洁。
傅园慧则回复:“加油老柯,甲油甲油!”对柯洁表示鼓励。网友也纷纷给柯洁加油,表示赢了陪你狂,输了陪你扛!你是国人的骄傲 。许多柯洁粉丝也自发换成统一的头像给柯洁助威。
这一举动一起了无数网友的不满,于是,网友自发地开始围剿王思聪:
事实上,柯洁自己也明白,这一次人机大战,他获胜的机会不大,不少业内人士认为,柯洁这一次赢得概率不到10%,能够拿下一局就是奇迹了。平心而论,王思聪们等质疑者或许没有看到,虽然人类在进步,但人工智能的“进步”更迅速,不夸张地说,这次柯洁面对的对手,比对阵李世石甚至60连胜的时候还要强大。
5,柯洁对战阿尔法狗,三场比赛谁将最终取得胜利的猜想
5月23日,在 “中国乌镇围棋峰会”上,中国围棋职业九段棋手柯洁与Google 旗下的人工智能程序阿尔法狗(AlphaGo)上演“人机终极对决”,第一局比赛已经结束,阿尔法狗(AlphaGo)取得了第一局的胜利,柯洁暂时以0:1落后。最终结果如何?谁将取得最终胜利,要看25日的再次对决。 柯洁出生于1997年,是中国围棋的新生力量,自2007年开始,一路赢得全国少儿围棋锦标赛冠军、世界青少年围棋少年组冠军,成为世界上最年轻的围棋三冠王,也成为中国首位蝉联同一项世界大赛冠军的围棋选手,围棋等级分排名世界第一。 阿尔法狗(AlphaGo)是Google 旗下的人工智能程序,2016年3月,它与围棋世界冠军、职业九段选手李世石进行人机大战,并以4:1的总比分获胜,。之后,又在中国棋类网站上与中日韩数十位围棋高手进行快棋对决,连续60局无一败绩。 AlphaGo的棋力已经达到甚至超过围棋职业九段水平,可以猜测,这将是一场没有悬念的较量。人工智能AlphaGo并没有智慧,但是却具备非常强的深度学习能力,通过历史数据的存储、对比和分析,就可以得出更加精确的结果。所以AlphaGo对决的越多,存储在处理器中的数据也就越多,下棋的预测性就更加准确,人类远远无法达到人工智能处理数据的能力。所以,笔者认为这是一场没有悬念的比赛。 柯洁赛前曾表示,“我会用所有的热情去与它做最后的对决,不管面对再强大的对手——我也绝不会后退!至少这……最后一次……且看且珍惜。” 人工智能是把双刃剑,一方面推进了科技和产业的发展,也让我们的工作和生活更为便利,其快速发展一定能大大提高生产力;另一方面,也会对一些创新性弱的行业有所挑战,可以取代一部分人的劳动。 但终究,人类的整体劳动和智慧还是推进科技和时代发展的第一生产力。既然人工智能的列车必将前行,人类终究要依靠自己的精神与智慧,保证列车在铺设好的轨道里冲向下一个奇迹。
阿尔法狗已经2:0赢了好吗,
6,柯洁输了被王思聪怼,结果王思聪反而遭到了群嘲_
最近,柯洁与阿尔法狗再战,第一局遗憾以1/4子落败。去年阿尔法狗升级版上线之后,就接连挑战了15位围棋世界冠军,以60连胜收官,真是相当可怕的AI。
阿尔法狗从来没有输过!唯一一次和局还是因为棋手陈耀烨掉线系统自动判和(人类想要真的战胜阿尔法狗。
其实早在比赛之前,柯洁就在微博发了一篇文章,说“我相信,未来是属于人工智能的”,输棋应该也是意料之中的事情。
本来大家都在微博留言安慰他,胜负乃兵家常事,况且柯洁只输了1/4子,两者棋力在伯仲之间。
只有一个人跳出来唱反调,辣就是玩完网红闲得没事干的王思聪。他在柯洁微博下带着戏谑口吻留言:“当时李和alphago下的时候你那嚣张劲儿哪儿去了?”
王思聪一直被称为娱乐圈的纪检委书记,他怼过娱乐圈里不少大大小小的明星,几乎没有败绩。
比如他怼大张伟是抄袭犯不要脸,结果大张伟还要给他赔笑脸,说什么希望有机会可以同台唱一首歌
青云志开播的时候,王思聪又在微博留言撕杨紫,说她不适合演陆雪琪,没有感觉。杨紫也没敢回掐,只是小小声说了一句“那就继续努力吧”
说张翰是分手回踩前任的渣男,也有不少郑爽粉给王校长加油叫好
王思聪怼范冰冰是毯星、没有作品、话题炒作。范冰冰回怼“你找你的爸,我干我的活,我们都算自强不息”,但是王思聪马上又爆出范冰冰的三个干爹,也算完胜
冯小刚为了《我不是潘金莲》写了长文埋怨万达排片,王思聪也立马怼回去了,说冯小刚阴阳怪气,电影拿不出手。吃瓜群众也是清一色站在王思聪那边,觉得潘金莲本来就不好看
《择天记》开播的时候,王思聪发又朋友圈,嘲鹿晗不会演戏,还把刘亦菲也顺带嘲了,说她“曾经用一个表情演了几部电视剧”。
怼人怼成了习惯,王思聪已经可以靠着怼人轻轻松松上热搜赚流量。他在做《小葱秀》的时候,说起自己毒舌的一面他的表情是相当骄傲啊,“你做菜好吃我都有可能骂你,更别说不好吃了。我不告诉你你的缺点是什么,你是无法进步的。”
旁边的主持人问,那会有人反驳你吗?思聪只说了一句话:没有人敢在我面前这个样子……啧啧啧,十足的太子爷架势啊
可是这一回,王思聪真的怼错人了。他骂柯洁在李世石对战阿尔法狗的时候很嚣张,但那时的柯洁才19岁啊,年纪轻轻参加世界大赛就14连胜,击败过李世石,自然是有嚣张的资本。
网友也一面倒地支持柯洁,“人家嚣张是因为蝉联世界冠军,你嚣张只是因为你是王健林的儿子”
另外,网友也跟王思聪科普了一盘围棋知识,阿尔法狗在不断升级与时俱进,柯洁输棋不代表他水平退步
有网友就说了,“柯洁有着远超他年龄的思考与担当,不论输赢与否,这场比赛本身就让柯洁成为一个值得尊敬的人。”再看看王思聪呢,自己搞过电玩搞过直播但都没搞出什么名堂,他最引人瞩目的title依然是万达太子爷。
也许王思聪哪天不再靠着爹跟网红上热搜,才会真正赢得大家的尊重吧。
7,如何评价柯洁与 AlphaGo 的对决
柯洁经历了英雄般的战斗后,依然第二局输给AlphaGo。 最有价值的信息可能来自AlphaGo之父萨比斯,中盘阶段他评论说:“不可思议,根据AlphaGo的评估,柯洁现在下得很完美。 ”赛后萨比斯则评论:“这是一场惊心动魄的令人惊奇的比赛,柯洁几乎把AlphaGo逼到了极限。 ”柯洁今天的最大收获是测出阿法狗的真实水平。 期望这次比赛能够验证。 当然它有两个前提条件,一是柯洁把最好水平发挥出来,二是AlphaGo能够经受真正的考验,而不是表面看它只赢一两个子,实际上后台胜率显示根本没有机会。 前天的第一局,AlphaGo赢了1.5目。 这是一个很小的差距,但柯洁下得谈不上多出色,因为从头到尾他基本没什么机会。 AlphaGo并不是一个赌徒,能赢100目绝不赢99; 它是根据胜率估算来行棋的,如果赢1目而它认为胜率是100%,就没必要去下赢100目而胜率只有99%的棋。 所以,第一局柯洁远远没有逼出AlphaGo的真正实力。 昨天AlphaGo方面的消息,认为这次虽然只是一个单机版,但棋力已经比去年赢李世石的时候提高了三子。 这是一个挺吓人的消息,因为它会让人类棋手觉得,目前这个版本至少比人类强三子以上。 老实讲这挺绝望的,三子以上,四子。 那等于彻底宣布人类棋手跟AlphaGo已经是天壤之别。 知道,面对一个可以让四子的对手,这是职业和业余的差距,比赛已经失去意义,准确地说那叫戏耍。 它可以只赢1目甚至半目,但不说明任何问题,就像柯洁也可以让只输半目,但那又能说明什么。 难道会跑大街上喊,快看,柯洁只赢了半目。 谁都知道,柯洁想怎么赢就怎么赢,半目和100目没差别。 今天的比赛,由于“几乎把AlphaGo逼到了极限”,虽然不是让子棋,但基本可以猜出,在人类棋手高水平发挥的前提下,目前AlphaGo让不到人类三子,可能是二子或者略多。 挂盘讲解的李世石也做出这种判断:AlphaGo并没有提升三子的实力,估计大概有二子。 至此,本次比赛人类棋手的目标或者说心愿已经达到:测试出AlphaGo的真正实力。 否则,AlphaGo就永远是上帝般的存在。 知道它强,但不知道它到底多强,所以它就是上帝。 知道,没有上帝。 如果由于无法评测AI(人工智能)的水平,而把它视为上帝一样的存在,这不是人类进化或者说发展的方向。 等于把命运交给未知,哪怕这个未知是人类创造出来的,也有理由疑虑甚至恐惧。 所以要感谢柯杰,不愧围棋第一人,他今天的勇气和表现,至少让暂时可以从外部角度了解到AlphaGo的真实水平。 这是比胜负更重要的事情。
和李开复的想法一样,很悲观的认为是0%,虽然作为人类这么说似乎是不太好的,但是master迅速的战胜了一大堆优秀的选手之后,再被证明是alphago时候的痛苦,或许身为棋手的他们才懂得,旁人看不过是一场游戏的输赢罢了。 明天其实就已经会播出第一场的比赛了,我们其实不用和赌球一样去猜测是否会胜利,我们需要知道的仅仅只是人工智能和人类棋艺的比拼而已,再反过来想想,不管是围棋还是alphago都是人类精心研制的产物罢了,自己败在了自己所创造出来的更先进的东西上面,又有什么好丢人的呢? 就像父母一样,只不过希望自己的孩子更好,还会希望自己的孩子不如自己吗?这也是一个道理罢了。 第一次李世石的失利其实已经是一个鲜明的结果比对了,同样是九段围棋棋手,只不过这次面对的alphago还是2.0的加强版,所以不少人和minako一样的猜测都是0%的胜率。 23-27为期五天的比赛很磨人,但同样更希望大家抱着第一次看比赛的态度去期待第二次,即使不是人类胜出,但是如果双方都能有更好的表现,其实效应也都是一样的。人工智能的终端依然是为人类所服务的,只要在人类所能够控制的范围内,相信都会有更大的益处。 但对于是否有一天,人类会被自己所创造的东西所统治的时候,其实也非常难说,只不过人类的野心和创造力有时候也必须缓一缓,好好反思一下,过于急功近利,或许真的有一天,人类在思维上和精神上都不如人工智能,甚至于被时间所淘汰!
8,1-10落败,5分钟崩盘:星际2职业高手史上首次被AI击溃,AlphaStar...
编者按:本文来自微信公众号“量子位”(ID:QbitAI),作者 边策 栗子 夏乙。36氪经授权转载。
5分36秒的战斗后,LiquidMaNa打出:GG。
DeepMind开发的全新AI程序AlphaStar,在今天凌晨的《星际争霸2》人机大战直播节目中,轻松战胜2018 WCS Circuit排名13、神族最强10人之一的MaNa。
实际上,AlphaStar以10-1的战绩,全面击溃了人类职业高手。
战败的不止MaNa,还有另一位高手TLO。
人工智能在《星际争霸2》上的进步速度,远远超过了此前外界的预期。毕竟与下围棋这件事相比,星际2要难得多。
在围棋世界,动作空间只有361种,而星际2大约是1026。
与围棋不同,星际玩家面对的是不完美信息博弈。“战争迷雾”意味着玩家的规划、决策、行动,要一段时间后才能看到结果。
这意味着,AI需要学到长远的布局谋篇的策略能力。
即便如此,AlphaStar最终还是学会了如何打星际2。即便此次黄旭东保持克制、谁也没奶,但既定的事实已经无法更改。
直播进行到一半,就有网友在他的微博下留言:比国足输伊朗还惨。
尽管10战连败,人类职业高手仍然对人工智能不吝称赞:不可思议。MaNa说,我从AI身上学到了很多。以及,今天最后一局MaNa也为人类争取到了仅有的胜利!
赛后,TLO的说法跟李世乭输给AlphaGo后很像。他说:相信我,和AlphaStar比赛很难。不像和人在打,有种手足无措的感觉。他还说,每局比赛都是完全不一样的套路。
为什么AI这么强?别的先不展开讲,这里只说一个点。其实在比赛之前,AlphaStar的训练量,相当于打了200年实时对抗的星际2。
总而言之,谷歌DeepMind历时两年,终于让人工智能更进一步,AlphaGo有了新的接班人AlphaStar。
DeepMind CEO哈萨比斯说,AlphaStar的技术未来可用于预测天气、气候建模等需要very long sequences的应用场景。
一次里程碑意义的战斗,落下帷幕。
一次人类的新征程,正式开场。
AlphaStar:10-1
实际上,今天的人机大战主要内容并不是直播,而是回顾人机大战的结果。简单交待一下相关信息,比赛在Catalyst地图上进行,这张地图中文名叫“汇龙岛”。
图上设置了很多隘口和高地,网友说,这张图群龙盘踞,大战一触即发,官方称“能创造出许多有意思的进攻路径和防守阵形”。
游戏版本是去年10月的4.6.2,双方都使用神族(星灵)。
第一场比赛,发生在去年12月12日。
AlphaStar对TLO。
第一局人类选手TLO开局两分钟后就率先发难,不过AlphaStar扛下来,并且逐渐扭转了战局,迅速累积起资源优势。
5分钟左右,AlphaStar以追猎者为主要作战单位,开始向TLO发起试探性的攻击。并且在随后的时间里,持续对TLO展开骚扰,直至取胜。
DeepMind介绍,比赛中,实际上AlphaGo的APM比TLO要低。AlphaStar的APM中值是277,而TLO的APM中值是390。而大部分其他bot的APM,都高达几千甚至数万。
前三局基本都是这样。TLO说第四局就像换了个AI一样,打法完全变了,很接近典型神族打法。
当然,他又输了。这个感觉没错,其实他每次对阵的AI都不一样……
最后的结果是0-5,TLO一局没赢。不过他说:如果我多练练神族,我能轻易打败这些AI。毕竟TLO这些年一直主要在练虫族。
五局比赛打完,DeepMind团队为了庆祝喝了点酒,产生了一个大胆的想法:
再训练训练,和玩神族的职业选手打一场。
于是,快到圣诞节的时候,他们请来了Liquid的神族选手MaNa。
第二场比赛,发生在去年12月19日。
据说,MaNa五岁就开始打星际了。
在对战MaNa之前,AlphaStar又训练了一个星期。双方展开较量之前,MaNa只知道TLO输了,不知道是5-0,而且,明显没有TLO上次来那么紧张。
面对神族最强10人之一,DeepMind认为比赛会很精彩,但对胜利没什么自信。
双方第一局对决,AlphaStar在地图的左上角,MaNa在右下。4分钟,AlphaStar派出一队追猎者,开始进攻。基本上算是一波就推了MaNa。
正如开始所说,5分36秒,MaNa打出GG。
然后第二局也输了。这时候MaNa紧张起来,第三局决心翻盘。7分30秒,AlphaStar出动了一支大军打到MaNa家,MaNa GG。
最精彩的是第四局,MaNa的操作让现场解说叹为观止,他自己赛后也坦言”真是尽力了“。但最后,他的高科技军团在一群追猎者的360度包围下,全灭。MaNa打出了GG。
而且,AlphaStar完成360度包围这一高难度操作时,APM只有250左右。
第四局全程:
需要说明的是,其实在这局比赛中,AlphaStar的APM几乎已经失控,几度飙到1000多。量子位抓到了一些这样的瞬间。
MaNa说,输了好失望,我能出的单位都出了,最后输给了一群追猎者?他还说,AlphaStar的微操太厉害了。incredible。跟AI学东西,这种经历挺好。
人类扳回一城
今天的直播的最后,是现场的表演局(Exhibition game),直播MaNa对战AlphaStar。
在这场比赛中,MaNa采用了一种更激进的打法,一开局就造了更多的农民(探机),这说不定是上个月刚刚跟AlphaStar学来的战术。
12分钟后,MaNa一路拆掉AlphaStar的各种建筑,击败了无法打出GG的AlphaStar。
总算是帮人类挽回一些颜面。
这场比赛,全程在此:
另外DeepMind也放出了全部11局对决的视频,有兴趣可以前往这个地址查看:
网页链接
之前的10局比赛,DeepMind还拍成了一个纪录片。
解读AlphaStar
DeepMind和暴雪周三发出预告后,热情的网友们就已经把各种可能的技术方案猜了一遍。
现在答案揭晓:
AlphaStar学会打星际,全靠深度神经网络,这个网络从原始游戏界面接收数据 (输入) ,然后输出一系列指令,组成游戏中的某一个动作。
再说得具体一些,神经网络结构对星际里的那些单位,应用一个Transformer,再结合一个深度LSTM核心,一个自动回归策略 (在头部) ,以及一个集中值基线 (Centralised Value Baseline)。
DeepMind团队相信,这个进化了的模型,可以为许多其他机器学习领域的难题带来帮助:主要针对那些涉及长期序列建模、输出空间很大的问题,比如语言建模和视觉表示。
AlphaStar还用了一个新的多智能体学习算法。
这个神经网络,经过了监督学习和强化学习的训练。
最开始,训练用的是监督学习,素材来自暴雪发布的匿名人类玩家的游戏实况。
这些资料可以让AlphaStar通过模仿星际天梯选手的操作,来学习游戏的宏观和微观策略。
最初的智能体,游戏内置的精英级 (Elite) AI就能击败,相当于人类的黄金段位 (95%) 。
而这个早期的智能体,就是强化学习的种子。
在它的基础之上,一个连续联赛 (Continuous League) 被创建出来,相当于为智能体准备了一个竞技场,里面的智能体互为竞争对手,就好像人类在天梯上互相较量一样:
从现有的智能体上造出新的分支,就会有越来越多的选手不断加入比赛。新的智能体再从与对手的竞争中学习。
这种新的训练形式,是把从前基于种群 (Population-Based) 的强化学习思路又深化了一些,制造出一种可以对巨大的策略空间进行持续探索的过程。
这个方法,在保证智能体在策略强大的对手面前表现优秀的同时,也不忘怎样应对不那么强大的早期对手。
随着智能体联赛不断进行,新智能体的出生,就会出现新的反击策略 (Counter Strategies) ,来应对早期的游戏策略。
一部分新智能体执行的策略,只是早期策略稍稍改进后的版本;而另一部分智能体,可以探索出全新的策略,完全不同的建造顺序,完全不同的单位组合,完全不同的微观微操方法。
早期的联赛里,一些俗气的策略很受欢迎,比如用光子炮和暗黑圣堂武士快速rush。
这些风险很高的策略,在训练过程中就被逐渐抛弃了。同时,智能体会学到一些新策略;比如通过增加工人来增加经济,或者牺牲两个先知来来破坏对方的经济。
这个过程就像人类选手,从星际争霸诞生的那年起,不断学到新的策略,摒弃旧的策略,直到如今。
除此之外,要鼓励联赛中智能体的多样性,所以每个智能体都有不同的学习目标:比如一个智能体的目标应该设定成打击哪些对手,比如该用哪些内部动机来影响一个智能体的偏好。
而且,智能体的学习目标会适应环境不断改变。
神经网络给每一个智能体的权重,也是随着强化学习过程不断变化的。而不断变化的权重,就是学习目标演化的依据。
权重更新的规则,是一个新的off-policy演员评论家强化学习算法,里面包含了经验重播 (Experience Replay) ,自我模仿学习 (Self-Imitation Learning) 以及策略蒸馏 (Policy Distillation) 等等机制。
为了训练AlphaStar,DeepMind用谷歌三代TPU搭建了一个高度可扩展的分布式训练环境,支持许多个智能体一起从几千个星际2的并行实例中学习。每个智能体用了16个TPU。
智能体联赛进行了14天,这相当于让每一个智能体都经历了连打200年游戏的训练时间。
最终的AlphaStar智能体,是联赛中所有智能体的策略最有效的融合,并且只要一台普通的台式机,一块普通的GPU就能跑。
AlphaStar打游戏的时候,在看什么、想什么?
上图,就是DeepMind展示的AI打游戏过程。
原始的观察里数据输入到神经网络之中,产生一些内部激活,这些激活会转化成初步的决策:该做哪些操作、点击什么位置、在哪建造建筑等等。另外,神经网络还会预测各种操作会导致的结果。
AlphaStar看到的游戏界面,和我们打游戏时看到的小地图差不多:一个小型完整地图,能看到自己在地图上的所有单位、以及敌方所有可见单位。
这和人类相比有一点点优势。人类在打游戏的时候,要明确地合理分配注意力,来决定到底要看哪一片区域。
不过,DeepMind对AlphaStar游戏数据的分析显示,它观察地图时也有类似于人类的注意力切换,会平均每分钟切换30词左右关注的区域。
这,是12月打的10场游戏的情况。
今天直播中和MaNa对战的AI,就略有不同。
连胜之后,DeepMind团队总会有大胆的想法冒出来——他们迭代了第二版AlphaStar,这一版和人类观察地图的方式是一样的,也要不停选择将视野切换到哪,只能看到屏幕上视野范围内的信息,而且只能在这个范围内操作。
视野切换版AlphaStar经过7天训练,达到了和第一版差不多的水平。
不过,这个版本的智能体原型还是在今天的直播中输给了MaNa,成为了10-1里的1。
DeepMind对他们的AI仍然充满信心,他们在博客中说,这个智能体只训练了7天,希望能在不久的将来,能测试一个完全训练好了的视野版智能体。
现在,AlphaStar还只能玩神族。DeepMind说,他们为了在内部测试中减少训练时间和变量,决定先只玩一个种族。
不过,这不代表它就学不会其他种族。同样的训练流程,换个种族还是一样用。
星际界的樊麾和带路党
这次人机大战背后,有很多人的努力,我们这次重点介绍三个人。
首先是AlphaStar的两个人类对手。
TLO是一位德国职业星际2选手,原名Dario Wünsch,1990年7月13日出生。现在效力于职业游戏战队Liquid。
之前TLO有个称号:随机天王。星际2的公测阶段,他使用哪个种族都得心应手,不过后来,TLO开始逐渐专攻于虫族。
根据官方公布的数据,TLO在2018 WCS Circuit排名:44。
国内关于TLO的资料,不少都是几年前的对战,现在TLO应该已经在自己职业生涯的末期,可以算是一位久经沙场的老将。
MaNa是一位出生于波兰的职业星际2选手,原名Grzegorz Komincz,1993年12月14日出生,目前也效力于Liquid。
与TLO相比,MaNa是一个正值当打之年的选手。
而且,他更擅长的是神族。尽管他打出GG的速度更快……
MaNa去年获得WCS Austin的第二名。根据官方公布的数据,他在2018 WCS Circuit排名:13。
MaNa和TLO和AlphaStar的对战,发生在去年12月。地点在伦敦,就是DeepMind的总部。这不禁让人想起当年AlphaGo的故事。
AlphaGo名不见经传时,也是悄悄把樊麾请到了伦敦,然后把樊麾杀得有点怀疑“棋”生。然后开始向全世界公布突破性的进展。
TLO和MaNa,应该就是星际2界的樊麾了吧。
第三个是AlphaStar的教父:Oriol Vinyals。
他是DeepMind星际2项目的核心负责人。我们在此前的报道里介绍过他。1990年代,十几岁的Oriol Vinyals成了西班牙《星际争霸》全国冠军。
他之所以玩这款科幻策略游戏,是因为比其他打打杀杀的游戏更需要动脑子。维纽斯说:“没上大学之前,这款游戏就让我在生活中怀有更强的战略思维。”
Vinyals的战略思维的确获得了回报:在巴塞罗那学习了电信工程和数学之后,维纽斯去过微软研究院实习,获得了加州大学伯克利的计算机博士学位,接着加入谷歌大脑团队,开始从事人工智能开发工作,然后又转入谷歌旗下DeepMind团队。
他又跟“星际争霸”打起了交道。
但这一次不是他亲自玩,而是教给机器人怎么玩。在人工智能成为全球最优秀的围棋选手后,星际成为了下一个攻克目标。
AI打星际的意义
早在2003年人类就开始尝试用AI解决即时战略(RTS)游戏问题。那时候AI还连围棋问题还没有解决,而RTS比围棋还要复杂。
直到2016年,“阿尔法狗”打败了李世石。DeepMind在解决围棋问题后,很快把目光转向了《星际2》。
与国际象棋或围棋不同,星际玩家面对的是“不完美信息博弈”。
在玩家做决策之前,围棋棋盘上所有的信息都能直接看到。而游戏中的“战争迷雾”却让你无法看到对方的操作、阴影中有哪些单位。
这意味着玩家的规划、决策、行动,要一段时间后才能看到结果。这类问题在现实世界中具有重要意义。
为了获胜,玩家必须在宏观战略和微观操作之间取得平衡。
平衡短期和长期目标并适应意外情况的需要,对脆弱和缺乏灵活性的系统构成了巨大挑战。
掌握这个问题需要在几个AI研究挑战中取得突破,包括:
博弈论:星际争霸没有单一的最佳策略。因此,AI训练过程需要不断探索和拓展战略知识的前沿。
不完美信息:不像象棋或围棋那样,棋手什么都看得到,关键信息对星际玩家来说是隐藏的,必须通过“侦察”来主动发现。
长期规划:像许多现实世界中的问题一样,因果关系不是立竿见影的。游戏可能需要一个小时才能结束,这意味着游戏早期采取的行动可能在很长一段时间内都不会有回报。
实时:不同于传统的棋类游戏,星际争霸玩家必须随着游戏时间的推移不断地执行动作。
更大的操作空间:必须实时控制数百个不同的单元和建筑物,从而形成可能的组合空间。此外,操作是分层的,可以修改和扩充。
为了进一步探索这些问题,DeepMind与暴雪2017年合作发布了一套名为PySC2的开源工具,在此基础上,结合工程和算法突破,才有了现在的AlphaStar。
除了DeepMind以外,其他公司和高校去年也积极备战:
4月,南京大学的俞扬团队,研究了《星际2》的分层强化学习方法,在对战最高等级的无作弊电脑情况下,胜率超过93%。
9月,腾讯AI Lab发布论文称,他们构建的AI首次在完整的虫族VS虫族比赛中击败了星际2的内置机器人Bot。
11月,加州大学伯克利分校在星际2中使用了一种新型模块化AI架构,用虫族对抗电脑难度5级的虫族时,分别达到 94%(有战争迷雾)和 87%(无战争迷雾)的胜率。
下一步
今天AI搞定了《星际2》,DeepMind显然不满足于此,他们的下一步会是什么?
哈萨比斯在赛后说,虽然星际争霸“只是”一个非常复杂的游戏,但他对AlphaStar背后的技术更感兴趣。其中包含的超长序列的预测,未来可以用在天气预测和气候建模中。
他还透露将在期刊上发表经过同行评审的论文,详细描述AlphaStar的技术细节。一起期待吧~
*本文由腾讯新闻、量子位共同出品,作者系量子位,腾讯新闻同步首发,未经授权,不得转载。