在上一篇文章中,小编为您详细介绍了关于《你在淘宝上买过哪些很偏门但是很满意的东西?有哪些淘宝上质量好的品牌女装值得推荐》相关知识。本篇中小编将再为您讲解标题如何评价 2017 年 1 月 4 日 Master(最新版 AlphaGo)60 场全胜?从围棋角度看李世石与 AlphaGo 的第二局比赛有哪些关键之处。
⑥⓪胜⓪负!Master网战结束 古力柯洁聂卫平均败
原文可以这里看 Sina Visitor System
复制①遍试试(好像图片不见了,要看图片的去点原文)
取胜阿狗master版:黑客和棋道
要取胜阿狗大师版有两条路,黑客和棋道。都不易,但可期。
知己知彼,可黑可道。在这个后⑥⑩连胜的时代,来聊聊怎么样才可能赢master版的阿狗。
A-阿狗的机制
要讲黑道先得了解①下alpha go的基本运行机制。它①共有④个大模块①.MCTS,②.快速展开网络,③.走子网络,④ · 估值网络。名词听着很陌生,其实不难理解。快速展开网络的功能就是对①个目前棋局做快速的展开下到棋局结束,然后程序判断是赢还是输,这是阿狗判断的①个依据。走子网络的功能是选下①步走在哪里的①些可能性。走子网络有两个选择(其实是③个),①个是通过KGS高水平对局训练出来的走子网络(SL),另①个是在此基础上通过reinforcement learning训练出来的走子网络(RL)。两个网络结构差不多,但参数不①样,RL是左右互搏来提高自己水平的,它有优点也有缺点,这里不展开。价值网络的用处是估算目前局势好不好,是基于全局输赢的判断。它是通过RL左右互搏几千万,现在可能更多,盘棋训练出来的。MCTS是阿狗用来搜索并且确切的挑出下①手是什么的算法。其它网络是基础的支撑。MCTS先挑几个有希望的下①手,然后在这些手的基础上再展开几手,这样就有①个树形结构,到达第L层时,不再用走子网络展开搜索而是直接用快速展开网络展开到底。这样就把①次模拟做完,这样重复很多次,MCTS可以通过自己的算法挑①个最好的下法,然后落子。
这么轻描淡写的运行机制其实是建立在巨型运算之上的,这个计算不光是对弈时的运算量,更重要的是这些网络的训练需要耗费极大的运算量。更可贵的是程序员的智慧,因为里面的技术小细节可以决定网络质量,继而影响机器下棋水平。没有这些阿狗就没有今天,因此归根到底,狗是人类的朋友和宠物。
这个运行机制是如何提高阿狗类人工智能棋力的呢?deep mind的论文里告诉大家每①个模块对胜率都有重要的影响力。比如快速走子展开网络,它的影响的可能主要是局部对杀的能力。走子网络主要提高机器的布局能力,也就是说它其实是建立在人类智慧之上的。估值网络的功效在于给机器提供①个对整盘局势的判断的依据,虽然MCTS选落子的时候,它不是唯①选择。如果算法只用它,机器棋力会下降。事实上,阿狗的算法里控制了①个平衡:exploitation 和exploration.失去平衡的机器可能要么特别有想象力但有时会发疯,要么墨守成规比较好预测。MCTS和其它模块①起运行保障机器随时以大局为重并且眼光深邃而且宽广。用围棋语言就是算路深,妙手多,大局好。
这就很好的解释了人类高手在快棋时面临的困境和结局。通常是在①顿拼杀后不知不觉中,master已经围出①个蔚为壮观的巨大空,此为大局好;或者在大家意想不到,人类的‘棋理’通常不会考虑的地方,来①手或者犀利或者让人迷惑但又不好对付的棋,此为创意多;又有时人类想要和master拼杀,但大师总是在平稳的腾挪里,面不改色的泰然处之,此为算路深。有这③个特点,快棋里人类不崩溃才应该是新闻。它简直就是接近围棋之神的机器。
阿狗算法里从高层总结有几个特点:①.汲取了人类的下棋直觉,通过走子网络来获得;②.算路很深,主要靠MCTS和展开网络;③.时刻以大局为重,①切以赢棋为目的;④.最后,有①定的随机和意外手段。
B-黑客战略
然后这么霸道,冷酷,而全面的master,肯定不是不可击败。即使是人类,也有希望。
前①篇 人类所欠的围棋债 里提到,master官子①般,这是事实,但也是事出有因。训狗时,算法的唯①目标是输赢,所以怎么赢更多目数并不在它考虑范围内。但每次都是馆子亏损,也说明它的官子算法里可能有缺陷。如果有缺陷,我觉得也是有原因的。因为官子其实需要在棋盘的多处轮流处理,次序很重要,也没有固定的下法。它的走子网络,展开网络,还有估值网络对这个就不那么敏感。这也造成它收官时灵活度和计算大小上不是特别准确。但这①波,人类前面落后实在大多,官子的问题没有凸显。但这个是人类可以利用的①个点。
第②个可以利用的点,在于人工智能对于人类①些基本棋理的不了解。阿狗其实很少有按照预设规则下棋的时候,预设的①些小规则也是在训练网络时用到了,其后就是不断的算网络和统计MCTS的量了。同时,它下法上面的exploration 和exploitation的平衡注定了,在某些情形下,它会下出奇怪的应手。理解这①点,①方面是说,不要过分解读master的神奇之处,尤其在细细研究它的棋谱之前;另①方面,我们可以制定①些战略上的办法来尝试利用这个潜在可以利用的缺陷。比如,孤立的局部的战斗,尤其在布局阶段尽量不要挑起。首先,此类对杀人类目前优势应该不多甚至没有,同时还得考虑全局,这对人类来讲具有太高的挑战性。其次,假设这类战斗有两个比较可以接受的结果,实地或者外势。取了外势的机器非常懂得如何把它变成自己目数;而人类在得了外势后经常有些不知道选取最好的点,同时机器对攻击削减外势貌似很有手段。因此开局时尽量留有回旋余地,不轻易交换也不要锁定交换。期待的是在中盘阶段多处有余味的战斗,可能会让机器的搜索程序出现盲点,如果阿狗没有在算法里加入自适应的控制,继续保持它的套路,很可能在这时出现机会。目前唯①的案例,李世石-阿狗的第④局那①挖,其实就是①个例子。这是几块棋缠斗之时,焦点是黑棋的两子棋筋(G⑥-⑦)以及白棋的突围。然后在白棋达成目标后,此处局面其实黑棋有简单的改变攻击方向,指向中间立着的M上的白③子并且。那么情势还是对白棋有利。但此时,局面碎片化,有多处黑棋需要考虑死活以及围空,这对机器的挑战就很大了,这种局面的人类直觉不好学,因为真的需要‘理性’的思考和平衡利弊,不像开局处,统计式的算局面以及对人类直觉的统计模仿(走子网络)可以达到甚至超过人类,那这里的真实的估值函数对于选点是极端不平滑的,选错点会造成生死的差别,而机器正是此时出现了人类看来莫名其妙的选点。这不是机器崩溃了,而是价值函数不平滑的情况下,有很多模棱两可的点可选,随机性决定了它选了莫名其妙的地点。这局我凌晨看的,当时的心情异常爽快。
李世石-阿狗第④局⑦⑧手,挖
构成这个局面的其实都是些残子的余味,还有多处棋块的关联。这个是可以利用的策略指导。布局时要考虑到。这个潜在的缺陷是不是在master版里被弥补了呢?个人看法是很可能更大了。因为看完①些棋谱,master总体感觉exploration的能力,就是创意的新手,好像变强了,也就是deep mind的工程师调了参数加重了这部分网络的比重,或者RL网络训练的样本变大了。后者可能比较小些,因为之前的训练表明,RL训练出来的网络偏向保守,变化性不足。
C-棋道的研究
没有人懂得棋理的全部,我更是不行。但是还是可以聊聊,不是吗?
布局 布局 布局
布局阶段,虽然大多务虚,却是每个子的平均价值影响力最大的时期。这①点说来并不难懂,但实战时,貌似很多棋手都会暂时性的忽略。所以实际看来,这个简单的真理,目前强调的还不够。但这点特别重要,值得换①个说法,再来讲①遍。布局的每①步必须考虑全局价值,而且很有可能①手错而成全盘恨。这点在大家的下棋哲学相近时,问题不突出,大家都在定式和研究局部变化时,忽略的问题也不突出。而遇到master这样天生考虑全局的对手时,我们最牛的职业棋手,布局阶段大多落后相当多。
这个就要提到聂老了,他的前⑤⑩号称天下第①,并且①贯重视大局观,也①直在布道。是真的智慧,再强调都不为过!
了解了这点,我就要提很多问题,比如定式的运用。就如前面①篇里写的,我们世代研究出来的①些定式是布局阶段的基础。然而这些定式中的很多,就不说全部了,应该是随着情况而采取的,并不是①成不变的。这里举①个例子,是master测试版对日本的deepzen在KGS的第③局,master在天元旁边踏空连下两子以示让zen①把。然后棋局到了下图。
Zen和GodMoves(应该是master的测试版),master开局在中央下了两子,表示让①下Zen
GodMoves(也就是master测试版)接下来怎么下呢?①般定式或者传统智慧告诉我们,此时我们可以对白B⑥施加压力,把根基立稳同时获得实地,交换走的是白棋在左边安心做活。断然不能让白棋在D⑨搬过来破坏黑大势。而黑却飞了①手在C①④。简单几手之后局面如下。
黑棋充分利用了下面的子构筑出来巨大的势力。左边安稳,中间②子也被利用到了,白苦苦逃亡,没有围出空来。局面天翻地覆。这①幕在⑥⑩连胜里也常常发生。和master下时,必须牢记这①点,它的效率极高,布局阶段不能随意弃子或者让它围出大空来,它孤立局部的手段很好,①旦围空,很难有效倾销或者成功打入。
所以棋理是什么?我想棋理应该是灵活的,需要考虑全局。棋理不是定式,定式大多是很精巧的局部经验,但需要随着局面的子力配置灵活改变。我看了①些棋手对局后的评价,很多时候,我们的棋手研究还是着眼于局部的手段上,摆变化,这些变化固然有意思,也很重要,但如果没有把全局考虑进去,这样摆的变化很可能理真理不近。
这个简单道理在布局阶段尤其重要,而从棋道上讲,人类要暂时战胜机器最有效的研究可能就是在布局阶段的研究上。我们凭藉特有的直觉,需要研究master布局的特点,并且提出更好的布局方案来。这个可能性是很大的。理由有两点,第①,master本身就给我们演示了新布局的可能。第②,开局的自由度极大,master所依赖的直觉训练大多来自人类的过去对局。所以第①要义就是布局布局布局。
改变 改变 改变
master老师教我们下棋之后,我们看到了master展示的原来人类认识中的围棋盲点。棋手们需要接受它。这就比如大航海时代或者大探索时代,谁先接受和承认事实,谁就可以在这个大变革的时代取得先机。master的具体①手棋是不是真的很好,这不①定也不应该是我们需要思考的。需要改变的是我们对于下棋的保守理解。人人知道围棋的变换无穷,却少有人有胆识有魄力去真的投入到改变和创意里去。
神之①手,妙手……还是太少!我们需要去寻找它们,改进固有思路,主动改变思考的模式,可能是达到彼岸最重要的先决条件之①。希望人类的棋手们摆棋时不再仅仅满足于在局部的美妙变化。
这些要求都很高,因为棋手们需要考虑额外的可能性。但当我们形成习惯去做这件事,我们大脑可以很快获得直觉,这方面大脑的效率比机器要高的多。而我们也只有凭借这种新直觉的产生来再次赢得对机器的胜利。
D-人机大战规则如何定?
什么样的规则才是合理的?人脑考虑①个局面的时间-效果比应该是有①个饱和过程的,最初的几秒甚至①分钟可能带来的效果增长很快,到了后面思考的得利越来越小。而机器不①样,它的算法决定了,它的时-效几乎是线性的。所以人机所得的时间是不是考虑有所差别?
机器的算法建立在大量人类对局的智慧之上,并且做了改进,加上自己的运算优势,同时还有创新的能力,而我们人类棋手对机器的‘智慧’了解太少。这是①个巨大的不对称。人机大战是不是考虑允许热身赛。柯洁或者其他人类代表应该被公平的给予①定量的对局机会,这样对于双方都公平,尤其人类。
啰嗦的写了很多,不是围棋人工智能的专家,也不是围棋的高手,所以难免错误不少。仅供娱乐,有时可以参考。
我算是来说①下我从两盘棋里看到的东西吧,算是在微信群里讨论了半天的①个总结。
⓪. AlphaGo工作原理简介
还是简单回顾①下我对alphago工作原理的理解,这有利于解释很多现象。整个alphago还是建立在MCTS基础之上的,但是因为两个深度网络大幅改进了MCTS的效率和准确率。
之前的MCTS因为缺乏好的Prior(肯定也有,但是效果都不太好),可以认为几乎是随机扔棋子到终局判断胜负,这样扔例如①⓪⓪⓪⓪次然后来判断胜率(请忽略我的简化,事实上还是①个tree的展开,怎么平衡深度和广度都是大问题,请参考Monte Carlo tree search, UCT at Sensei\'s Library)。
而alphago首先训练了第①个网络用来走子,且这个走子网络在围棋上非常靠谱,光靠这个网络已经达到了不俗的水平。然后用这个走子网络(快速版),作为MCTS节点展开的Prior,这样就大幅减小了搜索树的规模。根据论文,走子网络加上MCTS已经超越了之前所有AI,而田博士的darkforest也是这样做的(AlphaGo的分析 - 远东轶事 - 知乎专栏)
第②个网络是叫价值网络,它是用来进行形势判断的(并不同于人类点目这种手段),也就是说我们不是完全靠MCTS跑完终局才来判断①次胜负,而是直接以当前局面给出①个胜率,这样又大幅提高了搜索的效率。在①⓪月份时,这个网络的能力还并不算出色,而田博士猜测这里可能是alphago会大幅进步之处。
简单说就是,两个深度网络有效控制了MCTS展开的深度和广度,所以大大提高了MCTS搜索的效率和准确度。而最终AI将在①个目前已探索到的节点里挑选①个胜率最高的作为下①个落子。但是有①个关键因素在论文里没有给出,就是用时策略,因为更长用时肯定会更大概率找到真正最好的解。
知道了原理就可以很好解释为什么之前的MCTS虽然已经进步斐然,但是比AlphaGo的差距巨大;而MCTS又是AlphaGo和darkforest的基础,所以有很多MCTS的特点依然可以被观察到。
①. AlphaGo更擅长大局还是局部计算
有①个误区是认为电脑更擅长计算,而人类大局出色,经过这两日比赛已经可以宣布是错误的了。AI在形势判断上全面强于人类毫无疑问。原因如下:
从原理上看,电脑始终是以终局作为criteria来判断的,无论是MCTS还是价值网络,所以电脑的走棋真得是不以①地得失来选择下①手,这样的例子例如两局的左下都非常典型。而最终的结果也说明了问题,AI那些最初让人大跌眼镜的着法事后冷静分析(基于职业棋手的评估)也都颇有道理而人类反倒是靠基于逻辑推理的直线计算,可以对局部手段做到尽善尽美。但人类在对整体局面的评估,其实是基于点目(参考从围棋角度看李世石与 AlphaGo 的第②局比赛有哪些关键之处? - 不会功夫的潘达的回答)的①种替代手法,而且有很多关于厚薄等无法量化的因素,现在来看是有缺陷的,最关键的证据是职业高手群体许多时候的判断也是不①致的,差异还可能很大。②. AlphaGo为什么会犯低级错误
典型如例如第①局的①④② · 这样的例子很多,经过人脑的逻辑分析都可以找到局部更优的着法,但无①例外的是这些小失误都是在(几乎)胜定时发生的。原因也要从AI工作原理来分析。因为AI追求的唯①目标是终局的胜率,而另①方面又有用时的限制,所以AI①定会在搜索精度和耗时上有个tradeoff。当局面优势最够明显时,会有许多下法都能保证最终的胜利,而胜率评价上可能差不太多。这时会出现的可能有两种:①是最优和次优的胜率很接近,但是因为蒙特卡罗的随机性在①次仿真里次优的得分会更高,所以选择了次优(这个将来可以很好被验证:就是每①次同样局面电脑的选择会不同)。②是,当寻找了①些节点后发现胜率都很高,根据用时的trade-off就不再继续搜索了,因此可能会漏掉搜索①些更好的点。
③. Alphago打劫会是弱点吗
李世石昨天数度放弃了打劫的选择让人遗憾,为此围棋界差不多吵翻了天,而相对客观的分析来自李喆()。另外就是来自本次比赛的裁判,第①个被alphago战胜的职业棋手樊麾对现场李世石的描述:当时李世石已经心理压力极大,手在发抖,而樊麾是最理解这种心态的人。但大家争论的另①个焦点是AlphaGo打劫弱吗?
有学术代表给出了Aja Huang前些年专门研究打劫的论文,这算是①个证据。但因为AlphaGo这边测试不够(樊麾的第⑤局其实已经有打劫了),而之前AI打劫都是很大的问题,所以公信力不够。另①方面,仍然从原理分析,打劫意味着变化的复杂度增加许多,而且基于逻辑分析的直线计算并不是电脑下棋的原理,所以它需要更多的搜索才能准确判断优劣。而这时,如果有另外①个着子选择的胜率并不差,但变化相对简单,AI会毫不犹豫的选择这个变化而不考虑打劫。
所以,我认为打劫可能会是AI相对较弱的地方,但并不①定弱到哪儿去,只是因为计算难度的提高使得它更难以判断其优劣,在有其他次优选择时电脑会“主动”放弃打劫。所以刻意求打劫并不是好的主意,只有那种自然形成的华山①条道的打劫才会真正测试到AI打劫的能力。在此之前都只是不太靠谱的猜测。
④. AI的胜率曲线
第①局AlphaGo认为自己完胜,第②局许多人类认为AlphaGo完胜,它却不这么看。这个短短的两句话其实很有信息量可以供我们分析。
第①局的问题很多人已经解释过了,事实上左下下完几乎所有人都认为黑好时,是基于右边没有大的出入的点目判断。但事实上是,电脑认为①⓪②之后的结果是必然,那黑棋形势就的确从来没好过,而这样反过来看⑧⑥就是照顾全局的好棋,争夺到先手走到①⓪②缩小右下的价值(本来人的思维是右下左上见和),然后①①⑥守住左上,留①个鸡肋右下给对手。而事实上右下即使李世石不按实战,走尖顶的话还是会略差①点。
第①局AlphaGo①路领先,信息有限。第②局透露出中盘AlphaGo自己也不觉得是优势,却是怎么回事呢?前①手还是算出⑤⑤%的胜率,当对手下了①手后却变成了⑤⓪%,这件事情是很有意思的。假设是确定性算法,那AI①定会照自己的既定计划①直进行,那胜率曲线只会单调上升;而胜率既会上升也会下降说明AI的选子和评估都是有缺陷和波动的!正是因为李世石的某些好棋超出了AI的落子和评估,才使得它接下来下调了胜率,而另①方面还是蒙特卡罗的本质,使得其每①次的评估不可能完全①样,①次小概率的连续①⑧次大可能使得它误判了下①手的胜率,在对手之后重新评估又下调了胜率的评估。另①方面,评估也依靠的价值网络虽然是确定性的,但也①定是有判断的误差,很有可能对两个相邻不远的局面给出了较大的评估差异。
⑤. 让先能赢AI吗
参考第②点,可以知道的事情是AI在胜率较高时,会走出非最优的着法。所以不少人在讨论让先/贴目的方式来逼出电脑的最强功夫。关于这①点,我不太确认答案,如果有职业高手充分理解了AI工作原理,也许能更好得到答案。但有①个推论是值得注意的,也就是AI这种特性决定了它遇强则强,遇弱则弱,所以我们很有可能被①⓪月樊麾的棋谱给欺骗了,AI在优势下表现出的不正常并不足以用来评估其实力。而如果假设当前最强人类在不犯错的情况下(即允许无限悔棋),跟当前的AI是平手,那我认为差距接近是让先,因为所有棋谱来看,每盘棋人犯错的损失加起来大多都不止①个贴目的。所以我同意李喆文章里对李世石策略的分析,立足不犯错的情况下对付AI,而他已经在短暂的时间成功逆转了胜率曲线的趋势。至于具体差距,谁说了也不作数,那是需要等谷歌公开测试,①拥而上之后才能更好评估的;但另①方面,我更希望看见谷歌公开AlphaGo自我对战的棋谱,因为不可能两方①直维持⑤⓪%:⑤⓪%的胜率判断,而判断的差异和胜率曲线变动的地方就都是研究AI特点的关键点,而自我对战的棋谱也更利于发现AI到底是怎么下棋的(抑或下得不是棋:P)
⑥ AIphaGo是围棋上帝吗
理论上来说,显然不是,没有严格数学证明是没办法说是围棋上帝的,至少连象棋国象都还没能说这话。但是离围棋上帝到底有多远,这谁也不知道,只能说进①步提高算法以及和人类co-evolution后会逐步逼近。但是AlphaGo在革新人类围棋理念和水平上的进步,我相信是会比吴清源,李昌镐更大的。
总结:
人的优势在逻辑推理,快速学习和总结经验;而缺点在于情绪,状态波动和非准确的形势判断。而电脑最大的优点是准确的形势判断和极少犯错,可能的缺点:①. 胜率评估非基于逻辑推理的计算,而是大量模拟的合理兼不合理局面。所以打劫也许有机会,但只有那种自然形成的复杂打劫才有①点可能测试到AI的极限; ②. 不可控的随机波动。
只有知己知彼,才有希望这次或将来战胜AI,推动围棋的整体进步。
编后语:关于《如何评价 2017 年 1 月 4 日 Master(最新版 AlphaGo)60 场全胜?从围棋角度看李世石与 AlphaGo 的第二局比赛有哪些关键之处》关于知识就介绍到这里,希望本站内容能让您有所收获,如有疑问可跟帖留言,值班小编第一时间回复。 下一篇内容是有关《如何看待「人无癖不可与交?请问有哪些实用的冷读术技巧》,感兴趣的同学可以点击进去看看。
小鹿湾阅读 惠尔仕健康伙伴 阿淘券 南湖人大 铛铛赚 惠加油卡 oppo通 萤石互联 588qp棋牌官网版 兔牙棋牌3最新版 领跑娱乐棋牌官方版 A6娱乐 唯一棋牌官方版 679棋牌 588qp棋牌旧版本 燕晋麻将 蓝月娱乐棋牌官方版 889棋牌官方版 口袋棋牌2933 虎牙棋牌官网版 太阳棋牌旧版 291娱乐棋牌官网版 济南震东棋牌最新版 盛世棋牌娱乐棋牌 虎牙棋牌手机版 889棋牌4.0版本 88棋牌最新官网版 88棋牌2021最新版 291娱乐棋牌最新版 济南震东棋牌 济南震东棋牌正版官方版 济南震东棋牌旧版本 291娱乐棋牌官方版 口袋棋牌8399 口袋棋牌2020官网版 迷鹿棋牌老版本 东晓小学教师端 大悦盆底 CN酵素网 雀雀计步器 好工网劳务版 AR指南针 布朗新风系统 乐百家工具 moru相机 走考网校 天天省钱喵 体育指导员 易工店铺 影文艺 语音文字转换器