版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
精品文檔-下載后可編輯年5月全國事業(yè)單位聯(lián)考《綜合應(yīng)用能力》(C類)2022年5月全國事業(yè)單位聯(lián)考《綜合應(yīng)用能力》(C類)
判斷題(共4題,共4分)
1.1997年,國際象棋大師加里·卡斯帕羅夫敗給了電腦“深藍(lán)”;2022年,谷歌人工智能AlphaGo又戰(zhàn)勝了韓國棋手李世石。這標(biāo)志著人工智能終于征服了它在棋類比賽中最后的弱項(xiàng)——圍棋,谷歌公司的DeepMind團(tuán)隊(duì)比預(yù)期提前了整整10年達(dá)到了既定目標(biāo)。
對計(jì)算機(jī)來說,圍棋并不是因?yàn)槠湟?guī)則比國際象棋復(fù)雜而難以征服——與此完全相反,圍棋規(guī)則更簡單,它其實(shí)只有一種棋子,對弈的雙方輪流把黑色和白色的棋子放到一個(gè)19x19的正方形棋盤中,落下的棋子就不能再移動(dòng)了,只會在被對方棋子包圍時(shí)被提走,到了棋局結(jié)束時(shí),占據(jù)棋盤面積較多的一方為勝者。
圍棋的規(guī)則如此簡單,但對于計(jì)算機(jī)來說卻又異常復(fù)雜,原因在于圍棋的步數(shù)非常多,而且每一步的可能下法也非常多。以國際象棋作對比,國際象棋每一步平均約有35種不同的可能走法,一般情況下,多數(shù)棋局會在80步之內(nèi)結(jié)束。圍棋棋盤共有361個(gè)落子點(diǎn),雙方交替落子,整個(gè)棋局的總排列組合數(shù)共有約10701種可能性,這遠(yuǎn)遠(yuǎn)超過了宇宙中的原子總數(shù)——10^{80}!
對于結(jié)構(gòu)簡單的棋類游戲,計(jì)算機(jī)程序開發(fā)人員可以使用所謂的“暴力”方法,再輔以一些技巧,來尋找對弈策略,也就是對余下可能出現(xiàn)的所有盤面都進(jìn)行嘗試并給予評價(jià),從而找出最優(yōu)的走法。這種對整棵博弈樹進(jìn)行窮舉搜索的策略對計(jì)算能力要求很高,對圍棋或者象棋程序來說是非常困難的,尤其是圍棋,從技術(shù)上來講目前不可能做到。
“蒙特卡羅樹搜索”是一種基于蒙特卡羅算法的啟發(fā)式搜索策略,能夠根據(jù)對搜索空間的隨機(jī)抽樣來擴(kuò)大搜索樹,從而分析圍棋這類游戲中每一步棋應(yīng)該怎么走才能夠創(chuàng)造最好機(jī)會。舉例來說,假如筐里有100個(gè)蘋果,每次閉著眼拿出1個(gè),最終要挑出最大的1個(gè)。于是先隨機(jī)拿1個(gè),再隨機(jī)拿1個(gè)跟它比,留下大的,再隨機(jī)拿1個(gè)……每拿一次,留下的蘋果都至少不比上次的小。拿的次數(shù)越多,挑出的蘋果就越大。但除非拿100次,否則無法肯定挑出了最大的。這個(gè)挑蘋果的方法,就屬于蒙特卡羅算法。雖然“蒙特卡羅樹搜索”在此前一些弈棋程序中也有采用,在相對較小的棋盤中也能很好地發(fā)揮作用,但在正規(guī)的全尺寸棋盤上,這種方法仍然存在相當(dāng)大的缺陷,因?yàn)樯婕暗乃阉鳂溥€是太大了。
AlphaGo人工智能程序中最新穎的技術(shù)當(dāng)屬它獲取知識的方式——深度學(xué)習(xí)。AlphaGo借助兩個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)(價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò))自主地進(jìn)行新知識的學(xué)習(xí)。深度卷積神經(jīng)網(wǎng)絡(luò)使用很多層的神經(jīng)元,將其堆疊在一起,用于生成圖片逐漸抽象的、局部的特征。對圖像分析得越細(xì),利用的神經(jīng)網(wǎng)絡(luò)層就越多。AlphaGo也采取了類似的架構(gòu),將圍棋棋盤上的盤面視為19×19的圖片輸入,然后通過卷積層來表征盤面。這樣,兩個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)中的價(jià)值網(wǎng)絡(luò)用于評估盤面,策略網(wǎng)絡(luò)用于采樣動(dòng)作。
在深度學(xué)習(xí)的第一階段——策略網(wǎng)絡(luò)的有監(jiān)督學(xué)習(xí)(即從______I____中學(xué)習(xí))階段,擁有13層神經(jīng)網(wǎng)絡(luò)的AlphaGo借助圍棋數(shù)據(jù)庫KGS中存儲的3000萬份對弈棋譜進(jìn)行初步學(xué)習(xí)。這3000萬份棋譜樣本可以用a、b進(jìn)行統(tǒng)計(jì)。a是一個(gè)二維棋局,把a(bǔ)輸入到一個(gè)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,分類的目標(biāo)就是落子向量A。通過不斷的訓(xùn)練,盡可能讓計(jì)算機(jī)得到的向量A接近人類高手的落子結(jié)果b,這樣就形成了一個(gè)模擬人類下圍棋的神經(jīng)網(wǎng)絡(luò),然后得出一個(gè)下棋函數(shù)Fgo()。當(dāng)盤面走到任何一種情形的時(shí)候,AlphaGo都可以通過調(diào)用函數(shù)Fgo()計(jì)算的結(jié)果來得到最佳的落子結(jié)果b可能的概率分布,并依據(jù)這個(gè)概率來挑選下一步的動(dòng)作。在第二階段——策略網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)(即從____II______中學(xué)習(xí))階段,AlphaGo開始結(jié)合蒙特卡羅樹搜索,不再機(jī)械地調(diào)用函數(shù)庫,而類似于一種人類進(jìn)化的過程:AlphaGo會和自己的老版本對弈。即,先使用F_go(1)和F_go(1)對弈,得到了一定量的新棋譜,將這些新棋譜加入到訓(xùn)練集當(dāng)中,訓(xùn)練出新的F_go(2),再使用F_go(2)和F_go(1)對弈,以此類推,這樣就可以得到勝率更高的F_go(n)。這樣,AlphaGo就可以不斷改善它在第一階段學(xué)到的知識。在第三階段——價(jià)值網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)階段,AlphaGo可以根據(jù)之前獲得的學(xué)習(xí)經(jīng)驗(yàn)得出估值函數(shù)v(s),用于預(yù)測策略網(wǎng)絡(luò)自我對抗時(shí)棋盤盤面s的結(jié)果。最后,則是將F_go()、v(s)以及蒙特卡羅樹搜索三者相互配合,使用F_go()作為初始分開局,每局選擇分?jǐn)?shù)最高的方案落子,同時(shí)調(diào)用v(s)在比賽中做出正確的判斷。
這就是AlphaGo給圍棋帶來的新搜索算法。它創(chuàng)新性地將蒙特卡羅模擬和價(jià)值網(wǎng)絡(luò)、策略網(wǎng)絡(luò)結(jié)合起來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。這樣價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)相當(dāng)于AlphaGo的兩個(gè)大腦,策略網(wǎng)絡(luò)負(fù)責(zé)在當(dāng)前局面下判斷“最好的”下一步,可以理解為落子選擇器;價(jià)值網(wǎng)絡(luò)負(fù)責(zé)評估整體盤面的優(yōu)劣,淘汰掉不值得深入計(jì)算的走法,協(xié)助前者提高運(yùn)算效率,可以理解為棋局評估器。通過兩個(gè)“大腦”各自選擇的平均值,AlphaGo最終決定怎樣落子勝算最大。通過這種搜索算法,AlphaGo和其他圍棋程序比賽的勝率達(dá)到了99.8%。
AlphaGo的飛快成長是任何一個(gè)圍棋世界冠軍都無法企及的。隨著計(jì)算機(jī)性能的不斷增強(qiáng),遍歷蒙特卡羅搜索樹將進(jìn)一步提高命中概率。大量的計(jì)算機(jī)專家,配合大量的世界圍棋高手,在算法上不斷革新,再配合不斷成長的超級計(jì)算能力,不斷地從失敗走向成功,最終打造出圍棋人工智能。在AlphaGo擊敗李世石后,歐洲圍棋冠軍樊麾說了這么一句話:“這是一個(gè)團(tuán)隊(duì)的集體智慧用科技的方式戰(zhàn)勝了人類數(shù)千年的經(jīng)驗(yàn)積累。”人和機(jī)器其實(shí)沒有站在對立面上,“是人類戰(zhàn)勝了人類”。
根據(jù)文章,回答下列問題:
結(jié)構(gòu)簡單的棋類游戲可以通過對博弈樹的“暴力”窮舉搜索找出最優(yōu)走法。
2.1997年,國際象棋大師加里·卡斯帕羅夫敗給了電腦“深藍(lán)”;2022年,谷歌人工智能AlphaGo又戰(zhàn)勝了韓國棋手李世石。這標(biāo)志著人工智能終于征服了它在棋類比賽中最后的弱項(xiàng)——圍棋,谷歌公司的DeepMind團(tuán)隊(duì)比預(yù)期提前了整整10年達(dá)到了既定目標(biāo)。
對計(jì)算機(jī)來說,圍棋并不是因?yàn)槠湟?guī)則比國際象棋復(fù)雜而難以征服——與此完全相反,圍棋規(guī)則更簡單,它其實(shí)只有一種棋子,對弈的雙方輪流把黑色和白色的棋子放到一個(gè)19x19的正方形棋盤中,落下的棋子就不能再移動(dòng)了,只會在被對方棋子包圍時(shí)被提走,到了棋局結(jié)束時(shí),占據(jù)棋盤面積較多的一方為勝者。
圍棋的規(guī)則如此簡單,但對于計(jì)算機(jī)來說卻又異常復(fù)雜,原因在于圍棋的步數(shù)非常多,而且每一步的可能下法也非常多。以國際象棋作對比,國際象棋每一步平均約有35種不同的可能走法,一般情況下,多數(shù)棋局會在80步之內(nèi)結(jié)束。圍棋棋盤共有361個(gè)落子點(diǎn),雙方交替落子,整個(gè)棋局的總排列組合數(shù)共有約10701種可能性,這遠(yuǎn)遠(yuǎn)超過了宇宙中的原子總數(shù)——10^{80}!
對于結(jié)構(gòu)簡單的棋類游戲,計(jì)算機(jī)程序開發(fā)人員可以使用所謂的“暴力”方法,再輔以一些技巧,來尋找對弈策略,也就是對余下可能出現(xiàn)的所有盤面都進(jìn)行嘗試并給予評價(jià),從而找出最優(yōu)的走法。這種對整棵博弈樹進(jìn)行窮舉搜索的策略對計(jì)算能力要求很高,對圍棋或者象棋程序來說是非常困難的,尤其是圍棋,從技術(shù)上來講目前不可能做到。
“蒙特卡羅樹搜索”是一種基于蒙特卡羅算法的啟發(fā)式搜索策略,能夠根據(jù)對搜索空間的隨機(jī)抽樣來擴(kuò)大搜索樹,從而分析圍棋這類游戲中每一步棋應(yīng)該怎么走才能夠創(chuàng)造最好機(jī)會。舉例來說,假如筐里有100個(gè)蘋果,每次閉著眼拿出1個(gè),最終要挑出最大的1個(gè)。于是先隨機(jī)拿1個(gè),再隨機(jī)拿1個(gè)跟它比,留下大的,再隨機(jī)拿1個(gè)……每拿一次,留下的蘋果都至少不比上次的小。拿的次數(shù)越多,挑出的蘋果就越大。但除非拿100次,否則無法肯定挑出了最大的。這個(gè)挑蘋果的方法,就屬于蒙特卡羅算法。雖然“蒙特卡羅樹搜索”在此前一些弈棋程序中也有采用,在相對較小的棋盤中也能很好地發(fā)揮作用,但在正規(guī)的全尺寸棋盤上,這種方法仍然存在相當(dāng)大的缺陷,因?yàn)樯婕暗乃阉鳂溥€是太大了。
AlphaGo人工智能程序中最新穎的技術(shù)當(dāng)屬它獲取知識的方式——深度學(xué)習(xí)。AlphaGo借助兩個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)(價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò))自主地進(jìn)行新知識的學(xué)習(xí)。深度卷積神經(jīng)網(wǎng)絡(luò)使用很多層的神經(jīng)元,將其堆疊在一起,用于生成圖片逐漸抽象的、局部的特征。對圖像分析得越細(xì),利用的神經(jīng)網(wǎng)絡(luò)層就越多。AlphaGo也采取了類似的架構(gòu),將圍棋棋盤上的盤面視為19×19的圖片輸入,然后通過卷積層來表征盤面。這樣,兩個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)中的價(jià)值網(wǎng)絡(luò)用于評估盤面,策略網(wǎng)絡(luò)用于采樣動(dòng)作。
在深度學(xué)習(xí)的第一階段——策略網(wǎng)絡(luò)的有監(jiān)督學(xué)習(xí)(即從______I____中學(xué)習(xí))階段,擁有13層神經(jīng)網(wǎng)絡(luò)的AlphaGo借助圍棋數(shù)據(jù)庫KGS中存儲的3000萬份對弈棋譜進(jìn)行初步學(xué)習(xí)。這3000萬份棋譜樣本可以用a、b進(jìn)行統(tǒng)計(jì)。a是一個(gè)二維棋局,把a(bǔ)輸入到一個(gè)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,分類的目標(biāo)就是落子向量A。通過不斷的訓(xùn)練,盡可能讓計(jì)算機(jī)得到的向量A接近人類高手的落子結(jié)果b,這樣就形成了一個(gè)模擬人類下圍棋的神經(jīng)網(wǎng)絡(luò),然后得出一個(gè)下棋函數(shù)Fgo()。當(dāng)盤面走到任何一種情形的時(shí)候,AlphaGo都可以通過調(diào)用函數(shù)Fgo()計(jì)算的結(jié)果來得到最佳的落子結(jié)果b可能的概率分布,并依據(jù)這個(gè)概率來挑選下一步的動(dòng)作。在第二階段——策略網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)(即從____II______中學(xué)習(xí))階段,AlphaGo開始結(jié)合蒙特卡羅樹搜索,不再機(jī)械地調(diào)用函數(shù)庫,而類似于一種人類進(jìn)化的過程:AlphaGo會和自己的老版本對弈。即,先使用F_go(1)和F_go(1)對弈,得到了一定量的新棋譜,將這些新棋譜加入到訓(xùn)練集當(dāng)中,訓(xùn)練出新的F_go(2),再使用F_go(2)和F_go(1)對弈,以此類推,這樣就可以得到勝率更高的F_go(n)。這樣,AlphaGo就可以不斷改善它在第一階段學(xué)到的知識。在第三階段——價(jià)值網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)階段,AlphaGo可以根據(jù)之前獲得的學(xué)習(xí)經(jīng)驗(yàn)得出估值函數(shù)v(s),用于預(yù)測策略網(wǎng)絡(luò)自我對抗時(shí)棋盤盤面s的結(jié)果。最后,則是將F_go()、v(s)以及蒙特卡羅樹搜索三者相互配合,使用F_go()作為初始分開局,每局選擇分?jǐn)?shù)最高的方案落子,同時(shí)調(diào)用v(s)在比賽中做出正確的判斷。
這就是AlphaGo給圍棋帶來的新搜索算法。它創(chuàng)新性地將蒙特卡羅模擬和價(jià)值網(wǎng)絡(luò)、策略網(wǎng)絡(luò)結(jié)合起來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。這樣價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)相當(dāng)于AlphaGo的兩個(gè)大腦,策略網(wǎng)絡(luò)負(fù)責(zé)在當(dāng)前局面下判斷“最好的”下一步,可以理解為落子選擇器;價(jià)值網(wǎng)絡(luò)負(fù)責(zé)評估整體盤面的優(yōu)劣,淘汰掉不值得深入計(jì)算的走法,協(xié)助前者提高運(yùn)算效率,可以理解為棋局評估器。通過兩個(gè)“大腦”各自選擇的平均值,AlphaGo最終決定怎樣落子勝算最大。通過這種搜索算法,AlphaGo和其他圍棋程序比賽的勝率達(dá)到了99.8%。
AlphaGo的飛快成長是任何一個(gè)圍棋世界冠軍都無法企及的。隨著計(jì)算機(jī)性能的不斷增強(qiáng),遍歷蒙特卡羅搜索樹將進(jìn)一步提高命中概率。大量的計(jì)算機(jī)專家,配合大量的世界圍棋高手,在算法上不斷革新,再配合不斷成長的超級計(jì)算能力,不斷地從失敗走向成功,最終打造出圍棋人工智能。在AlphaGo擊敗李世石后,歐洲圍棋冠軍樊麾說了這么一句話:“這是一個(gè)團(tuán)隊(duì)的集體智慧用科技的方式戰(zhàn)勝了人類數(shù)千年的經(jīng)驗(yàn)積累。”人和機(jī)器其實(shí)沒有站在對立面上,“是人類戰(zhàn)勝了人類”。
根據(jù)文章,回答下列問題:
函數(shù)Fgo(n)比Fgo(n-1)的勝率更高。
3.1997年,國際象棋大師加里·卡斯帕羅夫敗給了電腦“深藍(lán)”;2022年,谷歌人工智能AlphaGo又戰(zhàn)勝了韓國棋手李世石。這標(biāo)志著人工智能終于征服了它在棋類比賽中最后的弱項(xiàng)——圍棋,谷歌公司的DeepMind團(tuán)隊(duì)比預(yù)期提前了整整10年達(dá)到了既定目標(biāo)。
對計(jì)算機(jī)來說,圍棋并不是因?yàn)槠湟?guī)則比國際象棋復(fù)雜而難以征服——與此完全相反,圍棋規(guī)則更簡單,它其實(shí)只有一種棋子,對弈的雙方輪流把黑色和白色的棋子放到一個(gè)19x19的正方形棋盤中,落下的棋子就不能再移動(dòng)了,只會在被對方棋子包圍時(shí)被提走,到了棋局結(jié)束時(shí),占據(jù)棋盤面積較多的一方為勝者。
圍棋的規(guī)則如此簡單,但對于計(jì)算機(jī)來說卻又異常復(fù)雜,原因在于圍棋的步數(shù)非常多,而且每一步的可能下法也非常多。以國際象棋作對比,國際象棋每一步平均約有35種不同的可能走法,一般情況下,多數(shù)棋局會在80步之內(nèi)結(jié)束。圍棋棋盤共有361個(gè)落子點(diǎn),雙方交替落子,整個(gè)棋局的總排列組合數(shù)共有約10701種可能性,這遠(yuǎn)遠(yuǎn)超過了宇宙中的原子總數(shù)——10^{80}!
對于結(jié)構(gòu)簡單的棋類游戲,計(jì)算機(jī)程序開發(fā)人員可以使用所謂的“暴力”方法,再輔以一些技巧,來尋找對弈策略,也就是對余下可能出現(xiàn)的所有盤面都進(jìn)行嘗試并給予評價(jià),從而找出最優(yōu)的走法。這種對整棵博弈樹進(jìn)行窮舉搜索的策略對計(jì)算能力要求很高,對圍棋或者象棋程序來說是非常困難的,尤其是圍棋,從技術(shù)上來講目前不可能做到。
“蒙特卡羅樹搜索”是一種基于蒙特卡羅算法的啟發(fā)式搜索策略,能夠根據(jù)對搜索空間的隨機(jī)抽樣來擴(kuò)大搜索樹,從而分析圍棋這類游戲中每一步棋應(yīng)該怎么走才能夠創(chuàng)造最好機(jī)會。舉例來說,假如筐里有100個(gè)蘋果,每次閉著眼拿出1個(gè),最終要挑出最大的1個(gè)。于是先隨機(jī)拿1個(gè),再隨機(jī)拿1個(gè)跟它比,留下大的,再隨機(jī)拿1個(gè)……每拿一次,留下的蘋果都至少不比上次的小。拿的次數(shù)越多,挑出的蘋果就越大。但除非拿100次,否則無法肯定挑出了最大的。這個(gè)挑蘋果的方法,就屬于蒙特卡羅算法。雖然“蒙特卡羅樹搜索”在此前一些弈棋程序中也有采用,在相對較小的棋盤中也能很好地發(fā)揮作用,但在正規(guī)的全尺寸棋盤上,這種方法仍然存在相當(dāng)大的缺陷,因?yàn)樯婕暗乃阉鳂溥€是太大了。
AlphaGo人工智能程序中最新穎的技術(shù)當(dāng)屬它獲取知識的方式——深度學(xué)習(xí)。AlphaGo借助兩個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)(價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò))自主地進(jìn)行新知識的學(xué)習(xí)。深度卷積神經(jīng)網(wǎng)絡(luò)使用很多層的神經(jīng)元,將其堆疊在一起,用于生成圖片逐漸抽象的、局部的特征。對圖像分析得越細(xì),利用的神經(jīng)網(wǎng)絡(luò)層就越多。AlphaGo也采取了類似的架構(gòu),將圍棋棋盤上的盤面視為19×19的圖片輸入,然后通過卷積層來表征盤面。這樣,兩個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)中的價(jià)值網(wǎng)絡(luò)用于評估盤面,策略網(wǎng)絡(luò)用于采樣動(dòng)作。
在深度學(xué)習(xí)的第一階段——策略網(wǎng)絡(luò)的有監(jiān)督學(xué)習(xí)(即從______I____中學(xué)習(xí))階段,擁有13層神經(jīng)網(wǎng)絡(luò)的AlphaGo借助圍棋數(shù)據(jù)庫KGS中存儲的3000萬份對弈棋譜進(jìn)行初步學(xué)習(xí)。這3000萬份棋譜樣本可以用a、b進(jìn)行統(tǒng)計(jì)。a是一個(gè)二維棋局,把a(bǔ)輸入到一個(gè)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,分類的目標(biāo)就是落子向量A。通過不斷的訓(xùn)練,盡可能讓計(jì)算機(jī)得到的向量A接近人類高手的落子結(jié)果b,這樣就形成了一個(gè)模擬人類下圍棋的神經(jīng)網(wǎng)絡(luò),然后得出一個(gè)下棋函數(shù)Fgo()。當(dāng)盤面走到任何一種情形的時(shí)候,AlphaGo都可以通過調(diào)用函數(shù)Fgo()計(jì)算的結(jié)果來得到最佳的落子結(jié)果b可能的概率分布,并依據(jù)這個(gè)概率來挑選下一步的動(dòng)作。在第二階段——策略網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)(即從____II______中學(xué)習(xí))階段,AlphaGo開始結(jié)合蒙特卡羅樹搜索,不再機(jī)械地調(diào)用函數(shù)庫,而類似于一種人類進(jìn)化的過程:AlphaGo會和自己的老版本對弈。即,先使用F_go(1)和F_go(1)對弈,得到了一定量的新棋譜,將這些新棋譜加入到訓(xùn)練集當(dāng)中,訓(xùn)練出新的F_go(2),再使用F_go(2)和F_go(1)對弈,以此類推,這樣就可以得到勝率更高的F_go(n)。這樣,AlphaGo就可以不斷改善它在第一階段學(xué)到的知識。在第三階段——價(jià)值網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)階段,AlphaGo可以根據(jù)之前獲得的學(xué)習(xí)經(jīng)驗(yàn)得出估值函數(shù)v(s),用于預(yù)測策略網(wǎng)絡(luò)自我對抗時(shí)棋盤盤面s的結(jié)果。最后,則是將F_go()、v(s)以及蒙特卡羅樹搜索三者相互配合,使用F_go()作為初始分開局,每局選擇分?jǐn)?shù)最高的方案落子,同時(shí)調(diào)用v(s)在比賽中做出正確的判斷。
這就是AlphaGo給圍棋帶來的新搜索算法。它創(chuàng)新性地將蒙特卡羅模擬和價(jià)值網(wǎng)絡(luò)、策略網(wǎng)絡(luò)結(jié)合起來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。這樣價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)相當(dāng)于AlphaGo的兩個(gè)大腦,策略網(wǎng)絡(luò)負(fù)責(zé)在當(dāng)前局面下判斷“最好的”下一步,可以理解為落子選擇器;價(jià)值網(wǎng)絡(luò)負(fù)責(zé)評估整體盤面的優(yōu)劣,淘汰掉不值得深入計(jì)算的走法,協(xié)助前者提高運(yùn)算效率,可以理解為棋局評估器。通過兩個(gè)“大腦”各自選擇的平均值,AlphaGo最終決定怎樣落子勝算最大。通過這種搜索算法,AlphaGo和其他圍棋程序比賽的勝率達(dá)到了99.8%。
AlphaGo的飛快成長是任何一個(gè)圍棋世界冠軍都無法企及的。隨著計(jì)算機(jī)性能的不斷增強(qiáng),遍歷蒙特卡羅搜索樹將進(jìn)一步提高命中概率。大量的計(jì)算機(jī)專家,配合大量的世界圍棋高手,在算法上不斷革新,再配合不斷成長的超級計(jì)算能力,不斷地從失敗走向成功,最終打造出圍棋人工智能。在AlphaGo擊敗李世石后,歐洲圍棋冠軍樊麾說了這么一句話:“這是一個(gè)團(tuán)隊(duì)的集體智慧用科技的方式戰(zhàn)勝了人類數(shù)千年的經(jīng)驗(yàn)積累?!比撕蜋C(jī)器其實(shí)沒有站在對立面上,“是人類戰(zhàn)勝了人類”。
根據(jù)文章,回答下列問題:
國際象棋的走法不超過35×80種。
4.1997年,國際象棋大師加里·卡斯帕羅夫敗給了電腦“深藍(lán)”;2022年,谷歌人工智能AlphaGo又戰(zhàn)勝了韓國棋手李世石。這標(biāo)志著人工智能終于征服了它在棋類比賽中最后的弱項(xiàng)——圍棋,谷歌公司的DeepMind團(tuán)隊(duì)比預(yù)期提前了整整10年達(dá)到了既定目標(biāo)。
對計(jì)算機(jī)來說,圍棋并不是因?yàn)槠湟?guī)則比國際象棋復(fù)雜而難以征服——與此完全相反,圍棋規(guī)則更簡單,它其實(shí)只有一種棋子,對弈的雙方輪流把黑色和白色的棋子放到一個(gè)19x19的正方形棋盤中,落下的棋子就不能再移動(dòng)了,只會在被對方棋子包圍時(shí)被提走,到了棋局結(jié)束時(shí),占據(jù)棋盤面積較多的一方為勝者。
圍棋的規(guī)則如此簡單,但對于計(jì)算機(jī)來說卻又異常復(fù)雜,原因在于圍棋的步數(shù)非常多,而且每一步的可能下法也非常多。以國際象棋作對比,國際象棋每一步平均約有35種不同的可能走法,一般情況下,多數(shù)棋局會在80步之內(nèi)結(jié)束。圍棋棋盤共有361個(gè)落子點(diǎn),雙方交替落子,整個(gè)棋局的總排列組合數(shù)共有約10701種可能性,這遠(yuǎn)遠(yuǎn)超過了宇宙中的原子總數(shù)——10^{80}!
對于結(jié)構(gòu)簡單的棋類游戲,計(jì)算機(jī)程序開發(fā)人員可以使用所謂的“暴力”方法,再輔以一些技巧,來尋找對弈策略,也就是對余下可能出現(xiàn)的所有盤面都進(jìn)行嘗試并給予評價(jià),從而找出最優(yōu)的走法。這種對整棵博弈樹進(jìn)行窮舉搜索的策略對計(jì)算能力要求很高,對圍棋或者象棋程序來說是非常困難的,尤其是圍棋,從技術(shù)上來講目前不可能做到。
“蒙特卡羅樹搜索”是一種基于蒙特卡羅算法的啟發(fā)式搜索策略,能夠根據(jù)對搜索空間的隨機(jī)抽樣來擴(kuò)大搜索樹,從而分析圍棋這類游戲中每一步棋應(yīng)該怎么走才能夠創(chuàng)造最好機(jī)會。舉例來說,假如筐里有100個(gè)蘋果,每次閉著眼拿出1個(gè),最終要挑出最大的1個(gè)。于是先隨機(jī)拿1個(gè),再隨機(jī)拿1個(gè)跟它比,留下大的,再隨機(jī)拿1個(gè)……每拿一次,留下的蘋果都至少不比上次的小。拿的次數(shù)越多,挑出的蘋果就越大。但除非拿100次,否則無法肯定挑出了最大的。這個(gè)挑蘋果的方法,就屬于蒙特卡羅算法。雖然“蒙特卡羅樹搜索”在此前一些弈棋程序中也有采用,在相對較小的棋盤中也能很好地發(fā)揮作用,但在正規(guī)的全尺寸棋盤上,這種方法仍然存在相當(dāng)大的缺陷,因?yàn)樯婕暗乃阉鳂溥€是太大了。
AlphaGo人工智能程序中最新穎的技術(shù)當(dāng)屬它獲取知識的方式——深度學(xué)習(xí)。AlphaGo借助兩個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)(價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò))自主地進(jìn)行新知識的學(xué)習(xí)。深度卷積神經(jīng)網(wǎng)絡(luò)使用很多層的神經(jīng)元,將其堆疊在一起,用于生成圖片逐漸抽象的、局部的特征。對圖像分析得越細(xì),利用的神經(jīng)網(wǎng)絡(luò)層就越多。AlphaGo也采取了類似的架構(gòu),將圍棋棋盤上的盤面視為19×19的圖片輸入,然后通過卷積層來表征盤面。這樣,兩個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)中的價(jià)值網(wǎng)絡(luò)用于評估盤面,策略網(wǎng)絡(luò)用于采樣動(dòng)作。
在深度學(xué)習(xí)的第一階段——策略網(wǎng)絡(luò)的有監(jiān)督學(xué)習(xí)(即從______I____中學(xué)習(xí))階段,擁有13層神經(jīng)網(wǎng)絡(luò)的AlphaGo借助圍棋數(shù)據(jù)庫KGS中存儲的3000萬份對弈棋譜進(jìn)行初步學(xué)習(xí)。這3000萬份棋譜樣本可以用a、b進(jìn)行統(tǒng)計(jì)。a是一個(gè)二維棋局,把a(bǔ)輸入到一個(gè)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,分類的目標(biāo)就是落子向量A。通過不斷的訓(xùn)練,盡可能讓計(jì)算機(jī)得到的向量A接近人類高手的落子結(jié)果b,這樣就形成了一個(gè)模擬人類下圍棋的神經(jīng)網(wǎng)絡(luò),然后得出一個(gè)下棋函數(shù)Fgo()。當(dāng)盤面走到任何一種情形的時(shí)候,AlphaGo都可以通過調(diào)用函數(shù)Fgo()計(jì)算的結(jié)果來得到最佳的落子結(jié)果b可能的概率分布,并依據(jù)這個(gè)概率來挑選下一步的動(dòng)作。在第二階段——策略網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)(即從____II______中學(xué)習(xí))階段,AlphaGo開始結(jié)合蒙特卡羅樹搜索,不再機(jī)械地調(diào)用函數(shù)庫,而類似于一種人類進(jìn)化的過程:AlphaGo會和自己的老版本對弈。即,先使用F_go(1)和F_go(1)對弈,得到了一定量的新棋譜,將這些新棋譜加入到訓(xùn)練集當(dāng)中,訓(xùn)練出新的F_go(2),再使用F_go(2)和F_go(1)對弈,以此類推,這樣就可以得到勝率更高的F_go(n)。這樣,AlphaGo就可以不斷改善它在第一階段學(xué)到的知識。在第三階段——價(jià)值網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)階段,AlphaGo可以根據(jù)之前獲得的學(xué)習(xí)經(jīng)驗(yàn)得出估值函數(shù)v(s),用于預(yù)測策略網(wǎng)絡(luò)自我對抗時(shí)棋盤盤面s的結(jié)果。最后,則是將F_go()、v(s)以及蒙特卡羅樹搜索三者相互配合,使用F_go()作為初始分開局,每局選擇分?jǐn)?shù)最高的方案落子,同時(shí)調(diào)用v(s)在比賽中做出正確的判斷。
這就是AlphaGo給圍棋帶來的新搜索算法。它創(chuàng)新性地將蒙特卡羅模擬和價(jià)值網(wǎng)絡(luò)、策略網(wǎng)絡(luò)結(jié)合起來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。這樣價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)相當(dāng)于AlphaGo的兩個(gè)大腦,策略網(wǎng)絡(luò)負(fù)責(zé)在當(dāng)前局面下判斷“最好的”下一步,可以理解為落子選擇器;價(jià)值網(wǎng)絡(luò)負(fù)責(zé)評估整體盤面的優(yōu)劣,淘汰掉不值得深入計(jì)算的走法,協(xié)助前者提高運(yùn)算效率,可以理解為棋局評估器。通過兩個(gè)“大腦”各自選擇的平均值,AlphaGo最終決定怎樣落子勝算最大。通過這種搜索算法,AlphaGo和其他圍棋程序比賽的勝率達(dá)到了99.8%。
AlphaGo的飛快成長是任何一個(gè)圍棋世界冠軍都無法企及的。隨著計(jì)算機(jī)性能的不斷增強(qiáng),遍歷蒙特卡羅搜索樹將進(jìn)一步提高命中概率。大量的計(jì)算機(jī)專家,配合大量的世界圍棋高手,在算法上不斷革新,再配合不斷成長的超級計(jì)算能力,不斷地從失敗走向成功,最終打造出圍棋人工智能。在AlphaGo擊敗李世石后,歐洲圍棋冠軍樊麾說了這么一句話:“這是一個(gè)團(tuán)隊(duì)的集體智慧用科技的方式戰(zhàn)勝了人類數(shù)千年的經(jīng)驗(yàn)積累?!比撕蜋C(jī)器其實(shí)沒有站在對立面上,“是人類戰(zhàn)勝了人類”。
根據(jù)文章,回答下列問題:
傳統(tǒng)的計(jì)算機(jī)圍棋程序能夠完成全尺寸棋盤的蒙特卡羅樹模擬并計(jì)算最大勝率。
問答題(共5題,共5分)
5.1997年,國際象棋大師加里·卡斯帕羅夫敗給了電腦“深藍(lán)”;2022年,谷歌人工智能AlphaGo又戰(zhàn)勝了韓國棋手李世石。這標(biāo)志著人工智能終于征服了它在棋類比賽中最后的弱項(xiàng)——圍棋,谷歌公司的DeepMind團(tuán)隊(duì)比預(yù)期提前了整整10年達(dá)到了既定目標(biāo)。
對計(jì)算機(jī)來說,圍棋并不是因?yàn)槠湟?guī)則比國際象棋復(fù)雜而難以征服——與此完全相反,圍棋規(guī)則更簡單,它其實(shí)只有一種棋子,對弈的雙方輪流把黑色和白色的棋子放到一個(gè)19x19的正方形棋盤中,落下的棋子就不能再移動(dòng)了,只會在被對方棋子包圍時(shí)被提走,到了棋局結(jié)束時(shí),占據(jù)棋盤面積較多的一方為勝者。
圍棋的規(guī)則如此簡單,但對于計(jì)算機(jī)來說卻又異常復(fù)雜,原因在于圍棋的步數(shù)非常多,而且每一步的可能下法也非常多。以國際象棋作對比,國際象棋每一步平均約有35種不同的可能走法,一般情況下,多數(shù)棋局會在80步之內(nèi)結(jié)束。圍棋棋盤共有361個(gè)落子點(diǎn),雙方交替落子,整個(gè)棋局的總排列組合數(shù)共有約10701種可能性,這遠(yuǎn)遠(yuǎn)超過了宇宙中的原子總數(shù)——10^{80}!
對于結(jié)構(gòu)簡單的棋類游戲,計(jì)算機(jī)程序開發(fā)人員可以使用所謂的“暴力”方法,再輔以一些技巧,來尋找對弈策略,也就是對余下可能出現(xiàn)的所有盤面都進(jìn)行嘗試并給予評價(jià),從而找出最優(yōu)的走法。這種對整棵博弈樹進(jìn)行窮舉搜索的策略對計(jì)算能力要求很高,對圍棋或者象棋程序來說是非常困難的,尤其是圍棋,從技術(shù)上來講目前不可能做到。
“蒙特卡羅樹搜索”是一種基于蒙特卡羅算法的啟發(fā)式搜索策略,能夠根據(jù)對搜索空間的隨機(jī)抽樣來擴(kuò)大搜索樹,從而分析圍棋這類游戲中每一步棋應(yīng)該怎么走才能夠創(chuàng)造最好機(jī)會。舉例來說,假如筐里有100個(gè)蘋果,每次閉著眼拿出1個(gè),最終要挑出最大的1個(gè)。于是先隨機(jī)拿1個(gè),再隨機(jī)拿1個(gè)跟它比,留下大的,再隨機(jī)拿1個(gè)……每拿一次,留下的蘋果都至少不比上次的小。拿的次數(shù)越多,挑出的蘋果就越大。但除非拿100次,否則無法肯定挑出了最大的。這個(gè)挑蘋果的方法,就屬于蒙特卡羅算法。雖然“蒙特卡羅樹搜索”在此前一些弈棋程序中也有采用,在相對較小的棋盤中也能很好地發(fā)揮作用,但在正規(guī)的全尺寸棋盤上,這種方法仍然存在相當(dāng)大的缺陷,因?yàn)樯婕暗乃阉鳂溥€是太大了。
AlphaGo人工智能程序中最新穎的技術(shù)當(dāng)屬它獲取知識的方式——深度學(xué)習(xí)。AlphaGo借助兩個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)(價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò))自主地進(jìn)行新知識的學(xué)習(xí)。深度卷積神經(jīng)網(wǎng)絡(luò)使用很多層的神經(jīng)元,將其堆疊在一起,用于生成圖片逐漸抽象的、局部的特征。對圖像分析得越細(xì),利用的神經(jīng)網(wǎng)絡(luò)層就越多。AlphaGo也采取了類似的架構(gòu),將圍棋棋盤上的盤面視為19×19的圖片輸入,然后通過卷積層來表征盤面。這樣,兩個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)中的價(jià)值網(wǎng)絡(luò)用于評估盤面,策略網(wǎng)絡(luò)用于采樣動(dòng)作。
在深度學(xué)習(xí)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 成都銀杏酒店管理學(xué)院《建筑工程事故分析與處理》2023-2024學(xué)年第一學(xué)期期末試卷
- 成都藝術(shù)職業(yè)大學(xué)《化工基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年股東權(quán)益放棄協(xié)議
- 2024年石材買賣合同樣本3篇
- 2024年度物流企業(yè)預(yù)算管理與運(yùn)營優(yōu)化咨詢合同3篇
- 2024年還建房及物業(yè)管理合同
- 2024年設(shè)備借用與維護(hù)服務(wù)協(xié)議協(xié)議版
- 二零二五年度個(gè)人住宅抵押擔(dān)保與家庭寵物養(yǎng)護(hù)服務(wù)合同3篇
- 2020-2025年中國電動(dòng)物流車行業(yè)市場調(diào)查研究及投資前景預(yù)測報(bào)告
- 2025年度商務(wù)接待與活動(dòng)策劃服務(wù)合同3篇
- 2024年全國中考英語試單選(動(dòng)詞時(shí)態(tài))
- 2024年江蘇護(hù)理職業(yè)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
- 血糖儀使用規(guī)范課件
- DB21-T 2931-2018羊肚菌日光溫室栽培技術(shù)規(guī)程
- 貴州省黔東南州2023-2024學(xué)年九年級上學(xué)期期末文化水平測試化學(xué)試卷
- 《空調(diào)零部件介紹》課件
- 2024年度醫(yī)院內(nèi)分泌與代謝科述職報(bào)告課件
- 手術(shù)室無菌操作流程
- 農(nóng)業(yè)機(jī)械控制系統(tǒng)硬件在環(huán)測試規(guī)范
- 翁潭電站大王山輸水隧洞施工控制網(wǎng)設(shè)計(jì)說明書
- 隆胸術(shù)培訓(xùn)課件
評論
0/150
提交評論