兩個(gè)大腦
阿爾法圍棋(AlphaGo)是兩個(gè)差異神經(jīng)網(wǎng)絡(luò)“大腦”合作來改良下棋。這些大腦是多層神經(jīng)網(wǎng)絡(luò)跟那些Google圖片搜索引擎識(shí)別圖片在結(jié)構(gòu)上是類似的。它們從多層啟示式二維過濾器開始,去解決圍棋棋盤的定位,就像圖片分類器網(wǎng)絡(luò)解決圖片一樣。經(jīng)過過濾,13 個(gè)完全連貫的神經(jīng)網(wǎng)絡(luò)層產(chǎn)生對它們看到的局面判斷。這些層能夠做分類和邏輯推理。
這些網(wǎng)絡(luò)重復(fù)訓(xùn)練來查看結(jié)果,再去校對調(diào)整參數(shù),去讓下次執(zhí)行更好。這個(gè)解決器有大量的隨機(jī)性元素,所以人類是不可能精確知道網(wǎng)絡(luò)是如何“思索”的,但越來越多的訓(xùn)練后能讓它進(jìn)化到更好。
優(yōu)先大腦:落子選擇器 (Move Picker)
阿爾法圍棋(AlphaGo)的優(yōu)先個(gè)神經(jīng)網(wǎng)絡(luò)大腦是“監(jiān)視學(xué)習(xí)的策略網(wǎng)絡(luò)(Policy Network)” ,觀察棋盤規(guī)劃企圖找到優(yōu)佳的下一步?,F(xiàn)實(shí)上,它預(yù)測每一個(gè)合法下一步的優(yōu)佳概率,這樣看來前面猜想的就是那個(gè)概率很高的。這可以理解成“落子選擇器”。
第二大腦:棋局評價(jià)器 (Position Evaluator)
阿爾法圍棋(AlphaGo)的第二個(gè)大腦相對于落子選擇器是回答另一個(gè)問題。不是去猜想具體下一步,它預(yù)測每一個(gè)棋手贏棋的可能,再給定棋子地位狀況下。這“局面評價(jià)器”就是“價(jià)值網(wǎng)絡(luò)(Value Network)”,整體局面判斷來輔助落子選擇器。這個(gè)判斷僅僅是大約的,但對于閱讀速度提升很有協(xié)助。分類潛在的將來局面的“好”與“壞”,AlphaGo能夠決定能否特殊變種去深化閱讀。如果局面評價(jià)器說這個(gè)特殊變種不行,這樣看來AI就跳過閱讀。