兩個大腦
阿爾法圍棋(AlphaGo)是兩個差異神經(jīng)網(wǎng)絡“大腦”合作來改良下棋。這些大腦是多層神經(jīng)網(wǎng)絡跟那些Google圖片搜索引擎識別圖片在結(jié)構(gòu)上是類似的。它們從多層啟示式二維過濾器開始,去解決圍棋棋盤的定位,就像圖片分類器網(wǎng)絡解決圖片一樣。經(jīng)過過濾,13 個完全連貫的神經(jīng)網(wǎng)絡層產(chǎn)生對它們看到的局面判斷。這些層能夠做分類和邏輯推理。
這些網(wǎng)絡重復訓練來查看結(jié)果,再去校對調(diào)整參數(shù),去讓下次執(zhí)行更好。這個解決器有大量的隨機性元素,所以人類是不可能精確知道網(wǎng)絡是如何“思索”的,但越來越多的訓練后能讓它進化到更好。
優(yōu)先大腦:落子選擇器 (Move Picker)
阿爾法圍棋(AlphaGo)的優(yōu)先個神經(jīng)網(wǎng)絡大腦是“監(jiān)視學習的策略網(wǎng)絡(Policy Network)” ,觀察棋盤規(guī)劃企圖找到優(yōu)佳的下一步?,F(xiàn)實上,它預測每一個合法下一步的優(yōu)佳概率,這樣看來前面猜想的就是那個概率很高的。這可以理解成“落子選擇器”。
第二大腦:棋局評價器 (Position Evaluator)
阿爾法圍棋(AlphaGo)的第二個大腦相對于落子選擇器是回答另一個問題。不是去猜想具體下一步,它預測每一個棋手贏棋的可能,再給定棋子地位狀況下。這“局面評價器”就是“價值網(wǎng)絡(Value Network)”,整體局面判斷來輔助落子選擇器。這個判斷僅僅是大約的,但對于閱讀速度提升很有協(xié)助。分類潛在的將來局面的“好”與“壞”,AlphaGo能夠決定能否特殊變種去深化閱讀。如果局面評價器說這個特殊變種不行,這樣看來AI就跳過閱讀。