阿爾法圍棋的程序原理

阿爾法圍棋（AlphaGo）是壹款圍棋人工智能程序。這個程序利用“價值網絡”去計算局面，用“策略網絡”去選擇下子。阿爾法圍棋（AlphaGo）是通過兩個不同神經網絡“大腦”合作來改進下棋。這些大腦是多層神經網絡跟那些Google圖片搜索引擎識別圖片在結構上是相似的。它們從多層啟發式二維過濾器開始，去處理圍棋棋盤的定位，就像圖片分類器網絡處理圖片壹樣。經過過濾，13 個完全連接的神經網絡層產生對它們看到的局面判斷。這些層能夠做分類和邏輯推理。

這些網絡通過反復訓練來檢查結果，再去校對調整參數，去讓下次執行更好。這個處理器有大量的隨機性元素，所以人們是不可能精確知道網絡是如何“思考”的，但更多的訓練後能讓它進化到更好。

第壹大腦：落子選擇器（Move Picker）

阿爾法圍棋（AlphaGo）的第壹個神經網絡大腦是“監督學習的策略網絡（Policy Network）” ，觀察棋盤布局企圖找到最佳的下壹步。事實上，它預測每壹個合法下壹步的最佳概率，那麽最前面猜測的就是那個概率最高的。這可以理解成“落子選擇器”。

第二大腦：棋局評估器（Position Evaluator）

阿爾法圍棋（AlphaGo）的第二個大腦相對於落子選擇器是回答另壹個問題。不是去猜測具體下壹步，它預測每壹個棋手贏棋的可能，再給定棋子位置情況下。這“局面評估器”就是“價值網絡（Value Network）”，通過整體局面判斷來輔助落子選擇器。這個判斷僅僅是大概的，但對於閱讀速度提高很有幫助。通過分類潛在的未來局面的“好”與“壞”，AlphaGo能夠決定是否通過特殊變種去深入閱讀。如果局面評估器說這個特殊變種不行，那麽AI就跳過閱讀在這壹條線上的任何更多落子。

上一篇:送給女朋友的真情表白的情話

下一篇:如何查看壹個jar文件是用什麽版本jdk編譯的

山西衛視的衛視整體概況

OA、工作流程管理系統、項目管理軟件、流程管理軟件各側重什麽？

高檔禮品送什麽比較好？

顫振原始工程源代碼

關於c3p0連接池連接mysql數據庫需要註意的幾點

搜索全文源代碼

java編程 switch語句