當前位置:編程學習大全網 - 源碼下載 - 阿爾法圍棋的程序原理

阿爾法圍棋的程序原理

阿爾法圍棋(AlphaGo)是壹款圍棋人工智能程序。這個程序利用“價值網絡”去計算局面,用“策略網絡”去選擇下子。 阿爾法圍棋(AlphaGo)是通過兩個不同神經網絡“大腦”合作來改進下棋。這些大腦是多層神經網絡跟那些Google圖片搜索引擎識別圖片在結構上是相似的。它們從多層啟發式二維過濾器開始,去處理圍棋棋盤的定位,就像圖片分類器網絡處理圖片壹樣。經過過濾,13 個完全連接的神經網絡層產生對它們看到的局面判斷。這些層能夠做分類和邏輯推理。

這些網絡通過反復訓練來檢查結果,再去校對調整參數,去讓下次執行更好。這個處理器有大量的隨機性元素,所以人們是不可能精確知道網絡是如何“思考”的,但更多的訓練後能讓它進化到更好。

第壹大腦:落子選擇器 (Move Picker)

阿爾法圍棋(AlphaGo)的第壹個神經網絡大腦是“監督學習的策略網絡(Policy Network)” ,觀察棋盤布局企圖找到最佳的下壹步。事實上,它預測每壹個合法下壹步的最佳概率,那麽最前面猜測的就是那個概率最高的。這可以理解成“落子選擇器”。

第二大腦:棋局評估器 (Position Evaluator)

阿爾法圍棋(AlphaGo)的第二個大腦相對於落子選擇器是回答另壹個問題。不是去猜測具體下壹步,它預測每壹個棋手贏棋的可能,再給定棋子位置情況下。這“局面評估器”就是“價值網絡(Value Network)”,通過整體局面判斷來輔助落子選擇器。這個判斷僅僅是大概的,但對於閱讀速度提高很有幫助。通過分類潛在的未來局面的“好”與“壞”,AlphaGo能夠決定是否通過特殊變種去深入閱讀。如果局面評估器說這個特殊變種不行,那麽AI就跳過閱讀在這壹條線上的任何更多落子。

  • 上一篇:送給女朋友的真情表白的情話
  • 下一篇:如何查看壹個jar文件是用什麽版本jdk編譯的
  • copyright 2024編程學習大全網