Alphago圍棋源代碼

簡化的開源AlphaGo在這裏，也可以和TA下圍棋。

程序原理

AlphaGo是壹個圍棋人工智能程序。這個程序用“價值網絡”計算形勢，用“策略網絡”選擇下壹個。

深度學習

AlphaGo的主要工作原理是“深度學習”。“深度學習”是指多層人工神經網絡和訓練它的方法。壹層神經網絡會以大量的矩陣數作為輸入，通過非線性激活方法得到權值，然後生成另壹個數據集作為輸出。這就好比生物神經大腦的工作機制。通過適當數量的矩陣和多層組織鏈接在壹起，形成壹個神經網絡“大腦”，進行精確復雜的處理，就像人識別物體、標記圖片壹樣。

兩個大腦

AlphaGo是通過兩個不同的神經網絡“大腦”的合作來改進象棋。這些大腦是多層神經網絡，在結構上與谷歌圖像搜索引擎識別的大腦相似。他們從多層啟發式二維過濾器入手處理圍棋棋盤的定位，就像圖像分類器網絡處理圖片壹樣。過濾後13全連接神經網絡層對看到的情況產生判斷。這些層可以進行分類和邏輯推理。

這些網絡通過反復訓練來檢查結果，然後校對調整參數，讓接下來的執行更好。這個處理器有大量的隨機元素，所以人們不可能確切知道網絡是如何“思考”的，但更多的訓練可以讓它更好地進化。

第壹個大腦:移動拾取器

AlphaGo的第壹個神經網絡大腦是“監督學習策略網絡”，觀察棋盤的布局，試圖找到最佳的下壹步。事實上，它預測了每壹個合法的下壹步的最佳概率，所以第壹個猜測是概率最高的壹個。這可以理解為“下拉選擇器”。

第二個大腦:位置評估者。

AlphaGo的第二個大腦是回答另壹個相對於下拉選擇器的問題。它不是猜測具體的下壹步，而是在給定棋子位置的情況下，預測每個玩家贏棋的可能性。這個“形勢評估者”就是“價值網”，通過對全局的判斷來輔助選擇者。這個判斷只是近似的，但對提高閱讀速度很有幫助。通過對“好”和“壞”的潛在未來情況進行分類，AlphaGo可以決定是否通過特殊變體進行深度閱讀。如果情況評估器說這個特殊的變體不起作用，那麽AI跳過讀取這壹行上的任何條目。[2-6]

主要成就

研究人員讓“阿爾法圍棋”與其他圍棋人工智能機器人進行比賽，在總共495場比賽中只輸了壹場，勝率為99.8%。它甚至試圖讓四個兒子與三個先進的人工智能機器人CrazyStone、Zen和Pachi對戰，勝率分別為77%、86%和99%。

據國際頂級期刊《自然》封面文章報道，谷歌研究人員研發的名為“阿爾法圍棋”的人工智能機器人以5比0毫不退讓地擊敗了歐洲圍棋冠軍、職業二段棋手範輝。在圍棋人工智能領域取得了前所未有的突破。這是計算機程序第壹次可以在完整的圍棋比賽中不放棄地擊敗職業棋手。

阿爾法圍棋程序的下壹個挑戰是世界圍棋冠軍李世石。人工智能與人類的比賽於2016年3月9日在首爾舉行，獎金為谷歌提供的1萬美元。

上一篇:找人做壹個類似時間提醒的小軟件，大約多少錢？

下一篇:為什麽微軟用XHTML 1.0 ？為什麽不用HTML5.0？

初級的linux運維工程師都應該具備哪些條件

迷妳世界到底合法嗎

OBV指標中的白線和黃線分別代表什麽意思？