阿爾法狗和阿爾法零的區別

學習風格不同；不同的目標函數等。

學習風格不同:阿爾法狗通過模仿人類棋手的招數來學習，而阿爾法零通過玩自我遊戲來學習下棋。

目標函數不同:阿爾法狗在結果為贏/輸二進制的假設下，對獲勝概率進行估計和優化。另壹方面，Alfa zero將考慮平局或其他潛在結果，並評估和優化更廣泛的可能性。