學習風格不同:阿爾法狗通過模仿人類棋手的招數來學習,而阿爾法零通過玩自我遊戲來學習下棋。
目標函數不同:阿爾法狗在結果為贏/輸二進制的假設下,對獲勝概率進行估計和優化。另壹方面,Alfa zero將考慮平局或其他潛在結果,並評估和優化更廣泛的可能性。