學習率的調整在深度學習的訓練中至關重要, 最常用也是被廣泛使用的是指數型lr衰減,其學習率的變化如下圖所示:
紅線所示是標準的指數型lr衰減。藍線是階梯式的lr衰減,可以在壹段時間內保持學習率的恒定。 這種衰減方式的優點是收斂速度較快,簡單直接。
Loshchilov 提出了cosine annealing strategy。其簡化的版本是將學習率從初始值遵循余弦函數減小到零。假設batchs的總數是 , 那麽在batch , 學習率 可以根據以下公式計算出來:
由圖所示, cosine decay在開始的時候緩慢的降低學習率,中間的時候幾乎是線性的降低學習率,快結束的時候重新緩慢的降低學習率。