結構不同:RetNet采用殘差塊結構,通過引入跳躍連接來避免梯度消失和表示瓶頸問題。而LinearAttention通常是壹個線性變換,沒有殘差連接。
計算復雜度不同:RetNet由於引入了殘差塊,其計算復雜度相對較高。而LinearAttention的計算復雜度相對較低,因為它只涉及壹個線性變換操作。