反卷積也稱為轉置卷積。如果卷積運算是通過矩陣乘法實現的,卷積核平鋪成壹個矩陣,那麽轉置卷積在正向計算中左乘這個矩陣的轉置WT,在反向傳播中左乘w,這正好與卷積運算相反。需要註意的是,反卷積不是卷積的逆運算。
【知乎問題+caffe實現】
實現上采樣;輸入圖像的近似重建,卷積層可視化。
只要激活函數選擇得當,神經元數目足夠多,至少有壹個隱層的神經網絡就能以任意指定的精度逼近閉區間內的任意連續函數。
判別模型,直接輸出類別標簽,或者輸出後驗概率p(y|x)
[ /question/268906476]
[ /p/40024110]
[/p/159189617]
BN在批的維度上歸壹化,GN是每組在通道方向上的均值方差。
檢測結果和地面真實值的交集高於它們的並集,這就是檢測精度IoU。
內存/視頻內存占用;模型收斂速度等
Hessian矩陣是n*n,在高維情況下非常大,計算和存儲都是問題。
mini-batch過小會導致收斂緩慢,過大容易陷入尖銳極小,泛化能力不好。
妳可以把輟學看作是壹種合奏方法。每退完壹次學,就相當於從原來的網絡裏找了壹個更薄的網絡。
匯集操作可以增加感受野,但會丟失壹些信息。孔洞卷積在卷積核中插入壹個權重為0的值,所以每次卷積都會跳過壹些像素;
洞卷積增加了卷積輸出各點的感受野,與池化不同,它會丟失信息,因此在圖像需要全局信息或長序列相關語音序列的問題中有著廣泛的應用。
表達式是:
之所以使用BN,是因為網絡訓練中各層參數的變化會導致後續各層輸入的分布發生變化,學習過程會使各層適應輸入的分布,因此網絡的學習速率不得不降低,內部協變移位必須謹慎進行。
如果僅通過歸壹化方法,數據具有零均值和單位方差,則層的表達能力會降低(例如,使用Sigmoid函數時,只會使用線性區域)。
BN的具體過程(註意第三個公式中的分母要加ε)
最好的解釋是多個通道用1 * 1卷積核能量解耦,跨通道相關和空間相關解耦。
但由於解耦不徹底,沿用了移動網和洗牌網的群卷積模式。
由於1×1不會改變高度和寬度,所以改變通道的第壹個也是最直觀的結果就是可以增加或減少原有的數據量。改變的只是通道在高×寬×通道的維度大小。
1*1的卷積核可以在保持特征圖尺度不變(即不損失分辨率)的前提下,大大增加非線性特征(使用下面的非線性激活函數),使網絡很深。
備註:卷積壹個濾波器得到壹個特征圖,卷積不同的濾波器(不同的權重和偏倚)得到不同的特征圖,提取不同的特征得到對應的特化神經元。
例:利用1x1的卷積核,降維和增維的運算實際上是通道間信息的線性組合變化。在3x3,64通道的卷積核後加壹個1x1,28通道的卷積核,就成了3x3,28通道的卷積核,原來的64通道就可以理解了。
註:通道維度只做線性組合,帶* * *權重的滑動窗口在W和h上。
並不代表這個模型無效,模型不收斂的原因可能有以下幾點。
A.在實際場景中,應盡量使用ADAM,避免使用SGD。
B.在相同的初始學習速率下,ADAM的收斂速度總是快於SGD方法。
c在參數個數相同的情況下,SGD加手動調整通常會取得比自適應學習率調整更好的效果。
D.在相同的初始學習速率下,ADAM比SGD更容易過擬合。
A.保證每層感受野不變,網絡深度加深,使網絡更加精確。
b、各層感受野擴大,學習小特征的能力增加。
c、有效提取高層語義信息,處理高層語義,從而有效提高網絡的準確率。
d .利用該結構有效降低了網絡的權重。
A.簡單計算
B.非線性
C.帶飽和區
D.幾乎到處都是
Relu函數在0處不可微。
A.Adam的收斂速度比RMSprop慢。
B.與SGD或RMSprop等優化器相比,Adam的收斂效果最好。
C.對於輕量級神經網絡,Adam比RMSprop更適合。
D.與Adam或RMSprop等優化器相比,SGD的收斂效果最好。
SGD通常訓練時間較長,容易陷入鞍點,但在初始化和學習率調度方案較好的情況下,結果更可靠。如果關心更快的收斂,需要訓練更深更復雜的網絡,建議使用學習率自適應優化方法。
A.使用ReLU作為激活函數可以有效防止梯度爆炸。
B.使用Sigmoid作為激活函數,梯度很容易消失。
c使用批量歸壹化層可以有效防止漸變爆炸。
D.使用參數權重衰減可以在壹定程度上防止模型過擬合。
對結果的懷疑。認為兩者都是可以預防的。
A.簽名於
B.FTRL
C.RMSProp
D.左旋BFGS
BFGS(有限記憶BFGS)方法:
所有數據都將參與訓練,算法融合了方差歸壹化和均值歸壹化。用大數據集訓練DNN時,容易出現參數過多的情況(牛頓法的進化版,尋找更好的優化方向,減少叠代輪次)。從LBFGS算法的流程來看,它的整個核心是如何快速計算壹個Hesse近似:第壹點是近似,所以在LBFGS算法中有壹個使用前m個近似下降方向的叠代計算過程;第二點速度快,體現在不需要保存Hesse矩陣,只需要使用壹個保存的壹階導數序列就可以完成,所以不需要大量的存儲,從而節省了計算資源;第三,在推導過程中利用秩二修正構造正定矩陣。即使這個矩陣不是最優下降方向,至少也能保證函數下降。
FTRL(follow-the-regulated-leader)是壹種常用的在線學習優化算法,具有大量稀疏特征,方便、實用、有效,常用於在線更新CTR預測模型。FTRL在處理帶有非光滑正則項(如L1正則化)的凸優化問題時表現非常出色。它不僅可以通過L1正則化控制模型的稀疏性,而且收斂速度快。
A.LSTM在壹定程度上解決了傳統RNN的梯度消失或梯度爆炸問題。
B.CNN相比全連接的壹個優點是模型復雜度低,緩解了過擬合。
C.只要參數設置合理,深度學習的效果至少應該比隨機算法好。
D.隨機梯度下降法可以緩解網絡訓練時陷入鞍點的問題。
事實上,有許多針對小目標的措施和改進,具體如下:
最常見的方法是將圖像的尺寸從上采樣輸入到Rezie網絡;
使用特殊卷積,如expanded/astros,以提高檢測器對分辨率的靈敏度。(洞卷積是壹種卷積思想,認為下采樣會降低圖像分辨率,丟失圖像語義分割中的信息。通過增加孔洞來擴大感受野,使原來的3×3卷積核在相同的參數量和計算量下有5×5(稀釋率= 2)或更大的感受野,無需下采樣。在保持參數個數不變的情況下,卷積核的感受野增大)
淺深特征圖上有相對直接的預測,也就是我們常說的尺度問題。
使用FPN,它結合了淺層特征和深層特征,或者使用淺層特征和深層特征壹起預測到最後;
snip(圖像金字塔的比例歸壹化)的主要思想:
當訓練和反向傳播更新參數時,只考慮那些在指定尺度範圍內的目標,因此提出了壹種特殊的多尺度訓練方法。