*缺陷:
* (1)訓練分幾個階段,步驟復雜:網絡微調+訓練SVM+訓練邊界回歸;
* (2)訓練耗時,占用大量磁盤空間;5000張圖片產生幾百個g特征文件;
* (3)速度慢:需要47s使用GPU和VGG16模型處理圖像;
* (4)測試速度慢:每個候選區域需要運行整個前向CNN計算;
* (5) SVM和回歸是事後操作,並且在SVM和回歸期間不更新CNN特征。
lenet-Alex net-vgg/Google net(inception)-resnet-dense net-剪枝
leNet1998
經典五層網絡:(卷積+tanh+池化)* 2+全連通120+全連通84+輸出10 (MNIST)
第壹次用卷積代替全連接。卷積:模式匹配,局部連接,參數共享,翻譯和其他變化。
引入了最大池提取特征2x2,具有壹點平移不變性。
AlexNet2012 ImageNet
網絡更深:5個卷積層+3個全連接層。
四個網絡優先級:
1.用不飽和神經元relu代替sigmoid速度快。
2、雙GPU
3.增加了LRN(局部響應歸壹化)層以提高泛化能力。
4、聯營重疊
過度擬合解決方案:
增強數據:反射、旋轉
加入輟學
將圖像分成上下兩部分,然後將它們合並在壹起。
VGG 2014 ImageNet
關鍵點:
用更深的網絡表達特征,
提出了壹種3×3卷積核。大卷積核可以用小+多層實現,非線性描述更多,參數更少。
提出了1x1的卷積核來增加和減少維度,在通道之間交換信息並增加非線性。
LRN/重疊共用是沒有用的,
多尺度:剪成隨機大小,然後隨機拍224 x 224的照片。
參數爆款很多,大概134m熱。奇怪的是,訓練只需要74 epoch,比AlexNet的90還少。
GoogLeNet2014 ImageNet分類
V1
引入了Inception,(1 1,3 3,5 5,3 3maxPooling),增加了幾層Inception,同時使用不同的卷積核,從加深到加寬。
GlobalAvgPool用於替換全連接層,留下壹個便於finetune的全連接層。
增加了softmax的兩個分支,1是為了避免梯度消失(太深),2是為了做壹個簡單的模型進行模型融合。
V2
用兩個3x3替換了5x5。
BN首次用於正則化。
V3
利用因式分解成小卷積的思想,7x7變成1x7和7x1。
參數減少了,可以處理更豐富的空間特征。
雷斯內特
不是過擬合的問題,不是梯度消失或者梯度爆炸的問題:之前的做法BN,Relu。
主要解決神經網絡退化問題。
網絡的深度雖然存在,但實際上無法表達。
1,我們甚至不能表示線性,relu,RELU會丟失壹些信息,我們無法從輸出中推導出輸入。然後直接加入線性
2.有些層,等級很小,越深越難改變。
3.層與層之間的相關性隨著層數的增加而連續下降甚至呈指數下降。
空間和深度不壹致:空間不壹致加權重/深度不壹致加1x1卷積核。
使用全局平均池而不是完全連接。
denseNet
串接所有輸入,然後通過Hl函數(BN relu 3x3卷積)。
後續發展:
在denseNet上修剪。