當前位置:編程學習大全網 - 源碼下載 - CV模型的消化與提煉

CV模型的消化與提煉

Rcnn將原有的目標檢測算法提高了50%。在VGG-16網絡模型下,voc2007數據集的準確率為66%,但速度慢,占用內存多。主要原因是候選幀由慢速選擇性搜索算法完成,卷積網絡計算重復。

*缺陷:

* (1)訓練分幾個階段,步驟復雜:網絡微調+訓練SVM+訓練邊界回歸;

* (2)訓練耗時,占用大量磁盤空間;5000張圖片產生幾百個g特征文件;

* (3)速度慢:需要47s使用GPU和VGG16模型處理圖像;

* (4)測試速度慢:每個候選區域需要運行整個前向CNN計算;

* (5) SVM和回歸是事後操作,並且在SVM和回歸期間不更新CNN特征。

lenet-Alex net-vgg/Google net(inception)-resnet-dense net-剪枝

leNet1998

經典五層網絡:(卷積+tanh+池化)* 2+全連通120+全連通84+輸出10 (MNIST)

第壹次用卷積代替全連接。卷積:模式匹配,局部連接,參數共享,翻譯和其他變化。

引入了最大池提取特征2x2,具有壹點平移不變性。

AlexNet2012 ImageNet

網絡更深:5個卷積層+3個全連接層。

四個網絡優先級:

1.用不飽和神經元relu代替sigmoid速度快。

2、雙GPU

3.增加了LRN(局部響應歸壹化)層以提高泛化能力。

4、聯營重疊

過度擬合解決方案:

增強數據:反射、旋轉

加入輟學

將圖像分成上下兩部分,然後將它們合並在壹起。

VGG 2014 ImageNet

關鍵點:

用更深的網絡表達特征,

提出了壹種3×3卷積核。大卷積核可以用小+多層實現,非線性描述更多,參數更少。

提出了1x1的卷積核來增加和減少維度,在通道之間交換信息並增加非線性。

LRN/重疊共用是沒有用的,

多尺度:剪成隨機大小,然後隨機拍224 x 224的照片。

參數爆款很多,大概134m熱。奇怪的是,訓練只需要74 epoch,比AlexNet的90還少。

GoogLeNet2014 ImageNet分類

V1

引入了Inception,(1 1,3 3,5 5,3 3maxPooling),增加了幾層Inception,同時使用不同的卷積核,從加深到加寬。

GlobalAvgPool用於替換全連接層,留下壹個便於finetune的全連接層。

增加了softmax的兩個分支,1是為了避免梯度消失(太深),2是為了做壹個簡單的模型進行模型融合。

V2

用兩個3x3替換了5x5。

BN首次用於正則化。

V3

利用因式分解成小卷積的思想,7x7變成1x7和7x1。

參數減少了,可以處理更豐富的空間特征。

雷斯內特

不是過擬合的問題,不是梯度消失或者梯度爆炸的問題:之前的做法BN,Relu。

主要解決神經網絡退化問題。

網絡的深度雖然存在,但實際上無法表達。

1,我們甚至不能表示線性,relu,RELU會丟失壹些信息,我們無法從輸出中推導出輸入。然後直接加入線性

2.有些層,等級很小,越深越難改變。

3.層與層之間的相關性隨著層數的增加而連續下降甚至呈指數下降。

空間和深度不壹致:空間不壹致加權重/深度不壹致加1x1卷積核。

使用全局平均池而不是完全連接。

denseNet

串接所有輸入,然後通過Hl函數(BN relu 3x3卷積)。

後續發展:

在denseNet上修剪。

  • 上一篇:高手去哪了?難道就這樣了嗎?
  • 下一篇:Java線程源代碼
  • copyright 2024編程學習大全網