CV模型的消化與提煉

Rcnn將原有的目標檢測算法提高了50%。在VGG-16網絡模型下，voc2007數據集的準確率為66%，但速度慢，占用內存多。主要原因是候選幀由慢速選擇性搜索算法完成，卷積網絡計算重復。

*缺陷:

* (1)訓練分幾個階段，步驟復雜:網絡微調+訓練SVM+訓練邊界回歸；

* (2)訓練耗時，占用大量磁盤空間；5000張圖片產生幾百個g特征文件；

* (3)速度慢:需要47s使用GPU和VGG16模型處理圖像；

* (4)測試速度慢:每個候選區域需要運行整個前向CNN計算；

* (5) SVM和回歸是事後操作，並且在SVM和回歸期間不更新CNN特征。

lenet-Alex net-vgg/Google net(inception)-resnet-dense net-剪枝

leNet1998

經典五層網絡:(卷積+tanh+池化)* 2+全連通120+全連通84+輸出10 (MNIST)

第壹次用卷積代替全連接。卷積:模式匹配，局部連接，參數共享，翻譯和其他變化。

引入了最大池提取特征2x2，具有壹點平移不變性。

AlexNet2012 ImageNet

網絡更深:5個卷積層+3個全連接層。

四個網絡優先級:

1.用不飽和神經元relu代替sigmoid速度快。

2、雙GPU

3.增加了LRN(局部響應歸壹化)層以提高泛化能力。

4、聯營重疊

過度擬合解決方案:

增強數據:反射、旋轉

加入輟學

將圖像分成上下兩部分，然後將它們合並在壹起。

VGG 2014 ImageNet

關鍵點:

用更深的網絡表達特征，

提出了壹種3×3卷積核。大卷積核可以用小+多層實現，非線性描述更多，參數更少。

提出了1x1的卷積核來增加和減少維度，在通道之間交換信息並增加非線性。

LRN/重疊共用是沒有用的，

多尺度:剪成隨機大小，然後隨機拍224 x 224的照片。

參數爆款很多，大概134m熱。奇怪的是，訓練只需要74 epoch，比AlexNet的90還少。

GoogLeNet2014 ImageNet分類

引入了Inception，(1 1，3 3，5 5，3 3maxPooling)，增加了幾層Inception，同時使用不同的卷積核，從加深到加寬。

GlobalAvgPool用於替換全連接層，留下壹個便於finetune的全連接層。

增加了softmax的兩個分支，1是為了避免梯度消失(太深)，2是為了做壹個簡單的模型進行模型融合。

用兩個3x3替換了5x5。

BN首次用於正則化。

利用因式分解成小卷積的思想，7x7變成1x7和7x1。

參數減少了，可以處理更豐富的空間特征。

雷斯內特

不是過擬合的問題，不是梯度消失或者梯度爆炸的問題:之前的做法BN，Relu。

主要解決神經網絡退化問題。

網絡的深度雖然存在，但實際上無法表達。

1，我們甚至不能表示線性，relu，RELU會丟失壹些信息，我們無法從輸出中推導出輸入。然後直接加入線性

2.有些層，等級很小，越深越難改變。

3.層與層之間的相關性隨著層數的增加而連續下降甚至呈指數下降。

空間和深度不壹致:空間不壹致加權重/深度不壹致加1x1卷積核。

使用全局平均池而不是完全連接。

denseNet

串接所有輸入，然後通過Hl函數(BN relu 3x3卷積)。

後續發展:

在denseNet上修剪。

上一篇:高手去哪了？難道就這樣了嗎?

下一篇:Java線程源代碼

各為網友妳們能告訴我她們拍過哪些電視集吖！

選購鉆石的註意事項有哪些

機器視覺檢測發展如火如荼，中小企業該如何突破技術瓶頸