關於感受野的總結

感受野是卷積神經網絡裏面最重要的概念之壹，為了更好地理解卷積神經網絡結構，甚至自己設計卷積神經網絡，對於感受野的理解必不可少。

壹、定義

感受野被定義為卷積神經網絡特征所能看到輸入圖像的區域，換句話說特征輸出受感受野區域內的像素點的影響。

比如下圖（該圖為了方便，將二維簡化為壹維），這個三層的神經卷積神經網絡，每壹層卷積核的?_ = 3?，? = 1，那麽最上層特征所對應的感受野就為如圖所示的7x7。

二、計算方式

第1層感受野[1]

第二層特征，感受野為5

第2層感受野[1]

第三層特征，感受野為7

第3層感受野[1]

如果有dilated conv的話，計算公式為

三、更上壹層樓

上文所述的是理論感受野，而特征的有效感受野（實際起作用的感受野）實際上是遠小於理論感受野的，如下圖所示。具體數學分析比較復雜，不再贅述，感興趣的話可以參考論文[2]。

有效感受野示例[2]

兩層3x3 conv計算流程圖

四、應用

分類

Xudong Cao寫過壹篇叫《A practical theory for designing very deep convolutional neural networks》的technical report，裏面講設計基於深度卷積神經網絡的圖像分類器時，為了保證得到不錯的效果，需要滿足兩個條件：

Firstly, for each convolutional layer, its capacity of learning more complex patterns should be guaranteed; Secondly, the receptive field of the top most layer should be no larger than the image region .

其中第二個條件就是對卷積神經網絡最高層網絡特征感受野大小的限制。

目標檢測

現在流行的目標檢測網絡大部分都是基於anchor的，比如SSD系列，v2以後的yolo，還有faster rcnn系列。

基於anchor的目標檢測網絡會預設壹組大小不同的anchor，比如32x32、64x64、128x128、256x256，這麽多anchor，我們應該放置在哪幾層比較合適呢？這個時候感受野的大小是壹個重要的考慮因素。

放置anchor層的特征感受野應該跟anchor大小相匹配，感受野比anchor大太多不好，小太多也不好。如果感受野比anchor小很多，就好比只給妳壹只腳，讓妳說出這是什麽鳥壹樣。如果感受野比anchor大很多，則好比給妳壹張世界地圖，讓妳指出故宮在哪兒壹樣。

《S3FD: Single Shot Scale-invariant Face Detector》這篇人臉檢測器論文就是依據感受野來設計anchor的大小的壹個例子，文中的原話是

we design anchor scales based on the effective receptive field

《FaceBoxes: A CPU Real-time Face Detector with High Accuracy》這篇論文在設計多尺度anchor的時候，依據同樣是感受野，文章的壹個貢獻為

We introduce the Multiple Scale Convolutional Layers

(MSCL) to handle various scales of face via enriching

receptive fields and discretizing anchors over layers

引用：

[1] convolutional nerual networks

[2]Understanding the Effective Receptive Field in Deep Convolutional Neural Networks