【目標檢測】論文推薦——基於深度神經網絡的目標檢測

使用深度神經網絡的可擴展對象檢測-學術範例

最近，深度卷積神經網絡在許多圖像識別基準上取得了最先進的性能，包括ImageNet大規模視覺識別挑戰(ILVRC-2012)。定位子任務中的獲勝模型是壹個網絡，它預測圖像中每個對象類別的單個邊界框和置信度得分。這個模型捕獲了對象周圍的整個圖像上下文，但是如果不天真地復制每個實例的輸出號，就不可能處理圖像中同壹個對象的多個實例。本文提出了壹種有意義的啟發式神經網絡檢測模型，它預測壹組與類別無關的邊界盒，每個盒都有壹個分數，對應於它包含任何感興趣對象的可能性。該模型自然地為每個類處理可變數量的實例，並允許在網絡的最高級別進行跨類概括。

目標檢測是計算機視覺的基本任務之壹。解決這個問題的壹個常見例子是訓練在子圖像上操作的對象檢測器，並在所有地方和尺度上以詳細的方式應用這些檢測器。這個例子已經在差分訓練之後成功地應用於可變形零件模型(DPM ),以實現檢查任務的最新結果。窮盡搜索所有可能的位置和比例帶來了計算上的挑戰。隨著類別數量的增加，這壹挑戰變得更加困難，因為大多數方法為每個類別訓練壹個單獨的檢測器。為了解決這個問題，已經提出了許多方法，從檢測器級聯到使用分割來提出少量的對象假設。

有許多關於目標檢測的文獻。在這壹節中，我們將集中討論使用類不可知論和解決可伸縮性的方法。

許多提出的檢測方法是基於基於組件的模型。最近由於差異化學習和精心設計的特點，取得了令人印象深刻的表現。然而，這些方法依賴於零件模板在多個尺度上的詳細應用，這是非常昂貴的。此外，它們在類的數量上是可擴展的，這對於像ImageNet這樣的現代數據集來說是壹個挑戰。

為了解決前壹個問題，Lampert等人使用分支綁定策略來避免計算所有可能的對象位置。為了解決後壹個問題，宋等人使用了壹個低維組件庫，由所有對象類共享。基於哈希算法的零件檢測也取得了良好的效果。

另壹種不同的工作，更接近我們的工作，是基於這樣的想法，即對象可以在不知道它們的類的情況下被本地化。其中壹些方法是基於自下而上的無類分割[9]。以這種方式獲得的剪輯可以用自上而下的反饋來評分。基於同樣的動機，阿利克夏等人使用了壹種廉價的分類器來對物體是否應該是物體進行分級，並以這種方式減少了後續檢測步驟中的位置數量。這些方法可以看作是壹個多層模型，分割是第壹層，分割和分類是後續層。雖然它們編碼了已被證明的感知原則，但我們將表明，利用更深層次的模型，全面學習可以帶來更好的結果。

最後，我們利用了深度學習的最新進展，最著名的是Krizhevsky和其他人的工作。我們將他們的包圍盒回歸檢測方法擴展到以可擴展的方式處理多個對象的情況。然而，基於dnn的回歸已經被Szegedy等人應用於對象掩碼，最後壹種方法實現了最先進的檢測性能，但是由於單個掩碼回歸的成本，它不能擴展到多個類。

我們的目標是通過預測壹組代表潛在對象的包圍盒來實現獨立於類的可擴展對象檢測。更準確地說，我們使用深度神經網絡(DNN)，它輸出固定數量的邊界框。此外，它為每個框輸出壹個分數，指示該框包含對象的網絡信任。

為了形式化上述思想，我們將i-thobject盒及其相關置信度編碼為最後壹個網絡層的節點值:

包圍盒:我們把每個盒子的左上角和右下角的坐標編碼成四個節點值，可以寫成vectorli∈R4。這些坐標是歸壹化的W. R. T .圖像尺寸，以實現圖像絕對尺寸的不變性。每個歸壹化坐標由最後壹層的線性變換生成。

置信度:包含對象的盒子的置信度得分被編碼為單個節點值ci∈[0，1]。該值由最後壹個隱藏層的線性變換生成，後面跟著壹個sigmoid。

我們可以組合邊界框位置sli，i∈{1，...k}成線性層。同樣，我們可以把所有的置信區間ci，i∈{1，…K}作為壹個S型層的輸出。兩個輸出層都連接到最後壹個隱藏層。

在推理中，我們的算法生成壹個知識包圍盒。在我們的實驗中，我們使用ek = 100，K= 200。如果有必要，我們可以在推理中使用置信度得分和非最大抑制來獲得較少數量的高置信度框架。這些盒子應該代表物體。因此，它們可以被後續的分類器分類以實現目標檢測。由於盒子的數量非常少，我們可以提供壹個強大的分類器。在我們的實驗中，我們使用另壹個dnn進行分類。

我們訓練壹個DNN來預測每個訓練圖像的邊界框及其置信度得分，使得得分最高的框很好地匹配圖像的groundtruth對象框。假設對於壹個具體的訓練示例，對象標記為boundingboxesgj，j∈{1，…，M}。實際上，pre- dictionary的數量遠遠大於groundtruthboxm。因此，我們嘗試只優化最符合實際情況的預測幀子集。我們優化他們的位置，以提高他們的匹配度，並最大限度地增強他們的信心。同時，我們最小化殘差預測的置信度，殘差預測被認為無法很好地定位真實對象。為了實現上述目標，我們為每個訓練示例制定壹個分配問題。Wexij∈{0，1}表示賦值:xij= 1，如果將第I個預測賦值給第j個真對象。這項任務的目標可以表述如下

其中，我們使用標準化包圍盒坐標之間的el2距離來量化包圍盒之間的差異。此外，我們希望根據分配x優化盒子的可信度。最大化給定預測的置信度可以表示為

？最終損失目標結合了匹配損失和信心損失。

受方程1約束。α平衡不同損失條款的貢獻。

對於每個訓練示例，我們求解對真實盒子的最佳分配x*的預測。

約束執行分配解決方案。這是二分匹配的變體，並且是多項式復雜度匹配。在我們的應用中，匹配是非常廉價的——每幅圖像中被標記的對象的數量不到十幾個，並且在大多數情況下只有幾個對象被標記。然後，通過反向傳播優化網絡參數。例如，反向傳播算法的壹階導數計算W、R、T、L和c。

雖然上述定義的損失在原則上是足夠的，但三次修訂使得更快地實現更好的準確性成為可能。第壹個修改是對地面上的真實位置進行聚類，並找到這樣的聚類/質心，我們可以使用這些聚類/質心作為每個預測位置的先驗。因此，鼓勵學習算法學習每個預測位置的先驗殘差。

第二個修改涉及在匹配過程中使用這些先驗:不是將n個背景事實位置與k個預測匹配，而是在k個先驗和背景事實之間找到最佳匹配。壹旦匹配完成，將像以前壹樣計算目標的置信度。此外，位置預測的損失是不變的:對於任何壹對匹配的(目標、預測的)位置，損失被定義為地面實況和對應於匹配先驗的坐標之間的差。我們把先驗匹配稱為先驗匹配，並假設它促進了預測的多樣化。

？應該註意的是，雖然我們以獨立於類的方式定義我們的方法，但是我們可以應用它來預測特定類的對象盒。為此，我們只需要在類的邊界上訓練我們的模型。另外，我們可以預測每個類的kbox。不幸的是，這個模型中的參數數量會隨著類的數量線性增加。此外，在典型的設置中，給定類別中的對象數量相對較少，並且這些參數中的大多數將看到具有很少相應梯度貢獻的訓練示例。因此，我們認為我們的兩步過程-首先定位，然後識別-是壹個更好的選擇，因為它允許使用壹些參數來利用同壹圖像中多種對象類型的數據。

我們使用的本地化分類模型的網絡架構與[10]相同。我們使用Adagrad控制學習速率衰減，小批量128，使用同壹網絡的多個副本進行並行分布式訓練，從而達到更快的收斂。如前所述，我們在定位損失中使用先驗——這些是通過使用訓練集的平均值來計算的。我們還使用α = 0.3來平衡定位和置信度損失。定位器可以輸出種植區域外的坐標進行推斷。坐標被映射並截斷到最後壹個圖像區域。此外，通過非最大抑制對盒子進行修剪，Jaccard的相似度閾值為0.5。然後，我們的第二個模型將每個邊界框分類為感興趣的對象或“背景”。為了訓練我們的定位器網絡，我們從訓練集中生成了大約3000萬張圖像，並對訓練集中的每張圖像應用了以下步驟。最後，樣本被幹擾了。為了訓練我們的本地化網絡，我們通過對訓練集中的每個圖像應用以下步驟，從訓練集中生成了大約3000萬個圖像。對於每幅圖像，我們生成相同數量的正方形樣本，使得樣本總數約為654.38+00萬。對於每幅圖像，將樣本填充在桶中，使得對於0-5%、5-15%、15-50%和50-100%範圍內的每個尺度，樣本數量相同，並且邊界框覆蓋的比例在給定範圍內。訓練集和我們的大部分超參數的選擇是基於過去使用非公開數據集的經驗。在下面的實驗中，我們沒有探索任何非標準的數據生成或正則化選項。在所有的實驗中，所有的超參數都是通過訓練集獲得的。

Pascal視覺對象類(VOC)挑戰是最常用的對象檢測算法基準。它主要由復雜的場景圖像組成，包含20個不同對象類別的邊界框。在我們的評估中，我們重點關註2007年的VOC，並為此發布了壹個測試集。我們通過訓練VOC 2012展示了結果，其中包含了大約。11000張圖片。我們訓練了壹個有100幀的定位器和壹個基於深度網絡的分類器。

我們在由654.38+00萬作物組成的數據集上訓練分類器，數據集的重疊對象至少是0.5 jaccard重疊相似度。這些作物被標記為20種揮發性有機化合物對象類別之壹。？2000萬個負裁剪與任何對象框最多有0.2個Jaccard相似度。這些作物被標上壹個特殊的“背景”類別。架構和超參數的選擇如下。

在第壹輪中，定位器模型應用於圖像中最大-最小的中央方形裁剪。將作物尺寸調整到網絡輸入尺寸為220×220。我們可以通過這個網絡壹次獲得數百個候選日期框架。在重疊閾值為0.5的非最大抑制後，保留得分最高的前10個檢測項，由網絡通過21分類器模型進行分類。最終檢測分數是給定框的定位分數乘以分類器在作物周圍最大正方形區域上評估的分數的乘積。這些分數被評估並用於計算精確的回憶曲線。

首先，我們分析了隔離狀態下定位器的性能。我們給出了由Pascal檢測標準定義的檢測到的對象的數量，與生成的包圍盒的數量相比較。在圖1中，我們展示了用VOC2012訓練的結果。此外，我們使用圖像的最大中心區域(最大中心正方形裁剪)作為輸入，並使用兩個第二尺度來給出結果:最大中心區域的第二尺度(選擇3×3窗口的大小是圖像大小的60%)。

正如我們所看到的，當使用10個邊界框的預算時，我們可以用第壹個模型定位45.3%的對象，用第二個模型定位48%。這顯示了比其他報道的結果更好的性能，例如，對象度算法達到42%[1]。此外，這張圖表顯示了在不同分辨率下觀察圖像的重要性。雖然我們的算法通過使用最大的中心裁剪獲得了大量的對象，但是當使用更高分辨率的圖像裁剪時，我們獲得了額外的改進。此外，我們使用21路分類器對生成的包圍盒進行分類，如上所述。表1列出了VOC 2007的平均準確度(APs)。平均達到的AP是0.29，相當於高級水平。註意，我們的運行時復雜性非常低——我們只使用top10盒子。示例檢測和全精度召回曲線分別如圖2和圖3所示。值得註意的是，視覺檢測是僅使用最大中心正方形圖像裁剪，即使用整個圖像來獲得的。然而，我們設法得到了相對較小的物體，如第二排和第二排的船，第三排和第三排的羊。

在這項工作中，我們提出了壹種新的方法來定位圖像中的對象，它可以預測多個包圍盒的時間。該方法使用深度卷積神經網絡作為基本的特征提取和學習模型。它設置了多框定位成本，可以使用可變數量的groundtruth位置。在“壹個類，壹個盒子”方法的情況下，1000個盒子經受非最大值抑制，在給定圖像中使用與感興趣的深度多盒子方法相同的標準，並且學習在看不見的圖像中預測這些位置。

我們給出了VOC2007和ILSVRC-2012這兩個具有挑戰性的基準測試的結果。在這兩個基準上，所提出的方法是有競爭力的。此外，該方法可以很好地預測後續分類器將檢測到的位置。我們的結果表明，deepmultibox的方法是可擴展的，甚至可以在兩個數據集之間推廣，從而可以預測感興趣的位置，甚至沒有針對它的訓練類別。此外，它可以捕捉同類物體的許多情況，這是旨在更好地理解圖像的算法的重要特征。

在未來，我們希望將位置和識別路徑折疊成壹個單壹的網絡，這樣我們就可以通過網絡壹次性前饋提取位置和標簽信息。即使在目前的狀態下，雙通道過程(本地化網絡後接分類網絡)也會產生5-10次網絡評估，每次評估的速度約為1 CPU-sec(現代機器)。重要的是，這個數目與要識別的類的數目不是線性相關的，這使得所提出的方法與類似於dpm的方法相比非常有競爭力。

上一篇:iOS底層原理02 - 對象malloc流程分析

下一篇:柯南裏面全部的配音員都是誰