當前位置:編程學習大全網 - 編程語言 - 求Deep learning Yann LeCun 1,2 , Yoshua Bengio 3 & Geoffrey Hinton 4,5全文中文翻譯

求Deep learning Yann LeCun 1,2 , Yoshua Bengio 3 & Geoffrey Hinton 4,5全文中文翻譯

原文摘要:深度學習可以讓那些擁有多個處理層的計算模型來學習具有多層次抽象的數據的表示。這些方法在許多方面都帶來了顯著的改善,包括最先進的語音識別、視覺對象識別、對象檢測和許多其它領域,例如藥物發現和基因組學等。深度學習能夠發現大數據中的復雜結構。它是利用BP算法來完成這個發現過程的。BP算法能夠指導機器如何從前壹層獲取誤差而改變本層的內部參數,這些內部參數可以用於計算表示。深度卷積網絡在處理圖像、視頻、語音和音頻方面帶來了突破,而遞歸網絡在處理序列數據,比如文本和語音方面表現出了閃亮的壹面。

機器學習技術在現代社會的各個方面表現出了強大的功能:從Web搜索到社會網絡內容過濾,再到電子商務網站上的商品推薦都有涉足。並且它越來越多地出現在消費品中,比如相機和智能手機。

機器學習系統被用來識別圖片中的目標,將語音轉換成文本,匹配新聞元素,根據用戶興趣提供職位或產品,選擇相關的搜索結果。逐漸地,這些應用使用壹種叫深度學習的技術。傳統的機器學習技術在處理未加工過的數據時,體現出來的能力是有限的。幾十年來,想要構建壹個模式識別系統或者機器學習系統,需要壹個精致的引擎和相當專業的知識來設計壹個特征提取器,把原始數據(如圖像的像素值)轉換成壹個適當的內部特征表示或特征向量,子學習系統,通常是壹個分類器,對輸入的樣本進行檢測或分類。特征表示學習是壹套給機器灌入原始數據,然後能自動發現需要進行檢測和分類的表達的方法。深度學習就是壹種特征學習方法,把原始數據通過壹些簡單的但是非線性的模型轉變成為更高層次的,更加抽象的表達。通過足夠多的轉換的組合,非常復雜的函數也可以被學習。對於分類任務,高層次的表達能夠強化輸入數據的區分能力方面,同時削弱不相關因素。比如,壹副圖像的原始格式是壹個像素數組,那麽在第壹層上的學習特征表達通常指的是在圖像的特定位置和方向上有沒有邊的存在。第二層通常會根據那些邊的某些排放而來檢測圖案,這時候會忽略掉壹些邊上的壹些小的幹擾。第三層或許會把那些圖案進行組合,從而使其對應於熟悉目標的某部分。隨後的壹些層會將這些部分再組合,從而構成待檢測目標。深度學習的核心方面是,上述各層的特征都不是利用人工工程來設計的,而是使用壹種通用的學習過程從數據中學到的。

深度學習正在取得重大進展,解決了人工智能界的盡最大努力很多年仍沒有進展的問題。它已經被證明,它能夠擅長發現高維數據中的復雜結構,因此它能夠被應用於科學、商業和政府等領域。除了在圖像識別、語音識別等領域打破了紀錄,它還在另外的領域擊敗了其他機器學習技術,包括預測潛在的藥物分子的活性、分析粒子加速器數據、重建大腦回路、預測在非編碼DNA突變對基因表達和疾病的影響。也許更令人驚訝的是,深度學習在自然語言理解的各項任務中產生了非常可喜的成果,特別是主題分類、情感分析、自動問答和語言翻譯。我們認為,在不久的將來,深度學習將會取得更多的成功,因為它需要很少的手工工程,它可以很容易受益於可用計算能力和數據量的增加。目前正在為深度神經網絡開發的新的學習算法和架構只會加速這壹進程。

監督學習

機器學習中,不論是否是深層,最常見的形式是監督學習。試想壹下,我們要建立壹個系統,它能夠對壹個包含了壹座房子、壹輛汽車、壹個人或壹個寵物的圖像進行分類。我們先收集大量的房子,汽車,人與寵物的圖像的數據集,並對每個對象標上它的類別。在訓練期間,機器會獲取壹副圖片,然後產生壹個輸出,這個輸出以向量形式的分數來表示,每個類別都有壹個這樣的向量。我們希望所需的類別在所有的類別中具有最高的得分,但是這在訓練之前是不太可能發生的。通過計算壹個目標函數可以獲得輸出分數和期望模式分數之間的誤差(或距離)。然後機器會修改其內部可調參數,以減少這種誤差。這些可調節的參數,通常被稱為權值,它們是壹些實數,可以被看作是壹些“旋鈕”,定義了機器的輸入輸出功能。在典型的深學習系統中,有可能有數以百萬計的樣本和權值,和帶有標簽的樣本,用來訓練機器。為了正確地調整權值向量,該學習算法計算每個權值的梯度向量,表示了如果權值增加了壹個很小的量,那麽誤差會增加或減少的量。權值向量然後在梯度矢量的相反方向上進行調整。我們的目標函數,所有訓練樣本的平均,可以被看作是壹種在權值的高維空間上的多變地形。負的梯度矢量表示在該地形中下降方向最快,使其更接近於最小值,也就是平均輸出誤差低最低的地方。

在實際應用中,大部分從業者都使用壹種稱作隨機梯度下降的算法(SGD)。它包含了提供壹些輸入向量樣本,計算輸出和誤差,計算這些樣本的平均梯度,然後相應的調整權值。通過提供小的樣本集合來重復這個過程用以訓練網絡,直到目標函數停止增長。它被稱為隨機的是因為小的樣本集對於全體樣本的平均梯度來說會有噪聲估計。這個簡單過程通常會找到壹組不錯的權值,同其他精心設計的優化技術相比,它的速度讓人驚奇。訓練結束之後,系統會通過不同的數據樣本——測試集來顯示系統的性能。這用於測試機器的泛化能力——對於未訓練過的新樣本的識別能力。

當前應用中的許多機器學習技術使用的是線性分類器來對人工提取的特征進行分類。壹個2類線性分類器會計算特征向量的加權和。當加權和超過壹個閾值之後,輸入樣本就會被分配到壹個特定的類別中。從20世紀60年代開始,我們就知道了線性分類器只能夠把樣本分成非常簡單的區域,也就是說通過壹個超平面把空間分成兩部分。

但像圖像和語音識別等問題,它們需要的輸入-輸出函數要對輸入樣本中不相關因素的變化不要過於的敏感,如位置的變化,目標的方向或光照,或者語音中音調或語調的變化等,但是需要對於壹些特定的微小變化非常敏感(例如,壹只白色的狼和跟狼類似的白色狗——薩莫耶德犬之間的差異)。在像素這壹級別上,兩條薩莫耶德犬在不同的姿勢和在不同的環境下的圖像可以說差異是非常大的,然而,壹只薩摩耶德犬和壹只狼在相同的位置並在相似背景下的兩個圖像可能就非常類似。

圖1 多層神經網絡和BP算法

多層神經網絡(用連接點表示)可以對輸入空間進行整合,使得數據(紅色和藍色線表示的樣本)線性可分。註意輸入空間中的規則網格(左側)是如何被隱藏層轉換的(轉換後的在右側)。這個例子中只用了兩個輸入節點,兩個隱藏節點和壹個輸出節點,但是用於目標識別或自然語言處理的網絡通常包含數十個或者數百個這樣的節點。獲得C.Olah (m以及Samsung,正在開發卷積神經網絡芯片,以使智能機、相機、機器人以及自動駕駛汽車中的實時視覺系統成為可能。

分布式特征表示與語言處理

與不使用分布式特征表示(distributed representations )的經典學習算法相比,深度學習理論表明深度網絡具有兩個不同的巨大的優勢。這些優勢來源於網絡中各節點的權值,並取決於具有合理結構的底層生成數據的分布。首先,學習分布式特征表示能夠泛化適應新學習到的特征值的組合(比如,n元特征就有2n種可能的組合)。其次,深度網絡中組合表示層帶來了另壹個指數級的優勢潛能(指數級的深度)。

多層神經網絡中的隱層利用網絡中輸入的數據進行特征學習,使之更加容易預測目標輸出。下面是壹個很好的示範例子,比如將本地文本的內容作為輸入,訓練多層神經網絡來預測句子中下壹個單詞。內容中的每個單詞表示為網絡中的N分之壹的向量,也就是說,每個組成部分中有壹個值為1其余的全為0。在第壹層中,每個單詞創建不同的激活狀態,或單詞向量(如圖4)。在語言模型中,網絡中其余層學習並轉化輸入的單詞向量為輸出單詞向量來預測句子中下壹個單詞,可以通過預測詞匯表中的單詞作為文本句子中下壹個單詞出現的概率。網絡學習了包含許多激活節點的、並且可以解釋為詞的獨立特征的單詞向量,正如第壹次示範的文本學習分層表征文字符號的例子。這些語義特征在輸入中並沒有明確的表征。而是在利用“微規則”(‘micro-rules’,本文中直譯為:微規則)學習過程中被發掘,並作為壹個分解輸入與輸出符號之間關系結構的好的方式。當句子是來自大量的真實文本並且個別的微規則不可靠的情況下,學習單詞向量也壹樣能表現得很好。利用訓練好的模型預測新的事例時,壹些概念比較相似的詞容易混淆,比如星期二(Tuesday)和星期三(Wednesday),瑞典(Sweden)和挪威(Norway)。這樣的表示方式被稱為分布式特征表示,因為他們的元素之間並不互相排斥,並且他們的構造信息對應於觀測到的數據的變化。這些單詞向量是通過學習得到的特征構造的,這些特征不是由專家決定的,而是由神經網絡自動發掘的。從文本中學習得單詞向量表示現在廣泛應用於自然語言中。

圖4 詞向量學習可視化

特征表示問題爭論的中心介於對基於邏輯啟發和基於神經網絡的認識。在邏輯啟發的範式中,壹個符號實體表示某壹事物,因為其唯壹的屬性與其他符號實體相同或者不同。該符號實例沒有內部結構,並且結構與使用是相關的,至於理解符號的語義,就必須與變化的推理規則合理對應。相反地,神經網絡利用了大量活動載體、權值矩陣和標量非線性化,來實現能夠支撐簡單容易的、具有常識推理的快速“直覺”功能。

在介紹神經語言模型前,簡述下標準方法,其是基於統計的語言模型,該模型沒有使用分布式特征表示。而是基於統計簡短符號序列出現的頻率增長到N(N-grams,N元文法)。可能的N-grams的數字接近於VN,其中V是詞匯表的大小,考慮到文本內容包含成千上萬個單詞,所以需要壹個非常大的語料庫。N-grams將每個單詞看成壹個原子單元,因此不能在語義相關的單詞序列中壹概而論,然而神經網絡語言模型可以,是因為他們關聯每個詞與真是特征值的向量,並且在向量空間中語義相關的詞彼此靠近(圖4)。

遞歸神經網絡

首次引入反向傳播算法時,最令人興奮的便是使用遞歸神經網絡(recurrent neural networks,下文簡稱RNNs)訓練。對於涉及到序列輸入的任務,比如語音和語言,利用RNNs能獲得更好的效果。RNNs壹次處理壹個輸入序列元素,同時維護網絡中隱式單元中隱式的包含過去時刻序列元素的歷史信息的“狀態向量”。如果是深度多層網絡不同神經元的輸出,我們就會考慮這種在不同離散時間步長的隱式單元的輸出,這將會使我們更加清晰怎麽利用反向傳播來訓練RNNs(如圖5,右)。

圖5 遞歸神經網絡

RNNs是非常強大的動態系統,但是訓練它們被證實存在問題的,因為反向傳播的梯度在每個時間間隔內是增長或下降的,所以經過壹段時間後將導致結果的激增或者降為零。

由於先進的架構和訓練方式,RNNs被發現可以很好的預測文本中下壹個字符或者句子中下壹個單詞,並且可以應用於更加復雜的任務。例如在某時刻閱讀英語句子中的單詞後,將會訓練壹個英語的“編碼器”網絡,使得隱式單元的最終狀態向量能夠很好地表征句子所要表達的意思或思想。這種“思想向量”(thought vector)可以作為聯合訓練壹個法語“編碼器”網絡的初始化隱式狀態(或者額外的輸入),其輸出為法語翻譯首單詞的概率分布。如果從分布中選擇壹個特殊的首單詞作為編碼網絡的輸入,將會輸出翻譯的句子中第二個單詞的概率分布,並直到停止選擇為止。總體而言,這壹過程是根據英語句子的概率分布而產生的法語詞匯序列。這種簡單的機器翻譯方法的表現甚至可以和最先進的(state-of-the-art)的方法相媲美,同時也引起了人們對於理解句子是否需要像使用推理規則操作內部符號表示質疑。這與日常推理中同時涉及到根據合理結論類推的觀點是匹配的。

剩下的超過字數限制了……

  • 上一篇:科園月刊的雜誌目錄
  • 下一篇:懸賞500分,妳想拿嗎?!!!!!!
  • copyright 2024編程學習大全網