當前位置:編程學習大全網 - 編程語言 - 軍事改革的基本綱領

軍事改革的基本綱領

人工標註大量數據壹直是開發機器學習的瓶頸。斯坦福人工智能實驗室的研究人員討論了壹種通過編程生成訓練數據的“弱監督”範式,並介紹了他們的開源通氣管框架。

近年來,機器學習對現實世界的影響越來越大。這在很大程度上得益於深度學習模型的出現,它使得從業者無需任何人工特征設計就能獲得基準數據集上最先進水平的評分。考慮到TensorFlow、PyTorch等各種開源ML框架的可用性,以及大量最先進的可用模型,可以說高質量的ML模型幾乎已經成為壹種商業資源。但是,有壹個隱藏的問題:這些模型依賴於大量人工標記的訓練數據。

創建這些手動標記的訓練集既昂貴又耗時——通常需要幾個月甚至幾年的時間來收集、清理和調試——尤其是在需要領域專業知識的情況下。此外,任務在現實世界中經常會發生變化和演變。例如,標記指南、粒度或下遊用例都經常變化,需要重新標記(例如,不要只將評論分為正面或負面,還要引入中性類別)。

由於這些原因,從業者越來越多地轉向較弱形式的監督,例如使用外部知識庫、模式/規則或其他分類器來啟發式地生成訓練數據。本質上,這些都是通過編程產生訓練數據的方法,或者更簡潔地說,編程訓練數據。

在本文中,我們首先回顧了標簽訓練數據驅動的ML中的壹些領域,然後描述了我們在建模和集成各種監督源方面的研究。我們還討論了為大規模多任務機制構建數據管理系統的想法,該機制使用幾十個或幾百個弱監督的動態任務以復雜多樣的方式進行交互。

復習:如何獲取更多標簽化的訓練數據?

ML中的許多傳統研究方法也是由對標記訓練數據的需求驅動的。我們首先將這些方法與弱監督方法區分開來:弱監督是使用來自主題專家(SME)的更高級和/或更嘈雜的輸入。

目前主流方法的壹個關鍵問題是,領域專家直接標註大量數據的成本非常高:比如醫學影像研究建立大數據集的難度更大,因為不像研究生,放射科醫生不願意稍微仁慈壹點就為妳標註數據。所以在ML中,很多深入研究的工作線都是因為獲得閱卷訓練數據的瓶頸造成的:

在主動學習中,目標是讓領域專家標註對模型最有價值的數據點,從而更有效地利用領域專家。在標準的監督學習設置中,這意味著選擇新的數據點進行標記。例如,我們可以選擇接近當前模型的決策邊界的乳房x光片,並要求放射科醫師只標記這些照片。但是,我們只能要求對這些數據點監管不力。在這種情況下,主動學習和弱監督是完全互補的。這方面的例子可以在Druck,settle和McCallum 2009中找到。

在半監督學習設置中,我們的目標是使用小的標記訓練集和較大的未標記數據集。然後利用關於平滑度、低維結構或距離度量的假設,利用未標記的數據(作為生成模型的壹部分,或者作為區分模型的正則項,或者學習壹種緊湊的數據表示);參考讀物見(Chapelle、Scholkopf和Zien,2009年)。廣義來說,半監督學習的思想不是從SME中尋求更多的輸入,而是在領域和任務不可知的假設下,利用未標記的數據,這些數據通常可以低成本地大量獲得。最近的方法使用生成拮抗網絡(Salimans等人2016)、啟發式轉換模型(Laine和Aila 2016)和其他生成方法來有效地幫助標準化決策邊界。

在典型的遷移學習設置中,目標是將在不同數據集上訓練的壹個或多個模型應用於我們的數據集和任務;相關綜述見(潘楊2010)。例如,我們可能已經有了身體其他部位腫瘤的大型訓練集,並在此基礎上訓練分類器,然後希望將其應用到我們的乳房造影任務中。在今天的深度學習社區中,壹種常見的遷移學習方法是在大型數據集上“預訓練”模型,然後在感興趣的任務上“微調”。另壹個相關領域是多任務學習,即同時研究幾個任務(Caruna 1993;奧根斯坦,弗拉科斯和梅納德2015).

上面的例子可以省去我們從領域專家合作者那裏尋找額外的訓練標簽。但是,不可避免的要標註壹些數據。如果我們要求他們提供各種更先進或不太準確的監督形式,可以更快、更容易地獲得這些形式,會怎麽樣?例如,如果我們的放射科醫生可以花壹個下午的時間標記壹組啟發式資源或其他資源,如果處理得當,這些資源可以有效地取代數千個訓練標簽,會怎麽樣?

將領域知識註入人工智能

從歷史的角度來看,試圖給人工智能“編程”(即註入領域知識)並不是壹個新的想法,但現在提出這個問題的主要新奇之處在於,AI從未如此強大,從可解釋性和可控性來看,它仍然是壹個“黑匣子”。

在20世紀70年代和80年代,AI專註於專家系統,該系統將人工規劃的事實和來自領域專家的規則的知識庫結合起來,並將其與推理機壹起應用。20世紀90年代,ML作為壹種將知識整合到AI系統中的工具開始獲得成功,並承諾以壹種強大而靈活的方式從標記的訓練數據中自動完成這項工作。

經典(非代表性學習)ML方法通常有兩個領域專家輸入端口。首先,這些模型通常沒有現代模型復雜,這意味著可以使用更少的人工標記數據。其次,這些模型依賴於手工設計的特點,手工設計為編碼、修改和與模型的基本數據表示進行交互提供了直接的方法。然而,特征工程壹直被認為是ML專家的任務,他們通常花費整個博士生涯為特定的任務設計特征。

進入深度學習模型:由於它們跨許多領域和任務自動學習表示的強大能力,它們在很大程度上避免了特征工程的任務。但是大部分都是完全的黑箱,普通開發者除了標記大量的訓練集和調整網絡架構之外,對它們的控制力很小。在許多意義上,它們代表了舊專家系統脆弱但易於控制的規則的對立面——它們靈活但難以控制。

這從壹個稍微不同的角度將我們帶回了最初的問題:我們如何使用我們的領域知識或任務專業知識來編寫現代深度學習模型?有沒有什麽方法可以把舊的基於規則的專家系統的直接性和這些現代ML方法的靈活性和強大功能結合起來?

作為監督的代碼:通過編程訓練ML

浮潛是壹個系統,我們建立了支持和探索這種新的互動與ML。在通氣管中,我們不使用手動標記的訓練數據,而是要求用戶編寫標記函數,LF),即用於標記未標記數據子集的黑盒代碼片段。

然後,我們可以使用壹組這樣的LF來標記ML模型的訓練數據。因為標簽函數只是任意的代碼片段,它們可以編碼任意的信號:模式、啟發式、外部數據源、來自大眾工作者的嘈雜標簽、弱分類器等等。此外,作為代碼,我們可以獲得所有其他相關的好處,如模塊化,可重用性和調試。比如我們的建模目標變了,可以調整標記功能快速適應!

壹個問題是標記函數將產生有噪聲的輸出,這些輸出可能重疊和沖突,導致不太理想的訓練標記。在sluck中,我們使用數據編程方法對這些標簽進行去噪,這包括三個步驟:

1.我們將標記函數應用於未標記的數據。

2.我們使用生成模型來學習沒有任何標記數據的標記函數的準確性,並相應地加權它們的輸出。我們甚至可以自動學習它們的相關結構。

3.生成的模型輸出壹組概率訓練標簽,可以用來訓練壹個強大靈活的判別模型(比如深度神經網絡),它會泛化到標簽函數所代表的信號之外。

可以認為,這整個流水線為ML模型的“編程”提供了壹個簡單、健壯且與模型無關的方法!

標簽功能(標簽功能)

從生物醫學文獻中提取結構化信息是最鼓舞人心的應用之壹:大量有用的信息被有效地鎖定在數百萬篇科學論文的密集非結構化文本中。我們希望用機器學習來提取這些信息,然後用這些信息來診斷遺傳性疾病。

考慮壹下從科學文獻中提取化學物質與疾病之間關系的任務。我們可能沒有足夠大的標記訓練數據集來完成這項任務。而在生物醫學領域,有豐富的知識本體、詞典等資源,包括各種化學和疾病名稱數據、各種類型的已知化學-疾病關系數據庫等。我們可以使用這些資源為我們的任務提供弱監管。此外,我們可以與生物學領域的合作者合作,提出壹系列特定任務的啟發式、正則表達式模式、經驗法則和負面標簽生成策略。

作為代表性的載流子生成模型

在我們的方法中,我們認為標記函數隱含地描述了壹代模型。我們快速回顧壹下:給定數據點X和我們要預測的未知標簽Y,在判別法中,我們直接建模P(y|x),而在生成法中,我們建模P(x,y) = P(x|y)P(y)。在我們的示例中,我們對訓練集標記過程P(L,Y)進行建模,其中L是由對象X的標記函數生成的標簽,Y是對應的(未知的)真實標簽。通過學習生成模型,直接估計P(L|y),我們本質上是根據它們如何重疊和沖突來學習標註函數的相對精度(註意,我們不需要知道y!)

我們使用這個估計的生成模型來訓練標簽函數上的最終判別模型的噪聲感知版本。為了做到這壹點,生成模型推斷訓練數據的未知標簽的概率,然後我們最小化關於這些概率的判別模型的期望損失。

估計這些生成模型的參數可能非常棘手,尤其是當所使用的標記函數之間存在統計相關性時。在論文《數據編程:快速創建大型訓練集(https://arxiv . org/ABS/1605.07723)》中,我們證明了給定足夠多的標記函數,可以得到與監督方法相同的漸近標度。我們還研究了如何在不使用標記數據的情況下學習標記函數之間的相關性,以及如何顯著提高性能。

通氣管:壹個開源框架

在我們最近發表的關於通氣管的論文(https://arxiv . org/ABS/1711.10160)中,我們發現這種與現代ML模型交互的新方法在各種實際應用中非常有效!包括:

1.在壹個關於浮潛的研討會上,我們做了壹個用戶研究,比較了教中小企業使用浮潛的效率和花同樣的時間手工標註數據的效率。我們發現,使用通氣管建立模型不僅速度提高了2.8倍,而且平均預測性能提高了45.5%。

2.在與斯坦福大學、美國退伍軍人事務部和美國美國食品藥品監督管理局的研究人員合作的兩個真實文本關系提取任務和四個其他基準文本和圖像任務中,我們發現與基線技術相比,潛泳平均提高了65,438±0.32%。

3.我們探索了壹個新的折衷空間,用於對用戶提供的標記功能進行建模,從而獲得壹個基於規則的優化器來加速叠代開發周期。

下壹步:大規模多任務弱監管

我們的實驗室正在進行各種努力,將sculpt設想的弱監督交互模型擴展到其他模式,例如豐富的數據和圖像,使用自然語言監控任務以及自動生成標簽功能!

在技術方面,我們感興趣的是擴展sprock的核心數據編程模型,使其更容易用更高級別的接口(如自然語言)指定標記功能,並結合其他類型的弱監督(如數據增強)。

多任務學習(MTL)場景的流行也提出了壹個問題:當嘈雜且可能相關的標簽源現在標記多個相關任務時會發生什麽?我們能從聯合建模這些任務中獲益嗎?我們在壹個新的多任務感知版本的通氣管中解決了這些問題,即通氣管金屬,它可以支持多任務弱監管源,並為壹個或多個相關任務提供噪聲標簽。

我們考慮的壹個例子是設置具有不同粒度的標簽源。例如,假設我們打算訓練壹個細粒度的命名實體識別(NER)模型來標記某些類型的人和位置,我們有壹些細粒度的嘈雜標簽,例如“律師”和“醫生”,或者“銀行”和“醫院”;還有壹些是粗粒度的,比如標註“人”和“地方”。通過將這些資源表示為與不同級別相關的任務,我們可以共同對它們的準確性進行建模,並重新加權和組合它們的多任務標簽,從而創建更清晰和智能聚合的多任務訓練數據,從而提高最終MTL模型的性能。

我們認為,為MTL構建數據管理系統最令人興奮的方面將圍繞著大規模多任務機制,在這種機制中,幾十到幾百個弱監督(因此高度動態)的任務以復雜多樣的方式相互作用。

雖然到目前為止,大多數MTL工作都考慮處理靜態人工標記訓練集定義的最多幾個任務,但世界正在迅速發展成為壹個組織(無論是大公司、學術實驗室還是在線社區),該組織必須維護數百個監管不力、快速變化且相互依賴的建模任務。而且,由於這些任務是弱監督的,開發人員可以在幾個小時或幾天內添加、刪除或更改任務(即訓練集),而不是幾個月或幾年,這可能需要重新訓練整個模型。

在最近的壹篇論文《軟件2.0中大量多任務和弱監管的作用》(http://cid RDB . org/CIDR 2019/papers/p58-rat ner-CIDR 19 . pdf)。在本文中,我們概述了針對上述問題的壹些初步想法,並設想了壹個大規模的多任務設置,其中MTL模型被有效地用作不同開發者弱標記的訓練數據的中央儲存庫,然後組合成壹個中央“母親”多任務模型。

無論確切的形式因素是什麽,顯然MTL技術在未來將取得許多令人興奮的進展——不僅是新的模型架構,而且與遷移學習方法、新的弱監督方法、新的軟件開發和系統範式日益統壹。

原文:

https://ai.stanford.edu/blog/weak-supervision/

通氣管:

http://snorkel.stanford.edu/

歡迎關註微信微信官方賬號:IT科技森。

每天分享IT小技巧和科技數字新聞!

  • 上一篇:教育部官宣,家長喜憂參半,雖是取消超前教育,卻增添兩門新學科
  • 下一篇:SurvivalProject作弊代碼匯總全控制臺指令分享
  • copyright 2024編程學習大全網