淺談知識圖譜技術及其應用補全

前言及背景：在構建知識圖譜的過程中，大量知識信息來源於文檔和網頁信息，在從文檔提取知識的過程中往往會有偏差，這些偏差來自於看兩方面：

（1）文檔中會有很多噪聲信息，即無用信息，它的產生可能來自於知識抽取算法本身，也可能和語言文字本身的有效性有關；

（2）文檔信息量有限，不會把所有知識都涵蓋進去，尤其是很多常識性知識。

以上都會導致知識圖譜是不完整的，所以 知識圖譜補全 在構建知識圖譜中日益重要。

通過 已獲取的知識 來對實體間進行關系預測，以達到對實體間關系的補全，也可以是實體類型信息的補全。該過程可以利用本知識庫內部的知識，也可以引入第三方知識庫的知識來幫助完成。

整理了壹份200G的AI資料包：

①人工智能課程及項目含課件源碼

②超詳解人工智能學習路線圖

③人工智能必看優質書籍電子書匯總

④國內外知名精華資源

⑤優質人工智能資源網站整理（找前輩、找代碼、找論文都有）

⑥人工智能行業報告

⑦人工智能論文合集

/p3.toutiaoimg.com/origin/tos-cn-i-qvj2lq49k0/36ae8d96bccf490bb4d877abda852f7d","uri":"","width":31,"height":27,"darkImgUrl":"-i-qvj2lq49k0/b81aea2925484cf5bdde9cbb4c2c62fd","darkImgUri":"","formulaImgStatus":"succeed"}" class="syl-plugin-formula">

資料在網盤裏排列的非常整齊幹凈！希望對大家的學習有所幫助，私信備註05添加領取

知識圖譜補全分為兩個層次： 概念層次的知識補全 和 實例層次的知識補全 。

往往提到知識圖譜構建過程中只是提及了實體和關系的抽取，然後就可以生成實體和關系組成的RDF了。

但是，僅僅獲取三元組是不夠的，還要考慮這些，因為三元組中的實體除了具有屬性和關系之外，還可以 映射關聯到知識概念層次的類型（type），而且壹個實體的類型可以有很多 。

例如：實體奧巴馬的類型在不同關系中是有變化的。

在出生信息描述中，類型為人；在創作回憶錄的描述中其類型還可以是作家；在任職描述中還可以是政治家。

實體類型的概念層次模型

在這裏：人、作家、政治家這些概念之間是有層次的，也就是所說的概念的層次模型。

1、概念層次的知識補全——主要是要解決實體的類型信息缺失問題

正如前面的例子所描述，壹旦壹個實體被判別為人這個類型，那麽在以構建好的知識模式中，該實體除了人的類型外仍需要向下層概念搜索，以發現更多的類別描述信息。

（1）基於描述邏輯的規則推理機制。

本體論和模式 ：實體都可以歸結為壹種本體，而這種本體會具有壹組模式來保證其獨特性，這組模式可以用規則來描述，因此，對於本體而言，其可以由這組規則來描述。

例如，奧巴馬是個實體，他的本體可以歸為人，而人的模式就是可以使用語言和工具、可以改造其他事務等等，這些模式可以通過規則來描述，於是基於描述邏輯的規則推理方法就出現了。

描述邏輯 是壹種常見的知識表示方式，它建立在概念和關系之上。

比如，可以將關於人的實體實例（可以是文本）收集起來，從中提取出其中模式並以規則的形式記錄下來，這樣壹來，只要遇到壹個新的實體實例，只需將其代入到之前記錄下的規則中進行比較即可做出判斷，如果符合規則，就說明該實例可以歸類為人的概念類型，否則就判定為非此概念類型。

（2）基於機器學習類型推理機制

經過基於描述邏輯的規則推理的發展階段後，機器學習相關研究開始占據主流，此時 不是單純地利用實例產生的規則等內部線索來進行判斷，同時也要利用外部的特征和線索來學習類型的預測 。

對壹個未知類型實體e1而言，如果能找到壹個與其類似的且已知類型的實體e2的話，那麽就可以據此推知實體e1的類型應該與e2的類型壹致或至少相似。

此類方法主要可以分為：基於內容的類型推理、基於鏈接的類型推理和基於統計關系學習的類型推理（如，Markov邏輯網）幾個方向。

（3）基於表示學習類型推理機制

將嵌入式學習和深度學習引入到類型推理，基於機器學習的類型推理方法大多假設數據中沒有噪聲，且其特征仍然需要認為選擇和設計，引入深度學習可以避免特征工程。而類型推理要依據文本內容，也需要鏈接結構等其他特征的支持，此時嵌入式方法可以發揮其自身優勢。

2、實例層次的知識補全

可以理解為：對於壹個實例三元組（SPO，主謂賓），其中可能缺失情況為（？，P，O），（S，？，O）或者（S，P，？），這就如同知識庫中不存在這個三元組，此時需要預測缺失的實體或者關系是什麽。

事實上， 很多缺失的知識是可以通過已經獲得的知識來推知的 ，有時這個過程也被稱為 鏈接預測 。

註意：有時知識不是缺失的，而是 新出現 的，即出現了新的三元組，且這個三元組不是原知識庫所已知的知識，此時需要將其作為新知識補充道知識庫中，但此種情形 不是傳統意義的補全 。

（1）基於隨機遊走的概率補全方法

（2）基於表示學習的補全方法

知識圖譜嵌入流程：

①結構嵌入表示法

②張量神經網絡法

③矩陣分解法

④翻譯法

（3）其他補全方法

跨知識庫補全方法、基於信息檢索技術的知識庫補全方法、知識庫中的常識知識補全

面臨的挑戰和主要發展方向：

（1）解決長尾實體及關系的稀疏性。

知名的明星的關系實例會很多，而對於普通民眾的實例就很少，但是他們數量卻眾多，導致其相關的關系實例也是十分稀疏，而且在數量不斷增加的情況下，這種情況會更加明顯。

（2）實體的壹對多、多對壹和多對多問題。

對於大規模數據，不是壹對十幾或者幾十數量級那麽簡單，而是成百上千的數量級，傳統的解決方案無法有效深圳根本無法解決此種數量級別的關系學習問題。

（3）三元組的動態增加和變化導致KG的動態變化加劇。

新知識源源不斷的產生，而之前的知識可能被後面證明是錯誤的，或者需要修正的。這些都會使得知識補全的過程也需修正改變，如何使得知識圖譜補全技術適應KG的動態變化變得越來越重要，而這方面的技術還未引起足夠的重視。

（4）KG中關系預測路徑長度會不斷增長。

關系預測能推理的長度是有限的，但在大規模知識圖譜閃光，實體間的關系路徑序列會變得越來越長，這就需要更高效的模型來描述更復雜的關系預測模型。

上一篇:微信小程序開發，類型有哪些？

下一篇:和平精英的黑刃母艦怎麽畫？

股市中0BV指標是什麽意思

真三國無雙4修羅模式的問題

《魔獸》這部電影，是怎樣的壹部作品？

電腦藍屏錯誤的原因是什麽？答案越詳細越好。

介紹介紹彩票

91神器安卓版軟件91神器安卓版

Office 2016英文版怎麽自定義安裝所需要的組件