當前位置:編程學習大全網 - 編程軟體 - image caption or video caption or VQA在實際業務場景中有應用嗎?

image caption or video caption or VQA在實際業務場景中有應用嗎?

有的。Google I/O 2019, 裏面有壹個demo, show me the photos from yellow stone, with animals! 就是VQA的應用。

作為多模態領域的壹個典型場景,VQA旨在結合視覺的信息來回答所提出的問題。從15年首次被提出至今,其涉及的方法從最開始的聯合編碼,到雙線性融合,註意力機制,組合模型,場景圖,再到引入外部知識,進行知識推理,以及使用圖網絡,多模態預訓練語言模型,近年來發展迅速。?

介紹

對於壹個給定的V-Q pair,首先用CNN提取圖片特征屬性,然後利用這些檢測到的屬性,使用sparql查詢語句從knowledge base比如DBpedia中提取出圖像相關描述的壹個段落,利用Doc2Vec對這些段落編碼。

同時,根據圖片特征屬性使用Sota的image caption方法形成圖像對應的段落特征表達。

最後將上面兩種信息以及編碼的屬性結合在壹起並輸入作為壹個Seq2Seq模型的初始初始狀態,同時將問題編碼作為LSTM的輸入,利用最大似然方法處理代價函數,預測答案。

  • 上一篇:大家做J2EE開發,需要學SWING嗎
  • 下一篇:如何剪切gif格式
  • copyright 2024編程學習大全網