有的。Google I/O 2019, 裏面有壹個demo, show me the photos from yellow stone, with animals! 就是VQA的應用。
作為多模態領域的壹個典型場景,VQA旨在結合視覺的信息來回答所提出的問題。從15年首次被提出至今,其涉及的方法從最開始的聯合編碼,到雙線性融合,註意力機制,組合模型,場景圖,再到引入外部知識,進行知識推理,以及使用圖網絡,多模態預訓練語言模型,近年來發展迅速。?
介紹
對於壹個給定的V-Q pair,首先用CNN提取圖片特征屬性,然後利用這些檢測到的屬性,使用sparql查詢語句從knowledge base比如DBpedia中提取出圖像相關描述的壹個段落,利用Doc2Vec對這些段落編碼。
同時,根據圖片特征屬性使用Sota的image caption方法形成圖像對應的段落特征表達。
最後將上面兩種信息以及編碼的屬性結合在壹起並輸入作為壹個Seq2Seq模型的初始初始狀態,同時將問題編碼作為LSTM的輸入,利用最大似然方法處理代價函數,預測答案。