image caption or video caption or VQA在實際業務場景中有應用嗎？

有的。Google I/O 2019, 裏面有壹個demo, show me the photos from yellow stone, with animals! 就是VQA的應用。

作為多模態領域的壹個典型場景，VQA旨在結合視覺的信息來回答所提出的問題。從15年首次被提出至今，其涉及的方法從最開始的聯合編碼，到雙線性融合，註意力機制，組合模型，場景圖，再到引入外部知識，進行知識推理，以及使用圖網絡，多模態預訓練語言模型，近年來發展迅速。?

介紹

對於壹個給定的V-Q pair，首先用CNN提取圖片特征屬性，然後利用這些檢測到的屬性，使用sparql查詢語句從knowledge base比如DBpedia中提取出圖像相關描述的壹個段落，利用Doc2Vec對這些段落編碼。

同時，根據圖片特征屬性使用Sota的image caption方法形成圖像對應的段落特征表達。

最後將上面兩種信息以及編碼的屬性結合在壹起並輸入作為壹個Seq2Seq模型的初始初始狀態，同時將問題編碼作為LSTM的輸入，利用最大似然方法處理代價函數，預測答案。