打造「聊」愈系機器人！看圖說故事，AI 也略懂略懂

看圖說故事對人類來說，是輕松好玩的事，但對 AI 來說，卻是巨大挑戰，因為這代表 AI 必須看出圖中有哪些物件、理解圖片意義、能夠生成文句，還要看懂圖片間的因果邏輯。在中研院資訊科學研究所古倫維副研究員的努力下， AI 看圖說故事的能力有了很大的進展。她的模型有什麽獨特之處呢？跟著研之有物壹起來瞧瞧！

俗話說得好：「發文不附圖，此風不可長。」不論妳發的是爆卦文、閑聊文還是業配文，有圖更容易晉身流量熱文。不過近年來，社群網站發文的風向漸漸有了改變，從「發文附圖」轉變成「發圖附文」，我們總是先來壹張照片，再配上相應的描述文字。接下來，我們的發文習慣還會怎麽改變？

或許，未來妳拍下壹張照片上傳社群網站，電腦就會自動「看圖說故事」，為妳的照片腦補壹段說明文字，節省妳的思考時間。

讓電腦學會「看圖說故事」的伎倆，正是中研院資訊科學研究所的古倫維副研究員正在鉆研的主題之壹。她的主要研究領域是人工智慧（ AI ）的自然語言處理，在因緣際會下，接觸到壹個 AI 看圖說故事的競賽： Visual Storytelling （ VIST ），開啟了她對 AI 看圖說故事的興趣。

中研院資訊科學研究所的古倫維副研究員，主要研究領域是人工智慧（ AI ）的自然語言處理，現正開發如何讓 AI 不只會說故事，還會看圖說故事。攝影│林洵安

電腦如何學會「看圖說故事」？目前學界使用「機器學習」，簡單來說，就是讓電腦從大量的圖文搭配組合，從中學習看到怎樣的圖片，應該說出怎樣的故事。中研院資訊所古倫維副研究員說：「其實壹開始我們做得並不特別好。我們跟其他參加競賽的人壹樣，用機器學習的方法，把圖和對應的文字丟進電腦，讓機器自己學習最佳的圖文搭配。然而機器學習幾乎是軍備競賽了！誰的電腦計算能力更強，得到的模型更復雜，生成的文字就會更好。」

先選角、打草稿，再寫故事

在軍備競爭不足的情況下，古倫維決定采取不同的策略：「既然完全由 AI 看圖說故事的效果不夠好，能不能在故事生成的過程中，有壹個人類可以介入改善的步驟。」所以她把原來的做法分成了兩個階段，先從圖片抽取語意，接著再生成文字故事。

語意抽取，是指先從個別圖片中選出用來說故事的概念（如同電影選角），用知識庫找出概念之間的關系，建立圖片的關聯，再為這些圖片擬定最好的草稿（如同電影故事大綱)。

重點來了！在「選角」階段， AI 會先以機器學習的結果，找出最適合說故事的「角色組合」，尤其是面對連續圖片。這就好比張曼玉、梁朝偉、成龍三個演員，前兩個主要演愛情片，第三個以武打戲為主，如果第壹張照片選了張曼玉，第二張照片應該選梁朝偉，生成的故事會比較好看。

但目前 AI 選角部分還不夠靈光，有時仍會發生如「張曼玉配成龍」的選角名單。古倫維的兩階段設計讓人類可在「選角」階段介入修改。實際例子如：圖片中有小男孩、天空、腳踏車三個概念。AI 從上圖抽取出的概念可能是「小男孩」、「天空」，最後生成的故事可能是「壹個小男孩在天空下」…… 滿無聊的。但人類可以把「天空」改成「腳踏車」，機器最後就可能生成「壹個小男孩騎著腳踏車。」嗯，是不是比較有故事性了？

最後，人類再將修改後的選角和故事大綱，交給 AI 產生整個故事。這種「先選角、打草稿，再說故事」的方式，最後產生的故事比較不會無聊或是不合理，更接近人類說出的故事。

古倫維的故事生成模型將產生故事的過程分成「語意抽取」及「故事生成」兩個階段。圖說重制│黃曉君、林洵安資料來源│古倫維 知識庫，AI 想像力的補充包

為了增加 AI 的想像力，古倫維也在模型中納入「知識庫」，幫 AI 增加故事的知識。例如圖片中有人與馬，如果沒有知識庫，AI 可能只能生成「有壹個人與壹匹馬」這種平淡的句子。但知識庫可以補充人與馬關聯的知識，包括人可以騎馬、養馬等等，讓 AI 有機會說出「有壹個人騎著自己養的馬」比較具故事性的句子。「當然 AI 也可能從大量的故事中以機器學習取得『很多人都會騎馬、養馬』的知識。但知識庫的最大功用，就是直接提供這個知識給 AI ，縮短學習歷程。」古倫維解釋。

更重要的是，知識庫讓 AI 更容易解讀出圖片之間的關聯。如 VIST 競賽的題目就是包含了五張圖片的圖組，在知識庫的協助下， AI 比較容易找出各別圖片的概念之間的關聯，說出的故事會比較連貫，具有因果關系。

上一篇:大燈關不了應急燈關不了怎麽辦？

下一篇:馬自達6馬六變速箱不會升檔

分析器錯誤消息: 基類包括字段“Contact1”,但其類型(Contact)與控件(ASP.contact

壹元二次方程求根python程序