當前位置:編程學習大全網 - 編程語言 - 打造「聊」愈系機器人!看圖說故事,AI 也略懂略懂

打造「聊」愈系機器人!看圖說故事,AI 也略懂略懂

看圖說故事對人類來說,是輕松好玩的事,但對 AI 來說,卻是巨大挑戰,因為這代表 AI 必須看出圖中有哪些物件、理解圖片意義、能夠生成文句,還要看懂圖片間的因果邏輯。在中研院資訊科學研究所古倫維副研究員的努力下, AI 看圖說故事的能力有了很大的進展。她的模型有什麽獨特之處呢?跟著研之有物壹起來瞧瞧!

俗話說得好:「發文不附圖,此風不可長。」不論妳發的是爆卦文、閑聊文還是業配文,有圖更容易晉身流量熱文。不過近年來,社群網站發文的風向漸漸有了改變,從「發文附圖」轉變成「發圖附文」,我們總是先來壹張照片,再配上相應的描述文字。接下來,我們的發文習慣還會怎麽改變?

或許,未來妳拍下壹張照片上傳社群網站,電腦就會自動「看圖說故事」,為妳的照片腦補壹段說明文字,節省妳的思考時間。

讓電腦學會「看圖說故事」的伎倆,正是中研院資訊科學研究所的古倫維副研究員正在鉆研的主題之壹。她的主要研究領域是人工智慧( AI )的自然語言處理,在因緣際會下,接觸到壹個 AI 看圖說故事的競賽: Visual Storytelling ( VIST ),開啟了她對 AI 看圖說故事的興趣。

中研院資訊科學研究所的古倫維副研究員,主要研究領域是人工智慧( AI )的自然語言處理,現正開發如何讓 AI 不只會說故事,還會看圖說故事。 攝影│林洵安

電腦如何學會「看圖說故事」?目前學界使用「機器學習」,簡單來說,就是讓電腦從大量的圖文搭配組合,從中學習看到怎樣的圖片,應該說出怎樣的故事。中研院資訊所古倫維副研究員說:「其實壹開始我們做得並不特別好。我們跟其他參加競賽的人壹樣,用機器學習的方法,把圖和對應的文字丟進電腦,讓機器自己學習最佳的圖文搭配。然而機器學習幾乎是軍備競賽了!誰的電腦計算能力更強,得到的模型更復雜,生成的文字就會更好。」

先選角、打草稿,再寫故事

在軍備競爭不足的情況下,古倫維決定采取不同的策略:「既然完全由 AI 看圖說故事的效果不夠好,能不能在故事生成的過程中,有壹個人類可以介入改善的步驟。」所以她把原來的做法分成了兩個階段,先從圖片抽取語意,接著再生成文字故事。

語意抽取,是指先從個別圖片中選出用來說故事的概念(如同電影選角),用知識庫找出概念之間的關系,建立圖片的關聯,再為這些圖片擬定最好的草稿(如同電影故事大綱)。

重點來了!在「選角」階段, AI 會先以機器學習的結果,找出最適合說故事的「角色組合」,尤其是面對連續圖片。這就好比張曼玉、梁朝偉、成龍三個演員,前兩個主要演愛情片,第三個以武打戲為主,如果第壹張照片選了張曼玉,第二張照片應該選梁朝偉,生成的故事會比較好看。

但目前 AI 選角部分還不夠靈光,有時仍會發生如「張曼玉配成龍」的選角名單。古倫維的兩階段設計讓人類可在「選角」階段介入修改。實際例子如:圖片中有小男孩、天空、腳踏車三個概念。AI 從上圖抽取出的概念可能是「小男孩」、「天空」,最後生成的故事可能是「壹個小男孩在天空下」…… 滿無聊的。但人類可以把「天空」改成「腳踏車」,機器最後就可能生成「壹個小男孩騎著腳踏車。」嗯,是不是比較有故事性了?

最後,人類再將修改後的選角和故事大綱,交給 AI 產生整個故事。這種「先選角、打草稿,再說故事」的方式,最後產生的故事比較不會無聊或是不合理,更接近人類說出的故事。

古倫維的故事生成模型將產生故事的過程分成「語意抽取」及「故事生成」兩個階段。 圖說重制│黃曉君、林洵安 資料來源│古倫維 知識庫,AI 想像力的補充包

為了增加 AI 的想像力,古倫維也在模型中納入「知識庫」,幫 AI 增加故事的知識。例如圖片中有人與馬,如果沒有知識庫,AI 可能只能生成「有壹個人與壹匹馬」這種平淡的句子。但知識庫可以補充人與馬關聯的知識,包括人可以騎馬、養馬等等,讓 AI 有機會說出「有壹個人騎著自己養的馬」比較具故事性的句子。「當然 AI 也可能從大量的故事中以機器學習取得『很多人都會騎馬、養馬』的知識。但知識庫的最大功用,就是直接提供這個知識給 AI ,縮短學習歷程。」 古倫維解釋。

更重要的是,知識庫讓 AI 更容易解讀出圖片之間的關聯。如 VIST 競賽的題目就是包含了五張圖片的圖組,在知識庫的協助下, AI 比較容易找出各別圖片的概念之間的關聯,說出的故事會比較連貫,具有因果關系。

  • 上一篇:大燈關不了應急燈關不了怎麽辦?
  • 下一篇:馬自達6馬六變速箱不會升檔
  • copyright 2024編程學習大全網