當前位置:編程學習大全網 - 源碼下載 - GPT和GPT2

GPT和GPT2

GPT用的是transformer decoder

fine-tuning的輸入:最後壹個詞的向量。

GPT采用單向transformer可以解決Bert無法解決的生成文本任務。

壹個字壹個字往出蹦的形式

通常我們會用特定的網絡結構去給任務建模,構建通用NLP模型,對p(output | input, task)建模。output ,input, task三者都用向量表示。

把第二階段替換由Finetuning有監督,換成了無監督做下遊任務,因為它扔進去了好多任務數據,且有提示詞。

問題1 :GPT2把第二階段的Finetuning做有監督地下遊NLP任務,換成了 無監督地做下遊任務 。為什麽這樣做?壹種看法認為,只是GPT作者想說明在第壹階段Transformer學到了很多通用的包含各個領域的知識。

問題2:為什麽GPT 2.0仍然固執地用單向語言模型,而不是雙向語言模型呢?

Bert的論文認為,Bert的有效性主要是因為使用了雙向語言模型。

1.生成內容後續單詞這種模式,單向語言模型更方便;

2、想證明通過增加數據量和模型結構,單向模型未必輸雙向模型。

問題3:GPT2訓練好的語言模型,如何無監督適應下遊任務,比如文本摘要,怎麽知道是在做文本摘要任務呢?

首先,所有任務都采取相同的往出蹦字的輸出模式。GPT2.0給出了壹種新穎的生成式任務的做法,就是壹個字壹個字往出蹦,然後拼接出輸出內容作為翻譯結果或者摘要結果。GPT-2的輸入也會加入提示詞,比如輸入格式是 文本+TL;DR:,GPT-2模型就會知道是做摘要工作了。

  • 上一篇:復合墻板什麽牌子好?復合墻板品牌排行榜
  • 下一篇:首陰戰法原理
  • copyright 2024編程學習大全網