GPT和GPT2

GPT用的是transformer decoder

fine-tuning的輸入：最後壹個詞的向量。

GPT采用單向transformer可以解決Bert無法解決的生成文本任務。

壹個字壹個字往出蹦的形式

通常我們會用特定的網絡結構去給任務建模，構建通用NLP模型，對p(output | input, task)建模。output ，input， task三者都用向量表示。

把第二階段替換由Finetuning有監督，換成了無監督做下遊任務，因為它扔進去了好多任務數據，且有提示詞。

問題1 ：GPT2把第二階段的Finetuning做有監督地下遊NLP任務，換成了 無監督地做下遊任務 。為什麽這樣做？壹種看法認為，只是GPT作者想說明在第壹階段Transformer學到了很多通用的包含各個領域的知識。

問題2：為什麽GPT 2.0仍然固執地用單向語言模型，而不是雙向語言模型呢？

Bert的論文認為，Bert的有效性主要是因為使用了雙向語言模型。

1.生成內容後續單詞這種模式，單向語言模型更方便；

2、想證明通過增加數據量和模型結構，單向模型未必輸雙向模型。

問題3：GPT2訓練好的語言模型，如何無監督適應下遊任務，比如文本摘要，怎麽知道是在做文本摘要任務呢？

首先，所有任務都采取相同的往出蹦字的輸出模式。GPT2.0給出了壹種新穎的生成式任務的做法，就是壹個字壹個字往出蹦，然後拼接出輸出內容作為翻譯結果或者摘要結果。GPT-2的輸入也會加入提示詞，比如輸入格式是文本+TL;DR:，GPT-2模型就會知道是做摘要工作了。