深度語言模型-GPT

OpenAI在2018提出了GPT(Generative Pre-Training)模型，模型采用了Pre-training + Fine-tuning的訓練模式，可用於分類、推理、問答、相似度等任務。

GPT就是是在transformer的基礎上提出的，但是又稍有不同：

壹句話中每個詞的Embeding向量

就是壹個單項Transformer，最後壹層的輸出為 h l

根據最後壹層輸出，接壹個矩陣W，因生成1維，然後算softmax，得到每個詞概率，概率最大化。得到損失L 1 (C) 。此處註P(u)計算時，使用了字典單詞的Embedding向量W e ，這也是語言模型中常用的技巧。

給出Text1SEPText2,正常走transformer 僅保留masked self attention的decoder，這樣最後壹層每個位置就能輸出壹個概率；然後分別和對應的下壹個詞算損失。

運用少量的帶標簽數據對模型參數進行微調。

將上壹步中最後壹個詞的輸出h l ，作為下遊監督學習的輸入。

按照有監督的標簽，進行損失計算得到L 2 (C) 。

將 L 2 (C）和 L 2 (C）求和，即為做後的損失，如下圖所示：

單向Transformer，不能利用當前詞後面詞的語義。但是好像翻譯場景不能利用，就是不知道後面詞是什麽？真的這樣嗎