當前位置:編程學習大全網 - 源碼下載 - 深度語言模型-GPT

深度語言模型-GPT

OpenAI在2018提出了GPT(Generative Pre-Training)模型,模型采用了Pre-training + Fine-tuning的訓練模式,可用於分類、推理、問答、相似度等任務。

GPT就是是在transformer的基礎上提出的,但是又稍有不同:

壹句話中每個詞的Embeding向量

就是壹個單項Transformer,最後壹層的輸出為 h l

根據最後壹層輸出,接壹個矩陣W,因生成1維,然後算softmax,得到每個詞概率,概率最大化。得到損失L 1 (C) 。 此處註P(u)計算時,使用了字典單詞的Embedding向量W e ,這也是語言模型中常用的技巧。

給出Text1SEPText2,正常走transformer 僅保留masked self attention的decoder, 這樣最後壹層每個位置就能輸出壹個概率; 然後分別和對應的下壹個詞算損失。

運用少量的帶標簽數據對模型參數進行微調。

將上壹步中最後壹個詞的輸出h l ,作為下遊監督學習的輸入。

按照有監督的標簽,進行損失計算得到L 2 (C) 。

將 L 2 (C)和 L 2 (C)求和,即為做後的損失,如下圖所示:

單向Transformer,不能利用當前詞後面詞的語義。但是好像翻譯場景不能利用,就是不知道後面詞是什麽?真的這樣嗎

  • 上一篇:用易語言可以編程壹個應用程序嗎
  • 下一篇:比特幣病毒怎麽出現的的最新相關信息
  • copyright 2024編程學習大全網