當前位置:編程學習大全網 - 源碼下載 - 文章自動打分算法

文章自動打分算法

文章自動打分簡稱 AES (Automated Essay Scoring),AES 系統利用 NLP 技術自動對文章進行打分,可以減輕閱卷人員的負擔。目前有不少大型的考試都采用了 AES 算法進行作文打分,例如 GRE 考試,GRE 考試會有壹位閱卷老師和 AES 系統壹起打分,如果 AES 的分數和閱卷老師的分數相差過大,才有再增加壹位閱卷老師進行打分。本文主要介紹兩種比較經典的自動打分算法。

自動打分算法從優化目標或者損失函數來說大致可以分為三種:

傳統的自動打分算法通常會人工設置很多特征,例如語法錯誤,N 元組,單詞數量,句子長度等,然後訓練機器學習模型進行打分。目前也有很多使用了神經網絡的方法,通過神經網絡學習出文章的特征。

下面介紹兩種打分算法:

出自論文《Regression based Automated Essay Scoring》。給定很多需要打分的文章後,首先需要構造出文章的特征,用到了人工設置特征和向量空間特征。

拼寫錯誤 Spelling Errors :使用 pyenchant 包統計出拼寫錯誤單詞數量占總單詞數量的比例。

統計特征 Statistical Features :統計字符數量,單詞數量,句子數量,段落數量,停止詞數量,命名實體數量,標點符號數量 (反映文章的組織情況),文本長度 (反映寫作流暢程度),不同詞匯的數量與總單詞數的占比 (反映詞匯量水平)。

詞性統計 POS count :統計各種詞性出現的頻率,例如名詞,動詞,形容詞,副詞等,詞性通過 nltk 包獲取。

語法流暢特征 Grammatical Fluency :使用 link grammar (鏈語法) 解析句子,然後統計 links 的個數;統計 n 元組出現的概率;統計詞性 n 元組出現的概率。

可讀性 Readability :可讀性分數是衡量文本組織以及文本句法和語義復雜程度的壹個指標。采用了 Kincaid 可讀性分數作為壹個特征,計算公式如下

本體特征 Ontological Features :為每個句子打上標簽,例如研究、假設、主張、引用、支持和反對等。

可以將壹篇文章投影到壹個向量空間模型中 (VSM),此時文章可以用向量空間中的壹個特征向量表示,例如可以用 one-hot 編碼表示壹篇文章,長度等於詞匯表長度,如果壹個單詞出現在文章中,則對應的位置置為 1,如下:

另外也可以使用 TF-IDF 向量表示文本,但是采用這種表示方式單詞之間不存在任何關聯,為了解決這個問題,文章中使用了壹個單詞相關性矩陣 W 加上線性變換從而引入單詞之間的相關性。

單詞的相關性矩陣 W 通過 word2vec 生成的詞向量計算,即 W (i,j) = 單詞 i 和單詞 j 詞向量的余弦相似度。

最後,為了考慮文章中單詞的順序問題,將文章拆分成 k 個段落,然後分別計算向量空間特征,融合在壹起。

得到上述特征之後,采用 SVR 算法進行回歸學習。數據集是 kaggle ASAP 比賽數據集,數據集包含 8 個集合的文章,評價指標采用 KAPPA 和相關系數,以下是壹些實驗效果。

這是在 8 個集合上分別使用 linear kernel 和 rbf kernel 的效果。

這是和人類打分者的對比。

以下內容出自論文《Neural Networks for Automated Essay Grading》,可以采用回歸或者分類的方法進行訓練,模型如下圖所示。

論文中主要使用了三種方法構造出文章的特征向量:

論文中主要用了三種神經網絡結構,NN (前向神經網絡),LSTM 和 BiLSTM。所有的網絡都會輸出壹個向量 h(out),根據 h(out) 構造出損失函數,下面分別是回歸和分類的損失函數。

回歸損失

分類損失

第壹種模型:NN (前向神經網絡)

使用了兩層前向神經網絡,網絡輸入的文章特征向量是 Glove 詞向量的平均值或者訓練的詞向量平均值。h(out) 的計算公式如下。

第二種模型:LSTM

LSTM 模型接受的輸入是文章所有單詞的詞向量序列,然後將 LSTM 最後輸出的向量作為文章的特征向量 h(out)。

第三種模型:BiLSTM

因為文章通常比較長,單向的 LSTM 容易丟失前面的信息,因此作者也使用了 BiLSTM 模型,將前向 LSTM 和後向 LSTM 模型的輸出加在壹起作為 h(out)。

添加 TF-IDF 向量

以上模型的輸出 h(out) 都可以再加上 TF-IDF 向量提升性能,首先需要對 TF-IDF 向量降維,然後和模型的輸出拼接在壹起,如下圖所示 (BiLSTM 為例子)。

《Regression based Automated Essay Scoring》

《Neural Networks for Automated Essay Grading》

  • 上一篇:有什麽辦法可以買到更便宜的旅遊機票?
  • 下一篇:彩票網站源代碼
  • copyright 2024編程學習大全網