當前位置:編程學習大全網 - 源碼下載 - 讀文獻:GrimAge方法介紹

讀文獻:GrimAge方法介紹

本文主要目的為介紹GrimAge的詳細構建步驟。

2356個血液樣本,來源於the Framingham heart study (FHS) Offspring Cohort。

訓練集:測試集 = 7:3,平均年齡分別為66和67歲。

每個樣本帶有的信息:性別、年齡、88個血漿中基於免疫分析獲得的蛋白指標測量值(plasma protein variables)、甲基化芯片結果。

兩步法:

2.1 DNAm-based surrogate biomarkers of plasma proteins and smoking pack-years

用訓練集訓練88個線性回歸模型分別預測88種蛋白指標的值,輸入數據包括甲基化芯片值、性別、年齡。

采用ElasticNet線性回歸模型,自動選擇組合與預測蛋白指標最相關的位點。

結果:獲得88個分別用於預測88種蛋白指標的線性模型。大多數模型最終所選擇的CpG位點少於200個。

除了88種蛋白指標,作者用同樣的方法還訓練了壹個預測smoking pack year(代表妳壹輩子吸了多少根煙)的線性模型。

雖然作者訓練了88個用於預測各種蛋白指標的模型,但大部分模型的預測效果不好(表1),其中只有12個模型在測試集裏的相關系數大於0.35;另外吸煙模型的相關系數為0.66。於是作者只留下這13個模型繼續往下分析。

2.2 Constructing a composite biomarker of lifespan based on surrogate biomarkers

接下來作者訓練了壹個預測死亡率的模型:

因變量Y為樣本收集日期距離該個體死亡的時間;

自變量X包括:甲基化預測吸煙包數、年齡、性別和上面12種蛋白指標的甲基化模型預測值。

算法:Elastic net Cox regression model

最終該模型自動選擇了如下變量組合:甲基化預測吸煙包數、年齡、性別和其中 蛋白指標的甲基化模型預測值(表1紅框)。

作者然後將上面公式左邊的線性組合部分經過線性轉換,就得到了最後的年齡預測模型即 GrimAge 。線性轉換中所用到的截距和斜率是這樣取得的:強制使最終GrimAge的平均值和方差與實際年齡Age的分布壹致。從圖壹可以發現,作者最終所用的截距和斜率分別為-50.28483和8.3268。

我們來看壹下作者提供的各個變量的系數:

AgeAccelGrim,基於GrimAge計算的age acceleration。作者為了使AgeAccelGrim與Age不相關,先建立了GrimAge與Age的線性回歸模型,所以

最後來看壹下作者提供的GrimAge與Age在不同數據集裏的相關性情況吧:

計算GrimAge需要1030個CpG位點及相應的系數,但是作者申請了專利沒有公開。

歡迎對這個模型、文章感興趣的朋友與我交流( wangyucheng511@gmail.com )

  • 上一篇:java教程誰的比較好?
  • 下一篇:雷達控制的壹般過程
  • copyright 2024編程學習大全網