[toc]
rrBLUP是基因組選擇最常用的模型之壹,也是間接法模型的代表。回顧壹下,所謂間接法是指:在參考群中估計標記效應,再結合預測群的基因型信息將標記效應累加,最終獲得預測群的個體估計育種值。而直接法則是指:將個體作為隨機效應,參考群體和預測群體遺傳信息構建的親緣關系矩陣作為方差協方差矩陣,通過叠代法估計方差組分,進而求解混合模型獲取待預測個體的估計育種值。簡言之,直接法是通過 構建A/G/H等矩陣 求解育種值,間接法是通過 計算標記效應 來獲得育種值。
RRBLUP全稱“ridge regression best linear unbiased prediction”,即嶺回歸最佳線性無偏預測。光從長串名字看,裏面涉及到大量的統計學基本概念,可分為兩部分看。壹是Ridge Regression,嶺回歸是壹種改良的最小二乘估計法,專用於解決***線性數據分析的有偏估計回歸方法,通過在損失函數中加上壹個正則化項,放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價獲得回歸系數更符合實際;二是BLUP,對壹個隨機效應(如個體育種值)的預測具有線性(預測量是樣本觀察值的線性函數)、無偏(預測量的數學期望等於隨機效應本身的數學期望)和預測誤差方差最小等統計學性質。
最佳線性無偏預測( best linear unbiased prediction, BLUP )是線性模型中用來評估 隨機效應 的,等同於 固定效應 中的最佳線性無偏估計(best linear unbiased estimates, BLUE )。
越解釋越混亂,這些基礎知識需要好好鞏固鞏固。
先看間接法的模型公式:
關鍵在於求解標記效應:
間接法重難點在於如何對參數的先驗分布(即對g i 及其方差服從的分布)進行合理的假設。 RRBLUP模型假設所有標記都具有效應,且來源於同壹個分布,即σ g i 2 相等(理論上RRBLUP與GBLUP方法是等價的) 。但實際上所有標記不會都具有效應,標記方差也會不同,因而出現了各種假設的Bayes方法,這樣就帶來更多待估參數,提高準確性的同時也增加了計算量。
采用rrBLUP Package 來進行實操學習。
rrBLUP包主要兩個函數:
返回加性效應關系矩陣(即kinship),填充後的分子標記矩陣。
mixed.solve 函數返回值(列表):
如果設了標準誤參數,則會返回:
需要提前清洗數據,並編碼基因型數據。
rrBLUP預測準確性與訓練群和驗證群大小、標記數目以及遺傳力等有關。可以看到,上面循環500次的重復性並不是很好。
使用K折交叉驗證的方法可能會好些。關於交叉驗證,壹般有三種方法: