當前位置:編程學習大全網 - 源碼下載 - 生物信息流程搭建方法

生物信息流程搭建方法

先來看壹則招聘信息:

關於生物信息流程,不同的分類標準可能得到不壹樣的分類結果,比如:

A review of bioinformatic pipeline frameworks 這篇綜述中,按照隱式公約框架、明確框架、配置框架和基於類的框架等對現代的生物信息流程框架進行分類。

生信分析流程構建的幾大流派 按照腳本語言流、Common Workflow language 語言流、Makefile流、配置文件流、Jupyter notebook和R markdown流等分為不同流派。

依我看,生物信息流程無非分為舊方法和新方法兩類(廢話~~~),分別了解壹下。

傳統的方法,也是目前最常用的流程搭建方法,尤其是在工業界。

缺點:

最新流行的流程工具,但實際上在工業界並沒有普及。

CWL(Common Workflow Language)普通工作流語言和WDL(Workflow Description Language)工作流描述語言。定義每壹個計算過程(腳本)的輸入和輸出,然後通過連接這些輸入和輸出,構成數據分析流程。

可以在多個平臺執行,比如本地服務器、SGE 集群,雲計算平臺等,可以做到壹次編寫多處執行。Linux版本最有名的如snakemake, nextflow,bpipe等。圖形界面版的如Galaxy,壹些商業公司的雲平臺(拖拉圖標即可)。

Cromwell 是 Broad Institute 開發的工作流管理引擎,支持 WDL 和 CWL 兩種工作流描述語言。

CWL中snakemake的壹個示例語法:

可參考博文:

/p/8e57fd2b81b2

WDL語法結構:

示例:

用法可參考博文: https://wenlongshen.github.io/2018/09/15/Pipelining-Solution-2/

docker不是壹個流程方法,只是個封裝的容器工具而已,所以這個分類比較牽強,只是上面兩種的延伸。我們把自己開發的流程做成Docker鏡像,以便使用和分享。

以ChIP-seq等分析時常用的peak calling工具MACS2為例。

具體可參考博文:

https://wenlongshen.github.io/2018/09/08/Pipelining-Solution-1/

  • 上一篇:中國現在哪些公司的金融軟件做的比較好(金融方面的軟件有哪些)
  • 下一篇:用word制作的選擇題如何對學生成績進行成績統計
  • copyright 2024編程學習大全網