蛋白質組學數據分析基礎（壹）

轉發自 /news/238.html

質譜數據格式

話說，蛋白質質譜從十幾年前就形成了固定的數據結構和格式。現在常用的搜庫格式，比如mascot的mgf，從十年前就基本固定下來。

到目前為止，質譜界的數據格式因為儀器的不同，有幾個不同的大類：

Thermo公司的raw文件格式，這是目前用得最多的壹種格式

AB公司的WIFF格式，

Bruker的yep/.fid

Waters的folder

Agilent的folder

Notes

MALDI MS目前應用越來越少，而且基本上不用於shotgun或者高通量研究。

這些數據格式的擴展名有壹定的差別，且原始數據裏包含的內容也有所不同。具體包含哪些重要的信息，稍後我們還會詳細講到。

結果報告的質控

數據分析，最終都是為了拿到壹個可信的結果。所以，我們在講具體的分析原理之前，先得來聊聊，我們做壹次高通量的蛋白質定性、定量實驗，以及搜庫鑒定及定量分析等步驟，對結果報告有哪些質控要求。

首先，我們做完實驗，在拿到下機數據的時候，大多數小夥伴們都會把數據放到各種搜庫軟件中，比如Mascot或者Thermo的Proteome Discoverer，導入原始數據，設定壹些搜庫參數，就可以得到結果了。

但是，作為壹個嚴謹的實驗方案設計來說，在分析的過程中，是需要對自己的數據有壹個前期質控的，這樣可以幫助大家判斷數據分析結果的可靠性。所以說，基本的質控可以幫助我們對實驗結果進行壹個預判。

舉個例子。

我們打開壹個實驗的下機數據，就可以預判我們的樣品中是否發生了高分子塑料的PEG汙染，有沒有超高豐度的蛋白，或者有沒有被嚴重的鹽類汙染。這些數據都可以從原始數據的可視化視圖中看到。

不同的質譜軟件，打開原始數據的方式不同，但這些信息都是可見的。另外，當兩次實驗搜索到的蛋白數量差異比較大時，也可以從TIC圖來判斷其原因。此外還可以判斷分離的效率，以及是否出現噴霧中斷等情況。

對於蛋白鑒定的結果，或者絕大多數的搜庫算法，都要求對結果進行FDR控制，以及unique peptide的控制等等。如果我們要發表這些數據，絕大多數的期刊雜誌也都會要求提供這些質控的信息。

那麽，問題就來了，為什麽要做這樣的要求呢？

事實上，我們做好了質控，就能夠看到壹個總的鑒定的比例。比如說像常規的定量實驗，用的最多的是iTRAQ。

舉個例子。

假設總蛋白數只有2446個，算是比較少的，而總的譜圖數是53萬張，那麽它的譜圖鑒定率在當前條件下是32%（有些質控軟件可以直接報告譜圖鑒定率，比如Scaffold），我們可以判斷當前的實驗並沒有出現重大的問題，鑒定率不高主要是因為存在高豐度蛋白，而這個後續可以進行詳細的查看。

對於定量實驗，不管我們使用的是SILAC，iTRAQ還是Label Free，都需要對定量結果進行準確性控制（詳細內容，後續課程還會展開講解）。壹般來說，我們需要用相應的軟件和統計方法來進行質控。

經過這幾步的判斷之後，可以得到壹個初步的結果，比如說譜圖數量是否和之前的結果差不多，質量精度及鑒定率如何，高豐度蛋白的存在與否，是否受汙染，分離效率如何，定量是否準確，標記效率是否ok，等等，這些信息都可以得到。這樣，我們最終可以得到壹個準確可靠的蛋白質組學鑒定或定量結果用於後續的分析了。

那麽，如何通過查看原始數據來進行初步質控呢？

首先，我們從原始數據出發，可以看到下圖（以Data-dependent-acquisiton數據依賴性掃描為例），是從色譜出來的壹個LC分離得到的TIC圖，其中的信號采集都是在質譜中完成的，它其實就是將色譜逐漸通過噴霧的方式進入質譜的那些信號進行逐壹的掃描，然後在其中挑選高強度的譜峰進行二級碎裂。

關於LC分離，以及TIC圖的詳細介紹，請參考上壹節課的內容：

聽課筆記之蛋白質質譜的原理及使用（四）

下圖就是色譜離子流圖的某個瞬間。橫坐標是質荷比，縱坐標是信號強度。這個瞬間進入色譜的有這樣壹些信號，信號強度最高的是質荷比為477.31的肽段，其他壹些肽段也可以進行查看。

這是我們在打開質譜的下機數據所能看到的最直觀的結果。我們需要了解的是，這只是我們所有結果的某壹個瞬間，某壹個scan。這壹個scan是否能夠反映整個結果的好壞是不確定的，所以後續我們需要進壹步的展開。

對於質譜來說，在這壹步會自動選擇其中壹個比較強的峰，比如說477，它會進行壹個動態的排除，這也是Data-dependent-acquisiton的壹個重要參數。就是說，在多少秒之內，這麽強的壹個峰如果壹直反復出現的話，那麽在後續的掃描過程中，我們不去再對它進行進行MS2碎裂了。

比如說如圖的477.31，我們質譜儀器記錄時發現前面已經對它做過二級碎裂了，那麽我們就有可能選擇另外壹個比較弱的譜峰。比如552.80，將它進行二級碎裂。

我們再來看壹眼二級譜峰，如下圖，就是對我們全長的進入質譜的肽段信息進行打碎，得到相應的B/Y離子，如下圖，這些在後面我們會進行詳細的講解。

DDA模式的工作原理

下圖是Thermo質譜的原理示意圖（由Thermo工程師提供）。這是QE的原理圖，我們先在綠色的範圍內進行壹次full scan的mass掃描，然後判斷當前選擇的離子信號強度，以及在最近的幾十秒鐘之內是否對其進行掃描過。

如果沒有，那麽在緊接著的循環過程中，我們會對之前30秒之內（假設當前的儀器速度可以達到10個MS）沒有掃描過的最強的十個譜峰進行二級碎裂，那麽質譜就會依次將色譜推進來的噴霧中的肽段進行依次碎裂。

這就是DDA模式基本的原理。我們的數據也是根據這樣的壹個過程來記錄的。

如果將剛才的掃描過程二維展開，可以得到下圖，看上去跟二維凝膠電泳圖很像吧？橫坐標是質荷比，縱坐標是保留時間，而剛才那張圖橫坐標是保留時間，縱坐標是強度（LC seperation圖），所以，此圖沒有質荷比信息。

我們知道，在進入full scan的MS掃描時是有質荷比信息的。所以簡單的講，上圖是將剛才的兩張圖的信息拼接，然後將整個下機數據所有的瞬間都進行了壹個拼接，由於維度的限制，因此信號強度信息無法再展示了。

但在此圖中用了顏色的深淺來表示保留時間，顏色深的就是相對信號較強的肽段。而圖中的每壹根小線段都代表壹個肽段，小線段的長度對應著肽段的保留時間，加上橫坐標質荷比的信息，因此通過這張全局縱覽圖，就能夠看到我們這次實驗分離的效果如何，有沒有PEG、鹽、或者其它汙染，有沒有噴霧中斷等情況發生，這些都能在這張圖中有壹個大致的把握。

因此，這張圖對於我們進行數據質控非常有用。不同的軟件和儀器有不同的方法來提供這張圖。此次舉例用的圖是由Peaks軟件得來的。

我們可以在上圖中選定自己感興趣的部分，畫壹個小方框，將方框中的內容進行打開放大，就得到了下圖我們存儲數據的結果形式了。這是在Qual Browser裏打開我們的數據看到的結果。

其實這就是將我們的模擬圖轉換成數據信號，儲存在我們的Raw文件中，或者說進壹步提取成MGF文件所用到的相關信息。

這裏主要包含兩大類信息：MS1和MS2的信息，也就是full scan mass和二級碎裂的信息。這兩類信息的結構式是壹模壹樣的，都是包含質核比、強度值，以及相對信號強度。

比如說794.03譜峰，相對信號強度是100，也就是在這張譜圖中，這是最強的壹個峰，信號強度是3558210.8。那麽對於我們質譜的搜索來說，壹級信息和二級信息都是需要用到的，其中壹級信息是首要的，也就是圖中MS1部分，是後續搜庫的關鍵信息。而二級譜圖的強度信息壹般用於定量，也就是說如果不是做SILAC或者非標記定量，這些信息不是最重要的。

另外，第壹欄的信息準確性也是非常重要的。比如圖上紅框內，我們可以得到的信息是，794.03和794.36強度大約差了1.5倍，後面的峰強度差了大約2倍，再看下紅框內四個數據的質荷比相差並不大，我們的質譜儀器因此會判斷這四個峰非常符合壹個肽段的同位素分布（肽段同位素分段的性狀，後續將會講解）。

回到此圖，794.03應該是壹個肽段，後面三個數據是同壹個肽段，這就是我們進行precursor識別的原理。有些時候質譜會識別錯誤，認為紅框上壹行的793.69更可能是同位素，這個就需要我們自己進行校正。

質譜在搜集信號的時候，會告訴我們794.03是壹個母離子或者說是肽段的譜峰，因此在後續進行MS2碎裂的時候，會挑選這樣壹個譜峰，以及在質譜中我們會設定相應的窗口去打碎它。因為僅僅設定壹個非常小的窗口，可能信號不夠。我們會設計比如正負1.5個道爾頓的窗口，把這些信號全部采集進去進行二級碎裂得到二級信號。

現在高分辨質譜中，二級信號也會包含同位素信息，因此數據分析軟件需要對這些信息進行有效的處理。

大家可以看到，這樣壹個例子中，軟件記錄的是794.03，但實際我們可以通過肉眼觀察，793.69跟794.03就只相差0.33~0.34，也是壹個三電荷同位素的差值（1除以0.33是3，這就是質荷比中的Z的計算原理）。兩者分別的強度271萬和355萬差別也不是非常大，我們會判斷出793.69更可能是零同位素峰（如何判斷後面會再講解）。

我們進行後續數據提取和采集的時候，也就是用了這樣的信息來進行分析。我們記錄的壹級質譜數據，以及二級質譜對應的列表，其中最重要的是m/z和intensity，在壹級質譜數據中，強度並不用於蛋白鑒定的打分，但二級質譜數據中的強度值卻會被用於打分。

上一篇:多媒體技術在語文教學中的應用是什麽

下一篇:模仿種種有情種種可愛仿寫作文

如何學會探究

誰在狂亂中殺死了王力？

美食文藝文章的插畫——如何寫好美食插畫的引言