單細胞序列包的原理分析

修拉涉及數據分析的許多步驟。

之前只關心自己的工作，沒有系統梳理分析中的具體內容。

在這裏，我們參考網上大神們分享的帖子來梳理壹下。

該函數基於輸入矩陣/數據框創建修拉對象。重要的步驟是設置ident和添加元數據。

*min.cells表示必須在至少3個細胞中檢測到壹個基因，否則不應該檢測到。

*min.features參數指定每個細胞中要檢測的最小基因數。此參數將過濾掉質量差的細胞，這些細胞可能只是封裝了隨機條形碼，而沒有任何真正的細胞。通常，少於100或200個基因的細胞不被考慮用於分析。

這裏要設計壹個知識點，是r中的S3和S4

列表通常被認為是S3類，而S4類指的是槽用於存儲數據的格式。(如果妳說的不對，請指正。)

這裏讀取的值是由三個文本文件創建的稀疏矩陣。

什麽是稀疏矩陣？

在[矩陣]中，如果值為0的元素個數遠遠大於非零元素個數，且非零元素分布不規則，則該矩陣稱為稀疏矩陣；反之，當非零元素個數占多數時，該矩陣稱為稠密矩陣。

如果妳手裏有單個單元格的數據，那個矩陣文件包含很多零。

因為捕獲的RNA在測序前會被PCR擴增，需要考慮文庫深度對測序的影響，所以需要對上壹步得到的稀疏矩陣進行歸壹化。

歸壹化方法:每個細胞中每個基因的特征數除以細胞的總特征數，然後乘以scale.factor(默認為10000)，再用log1p進行對數轉換。(log1p=log(n+1))

歸壹化後的數據存儲在seurat[['RNA']]@data中。

首先，我們在合並數據的時候，壹般都是直接使用merge，所以不同樣本的單元格值不會發生變化。

下面是whitebird的解釋。

做過傳統轉錄組分析的科學家都知道，用轉錄組數據的FPKM和TPM繪制熱圖時，由於數值變化的範圍過於巨大，需要壹個對數轉換來壓縮壹個區間的數據。

其次，最重要的是改變數據分布:排序值本身不符合正態分布，對數變換可以使數據逼近正態分布，便於進壹步分析。

高度可變特征(hvg)是高度可變的基因，它們在細胞之間進行比較，以選擇表達差異最大的基因。Seurat使用FindVariableFeatures函數來識別高度可變的基因，這些基因的表達水平在不同的細胞之間有很大的差異(在壹些細胞中高表達，在另壹些細胞中低表達)。

默認情況下，2000個高度可變的基因被返回用於下遊分析，如PCA。

該算法在FindVariableFeatures.default()中實現。

目的是在var ~均值曲線中，可以在不同的均值區域選擇var大的基因。

單細胞基因表達計數矩陣數據需要在NormalizeData()處理後進行縮放。

[ScaleData()]函數將基因表達式轉換為z得分(值以0為中心，方差為1)。

存儲在seurat_obj[['RNA']]@scale.data中，用於下遊的PCA降維。

默認情況下，僅對高度可變的基因進行標準化。

當我第壹次分析單細胞的時候，我在這裏有點困惑。

為什麽前面歸壹化，這裏縮放？

“縮放和規範化之間的區別”

縮放改變數據的範圍，而規格化改變數據的分布。

標度是將數據的分布限定在壹個範圍內，便於比較。另壹方面，規格化將偏斜分布轉換成接近正態的分布。

這是《白鳥》中的壹段話。

R語言中Z分值的計算是通過【scale()】函數得到的，Seurat包中的ScaleData()函數基本都是引用scale()函數的函數。

縮放方法中的兩個參數:中心和縮放。

Z得分的概念是指原始數據離均值有多少標準差。當以標準差衡量時，Z得分衡量壹個值偏離總體平均值的標準差。如果原始值高於平均值，則Z得分為正，如果低於平均值，則Z得分為負。

z得分其實是壹個標準的正態分布，即均值μ=0，標準差σ=1的正態分布。SND標準正態分布直方圖如下:

Seurat使用RunPCA函數通過PCA降低標準化表達矩陣的維數。

默認情況下，只有先前選擇的2000個高度可變的基因在維度上線性降低，或者您可以通過特征參數指定您想要降低維度的數據集。

RunPCA後，會返回5個PC和大量相應的基因。

每個PC對應60個基因，分為陽性和陰性，各30個基因。

正負是PC軸的正負映射關系，正值為正，負值為負。

返回正負值絕對值最大的Top30，可以理解為對所有細胞區分度最大的基因。

這是PCA後得到的兩個結果。

第壹個是每臺PC對應的基因。

第二個是PC上對應每個單元格的坐標。

PCA的結果也可以用下面兩種方式來看。

首先計算每個細胞的KNN，即計算每個細胞間的相互距離，根據細胞間鄰居的重疊情況構建snn圖。

計算給定數據集的k.param最近鄰。或者(通過計算機。SNN)，可以通過計算每個像元的最近鄰與其相鄰k.param之間的鄰域重疊(Jaccard索引)來構建SNN

具體來說，當計算單元之間的距離時，我們使用KNN算法，即鄰近算法。

不過我對這個算法不太了解，不過有壹點還是挺有意思的。

即，確定有兩個相鄰的模塊:aroy和rann。

其中，annoy的全名也叫近似最近鄰哦耶，名字還挺可愛的。

下面博主對這個算法有非常詳細的講解，有興趣的家庭自己去看。

尋找鄰居{修拉}-(jianshu.com)

它是在計算了這些細胞之間的距離之後對它們進行分類。

您可以指定幾種類型的單元格。

但是很多參考文獻中最重要的只有壹個參數:分辨率。

分辨率參數設置的大小決定了像元類型的數量，值越大，像元類型越多。

在詳細分析的時候，我們經常會問:多少才算合理？我們應該分成多少組？

其實對於測序的人來說，很多時候真的不清楚細胞到底有多少種。

那麽有兩種解決方法。

1)直接看tSNE的圖，物理距離是壹種判斷方式。當壹組物理上很接近的細胞被拆解時，意味著在拆解之前可能是合理的。不過這種方法比較簡單粗糙。

2)還有壹個包clustree，可以判斷妳的聚類數據。

如下圖所示，分成4、5、6組時，單元格之間沒有太多交叉，都是進壹步細分。

但是再往下，那些半透明的箭頭表示從壹個細胞群跑到另壹個細胞群是不合適的。

因此，可以參考上述兩種判斷方法得出結果。

其實以上兩種方法都是為了降低數據的維度。

為什麽需要降維？

常見的降維方法有PCA(主成分分析)、MDS(多維標度)、Sammon映射、Isomap、t-SNE(t-分布式近鄰嵌入)和umap(壹致逼近投影法)。

PCA、t-SNE和UMAP在scRNA-seq中被廣泛使用。

在前面的分析中，PCA被用來降低維數。為什麽我們需要降低這裏的維度？

這兩種方法有什麽區別？

摘自:(跟隨小魚頭單細胞測序-降維及可視化-scRNA-seq Data-Cloud+Community-騰訊雲(tencent.com)

)

處理完以上數據，可視化就很簡單了。

具體參數自己查。

以上。

歡迎查漏補缺。

上一篇:電子商務旅遊網有哪些電子商務旅遊網站

下一篇:易語言拖拽文件時如何將文件放入框中？

android源碼怎麽編譯生成recovery.img

二戰源代碼

什麽是3D遊戲啊，那2D呢？