用Python做生存分析--lifelines庫簡介

Python提供了壹個簡單而強大的生存分析包——lifelines，可以非常方便的進行應用。這篇文章將為大家簡單介紹這個包的安裝和使用。

lifelines支持用pip的方法進行安裝，您可以使用以下命令進行壹鍵安裝：

在python中，可以利用lifelines進行累計生存曲線的繪制、Log Rank test、Cox回歸等。下面以lifelines包中自帶的測試數據進行壹個簡單的示例。

首先加載和使用自帶的數據集：

運行壹下將會看到以下結果，

數據有三列，其中T代表min(T, C)，其中T為死亡時間，C為觀測截止時間。E代表是否觀到“死亡”，1代表觀測到了，0代表未觀測到，即生存分析中的刪失數據，***7個。 group代表是否存在病毒， miR-137代表存在病毒，control代表為不存在即對照組，根據統計，存在miR-137病毒人數34人，不存在129人。

利用此數據取擬合擬生存分析中的Kaplan Meier模型（專用於估計生存函數的模型），並繪制全體人群的生存曲線。

圖中藍色實線為生存曲線，淺藍色帶代表了95%置信區間。隨著時間增加，存活概率S(t)越來越小，這是壹定的，同時S(t)=0.5時，t的95%置信區間為[53, 58]。這並不是我們關註的重點，我們真正要關註的實驗組（存在病毒）和對照組（未存在病毒）的生存曲線差異。因此我們要按照group等於“miR-137”和“control”分組，分別觀察對應的生存曲線:

可以看到，帶有miR-137病毒的生存曲線在control組下方。說明其平均存活時間明顯小於control組。同時帶有miR-137病毒存活50%對應的存活時間95%置信區間為[19,29]，對應的control組為[56,60]。差異較大，這個方法可以應用在分析用戶流失等場景，比如我們對壹組人群實行了壹些防止流行活動，我們可以通過此種方式分析我們活動是否有效。

該模型以生存結局和生存時間為應變量，可同時分析眾多因素對生存期的影響，能分析帶有截尾生存時間的資料，且不要求估計資料的生存分布類型。

對於回歸模型的假設檢驗通常采用似然比檢驗、Wald檢驗和記分檢驗，其檢驗統計量均服從卡方分布。，其自由度為模型中待檢驗的自變量個數。壹般說來，Cox回歸系數的估計和模型的假設檢驗計算量較大，通常需利用計算機來完成相應的計算

通常存活時間與多種因素都存在關聯，因此我們的面臨的數據是多維的。下面使用壹個更復雜的數據集。首先仍然是導入和使用示例數據。

[圖片上傳中...(24515569-a5987d05b5e05a26.png-4ed038-1600008755271-0)]

其中T代表min(T, C)，其中T為死亡時間，C為觀測截止時間。E代表是否觀察到“死亡”，1代表觀測到了，0代表未觀測到，即生存分析中的 “刪失” 數據，刪失數據***11個。var1,var2,var3代表了我們關系的變量，可以是是否為實驗組的虛擬變量，可以是壹個用戶的渠道路徑，也可以是用戶自身的屬性。

我們利用此數據進行Cox回歸

從結果來看，我們認為var1和var3在5%的顯著性水平下是顯著的。認為var1水平越高，用戶的風險函數值越大，即存活時間越短（cox回歸是對風險函數建模，這與死亡加速模型剛好相反，死亡加速模型是對存活時間建模，兩個模型的參數符號相反）。同理，var3水平越高，用戶的風險函數值越大。

上一篇:分時籌碼峰指標公式

下一篇:如何在QML應用中得到壹個Item的所有屬性，信號及方法

盂蘭神功的影片評價

Python日誌—Python日誌模塊logging介紹

神奇寶貝遊戲推薦手遊破解版

夢見自己上樹爬了壹身螞蟻

鋼絲繩手動起重機的細節

知道提問：視頻直播APP制作中會用到哪些三方服務？

流程卡分發源代碼