當前位置:編程學習大全網 - 源碼下載 - 聊聊AA實驗的波動性

聊聊AA實驗的波動性

當我們在實驗評估系統上開啟壹個實驗組和對照組配置壹摸壹樣的實驗時,我們稱之為AA實驗 。AA實驗通常用來輔助觀察指標在產品不做改變時的偏差範圍。我們通常會在實驗裏加壹個和對照組壹模壹樣的實驗組來觀察這個偏差,而如果這個偏差很大,通常妳的AB實驗也容易結果不置信。本文的目標受眾是需要在實驗評估系統上做實驗,發現AA實驗的指標差異很大,又懶的再回去翻大學概率論課本的同學們。以最低的學習成本使用實驗評估系統拿到高效的產出,也是實驗評估組的願景,所以我們會用盡量通俗的語言展開描述,如果妳看不懂,隨時拿著妳的水杯來砍我(別忘了先把熱水倒掉);當然,記得先留言指出沒有說清楚的地方,我們會改正。

閑話少說,我們開始:

波動?啥叫波動?為啥我的AA實驗指標會有波動?

舉個例子。假設我在實驗評估系統上開了壹個AA實驗。實驗開啟壹段時間之後我們去看產出的實驗指標Read/U(平均每個用戶每天會有多少次閱讀),雖然分配到兩個組的用戶使用的是完全壹樣的產品,但是兩個組匯總到的 Read/U 均值總是有多多少少的差別。如果妳重復開這個實驗很多次,妳會發現每次兩個組上的差別都不太壹樣。

這種出現在AA實驗上的不穩定的指標差,就是我們說的波動

產生波動的原因很好理解,壹句話來說就是“隨機性”。下壹秒打開頭條的那個用戶今天會讀幾篇文章這完全是隨機的,不可預知的。所以當妳開兩個完全相同的實驗組的時候,因為每個組裏的用戶今天會讀的文章數完全隨機,所以最終我們拿到的兩個 Read/U 指標的差別也是隨機的。

怎麽描述AA實驗指標的波動呢?

描述波動的方法很多,對應AB實驗這個應用場景,我們用 置信度 和 置信區間 來描述波動性。如果妳忘掉這兩個統計學概念的話,就不要去網上查了,簡單說就是:

妳做無數多次AA實驗,指標的差落在某個範圍內(置信區間)的概率有多大(置信度)

假如我們知道頭條主app的 Read/U 指標,200W入組用戶的AA實驗在置信度為95%的時候上下波動0.62%,說明大概率下,我們做壹個AA實驗,Read/U 指標的變化比例會在正負0.62%以內。

如果妳做的AB實驗預期 Read/U 會上升 1%,那麽恭喜妳,做實驗驗證去吧;如果妳做的AB實驗預期 Read/U 會上升 0.1%,那麽不好意思,這個變化太不明顯了,假如最終實驗結果真的上升了0.1%,我們很難判斷這是策略生效導致的還是波動導致的。

那麽問題來了:

問妳告訴我的波動在0.62%,為啥我的AA波動出現了0.78%? 答因為妳有95%的概率波動在0.62%以內,還有5%的概率妳會遇到指標超過0.62%。出現這種意外的概率(5%)還是要比買彩票中獎高太多。最簡單的辦法就是重新再開壹次實驗。

問5%的意外概率我無法承受,怎麽辦?答那就看看置信度為99%的波動值吧。當然,這個數字壹定會比95%的波動值大,比如說0.81%。也就是說只有1%的概率,妳的AA實驗波動會超出0.81%。

問可是我的預期變化只有0.68%,不要說0.81%,就是0.62%,變化也不夠明顯啊!答加流量吧。試想壹下妳在擲硬幣,妳拋硬幣的次數越多,拿到正面的次數越接近0.5, 這說明 實驗的越多(進組用戶數越大),指標的結果越穩定(波動越小) 。當入組用戶數升高到800W時,妳會發現95%的置信度下,波動會降低到0.31%。是的,妳猜對了,波動與用戶數的平方根呈反比,所以用戶數升4倍,波動會降壹半,如果感興趣,回去復習概率論吧

分流不是均勻的嗎?怎麽入組用戶數也有波動?

用戶的潛臺詞是:“妳們在逗我嗎?”還真沒有。再舉拋硬幣的例子,分流的時候壹個用戶會進入哪個組就好比拋硬幣時會出現哪個面。因為進入哪個組和出現哪個面壹樣,都是 隨機的 。所以無論分流策略多麽完美,入組用戶數和其他指標壹樣,都存在波動性。

什麽影響波動性?不同產品的相同指標波動為何不同?

入組用戶數

入組用戶數對波動的影響前面說過,這個不難理解。入組用戶數越多,波動性越小。所以當做實驗的同學發現AA波動很大時,可以考慮壹下提高實驗流量來提高入組用戶數數量,從而降低AA波動。

指標穩定性(標準差或方差)

指標標準差描述的是指標取值的穩定程度。舉壹個射箭的例子。如果有小張小王兩個人射箭,平均都拿8環,小張比較穩定,大多數時候都射中8環,少數時候射中7環和9環;小王發揮很不穩定,大部分時候要麽10環要麽6環。如果小張先射100次算平均分,再射100次算平均分(等價於我們在小張這裏做了壹次AA實驗),兩個平均分的差別體現的就是波動性。很顯然,小王指標的波動性要大很多,因為他本身射箭不穩定。

類似的,例如 Comment/U 指標,因為它的取值穩定性特別差,所以我們總是能看到這個指標的波動要大於 Read/U 這些穩定性稍好的指標。怎麽描述指標的穩定性呢?算個標準差吧。

有同學曾經問過為什麽相同的指標相近的入組用戶數,在同壹個產品的國內版本和國外版本波動不壹樣。可以簡單的看看這個指標在兩個版本上的標準差,如果不出意外,波動大的那個版本的標準差也會較大。

妳們是怎麽計算波動性的呢?

先輩們提出並證明了壹條統計學公式,簡單且不嚴謹的說就是,如果已知母本的期望與方差,那麽從該母本上的任意樣本數量為N的采樣得到的期望滿足正態分布;正態分布的參數與母本的期望,方差和樣本數量N有關。

如果我們把某個app壹整天全量的日誌數據作為母本,AA實驗不過是在考察兩個采樣樣本的期望的變化比。期望和方差我們都有,套入公式,我們就能得到發生在這壹天的所有指標的波動性,並以此推測明天這些指標在相同app下的波動性。

其他資料

如果周末不需要陪男/女朋友,而且上面那些看得不過癮的話,請閱讀《概率論與數理統計》,隨便誰出版的哪個版本都可以。

  • 上一篇:如何正確的重寫equals 和 hashCode方法
  • 下一篇:三角函數周期公式是什麽 計算過程有哪些
  • copyright 2024編程學習大全網