當前位置:編程學習大全網 - 遊戲軟體 - 學院來信493:辛普森悖論-吸煙者存活率比不吸煙者高,可能嗎?

學院來信493:辛普森悖論-吸煙者存活率比不吸煙者高,可能嗎?

研究表明:吸煙者的存活率比不吸煙者的存活率要高。

妳覺得可能嗎?20年前的壹份吸煙者疾病研究報告確實得出過這個結論:數據顯示吸煙者的存活率是76%,不吸煙者的存活率是60%,且吸煙者比不吸煙者的平均壽命要多出20年。 The data don't lie.? 真的是這樣嗎?

壹、辛普森悖論。

辛普森悖論是指:在分組比較中都占優勢的壹方,在總評中反而變成劣勢的壹方。反之亦然。 舉個例子,假設A醫生發現了藥物D。藥物D能降低心臟病的發病率,研究觀測數據如下:

女性(未服藥):心臟病發作1人,心臟病未發作19人,發病率5%;

女性(服藥):心臟病發作3人,心臟病未發作37人,發病率7.5%;

男性(未服藥):心臟病發作12人,心臟病未發作28人,發病率30%;

男性(服藥):心臟病發作8人,心臟病未發作12人,發病率40%;

合計(未服藥):心臟病發作13人,心臟病未發作47人,發病率21.7%;

合計(服藥):心臟病發作11人,心臟病未發作49人,發病率18.3%。

研究結論:

①男性患者,服用了藥物D,心臟病發作的風險從30%變為40%,發病風險 變高了 。

②女性患者,服用了藥物D,心臟病發作的風險從5%變為7.5%,發病風險同樣 變高了 。

③匯總數據,服用了藥物D,心臟病發作的風險從21.7%變為18.3%,整體發病風險卻 變低了 。

藥物D對男性有害,對女性也有害,但對人類有益, 結果竟如此神奇。

二、問題出在哪裏?

問題在於數據中包含混雜因子:性別。 回顧數據可以發現,無論吃藥與否,男性的發病率遠高於女性。如果將服藥樣本中的女性數量增加,整體發病率自然就會降低。同理,如果將不吃藥樣本的男性數量增加,也可以擡高樣本的整體發病率。

所以,對於藥物D,科學的計算方式應該是:

①對女性而言,未服藥的發病率5%;對男性而言,未服藥的發病率30%;假設男女比例為1:1,未服藥群體的平均發病率為17.5%。

②對女性而言,服藥的發病率7.5%;對男性而言,服藥的發病率40%;假設男女比例為1:1,服藥群體的平均發病率為23.75%。

結論:吃了藥物D,群體發病率從17.5%變為23.75%。這藥有毒,不能吃。

三、吸煙者的存活率。

回到文章開篇的問題,為什麽會有這種違背常識的結論?

吸煙者的存活率是76%,不吸煙者的存活率是60%,且吸煙者比不吸煙者的平均壽命要多出20年。

問題在於數據中包含混雜因子:年齡。 我們看不到研究報告裏的底層數據,但很可能樣本中吸煙者平均年齡比不吸煙者要小。這樣壹來,吸煙者的存活率肯定要高,因為他們更年輕。就好比找100個20歲的煙民+100個90歲的不吸煙者來研究,10年後大概率100個煙民還活著,100個不吸煙者掛了90個,然後我們得出結論:不吸煙有害健康。

還記得昨天(學院來信491)的結論嗎?我們無形中會過濾掉部分樣本,比如無趣的渣男。在吸煙者的研究中,當然研究人員不會去故意制造這種極端情況,他們很可能是隨機從20歲、30歲、40歲、50歲、60歲、70歲、80歲、90歲、100歲...的人群中去選擇研究樣本。但事實上年紀越大,吸煙者與不吸煙者的比例就越失調,因為很多老煙民已經去世了,從而導致了吸煙者研究對象比不吸煙研究對象更年輕的結果。

在這個案例中, 我們只有根據年齡來進行數據分割,才能得出正確的結果:吸煙對存活率有負面影響。

①在20歲群體中,吸煙者的存活率是A%,不吸煙者的存活率是B%,

②在30歲群體中,吸煙者的存活率是C%,不吸煙者的存活率是D%,

......

四、籃球與投資。

知識需要關聯與延展。在我們生活中,還可能發生哪些類似的事情呢?

比如,籃球。

A和B同學喜歡打籃球,於是他們各找100個人單挑。

A找了50個高手和50個菜鳥,和高手單挑50場贏了5場,和菜鳥單挑50場贏了25場,總勝率30%。

B找了20個高手和80個菜鳥,和高手單挑20場贏了1場,和菜鳥單挑80場贏了32場,總勝率33%。

從勝率上看,B比A勝率高。 但從實力上來看,A比B強得多。

?

比如,投資。

和高手打球就好比勝率很低,但盈利很大的交易。

和菜鳥打球就好比勝率偏高,但盈利較低的交易。

我們該追求策略勝率,還是整體盈利呢?答案顯然是後者。

吉姆·羅傑斯將其投資經驗總結為“40敗3勝”。在其長達半個世紀的投資生涯中,羅傑斯屢屢犯錯、屢屢失敗。然而,3勝的分量,遠超40敗。只要3勝的戰果足夠大,便足以彌補40敗的損失,讓妳最終獲得巨大的收益。

“40敗3勝”背後還有壹個需要註意的問題,那就是風險控制:因為大多數人的生命中,屬於妳的3勝不大可能連續出現,每次勝利之間可能會間隔無數次的失敗,所以我們要做的是將損失控制在最低限度,這樣才可能反敗為勝。 說白了,無論是“40敗3勝”還是“80敗1勝”,其關鍵都是活下去,當勝利來臨時,我們得確保自己仍然在場。

?

五、人生的質量。

新的壹年又到了“樹目標、沖業績”的時候,我們需要認識到,對於這些目標和業績,“量”與“質”是不同的。

“量”更容易測量,比如籃球比賽的勝率、交易的勝率等。

“質”則較難衡量,比如籃球對手的水平、勝利的盈利情況等。

但社會大眾總是習慣以“量”來衡量好壞,卻忽略了生命中的“質”才是關鍵。 由此帶來的啟示是:

①如果我們像喜歡找高手單挑的A同學壹樣,選擇了壹條相對難走的路,就得做好有可能不被賞識、不被理解、不被認可的準備,因為我們的表現(勝率)會比較難看。

②如果我們是壹個能力有限的球員,要想獲得大眾認可,選擇混競爭較小的CBA可能會比去高手如雲的NBA更好,因為我們的表現(數據)會更出彩壹些。

六、結語。

The data don't lie.

數據不說謊,但收集數據和解讀數據的人會。

所以,相信數據,但別迷信專家。

祝大家生活愉快。

參考文獻:

1.Grinstead, C. M., and Snell, J. L. (1998). Introduction to Probability. 2nd rev. ed. American Mathematical Society, Providence, RI.

2.Pearl, J.(2014). Understanding Simposon's Paradox. American Statistician 88: 8-13.

  • 上一篇:亞特蘭蒂斯遺址在哪裏
  • 下一篇:妳能忍受壹個不刮腋毛的女生嗎?
  • copyright 2024編程學習大全網