當前位置:編程學習大全網 - 編程語言 - ‘數據的真相:如何在數字時代做出明智決策’筆記

‘數據的真相:如何在數字時代做出明智決策’筆記

位於休斯頓的喬治·布什國際機場領導層接到了有關乘客行李達到時間過長的投訴。因此他們把取行李處轉移到了離出站口很遠的地方。旅客於是把時間都花在了走路上——而不是等行李上,投訴量減少了,因為人們覺得拿行李的時間縮短了。

在這個由數據驅動的世界,妳並不總能了解到底是什麽在驅動數據。

在數據分析中,使用樣本對總體進行估算是壹個常用的手段。但妳必須非常小心,因為哪怕很小的錯誤都會迅速放大 。因此有兩類問題應引起重視。

外延有效性 ,即把從樣品中得出的結論加以推廣,從而得出對整個數據總體有意義的結論。

某期刊上有文章指出:“人類行為學家總是循環往復地在世界頂級期刊上發表有關人類心理、行為的概括性論斷,而這些論斷全都是從西方的、教育程度高的、工業化的、富有的、民主的(前五個詞的英文首字母縮寫為 weird ,意為怪誕)社會中抽樣。”

數據合計的方式會掩飾重要的不同點。 例如以州為單位的合計數據使得得克薩斯州成為壹個紅色州,而以縣為單位的合計數據使得得克薩斯州的壹些縣呈藍色。

如果排除了壹個數據值,導致結果產生了巨大的變化,那這個數據值很可能是 離群值 。在壹個良好的統計模型中,應該能夠任意排除壹個數據,統計結果不會因之發生顯著變化。

遺漏變量 :在壹種關系中起作用,但是可能被忽視或者被排除掉的變量。遺漏變量是關聯性不等於因果性的主要原因之壹。

虛假變量

從星巴克旁邊的房子價格高這個例子中,我們了解到兩組變量之間存在關系。

“在過去,書籍和搜索引擎還沒有發明之前,找出原因和影響對於我們的生存至關重要,”弗裏德曼指出,“我們的大腦通過進化,變得善於尋找秩序、預測事情發展。我們無法控制這個過程——我們會處處尋找聯系,即使聯系並不存在。”......“我們腦中仿佛有這樣的程序——揭示事件之間的聯系,解讀偶然事件,將其作為存在因果關系的證據,當某件事起因不明的時候,我們會自然而然想要填補這個空白,人為地加上原因。”

實證性偏見 是壹種通過解讀數據來支撐自己先入為主觀念的傾向。在研究關聯性和因果性的時候,實證性偏見是有些人忽略遺漏變量的壹大原因,因為他們憑借先入為主的觀念,而非基於真實的證據,把兩件事時間的關聯性當成了因果性。

顯著性差異 是科學家和學者設定的客觀標準,用來確定“從統計學角度來看”某個特定的關系是否存在於數據中。科學家通過檢驗顯著性差異以辨別觀察到的效應是否在數據中有所體現(存在很大可能性),或僅僅出於巧合。 (有壹點很重要,即找到顯著性差異並不能告訴我們某種關系是關聯性的還是因果性的,同時也不能告訴我們是否存在遺漏變量影響著最終結果。)

顯著性差異通常會用 P值 來衡量。P值越小,妳觀察到的結果僅僅出於巧合的概率就越低。衡量顯著性差異時,普遍為人所接受的P值為 小於0.05(相當於5%可能性)

觀察樣本總會存在壹定的不確定性。用統計學術語說,這種現象叫作 樣本誤差 。樣本誤差體現了妳的樣本有著多大的不確定性。樣本誤差之所以存在,是因為並非所有的樣本都是相同的。哪怕妳從同壹個數據總體取了兩個相同大小的樣本,依然可能得到不同的結果。

置信區間 越大,區間內包含(整個數據總體中的)真實值的可能性越大。 置信水平 通常以百分數形式出現,表示樣本包含真實值的概率有多大。

單單因為無法證明某事發生,並不意味著某事就沒有發生。哪怕妳沒有聽見(或看見)樹林裏有樹倒下,樹依然有可能倒下了。

壹個關於世界地圖的有趣例子說明歪曲數據的情況幾乎出現在生活的方方面面!

麥卡托的世界地圖專為壹件事情而繪制:幫助船員更為準確地繪制航線。若船只在某壹航線上沒有改變航向,那麽該航道就用直線表示,這種新穎的方法使得船長在運送貨物時更加輕松自如。 對於麥卡托來說,這種繪圖技術需要壹定的技巧,因為船員在立體地球表面的航行路線不能自動地轉化成平面地圖上的直線。不過麥卡托做到了,並因此名利雙收。 遺憾的是,新版地圖在協助船員海上作業的同時,嚴重歪曲了全球陸地和國家的面積。船員為了獲取直行航線要付出極大的代價,原因在於,麥卡托幾乎歪曲了地圖上所有陸地的面積。更糟糕的是,這種歪曲並不均衡:陸地距離赤道越遠,歪曲程度越嚴重。

在麥卡托地圖上,格陵蘭島看起來似乎和非洲壹樣大。然而,事實並非如此,二者實際上相差甚遠。從面積上看,非洲面積幾乎是格陵蘭島的14倍,然而非洲位於赤道(因此,歪曲程度較小),由於格陵蘭島大部分區域都在北極圈之內,所以,在麥卡托地圖上,格陵蘭島的目測面積要比實際面積大得多。麥卡托地圖縮小了非洲大陸實際面積,有意或者無意地影響了人們從地緣、歷史、政治等層面看待陸地的思維方式……

增刪文字也是常見的曲解數據的手法。例如

仔細玩味以下句子: 22%的鯊魚攻擊事件是致命的。 僅有22%的鯊魚攻擊事件是致命的。 加上“僅有”(only)壹詞,我們就不會很重視其後的數據——這是歪曲數據的另壹手段。正如勞動局的統計員所闡釋的,“僅有”壹詞激發了壹種對某些與眾不同的事物的不切實際的期待。

下面是壹些直接摘自美國農業部的網站的

參考資料:

因為這三種類型日期——三者都不是真正的保質期——人們很容易對隱藏在數據背後的含義困惑不解。實際上,根據美國自然資源保護委員會(NRDC)引自食品營銷協會的研究結果來看,對日期的困惑“致使90%的美國人扔掉了本不該扔的食品”。

所謂“保質期”這壹說法在小數據領域為人們上了精彩的壹課,因為它闡明了解數據所代表的含義有多重要。食品制造商沒有歪曲“保質期”,但是人們理解數據的方式則可能使很大壹部分預算付諸東流。

摘櫻桃法則 意味著妳從數據中挑選吸引人眼球的例子來證明自己的觀點,同時無視那些可能跟自己觀點相悖的數據。

“摘櫻桃”壹詞源於人們伸手從樹上采摘櫻桃這壹肢體動作。[1]設想壹下妳在櫻桃園裏,站在梯子上,手裏提著桶,為的是摘下滿滿壹桶能夠在市場上銷售的櫻桃。這樣妳會略去被碰傷或未成熟的那些,只摘下色澤最佳的裝滿整個桶。

假設有壹家小餐館,從中午到晚上都營業。某壹天,餐館老板每逢整點就數壹下就餐人數,得出以下數據:

上午11點——2人

中午12點——25人

下午1點——30人

下午2點——3人

下午3點——0人

下午4點——2人

下午5點——28人

下午6點——35人

晚上7點——5人

晚上8點——3人

次日,壹位有意盤下這家店的人來到店裏,想了解壹下生意怎樣。“非常棒,”老板說道,“中午及晚上時間全部滿員——隊都排到門外面去了!”那人離開了,準備出高價盤下這家小餐館。

過了壹會兒,餐館的房東走過來,告訴餐館老板她要漲壹倍房租。“您行行好吧!”老板說,“餐館大部分時間連個人影都看不到!”

當然,兩種說法百分之百都是真的——但也百分之百都對數據做了篩選。如果妳只看中午、晚上就餐高峰期的數據,餐館座無虛席;若妳只看中午和晚上之間的時段,餐館幾乎空無壹人。同樣的數據——篩選出的不同的樣本——也就帶來了極其不同的結果。

記住:如果妳在任意選擇妳想要的數據來支撐自身觀點,那妳可能就是在篩選數據。

預測建立在壹個看似簡單的問題之上:立足過去,我們能預知未來嗎?只是這個問題壹點都不簡單。

預測誤差跟抽樣誤差是兩回事。

  • 上一篇:冰河(木馬)的控制篇
  • 下一篇:華人原創大賽是什麽?
  • copyright 2024編程學習大全網