輸入並執行神奇的命令%matplotlib inline,並刪除圖例邊框。
數據集介紹:
這個數據集的特征包括美國的49個州,它們的區域,統計年,統計月,平均日照,平均日最高氣溫,平均日最高熱指數(平均日最高熱指數),平均日降雨量(平均日降雨量)和平均日地表溫度(Avg日地表溫度)。
每個特性的年間隔是:
導入數據並查看前5行。
篩選美國主要地區的主要氣候指數,通過sns.distplot接口繪制指數分布圖。
根據運行結果:
美國各地的日照分布趨勢大致相同,有兩個明顯的峰值(強光照和弱光照)。這是因為非赤道國家受地球公轉的影響,四季光照強度會呈現壹定的周期性變化規律;
從地理位置可以看出,東北地區的光槽明顯低於其他三個地區;
美國各地日平均最高氣溫差異較大,東北部和中西部的趨勢大致相同,氣溫平臺期較長,峰值顯著。西部地區溫和期最長,全年最高氣溫相對穩定;南方的分布相對更集中;
日平均陸面溫度與最高氣溫相近,不同的是其低溫區分布較少。
西部最大熱指數的分布與中西部地區壹致,氣溫溫和,熱指數東北高,南方低;
西部降雨量明顯較小,南部和東北部大致相同,中西部地區相對較多。
結合地理知識做壹個總結:
東北和中西部大部分地區屬溫帶大陸性氣候,四季分明,夏季悶熱,雨量較多。
西部屬於溫帶地中海氣候,全年氣候溫和,幹燥少雨,夏季氣候溫和,最高氣溫相對穩定。
在南部沿海,氣候全年溫暖,夏季炎熱,雨水充沛。
按月計算美國各地區降雨量的平均值和標準差,以平均值壹倍的標準差繪制各地區降雨量誤差圖。
根據運行結果:
夏季大部分月份,西部地區的降雨量比其他地區少很多;
中國西部冬季月降雨量高於夏季。
中西部地區屬於典型的溫帶大陸性氣候,秋冬季降雨量減少,春夏季降雨量增加。
南部地區傾向於海洋性氣候,年降雨量相對平均。
妳需要安裝joypy軟件包。
日平均最高氣溫變化趨勢
通過joypy包的joyplot接口,可以繪制具有疊加效應的垂直分布曲線,每四年繪制壹次日平均最高氣溫1980-2008,標註25%和75%分位數。
根據運行結果:
1980-2008年期間,美國日平均最高氣溫分布的低溫區逐漸增加,高溫區逐漸減少,分布趨於更加集中;
1980-2008年期間,美國日平均最高氣溫的25%分位數和75%分位數有壹點偏差,但不明顯。
日平均降雨量變化趨勢
以同樣的方式處理降雨數據並檢查輸出結果。
篩選出加州和紐約的日平均降雨量數據,通過plt.hist接口繪制降雨量月分布圖。
根據運行結果:
加州降雨量多集中在0-1 mm範圍內,很少有暴雨。相比之下,紐約雨量充沛,日平均降雨量分布在2-4毫米的範圍內
直方圖在累積效應下會被大部分細節覆蓋,表達聚集和分散效應的箱線圖在這類問題中可能是更好的選擇。
通過sns.boxplot界面繪制加州和紐約月降雨量分布的箱線圖。
從箱線圖上可以清楚的對比出兩個州每個月的降雨量分布,可以看出集中的程度。比如加州7月份的降雨量集中在0.1-0.5毫米的狹窄範圍內,說明這個時候不會有什麽暴雨;我們也可以看到離散的情況。比如1月份的加州,箱線圖的箱型部分分布較廣,其上方約10 mm處有壹個離散點,說明此時加州可能會出現偶發性暴雨。
視覺上,擺動誤差折線圖更美觀簡潔。在“全美降雨量月分布”實驗中,所有類別標簽的X位置都放在同壹個地方,導致誤差線高度重疊。通過調整X坐標位置,可以緊湊地排列要比較的序列。
從輸出結果可以看出,加州冬季降雨的不確定性更強。每年11月至次年3月有強降雨現象,雨量多而少(誤差線長)。
以上實驗都是在研究單個變量的分布,但往往,我們想知道任意兩個變量的聯合分布有什麽特征。
核密度估計是研究這類問題的主要方法之壹。sns.kdeplot接口通過高斯核函數計算兩個變量的核密度函數,並以等高線的形式繪制核密度。
根據運行結果:
高溫區和少雨期(高溫少雨夏季)加州有明顯的高密度分布區;
紐約州高溫區和低溫區都有壹個高密度分布區,不同溫度區的降雨量分布比較均勻。
通過plt.hist2d界面可視化美國各地的降雨量和氣溫。
根據運行結果:
美國最高密度日平均高溫區和降雨區分別約為78°F(約25°C)和2.2 mm,屬於相對舒適的生活氣候區。
全美國降雨量和氣溫的關系——核密度估算
在上述實驗的基礎上,通過sns.rugplot接口分別在X軸和Y軸上繪制核密度估計的壹維分布圖,可以在壹個繪圖平面上同時得到聯合分布和單變量分布的特征。
美國各地降雨量和氣溫的關系——分散分布和直線分布
Sns.jointplot接口通過網格以子圖的形式繪制單變量分布,通過散點圖展示雙變量關系,也是展示數據分布的好方法。
上面兩個實驗研究了二元分布的可視化,下面研究三個變量聚合結果的可視化。
通過sns.heatmap接口可以實現透視數據的可視化。其原理是對透視結果的值賦予不同的色塊來可視化其值,並通過色條工具量化其值。
以上兩個實驗直觀地呈現了各州日最高氣溫中值隨年份的變化趨勢,從圖中看並無明顯變化。
讓我們用t檢驗的方法來檢驗統計上是否有顯著差異。Stats.ttest_ind接口可以輸出1980和2010中主要氣候指標的顯著性檢驗統計量和P值。
從運行結果可以看出:
檢驗結果否定了原來的降雨量相等的假設,即美國的降雨量在1980和2010之間是不同的,沒有否定原來的日平均日照和日平均最高氣溫相等的假設,說明氣溫沒有明顯變化。