如何度量信息的存在為什麽信息量的大小與信息的出現概率有關

為了引出後面機器學習的壹個算法——決策樹，我想先講點基礎知識，那就是信息熵。

信息是壹個比較抽象的概念，我們常說某句話信息量很大，或者某句話看不懂在說什麽。直觀上來說，信息是可以量化的。

生活中有些事情是具有不確定性的，比如說預測明天股票的漲勢。假如妳告訴我，明天世界杯足球賽要開始了，這兩者似乎沒有太大的關聯，那“世界杯足球賽開始”這條信息對於股票漲勢的信息量是很小的。但是，假如世界杯足球賽開始，大家都不關註股票了，那就沒有人坐莊，那這條信息的信息量就變大了很多。

而有些事情本來就是具有確定性的，比如太陽從東邊升起。假如妳告訴我，明天太陽會從東邊升起，那這句話就沒有什麽信息量，因為沒有什麽比這個更確定的事了。

那麽，信息量的大小和什麽有關呢？

1、可能出現的結果數量。

2、事件發生的概率。

如果壹個事件只有可能，那麽無論傳遞任何信息，都不會帶來什麽信息量。如果壹個事件發生的概率越小，事件發生所帶來的信息量就越大，反之亦然。

信息熵的定義：

假設有離散隨機變量X={x1,x2,...,Xn}，設pi=P{X=xi}，則有：

I(xi)表示xi的自信息量，即事件xi發生所帶來信息量的大小。H(x)為事件X的信息熵，即事件X={x1,x2,...xm}的平均信息量，熵是對信息量的壹個期望。

有了信息熵的定義，我們可以解決現實中的許多問題。比如英語中的26個英文字母，假設每個字母出現的概率是相等的，那麽其中壹個字母的自信息量大小就是：

這個公式以2為底數，對應單位為bit，表示該信息的大小需要多少位二進制數可以衡量。

而對於中文來說，我們常知道的漢子大約有7000多個，假設每個字等概率出現，我們大約需要13個比特來表示壹個漢字。但由於每個漢字的使用出現的頻率是不壹樣的，有些常用的詞類似“的”出現的頻率很高，即使這樣每個漢字的信息熵也要 8-9 個比特信息。

這也是為什麽英文書翻譯成中文，總是厚厚的壹本。

用公式來解決具體實際問題——稱小球問題。

問題：有10個小球，其中有壹個小球偏重，用壹個天平，需要至少用多少次天平才能把小球找出來？

這個問題大家也比較熟悉，現在我們利用信息熵公式來解決這種問題。

（1）每次使用天平，都會有三種可能性，左偏，右偏和平衡。而且這三種情況的概率是相等得，即每次使用天平可以得到log3的信息量。

（2）要從10個小球中，取出偏重的小球，每個小球都是等概率的，所以這個事件所攜帶的信息量是log10。

答案是我們最少需要log10/log3（約等於2.09），所以至少需要3次。

如何度量信息的存在 為什麽信息量的大小與信息的出現概率有關