當前位置:編程學習大全網 - 編程語言 - 如何度量信息的存在 為什麽信息量的大小與信息的出現概率有關

如何度量信息的存在 為什麽信息量的大小與信息的出現概率有關

為了引出後面機器學習的壹個算法——決策樹,我想先講點基礎知識,那就是信息熵。

信息是壹個比較抽象的概念,我們常說某句話信息量很大,或者某句話看不懂在說什麽。直觀上來說,信息是可以量化的。

生活中有些事情是具有不確定性的,比如說預測明天股票的漲勢。假如妳告訴我,明天世界杯足球賽要開始了,這兩者似乎沒有太大的關聯,那“世界杯足球賽開始”這條信息對於股票漲勢的信息量是很小的。但是,假如世界杯足球賽開始,大家都不關註股票了,那就沒有人坐莊,那這條信息的信息量就變大了很多。

而有些事情本來就是具有確定性的,比如太陽從東邊升起。假如妳告訴我,明天太陽會從東邊升起,那這句話就沒有什麽信息量,因為沒有什麽比這個更確定的事了。

那麽,信息量的大小和什麽有關呢?

1、可能出現的結果數量。

2、事件發生的概率。

如果壹個事件只有可能,那麽無論傳遞任何信息,都不會帶來什麽信息量。如果壹個事件發生的概率越小,事件發生所帶來的信息量就越大,反之亦然。

信息熵的定義:

假設有離散隨機變量X={x1,x2,...,Xn},設pi=P{X=xi},則有:

I(xi)表示xi的自信息量,即事件xi發生所帶來信息量的大小。H(x)為事件X的信息熵,即事件X={x1,x2,...xm}的平均信息量,熵是對信息量的壹個期望。

有了信息熵的定義,我們可以解決現實中的許多問題。比如英語中的26個英文字母,假設每個字母出現的概率是相等的,那麽其中壹個字母的自信息量大小就是:

這個公式以2為底數,對應單位為bit,表示該信息的大小需要多少位二進制數可以衡量。

而對於中文來說,我們常知道的漢子大約有7000多個,假設每個字等概率出現,我們大約需要13個比特來表示壹個漢字。但由於每個漢字的使用出現的頻率是不壹樣的,有些常用的詞類似“的”出現的頻率很高,即使這樣每個漢字的信息熵也要 8-9 個比特信息。

這也是為什麽英文書翻譯成中文,總是厚厚的壹本。

用公式來解決具體實際問題——稱小球問題。

問題:有10個小球,其中有壹個小球偏重,用壹個天平,需要至少用多少次天平才能把小球找出來?

這個問題大家也比較熟悉,現在我們利用信息熵公式來解決這種問題。

(1)每次使用天平,都會有三種可能性,左偏,右偏和平衡。而且這三種情況的概率是相等得,即每次使用天平可以得到log3的信息量。

(2)要從10個小球中,取出偏重的小球,每個小球都是等概率的,所以這個事件所攜帶的信息量是log10。

答案是我們最少需要log10/log3(約等於2.09),所以至少需要3次。

  • 上一篇:口腔科護士簡歷範文
  • 下一篇:“枸杞哥”安德魯維金斯——他真的能成為勇士復興的二當家嗎
  • copyright 2024編程學習大全網