Unicode與編碼方式

Unicode可以表示世界上的每壹個字符，每壹個字符都有相應並且唯壹的二進制編碼。Unicode是壹種字符集，讓幾乎所有語言中的每個字符都和壹個 唯壹數字 對應起來。

/4F60/

Unicode 是為了解決傳統的字符編碼方案的局限而產生的， 它為每種語言中的每個字符設定了統壹並且唯壹的二進制編碼 ，以滿足跨語言、跨平臺進行文本轉換、處理的要求。也就是說世界上的任意壹個字符，無論何種語言，都能在Unicode字符集中找到其對應的二進制編碼。

Unicode的表現方式是U+XXXXXX，X代表壹位十六進制數，可以有4-6位，不足 4 位前補 0 補足 4 位，超過則按是幾位就是幾位。

字符A的ASCII碼是65，將65轉換成16進制就是41（16×4+（16^0)×1 = 65）,按照規則前面補0，那麽字符A的Unicode表示就是U+0041，依次類推B的Unicode表示就是U+0042...等等，漢字"愛"的字符表示是“U+7231”

常見的編碼方式有 UTF-8 , UTF-16 , GB2312 , GBK，它們都只是壹種編碼方式，每種編碼有自己的規則。

UTF-8是壹種非常通用的 可變長 字符編碼方式，範圍由1-4個字節不等。

UTF-16通常由2字節或者4字節表示壹個字符，U+000~U+FFFF的範圍內用2個字節表示。

U+10000~U+10FFFF的範圍內用4個字節表示。

GB2312，每個漢字及符號以兩個字節來表示，兼容ASCII碼，GB 2312標準***收錄6763個漢字，其中壹級漢字3755個，二級漢字3008個；同時，GB 2312也收錄了許多其他語音的文字及符號。它所收錄的漢字已經覆蓋中國大陸99.75%的使用頻率，對於人名、古漢語等方面出現的罕用字，GB 2312不能處理，這導致了後來 GBK 及GB 18030漢字字符集的出現。

GBK 向下與 GB 2312 編碼兼容，向上支持 ISO 10646.1 國際標準，是前者向後者過渡過程中的壹個承上啟下的產物。GBK編碼，是在 GB2312-80 標準基礎上的內碼擴展規範，使用了雙字節編碼方案，其編碼範圍從8140至FEFE（剔除xx7F），***23940個碼位，***收錄了21003個漢字，完全兼容 GB2312-80 標準

在JavaScript中，所有的string類型都是使用UTF-16編碼的，形如 '\u00A9' 或者 '\uD87E\uDC04' ，詳情參考MDN文檔 Lexical_grammar 。

所以JS中，將字符轉換成Unicode如下：

用通信理論的思路可以理解為:

unicode是信源編碼，對字符集數字化。

utf-8是信道編碼，為更好的存儲和傳輸。

壹個很簡單的例子：

壹個用GBK編碼的文件，我如果以UTF-8來解碼的話，打開就會是壹片亂碼。

再比如：

當然mata也可能會失效，如圖

參考

Unicode中UTF-8與UTF-16編碼詳解

UTF-8與Unicode的區別