當前位置:編程學習大全網 - 圖片素材 - 什麽是GBK字符集

什麽是GBK字符集

分類: 教育/科學 >> 學習幫助

問題描述:

僅僅就GBK字符集進行名詞解釋,有何作用,優缺點,產生的時間原因

解析:

GBK 是又壹個漢字編碼標準,全稱《漢字內碼擴展規範》(GBK),英文名稱 Chinese Internal Code Specification ,中華人民***和國全國信息技術標準化技術委員會 1995 年 12 月 1 日制訂,國家技術監督局標準化司、電子工業部科技與質量監督司 1995 年 12 月 15 日聯合以技監標函 [1995] 229 號文件的形式,將它確定為技術規範指導性文件,發布和實施。這壹版的 GBK 規範為 1.0 版。GB 即“國標”,K 是“擴展”的漢語拼音第壹個字母。

GBK 向下與 GB 2312 編碼兼容,向上支持 ISO 10646.1 國際標準,是前者向後者過渡過程中的壹個承上啟下的標準。

ISO 10646 是國際標準化組織 ISO 公布的壹個編碼標準,即 Universal Multilpe-Octet Coded Character Set(簡稱 UCS),大陸譯為《通用多八位編碼字符集》,臺灣譯為《廣用多八位元編碼字元集》,它與 Unicode 組織的 Unicode 編碼完全兼容。ISO 10646.1 是該標準的第壹部分《體系結構與基本多文種平面》。我國 1993 年以 GB 13000.1 國家標準的形式予以認可(即 GB 13000.1 等同於 ISO 10646.1)。

ISO 10646 是壹個包括世界上各種語言的書面形式以及附加符號的編碼體系。其中的漢字部分稱為“CJK 統壹漢字”(C 指中國,J 指日本,K 指朝鮮)。而其中的中國部分,包括了源自中國大陸的 GB 2312、GB 12345、《現代漢語通用字表》等法定標準的漢字和符號,以及源自臺灣的 CNS 11643 標準中第 1、2 字面(基本等同於 BIG-5 編碼)、第 14 字面的漢字和符號。

壹、字匯

GBK 規範收錄了 ISO 10646.1 中的全部 CJK 漢字和符號,並有所補充。具體包括:

1. GB 2312 中的全部漢字、非漢字符號。

2. GB 13000.1 中的其他 CJK 漢字。以上合計 20902 個 GB 化漢字。

3. 《簡化字總表》中未收入 GB 13000.1 的 52 個漢字。

4. 《康熙字典》及《辭海》中未收入 GB 13000.1 的 28 個部首及重要構件。

5. 13 個漢字結構符。

6. BIG-5 中未被 GB 2312 收入、但存在於 GB 13000.1 中的 139 個圖形符號。

7. GB 12345 增補的 6 個拼音符號。

8. 漢字“○”。

9. GB 12345 增補的 19 個豎排標點符號(GB 12345 較 GB 2312 增補豎排標點符號 29 個,其中 10 個未被 GB 13000.1 收入,故 GBK 亦不收)。

10. 從 GB 13000.1 的 CJK 兼容區挑選出的 21 個漢字。

11. GB 13000.1 收入的 31 個 IBM OS/2 專用符號。

二、碼位分配及順序

GBK 亦采用雙字節表示,總體編碼範圍為 8140-FEFE,首字節在 81-FE 之間,尾字節在 40-FE 之間,剔除 xx7F 壹條線。總計 23940 個碼位,***收入 21886 個漢字和圖形符號,其中漢字(包括部首和構件)21003 個,圖形符號 883 個。

全部編碼分為三大部分:

1. 漢字區。包括:

a. GB 2312 漢字區。即 GBK/2: B0A1-F7FE。收錄 GB 2312 漢字 6763 個,按原順序排列。

b. GB 13000.1 擴充漢字區。包括:

(1) GBK/3: 8140-A0FE。收錄 GB 13000.1 中的 CJK 漢字 6080 個。

(2) GBK/4: AA40-FEA0。收錄 CJK 漢字和增補的漢字 8160 個。CJK 漢字在前,按 UCS 代碼大小排列;增補的漢字(包括部首和構件)在後,按《康熙字典》的頁碼/字位排列。

2. 圖形符號區。包括:

a. GB 2312 非漢字符號區。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符號外,還有 10 個小寫羅馬數字和 GB 12345 增補的符號。計符號 717 個。

b. GB 13000.1 擴充非漢字區。即 GBK/5: A840-A9A0。BIG-5 非漢字符號、結構符和“○”排列在此區。計符號 166 個。

3. 用戶自定義區:分為(1)(2)(3)三個小區。

(1) AAA1-AFFE,碼位 564 個。

(2) F8A1-FEFE,碼位 658 個。

(3) A140-A7A0,碼位 672 個。

第(3)區盡管對用戶開放,但限制使用,因為不排除未來在此區域增補新字符的可能性。

三、字形

GBK 對字形作了如下的規定:

1. 原則上與 GB 13000.1 G列(即源自中國大陸法定標準的漢字)下的字形/筆形保持壹致。

2. 在 CJK 漢字認同規則的總框架內,對所有的 GBK 編碼漢字實施“無重碼正形”(“GB 化”);即在不造成重碼的前提下,盡量采用中國新字形。

3. 對於超出 CJK 漢字認同規則的、或認同規則尚未明確規定的漢字,在 GBK 碼位上暫安放舊字形。這樣,在許多情況下 GBK 收入了同壹漢字的新舊兩種字形。

4. 非漢字符號的字形,凡 GB 2312 已經包括的,與 GB 2312 保持壹致;超出 GB 2312 的部分,與 GB 13000.1 保持壹致。

5. 帶聲調的拼音字母取半角形式。

  • 上一篇:word通配符
  • 下一篇:360buyimg是什麽網站
  • copyright 2024編程學習大全網