字符(Character)是各種文字和符號的總稱,包括各國家文字、標點符號、圖形符號、數字等。字符集(Character set)是多個字符的集合,字符集種類較多,每個字符集包含的字符個數不同,常見字符集名稱:ASCII字符集、GB2312字符集(簡體中文)、BIG5字符集(繁體中文)、 GB18030字符集(亞洲字符集合)、Unicode( 常用 UTF-8) 字符集等。
Informix GLS 語言環境對常用的字符集進行了命名及內部編碼(采用 16 進制編碼)管理。通過服務器端的文件:$InformixDIR/gls/cm3/registry 查看 GLS 字符名稱、編碼對照表。示例如下:
字符集名稱 編碼 十六進制編碼
8859-1 819 # 0x0333
gb 57357 # 0xe00d
GB2312-80 57357 # 0xe00d
utf8 57372 # 0xe01c
big5 57352 # 0xe008
GB18030-2000 5488 # 0x1570
GLS 環境中不同字符集名稱可能對應同壹個字符集編碼,但壹個字符集只能有壹個編碼,也就是說字符集編碼才是唯壹的。
GLS
環境中按照語言和地區把所支持的字符集分成不同的目錄。$InformixDIR/gls/lc11/ 語言 _ 地區
/,如中文大陸地區的目錄為:$InformixDIR/gls/lc11/zh_cn/,該目錄下有如下兩個文件:1570.lco e00d.lco
,說明我們在設置字符集時,我們可以使用 zh_cn.GB18030-2000 zh_cn.gb zh_cn.GB2312-80
三個不同的名稱。這裏(zh_cn.gb 與 zh_cn.GB2312-80 對應相同的字符集)。
GLS
環境中不同的字符集可以正確的進行轉換,查看那些字符集可以正確轉換的方法,查看目錄 $InformixDIR/gls/cv9
目錄下的是否存在指定字符集互相轉換的文件。如該目錄下有文件 e01ce00d.cvo 和 e00de01c.cvo 兩個文件,表示 GLS
通過這兩個轉換文件支持 UTF-8 與 GB 之間的字符轉換。
Informix 通過 DB_LOCALE 和 CLIENT_LOCALE 來設置數據庫的語言本地化支持設置。DB_LOCALE 和 CLIENT_LOCALE 的值由四部分組成 ( 第 4 部分為可選 ),字符集不區分大小寫。
1 2 3 4
< 語言 >_< 國家和地區 >.< 字符集名 / 字符集編碼 >[@modifier]
舉例說明 :
CLIENT_LOCALE=en_us.8859-1
CLIENT_LOCALE=en_us.819
# 以上兩個為同壹字符集:819 為 8859-1 的編碼
DB_LOCALE=zh_cn.gb
回頁首
GLS 字符集工作原理
Informix 數據庫服務器端、客戶端字符集的工作原理示意圖見圖 1。
圖 1. IDS GLS 字符集處理過程示意圖
DB_LOCALE 環境變量用途
在客戶機應用程序和數據庫服務器交換字符數據時,如果 DB_LOCALE 環境變量(在客戶機計算機上)的值與 CLIENT_LOCALE 的值不同,客戶機應用程序將執行代碼集轉換。 代碼集轉換防止這兩種代碼集不同時發生數據破壞。
在客戶機應用程序請求連接時,它將包括 DB_LOCALE(如果已設置)的信息發送至數據庫服務器。
在確定如何設置服務器處理語言環境的數據庫信息時,數據庫服務器使用 DB_LOCALE。
在客戶機應用程序嘗試打開數據庫時,數據庫服務器將客戶機應用程序傳遞的 DB_LOCALE 環境變量的值與數據庫中存儲的數據庫語言環境進行比較。
當數據庫服務器存取與語言環境相關的數據類型的列時,數據庫服務器使用 DB_LOCALE 指定的語言環境。
當數據庫服務器創建新數據庫時,它將檢查數據庫語言環境(DB_LOCALE),以確定如何在數據庫的系統目錄中存儲字符信息。此信息包括諸如如何處理正則表達式、比較字符串以及確保代碼集的正確使用的操作。
CLIENT_LOCALE 環境變量用途
在客戶機應用程序和數據庫服務器交換字符數據時,如果 CLIENT_LOCALE 環境變量的代碼集與 DB_LOCALE(在客戶機計算機上)的代碼集不同,客戶機應用程序將執行代碼集轉換。代碼集轉換防止這兩種代碼集不同時發生數據破壞。
在客戶機應用程序請求連接時,它將包括 CLIENT_LOCALE 的信息發送至數據庫服務器。
在確定如何設置服務器處理語言環境的客戶機應用程序信息時,數據庫服務器將使用 CLIENT_LOCALE。
在 Informix ESQL/C 的預處理器處理源文件時,它接受以 CLIENT_LOCALE 的代碼集編寫的 C 源代碼。 在
Informix ESQL/C 客戶機應用程序執行時,將檢查 CLIENT_LOCALE
以獲得客戶機語言環境的名稱,該語言環境將對操作系統文件名、文本文件的內容以及日期、時間和數字數據的格式產生影響。
在數據庫實用程序創建文件時,文件名和文件內容位於 CLIENT_LOCALE 指定的代碼集中。在查找特定於產品的消息文件時,客戶機應用程序將檢查與客戶機語言環境關聯的消息目錄。
四個語言環境的含義
客戶機語言環境— Client locale
客戶機語言環境指定客戶機應用程序用於執行讀和寫(I/O)操作的語言、地域和代碼集。在客戶機應用程序中,I/O
操作包括讀取鍵盤輸入或要發送至數據庫的數據文件,以及將數據庫服務器從數據庫中檢索的數據寫入屏幕、文件或打印機。 通過 CLIENT_LOCALE
來設置客戶機語言環境。
數據庫語言環境— Database locale
通過 DB_LOCALE 環境變量設置的數據庫語言環境指定數據庫服務器用於正確解釋特定數據庫中語言環境相關的數據類型(NCHAR 和
NVARCHAR)所需的語言、地域和代碼集。DB_LOCALE
中指定的代碼集確定哪些字符在任何字符列中都是有效的,並且確定數據庫對象(如數據庫、表、列和視圖)的名稱。數據庫服務器使用 DB_LOCALE
環境變量指定的數據庫代碼集將數據傳入和傳出數據庫。
服務器語言環境— Server locale
數據庫服務器使用 SERVER_LOCALE 環境變量指定的服務器代碼集寫文件(如調試和警告文件)。但是,數據庫服務器不使用服務器語言環境來寫入采用 Informix 專用格式的文件(數據庫和表文件)。
服務器處理語言環境— Server processing locale
數據庫服務器使用數據庫語言環境的代碼集作為服務器處理語言環境的代碼集 , 使用服務器處理語言環境來寫入采用 Informix
專用格式的文件(數據庫和表文件)。也就是說數據庫服務器使用數據庫語言環境(DB_LOCALE)來寫入采用 Informix
專用格式的文件(數據庫和表文件)。
建立數據庫連接過程
在客戶機應用程序請求與數據庫的連接時,數據庫服務器使用 GLS 語言環境執行以下步驟。
客戶機應用程序發送語言環境信息到數據庫服務器。
CLIENT_LOCALE( 未設置將采用默認 en_us.819);
DB_LOCALE( 未設置則不發送 )。
驗證是否能夠在客戶機應用程序及其請求的數據庫之間建立連接。
對比如下兩個語言環境:
匹配,則建立連接。
不匹配,提示無法連接到數據庫。或者可以繼續進行這樣的連接,但是數據庫服務器可能會不正確地解釋它從客戶機接收到的數據,那麽只能靠自己來理解交換中數據的格式。
由客戶機應用程序發送的 DB_LOCALE 指定的語言環境;
存儲在請求數據庫的系統目錄中的數據庫語言環境。
確定服務器處理語言環境,按如下順序確定服務器處理語言環境:
使用客戶機定義的 DB_LOCALE;
數據庫語言環境中的環境變量 DB_LOCALE。
執行代碼集轉換
在客戶機 / 服務器環境中,如果客戶機或服務器計算機使用不同的代碼集來表示相同的字符,那麽需要將字符數據從壹種代碼集轉換為另壹種代碼集。如果不進行代碼集轉換,那麽壹臺計算機無法正確地處理或顯示源自另壹臺計算機的字符數據(在這兩臺計算機使用不同的代碼集時)。
何時執行代碼集轉換
只有在兩個代碼集(客戶機和服務器處理語言環境,或服務器處理語言環境和服務器)不同時,應用程序才必須使用代碼集轉換。以下情況是代碼集不同的可能原因:
不同的操作系統可能以不同的方式對同壹字符進行編碼。
如果客戶機語言環境和數據庫語言環境指定不同的代碼集,客戶機應用程序將執行代碼集轉換以便服務器計算機不會裝入此類型的處理。
如果服務器語言環境和服務器處理語言環境指定不同的代碼集,數據庫服務器將在寫入和讀取操作系統文件(如日誌文件)時執行代碼集轉換。該轉化不涉及到數據庫數據的問題。
在圖 1 中,黑點表示在客戶機 / 服務器環境中可能發生代碼集轉換的兩個時刻。
客戶機應用程序代碼集轉換
當以下兩個條件都為真時,客戶機應用程序自動在客戶機和數據庫代碼集之間執行代碼集轉換:
客戶機和數據庫語言環境的代碼集不匹配。
客戶機和數據庫代碼集之間的轉換存在有效的目標代碼集轉換。
客戶機應用程序開始執行時,它會比較客戶機和數據庫語言環境的名
稱,以確定是否執行代碼集轉換。如果設置了 CLIENT_LOCALE 和 DB_LOCALE
環境變量,那麽客戶機應用程序使用這些語言環境名稱來分別確定客戶機和數據庫的代碼集。如果未設置 CLIENT_LOCALE(且未設置
DBNLS),那麽客戶機應用程序假定客戶機語言環境為缺省語言環境。如果未設置 DB_LOCALE(且未設置
DBNLS),那麽客戶機應用程序假定數據庫語言環境與客戶機語言環境(CLIENT_LOCALE 設置的值)相同。
如果客戶機和數據庫代碼集相同,那麽無需進行代碼集轉換。但是,如果代碼集不匹配,客戶機應用程序必須確定這兩個代碼集是否可轉換。如果客戶機可以找到關聯的代碼集轉換文件,那麽兩個代碼集是可轉換的。這些代碼集轉換文件必須存在於客戶機計算機上。
舉例說明:
客戶機應用程序:CLIENT_LOCALE=en_us.1252 DB_LOCALE=en_us.8859-1
客戶機應用程序確定它必須在 Windows 代碼頁 1252(客戶機語言環境中)和
ISO8859-1 代碼集(數據庫語言環境中)之間執行代碼集轉換。
若鏈接具有 GB(zh_cn.gb) 語言環境的數據庫,那麽數據庫將設置 SQLWARN 警告,原因是語言、地區和代碼
集不同。客戶機應用程序將不正確地執行代碼集轉換。
它將繼續在 Windows 代碼頁 1252 和 ISO8859-1 之間,而不是在 Windows 代碼頁 1252 和 zh_cn.gb 之間進行
轉換。這種情況可能會導致數據破壞。應用程序將不會繼續此鏈接。
回頁首
設置字符集
Informix 通過 DB_LOCALE 和 CLIENT_LOCALE 來設置數據庫的語言本地化支持設置。
數據庫服務端
在創建數據庫時(為了統壹系統數據庫與應用數據庫的字符集,在創建數據庫實例時),請按如下步驟設置數據庫的 DB_LOCALE 值。
1. 設置環境變量 DB_LOCALE
set DB_LOCALE=zh_cn.gb
2. 創建數據庫 create database dbname
3. 驗證當前數據庫字符集
SELECT dbs_collate FROM sysmaster:sysdbslocale
WHERE dbs_dbsname = ‘ dbname ’
客戶端
當我們使用 ODBC,JDBC 連接數據庫時,我們需要在連接信息中正確設置語言環境變量:DB_LOCALE 和 CLIENT_LOCALE。
設置語言環境變量
DB_LOCALE=zh_cn.gb
CLIENT_LOCALE=zh_cn.gb
ODBC:
下圖為 WINDOWS 環境下 ODBC 語言環境設置示意圖。
圖 2. 在 ODBC 中設置語言環境
UNIX 環境下需要在 odbc.ini 文件中定義:
在 odbc.ini 文件中定義如下兩項數據庫語言環境變量
DB_LOCALE=zh_cn.gb
CLIENT_LOCALE=zh_cn.gb
JDBC:
在使用 JDBC 連接數據庫時,我們需要在連接數據庫的 URL 中設置數據庫語言環境變量:DB_LOCALE 和 CLIENT_LOCALE。示例如下:
String url = "jdbc:Informix-sqli://10.127.1.11:8001/testdb:
InformixSERVER=servername;user=user;password=password;
DB_LOCALE=zh_CN.gb;CLIENT_LOCALE=zh_CN.gb";
回頁首
常見字符集設置問題
在 Informix 數據庫字符集設置與使用過程,我們常會遇到壹些字符集相關錯誤,知道了錯誤產生的原因,就可以很容易解決問題。這裏我們總結了幾種常見的字符集設置相關問題。
Error -23101 Unable to load locale categories
當設置的 DB_LOCALE 和 CLIENT_LOCALE 的字符集對應的以下文件不存在時,出現該錯誤。
- $InformixDIR/gls/lc11/DB_LOCALE's( 語言 _ 地區 )/(db 的 16 進制編碼 ).lco
- $InformixDIR/gls/lc11/CLIENT_LOCALE's( 語言 _ 地區 )/( db 的 16 進制編碼 ).lco
- $InformixDIR/gls/lc11/CLIENT_LOCALE's( 語言 _ 地區 )/( client 的 16 進制編碼 ).lco
舉例說明:
DB_LOCALE = en_us.utf8 #(對應的 16 進制編碼為:e01c)
CLIENT_LOCALE = zh_cn.gb18030-2000 #(對應的 16 進制編碼為:1570)
以下 3 個文件必須存在,缺任意文件將報 Error -23101。
- $InformixDIR/gls/lc11/en_us/e01c.lco
- $InformixDIR/gls/lc11/zh_cn/e01c.lco
- $InformixDIR/gls/lc11/zh_cn/1570.lco
Error -23104 Error opening required code-set conversion object file
當設置的 DB_LOCALE 和 CLIENT_LOCALE 的字符集對應的以下轉換文件不存在時,會出現該錯誤。當然只有當 DB_LOCALE 和 CLIENT_LOCALE 的字符集不壹致時才會需要轉換,如果壹致則不會出現 -23104 錯誤。
- $InformixDIR/gls/cv9/ccccdddd.cvo
- $InformixDIR/gls/cv9/ddddcccc.cvo
其中:cccc 為 CLIENT_LOCALE 字符集編碼對應的 16 進制值
dddd 為 DB_LOCALE 字符集編碼對應的 16 進制值
舉例說明
DB_LOCALE = en_us.utf8 #(對應的 16 進制編碼為:e01c)
CLIENT_LOCALE = zh_cn.gb18030-2000 #(對應的 16 進制編碼為:1570)
以下 2 個文件必須存在,缺任意文件將報 Error -23104。
- $INFOMRIXDIR/gls/cv9/e01c1570.cvo
- $INFOMRIXDIR/gls/cv9/1570e01c.cvo
Error -23197 Database locale information mismatch
當出現如下情況時,出現 -23197 錯誤。
定義的 DB_LOCALE 值與數據庫的使用的值(數據庫創建時使用的 DB_LOCALE 值)不壹致;
通過 SET COLLATION 語句定義 DB_LOCALE 值與數據庫的使用值不壹致 ;
舉例說明:
數據庫的 LOCALE= en_us.8859-1
可以通過如下 SQL 讀取當前數據庫的 LOCALE 值
SELECT dbs_collate FROM sysmaster:sysdbslocale WHERE dbs_dbsname = ‘ dbname ’
客戶端 DB_LOCALE 設置如下(註意:如果沒有設置 DB_LOCALE,將使用在服務器計算機上設置
的 DB_LOCALE),則會出現 -23197 錯誤
DB_LOCALE = zh_cn.gb
Error -201,-202 數據庫提示語法錯誤
Error -201,-202 數據庫提示語法錯誤,不支持中文對象名,如中文表名、字段別名、視圖名。該類錯誤提示原因是當前數據庫的 DB_LOCALE 設置問題。
如果數據庫的 DB_LOCALE 設置為 zh_cn.GB18030-2000,則數據庫就可以支持中文對象名。
舉例說明:
DB_LOCALE = zh_cn.GB18030-2000 的數據庫,可以支持如下中文對象名,否則將提示語法錯誤。
Select c1 第壹列 from test_cn;
Create table 中文表名 (c1 integer, 中文列名 integer);
drop table 中文表名 ;
若類似 SQL 不能運行,請核查數據庫的 DB_LOCALE 值。
SELECT dbs_collate FROM sysmaster:sysdbslocale WHERE dbs_dbsname = ‘ dbname ’
亂碼問題
Informix
字符出現亂碼問題,或者不能正確顯示中文字符。問題的原因是客戶端 CLIENT_LOCALE 設置的值與 DB_LOCALE
值不壹致,而且兩者對應的字符集之間不能正確進行轉換。需要重新設置 CLIENT_LOCALE 與 DB_LOCALE
的值,確保兩者壹致或者可以正確相互轉換。
時間格式問題
Informix 數據庫的時間格式由數據庫服務器端環境變量 GL_DATE GL_DATETIME 控制,默認的字符集下默認的時間格式為:
GL_DATE="%m/%d/%iy"
DATETIME="%iY-%m-%d %H:%M:%S"
但是,當我們設置了 DB_LOCALE 為
zh_cn.gb 的情形下,而沒有設置 GL_DATE,DATETIME,則時間格式會采用 CLIENT_LOCALE 的值,在
zh_cn.gb 情況下,會出現:“2009 年 10 月 2
日”的日期格式,如果我們之前系統采用默認的時間格式的情況下,就會出現時間格式不匹配的錯誤。如果我們仍然需要采用默認的時間格式,我們需要在數據庫服
務端修改時間格式環境變量即可:
GL_DATE="%m/%d/%iy"
DATETIME="%iY-%m-%d %H:%M:%S"
回頁首
GLS 對 CSDK 版本要求
CSDK2.8 及以上版本中(目前最新版本為 CSDK3.5),為了正確支持語言文字的處理,Informix GLS 語言環境下要求正確設置數據庫服務器語言環境及客戶端語言環境。在中文語言環境下,我們應該按如下要求設置服務器端和客戶端語言環境。
數據庫服務端:
在創建數據庫時(為了統壹系統數據庫與應用數據庫的字符集,在創建數據庫實例時),請按如下步驟設置數據庫的 DB_LOCALE 值。
1. 設置環境變量 DB_LOCALE
set DB_LOCALE=zh_cn.GB18030-2000
2. 創建數據庫 create database dbname
3. 驗證當前數據庫字符集
SELECT dbs_collate FROM sysmaster:sysdbslocale
WHERE dbs_dbsname = ‘ dbname ’
客戶端:
當我們使用 ODBC,JDBC 連接數據庫時,我們需要在連接信息中正確設置語言環境變量:DB_LOCALE 和 CLIENT_LOCALE。
設置語言環境變量
DB_LOCALE=zh_cn.GB18030-2000
CLIENT_LOCALE=zh_cn.GB18030-2000
CSDK2.7 版本,IDS 默認情況下使用
Garbage In, Garbage Out 模式處理中文字符,若數據庫服務器上的 DB_LOCALE 采用默認的 en_us.8859-1
字符集,能夠正常支持中文字符。但是升級到 CSDK2.8 及以上版本時,不再支持 Garbage In, Garbage Out
模式,將出現亂碼問題。該情況下,建議更改數據庫的字符集(設置
DB_LOCALE=zh_cn.GB18030-2000,重新創建數據庫),然後按本文中描述的方法進行 DB_LOCALE 與
CLIENT_LOCALE 的設置方法進行處理。若在實際環境下重建數據庫成本太高,可以考慮如下步驟進行解決 ODBC 支持中文的問題。
數據庫服務器端:
1. 設置環境變量: IFMX_UNDOC_B168163=1
2. 將 en_us.8859-1 字符集文件拷貝到 zh_cn 目錄下
cd $INFORMIXDIR/gls/lc11
cp ./en_us/0333.lco ./zh_cn
3. 重新啟動 IDS
客戶端:
設置語言環境:
l DB_LOCALE=zh_cn.GB18030-2000
l CLIENT_LOCALE=zh_cn.GB18030-2000
對於 JDBC 我們可以通過 NEWCODESET 來解決該問題:
URLString = "jdbc:Informix-sqli://9.125.66.130:6346/dbname:InformixSERVER=servername;
NEWCODESET=GB18030-2000,8859-1,819;
CLIENT_LOCALE=en_US.8859-1;DB_LOCALE=en_US.8859-1;"