當前位置:編程學習大全網 - 源碼下載 - mysql-front的中文亂碼問題

mysql-front的中文亂碼問題

壹、轉碼失敗

在數據寫入到表的過程中轉碼失敗,數據庫端也沒有進行恰當的處理,導致存放在表裏的數據亂碼。

針對這種情況,前幾篇文章介紹過客戶端發送請求到服務端。

其中任意壹個編碼不壹致,都會導致表裏的數據存入不正確的編碼而產生亂碼。

比如下面簡單壹條語句:

set @a = "文本字符串";

insert into t1 values(@a);

變量 @a 的字符編碼是由參數 CHARACTER_SET_CLIENT 決定的,假設此時編碼為 A,也就是變量 @a 的編碼。

2. 寫入語句在發送到 MySQL 服務端之前的編碼由 CHARACTER_SET_CONNECTION 決定,假設此時編碼為 B。

3. 經過 MySQL 壹系列詞法,語法解析等處理後,寫入到表 t1,表 t1 的編碼為 C。

那這裏編碼 A、編碼 B、編碼 C 如果不兼容,寫入的數據就直接亂碼。

二、客戶端亂碼

表數據正常,但是客戶端展示後出現亂碼。

這壹類場景,指的是從 MySQL 表裏拿數據出來返回到客戶端,MySQL 裏的數據本身沒有問題。客戶端發送請求到 MySQL,表的編碼為 D,從 MySQL 拿到記錄結果傳輸到客戶端,此時記錄編碼為 E(CHARACTER_SET_RESULTS)。

那以上編碼 E 和 D 如果不兼容,檢索出來的數據就看起來亂碼了。但是由於數據本身沒有被破壞,所以換個兼容的編碼就可以獲取正確的結果。

這壹類又分為以下三個不同的小類:

1)字段編碼和表壹致,客戶端是不同的編碼

比如下面例子, 表數據的編碼是 utf8mb4,而 SESSION 1 發起的連接編碼為 gbk。那由於編碼不兼容,檢索出來的數據肯定為亂碼。

2)表編碼和客戶端的編碼壹致,但是記錄之間編碼存在不壹致的情形

比如表編碼是 utf8mb4,應用端編碼也是 utf8mb4,但是表裏的數據可能壹半編碼是 utf8mb4,另外壹半是 gbk。那麽此時表的數據也是正常的,不過此時采用哪種編碼都讀不到所有完整的數據。這樣數據產生的原因很多,比如其中壹種可能性就是表編碼多次變更而且每次變更不徹底導致(變更不徹底,我之前的篇章裏有介紹)。舉個例子,表 t3 的編碼之前是 utf8mb4,現在是 gbk,而且兩次編碼期間都被寫入了正常的數據。

3)每個字段的編碼不壹致,導致亂碼和第二點壹樣的場景。不同的是:非記錄間的編碼不統壹,而是每個字段編碼不統壹。舉個例子,表 c1 字段 a1,a2。a1 編碼 gbk,a2 編碼是 utf8mb4。那每個字段單獨讀出來數據是完整的,但是所有字段壹起讀出來,數據總會有壹部分亂碼。

三、LATIN1

還有壹種情形就是以 LATIN1 的編碼存儲數據

估計大家都知道字符集 LATIN1,LATIN1 對所有字符都是單字節流處理,遇到不能處理的字節流,保持原樣,那麽在以上兩種存入和檢索的過程中都能保證數據壹致,所以 MySQL 長期以來默認的編碼都是 LATIN1。這種情形,看起來也沒啥不對的點,數據也沒亂碼,那為什麽還有選用其他的編碼呢?原因就是對字符存儲的字節數不壹樣,比如 emoji 字符 "?",如果用 utf8mb4 存儲,占用 3 個字節,那 varchar(12) 就能存放 12 個字符,但是換成 LATIN1,只能存 4 個字符。

  • 上一篇:那種防火墻好呢?
  • 下一篇:在JD.COM開店好還是在天貓開店好?
  • copyright 2024編程學習大全網