文章詳情頁

mysql中的utf8與utf8mb4存儲(chǔ)及區(qū)別

瀏覽：154日期：2023-02-18 16:43:14

一、如何設(shè)置utf8mb4

mysql中針對(duì)字符串類型，在設(shè)置charset的時(shí)候可以精確到字段。

如果只將某個(gè)字段設(shè)置utf8mb4，那么其他字段不會(huì)受影響。

如果針對(duì)表來設(shè)置，那么已經(jīng)存在的字段依然是utf8，并且會(huì)多出utf8的標(biāo)記，之后所創(chuàng)建的字段才會(huì)是utf8mb4。

如果針對(duì)庫來設(shè)置，那么已經(jīng)存在的表依然是utf8，之后所創(chuàng)建的表才會(huì)是utf8mb4。

除此之外呢，我們?cè)谶B接數(shù)據(jù)庫的時(shí)候，也要指明charset=utf8mb4，否則的話，此連接無法向utf8mb4的字段寫入數(shù)據(jù)，并且讀取的時(shí)候是亂碼。

在使用 navicat 的時(shí)候，發(fā)現(xiàn)沒有地方設(shè)置連接的字符編碼，他會(huì)自動(dòng)掃面你的數(shù)據(jù)庫，表，字段的編碼，來自動(dòng)設(shè)置一個(gè)合適的編碼，當(dāng)然，這也跟 navicat 版本有關(guān)，高版本才行，我的低版本就不行，如果你發(fā)現(xiàn)你的 navicat 無法顯示表情，只能看到問好，那么可以通過show variables like '%char%'查看一下。

我還遇到一個(gè)情況，我的 navicat 沒法自動(dòng)設(shè)置 utf8mb4，因此，在 utf8 的情況下，我將線上的表情同步到了我本地，這使得我在后面即使設(shè)置了 utf8mb4 的情況下也看不到表情，這是因?yàn)槲以?utf8 的時(shí)候同步過來的數(shù)據(jù)被破壞了，字符集不兼容，所以需要先設(shè)置好字符編碼再拉取一次數(shù)據(jù)。

二、問題

1、為什么存儲(chǔ)的時(shí)候要區(qū)分utf8和utf8mb4

按理說，不管我存進(jìn)去的是單字節(jié)還是多字節(jié)，本質(zhì)都是二進(jìn)制，我寫入什么你就存什么不就好了，干嘛還要有限制。這是因?yàn)椋琈ysql對(duì)每個(gè)字段都定義了長(zhǎng)度，比如varchar(10)表示10個(gè)字符，而不是字節(jié)，所以當(dāng)存入數(shù)據(jù)的時(shí)候，mysql是做了解析的，這樣才能知道字符串里有幾個(gè)字符；當(dāng)面對(duì)4字節(jié)字符的時(shí)候，mysql依然會(huì)以3字節(jié)的編碼規(guī)則來解析，顯然會(huì)解析出錯(cuò)的，因此就不讓寫入。

MySQL在5.5.3之后增加了這個(gè)utf8mb4的編碼，mb4就是most bytes 4的意思，專門用來兼容四字節(jié)的unicode。好在 utf8mb4 是 utf8 的超集，除了將編碼改為 utf8mb4 外不需要做其他轉(zhuǎn)換。當(dāng)然，為了節(jié)省空間，一般情況下使用 utf8 也就夠了。

utf8 是 Mysql 中的一種字符集，只支持最長(zhǎng)三個(gè)字節(jié)的 UTF-8 字符，可能是因?yàn)?Mysql 剛開始開發(fā)那會(huì)，Unicode 還沒有4字節(jié)的字符。至于后續(xù)的版本為什么不對(duì) 4 字節(jié)長(zhǎng)度的 UTF-8 字符提供支持，應(yīng)該是為了向后兼容性的考慮，還有就是4字節(jié)字符確實(shí)很少用到。

2、為什么讀取的時(shí)候要區(qū)分utf8和utf8mb4

按理說，我讀取的都是二進(jìn)制，不管是三字節(jié)還是四字節(jié)，我自己來展示，為什么在讀取 utf8mb4 字段的時(shí)候，我使用 utf8 的連接得到的是亂碼，使用 utf8mb4 連接得到的是正常的。實(shí)際上我的電腦是能展示四字節(jié)字符的。

因?yàn)閙ysql有個(gè)連接器組件，它處于客戶端和服務(wù)器之間，用于字符集的轉(zhuǎn)換。

現(xiàn)在有一個(gè)字段name，為了兼容emoj表情，字段設(shè)置為utf8mb4，在寫入的時(shí)候數(shù)據(jù)庫連接設(shè)置了charset=utf8mb4，因此可以正常寫入；在讀取的時(shí)候數(shù)據(jù)庫連接設(shè)置charset=utf8，于是讀出來展示的時(shí)候是亂碼，如果改成charset=utf8mb4，讀出來就能正常展示，那就是說，utf8的連接讀到的結(jié)果并不是真實(shí)的數(shù)據(jù)，而是經(jīng)過了連接器的轉(zhuǎn)換，它將utf8mb4轉(zhuǎn)換成了utf8，四字節(jié)字符被轉(zhuǎn)換成了三字節(jié)，自然就是亂碼。

那么，為什么要有這個(gè)轉(zhuǎn)碼的過程呢？

那是因?yàn)閙ysql支持很多的字符編碼。

mysql> show character set;+----------+-----------------------------+---------------------+--------+| Charset  | Description | Default collation   | Maxlen |+----------+-----------------------------+---------------------+--------+| big5     | Big5 Traditional Chinese    | big5_chinese_ci     |      2 || dec8     | DEC West European   | dec8_swedish_ci     |      1 || cp850    | DOS West European   | cp850_general_ci    |      1 || hp8      | HP West European    | hp8_english_ci      |      1 || koi8r    | KOI8-R Relcom Russian       | koi8r_general_ci    |      1 || latin1   | cp1252 West European| latin1_swedish_ci   |      1 || latin2   | ISO 8859-2 Central European | latin2_general_ci   |      1 || swe7     | 7bit Swedish| swe7_swedish_ci     |      1 || ascii    | US ASCII    | ascii_general_ci    |      1 || ujis     | EUC-JP Japanese     | ujis_japanese_ci    |      3 || sjis     | Shift-JIS Japanese  | sjis_japanese_ci    |      2 || hebrew   | ISO 8859-8 Hebrew   | hebrew_general_ci   |      1 || tis620   | TIS620 Thai | tis620_thai_ci      |      1 || euckr    | EUC-KR Korean       | euckr_korean_ci     |      2 || koi8u    | KOI8-U Ukrainian    | koi8u_general_ci    |      1 || gb2312   | GB2312 Simplified Chinese   | gb2312_chinese_ci   |      2 || greek    | ISO 8859-7 Greek    | greek_general_ci    |      1 || cp1250   | Windows Central European    | cp1250_general_ci   |      1 || gbk      | GBK Simplified Chinese      | gbk_chinese_ci      |      2 || latin5   | ISO 8859-9 Turkish  | latin5_turkish_ci   |      1 || armscii8 | ARMSCII-8 Armenian  | armscii8_general_ci |      1 || utf8     | UTF-8 Unicode       | utf8_general_ci     |      3 || ucs2     | UCS-2 Unicode       | ucs2_general_ci     |      2 || cp866    | DOS Russian | cp866_general_ci    |      1 || keybcs2  | DOS Kamenicky Czech-Slovak  | keybcs2_general_ci  |      1 || macce    | Mac Central European| macce_general_ci    |      1 || macroman | Mac West European   | macroman_general_ci |      1 || cp852    | DOS Central European| cp852_general_ci    |      1 || latin7   | ISO 8859-13 Baltic  | latin7_general_ci   |      1 || utf8mb4  | UTF-8 Unicode       | utf8mb4_general_ci  |      4 || cp1251   | Windows Cyrillic    | cp1251_general_ci   |      1 || utf16    | UTF-16 Unicode      | utf16_general_ci    |      4 || utf16le  | UTF-16LE Unicode    | utf16le_general_ci  |      4 || cp1256   | Windows Arabic      | cp1256_general_ci   |      1 || cp1257   | Windows Baltic      | cp1257_general_ci   |      1 || utf32    | UTF-32 Unicode      | utf32_general_ci    |      4 || binary   | Binary pseudo charset       | binary      |      1 || geostd8  | GEOSTD8 Georgian    | geostd8_general_ci  |      1 || cp932    | SJIS for Windows Japanese   | cp932_japanese_ci   |      2 || eucjpms  | UJIS for Windows Japanese   | eucjpms_japanese_ci |      3 |+----------+-----------------------------+---------------------+--------+40 rows in set

collation為排序規(guī)則，Maxlen為最大字節(jié)數(shù)。

不同的編碼規(guī)則，會(huì)得到不同的二進(jìn)制數(shù)，因此正確的編碼轉(zhuǎn)換是必要的。

查看當(dāng)前的編碼

mysql> show variables like "%char%";+--------------------------+--------+| Variable_name    | Value  |+--------------------------+--------+| character_set_client     | utf8   || character_set_connection | utf8   || character_set_database   | utf8   || character_set_filesystem | binary || character_set_results    | utf8   || character_set_server     | utf8   || character_set_system     | utf8   || character_sets_dir       ||+--------------------------+--------+

設(shè)置當(dāng)前連接的編碼，只針對(duì)此連接有效

mysql -h xxxxxx.mysql.rds.aliyuncs.com -u xxxxxx -p xxxxxxmysql> set names gbk;mysql> show variables like "%char%";+--------------------------+--------+| Variable_name    | Value  |+--------------------------+--------+| character_set_client     | gbk    || character_set_connection | gbk    || character_set_database   | utf8   || character_set_filesystem | binary || character_set_results    | gbk    || character_set_server     | utf8   || character_set_system     | utf8   || character_sets_dir       ||+--------------------------+--------+

這個(gè)命令會(huì)同時(shí)修改character_set_client, character_set_connection, character_set_results

我們?cè)诮訑?shù)據(jù)庫的時(shí)候設(shè)置的charset=utf8在內(nèi)部就是調(diào)用的set names utf8。

所以，代表客戶端的編碼有三個(gè)，這三個(gè)編碼基本是一致的。其他的都是服務(wù)端的的編碼。

character_set_client 客戶端

character_set_connection 連接器

character_set_results 返回的結(jié)果集

既然是一樣的，為什么客戶端要搞三個(gè)配置呢，這就要從數(shù)據(jù)傳輸?shù)牧鞒躺蟻砜础?/p>

連接器：連接客戶端與服務(wù)端，進(jìn)行字符集的轉(zhuǎn)換。

連接器的工作流程：

請(qǐng)求

character_set_client --> character_set_connection -->character_set_server

響應(yīng)

character_set_server --> character_set_connection --> character_set_results

圖示

到此這篇關(guān)于mysql中的utf8與utf8mb4存儲(chǔ)及區(qū)別的文章就介紹到這了,更多相關(guān)mysql utf8與utf8mb4內(nèi)容請(qǐng)搜索以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持！

MySQL

上一條：MySQL里的反斜杠(\)的使用下一條：MySQL導(dǎo)入sql文件的三種方法小結(jié)

排行榜

					
					MySql導(dǎo)出后再導(dǎo)入數(shù)據(jù)時(shí)出錯(cuò)問題
如何安裝MySQL 壓縮包
ORACLE常用傻瓜問題1000問(之十一)
Mybatis傳入List實(shí)現(xiàn)批量更新的示例代碼
SQL2000管理SQL7服務(wù)器出現(xiàn)TIMEOUT問題的解決
Microsoft Office Access取消主鍵的方法
Microsoft Office Access添加標(biāo)簽控件的方法
Mysql入門系列：在MYSQL結(jié)果集上執(zhí)行計(jì)算
MySQL分區(qū)的優(yōu)點(diǎn)
mysql 視圖操作和存儲(chǔ)過程
MySQL存儲(chǔ)引擎選擇InnoDB還是MyISAM