mysql中的utf8與utf8mb4存儲(chǔ)及區(qū)別
目錄
- 一、如何設(shè)置utf8mb4
- 二、問(wèn)題
- 1、為什么存儲(chǔ)的時(shí)候要區(qū)分utf8和utf8mb4
- 2、為什么讀取的時(shí)候要區(qū)分utf8和utf8mb4
一、如何設(shè)置utf8mb4
mysql中針對(duì)字符串類型,在設(shè)置charset
的時(shí)候可以精確到字段。
如果只將某個(gè)字段設(shè)置utf8mb4
,那么其他字段不會(huì)受影響。
如果針對(duì)表來(lái)設(shè)置,那么已經(jīng)存在的字段依然是utf8
,并且會(huì)多出utf8
的標(biāo)記,之后所創(chuàng)建的字段才會(huì)是utf8mb4
。
如果針對(duì)庫(kù)來(lái)設(shè)置,那么已經(jīng)存在的表依然是utf8
,之后所創(chuàng)建的表才會(huì)是utf8mb4
。
除此之外呢,我們?cè)谶B接數(shù)據(jù)庫(kù)的時(shí)候,也要指明charset=utf8mb4
,否則的話,此連接無(wú)法向utf8mb4
的字段寫入數(shù)據(jù),并且讀取的時(shí)候是亂碼。
在使用 navicat 的時(shí)候,發(fā)現(xiàn)沒(méi)有地方設(shè)置連接的字符編碼,他會(huì)自動(dòng)掃面你的數(shù)據(jù)庫(kù),表,字段的編碼,來(lái)自動(dòng)設(shè)置一個(gè)合適的編碼,當(dāng)然,這也跟 navicat 版本有關(guān),高版本才行,我的低版本就不行,如果你發(fā)現(xiàn)你的 navicat 無(wú)法顯示表情,只能看到問(wèn)好,那么可以通過(guò)show variables like '%char%'
查看一下。
我還遇到一個(gè)情況,我的 navicat 沒(méi)法自動(dòng)設(shè)置 utf8mb4,因此,在 utf8 的情況下,我將線上的表情同步到了我本地,這使得我在后面即使設(shè)置了 utf8mb4 的情況下也看不到表情,這是因?yàn)槲以?utf8 的時(shí)候同步過(guò)來(lái)的數(shù)據(jù)被破壞了,字符集不兼容,所以需要先設(shè)置好字符編碼再拉取一次數(shù)據(jù)。
二、問(wèn)題
1、為什么存儲(chǔ)的時(shí)候要區(qū)分utf8和utf8mb4
按理說(shuō),不管我存進(jìn)去的是單字節(jié)還是多字節(jié),本質(zhì)都是二進(jìn)制,我寫入什么你就存什么不就好了,干嘛還要有限制。這是因?yàn)椋琈ysql對(duì)每個(gè)字段都定義了長(zhǎng)度,比如varchar(10)
表示10個(gè)字符,而不是字節(jié),所以當(dāng)存入數(shù)據(jù)的時(shí)候,mysql是做了解析的,這樣才能知道字符串里有幾個(gè)字符;當(dāng)面對(duì)4字節(jié)字符的時(shí)候,mysql依然會(huì)以3字節(jié)的編碼規(guī)則來(lái)解析,顯然會(huì)解析出錯(cuò)的,因此就不讓寫入。
MySQL在5.5.3之后增加了這個(gè)utf8mb4
的編碼,mb4
就是most bytes 4
的意思,專門用來(lái)兼容四字節(jié)的unicode。好在 utf8mb4 是 utf8 的超集,除了將編碼改為 utf8mb4 外不需要做其他轉(zhuǎn)換。當(dāng)然,為了節(jié)省空間,一般情況下使用 utf8 也就夠了。
utf8 是 Mysql 中的一種字符集,只支持最長(zhǎng)三個(gè)字節(jié)的 UTF-8 字符,可能是因?yàn)?Mysql 剛開始開發(fā)那會(huì),Unicode 還沒(méi)有4字節(jié)的字符。至于后續(xù)的版本為什么不對(duì) 4 字節(jié)長(zhǎng)度的 UTF-8 字符提供支持,應(yīng)該是為了向后兼容性的考慮,還有就是4字節(jié)字符確實(shí)很少用到。
2、為什么讀取的時(shí)候要區(qū)分utf8和utf8mb4
按理說(shuō),我讀取的都是二進(jìn)制,不管是三字節(jié)還是四字節(jié),我自己來(lái)展示,為什么在讀取 utf8mb4 字段的時(shí)候,我使用 utf8 的連接得到的是亂碼,使用 utf8mb4 連接得到的是正常的。實(shí)際上我的電腦是能展示四字節(jié)字符的。
因?yàn)閙ysql有個(gè)連接器組件,它處于客戶端和服務(wù)器之間,用于字符集的轉(zhuǎn)換。
現(xiàn)在有一個(gè)字段name
,為了兼容emoj
表情,字段設(shè)置為utf8mb4
,在寫入的時(shí)候數(shù)據(jù)庫(kù)連接設(shè)置了charset=utf8mb4
,因此可以正常寫入;在讀取的時(shí)候數(shù)據(jù)庫(kù)連接設(shè)置charset=utf8
,于是讀出來(lái)展示的時(shí)候是亂碼,如果改成charset=utf8mb4
,讀出來(lái)就能正常展示,那就是說(shuō),utf8
的連接讀到的結(jié)果并不是真實(shí)的數(shù)據(jù),而是經(jīng)過(guò)了連接器的轉(zhuǎn)換,它將utf8mb4
轉(zhuǎn)換成了utf8
,四字節(jié)字符被轉(zhuǎn)換成了三字節(jié),自然就是亂碼。
那么,為什么要有這個(gè)轉(zhuǎn)碼的過(guò)程呢?
那是因?yàn)閙ysql支持很多的字符編碼。
mysql> show character set;+----------+-----------------------------+---------------------+--------+| Charset | Description | Default collation | Maxlen |+----------+-----------------------------+---------------------+--------+| big5 | Big5 Traditional Chinese | big5_chinese_ci | 2 || dec8 | DEC West European | dec8_swedish_ci | 1 || cp850 | DOS West European | cp850_general_ci | 1 || hp8 | HP West European | hp8_english_ci | 1 || koi8r | KOI8-R Relcom Russian | koi8r_general_ci | 1 || latin1 | cp1252 West European| latin1_swedish_ci | 1 || latin2 | ISO 8859-2 Central European | latin2_general_ci | 1 || swe7 | 7bit Swedish| swe7_swedish_ci | 1 || ascii | US ASCII | ascii_general_ci | 1 || ujis | EUC-JP Japanese | ujis_japanese_ci | 3 || sjis | Shift-JIS Japanese | sjis_japanese_ci | 2 || hebrew | ISO 8859-8 Hebrew | hebrew_general_ci | 1 || tis620 | TIS620 Thai | tis620_thai_ci | 1 || euckr | EUC-KR Korean | euckr_korean_ci | 2 || koi8u | KOI8-U Ukrainian | koi8u_general_ci | 1 || gb2312 | GB2312 Simplified Chinese | gb2312_chinese_ci | 2 || greek | ISO 8859-7 Greek | greek_general_ci | 1 || cp1250 | Windows Central European | cp1250_general_ci | 1 || gbk | GBK Simplified Chinese | gbk_chinese_ci | 2 || latin5 | ISO 8859-9 Turkish | latin5_turkish_ci | 1 || armscii8 | ARMSCII-8 Armenian | armscii8_general_ci | 1 || utf8 | UTF-8 Unicode | utf8_general_ci | 3 || ucs2 | UCS-2 Unicode | ucs2_general_ci | 2 || cp866 | DOS Russian | cp866_general_ci | 1 || keybcs2 | DOS Kamenicky Czech-Slovak | keybcs2_general_ci | 1 || macce | Mac Central European| macce_general_ci | 1 || macroman | Mac West European | macroman_general_ci | 1 || cp852 | DOS Central European| cp852_general_ci | 1 || latin7 | ISO 8859-13 Baltic | latin7_general_ci | 1 || utf8mb4 | UTF-8 Unicode | utf8mb4_general_ci | 4 || cp1251 | Windows Cyrillic | cp1251_general_ci | 1 || utf16 | UTF-16 Unicode | utf16_general_ci | 4 || utf16le | UTF-16LE Unicode | utf16le_general_ci | 4 || cp1256 | Windows Arabic | cp1256_general_ci | 1 || cp1257 | Windows Baltic | cp1257_general_ci | 1 || utf32 | UTF-32 Unicode | utf32_general_ci | 4 || binary | Binary pseudo charset | binary | 1 || geostd8 | GEOSTD8 Georgian | geostd8_general_ci | 1 || cp932 | SJIS for Windows Japanese | cp932_japanese_ci | 2 || eucjpms | UJIS for Windows Japanese | eucjpms_japanese_ci | 3 |+----------+-----------------------------+---------------------+--------+40 rows in set
collation
為排序規(guī)則,Maxlen
為最大字節(jié)數(shù)。
不同的編碼規(guī)則,會(huì)得到不同的二進(jìn)制數(shù),因此正確的編碼轉(zhuǎn)換是必要的。
查看當(dāng)前的編碼
mysql> show variables like "%char%";+--------------------------+--------+| Variable_name | Value |+--------------------------+--------+| character_set_client | utf8 || character_set_connection | utf8 || character_set_database | utf8 || character_set_filesystem | binary || character_set_results | utf8 || character_set_server | utf8 || character_set_system | utf8 || character_sets_dir ||+--------------------------+--------+
設(shè)置當(dāng)前連接的編碼,只針對(duì)此連接有效
mysql -h xxxxxx.mysql.rds.aliyuncs.com -u xxxxxx -p xxxxxxmysql> set names gbk;mysql> show variables like "%char%";+--------------------------+--------+| Variable_name | Value |+--------------------------+--------+| character_set_client | gbk || character_set_connection | gbk || character_set_database | utf8 || character_set_filesystem | binary || character_set_results | gbk || character_set_server | utf8 || character_set_system | utf8 || character_sets_dir ||+--------------------------+--------+
這個(gè)命令會(huì)同時(shí)修改character_set_client, character_set_connection, character_set_results
我們?cè)诮訑?shù)據(jù)庫(kù)的時(shí)候設(shè)置的charset=utf8
在內(nèi)部就是調(diào)用的set names utf8
。
所以,代表客戶端的編碼有三個(gè),這三個(gè)編碼基本是一致的。其他的都是服務(wù)端的的編碼。
character_set_client
客戶端
character_set_connection
連接器
character_set_results
返回的結(jié)果集
既然是一樣的,為什么客戶端要搞三個(gè)配置呢,這就要從數(shù)據(jù)傳輸?shù)牧鞒躺蟻?lái)看。
連接器:連接客戶端與服務(wù)端,進(jìn)行字符集的轉(zhuǎn)換。
連接器的工作流程:
請(qǐng)求
character_set_client --> character_set_connection -->character_set_server
響應(yīng)
character_set_server --> character_set_connection --> character_set_results
圖示
到此這篇關(guān)于mysql中的utf8與utf8mb4存儲(chǔ)及區(qū)別的文章就介紹到這了,更多相關(guān)mysql utf8與utf8mb4內(nèi)容請(qǐng)搜索以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持!
