我们首先看下常见建表语句:
mallAllGoodsCREATE TABLE `qywl`.`mallAllGoods` ( `id` varchar(64) NOT NULL COMMENT '主键id',`userId` varchar(64) NOT NULL DEFAULT '' COMMENT '发布人id',`storeId` varchar(64) NOT NULL DEFAULT '' COMMENT '发布商号id',`data` varchar(1000) NOT NULL DEFAULT '' COMMENT '服务详情',`type` tinyint(1) UNSIGNED NOT NULL DEFAULT 0 COMMENT '服务类型(2车源,3货源,4酒店、5本地生活,6卡车)',`createTime` timestamp(6) default CURRENT_TIMESTAMP(6) NOT NULL COMMENT '创建时间',`updateTime` timestamp(6) default CURRENT_TIMESTAMP(6) NOT NULL ON update CURRENT_TIMESTAMP(6) COMMENT '更新时间',`logicalDel` tinyint(1) DEFAULT '0' NOT NULL COMMENT '逻辑删除标识(0未删除,1已删除)',PRIMARY KEY (`id`),INDEX `idx_userId` (`userId`),INDEX `idx_storeId` (`storeId`)) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci COMMENT='所有服务信息表';
定义:
CHARSET :给定一系列字符并赋予对应的编码后,所有这些字符和编码对组成的集合就是字符集(Character Set)。例如,给定字符列表为{‘A’,’B’}时,{‘A’=>0, ‘B’=>1}就是一个字符集;
COLLATE 是指在同一字符集内字符之间的比较规则;确定比较规则后,才能在一个字符集上定义什么是等价的字符,以及字符之间的大小关系;
COLLATE 会影响到ORDER BY语句的顺序,会影响到WHERE条件中大于小于号筛选出来的结果,会影响DISTINCT、GROUP BY、HAVING语句的查询结果。另外,mysql建索引的时候,如果索引列是字符类型,也会影响索引创建,总之,凡是涉及到字符类型比较或排序的地方,都和COLLATE有关。
命名惯例:以对应的字符集名称开头;以_ci(表示大小写不敏感)、_cs(表示大小写敏感)或_bin(表示按编码值比较)结尾。例如:在字符序“utf8_general_ci”下,字符“a”和“A”是等价的;
mysql字符集和校验规则的对应关系:
每个校验规则唯一对应一种字符集,但一个字符集可以对应多种校验规则,其中有一个是默认(Default Collation);
查询mysql数据库所支持的字符集种类:
sql
1show character set;

查询mysql数据库所支持字符集的校验规则:
sql
1show collation;

Mysql的字符集和校验规则有4个级别的默认设置:服务器级,数据库级,表级和字段级客户端交互时,也可以指定校验规则
查看服务器级字符编码
sql
1show variables like 'character_set_server'
查看服务器级校验规则
sql
1show variables like 'collation_server'
服务器级字符集和校验规则,在Mysql启动时确定,在my.cnf中设置,如果没有指定字符集,默认为latin1,如果没有设置校验规则,默认使用字符集校验规则。
在mysql8.0以下版本中,默认的CHARSET是Latin1,默认的COLLATE是latin1_swedish_ci。从mysql8.0开始,默认的CHARSET已经改为了utf8mb4,默认的COLLATE改为了utf8mb4_0900_ai_ci。
sql
1
2
3[mysqld]character-set-server=utf8collation_server=utf8_general_ci
数据库级字符集和校验规则:
查看数据库级字符编码
sql
1show variables like 'character_set_database'
查看数据库级校验规则
sql
1show variables like 'collation_database'
库级别设置
sql
1CREATE DATABASE <db_name> DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
如果库级别没有设置,则库级别默认使用服务器级别的设置。
表级别设置
sql
1
2
3CREATE TABLE (……) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
如果表级别没有设置,则表级别会继承库级别的设置。
列级别的设置
sql
1
2
3
4CREATE TABLE (`field1` VARCHAR(64) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NOT NULL DEFAULT '',……) ……
如果列级别没有设置,则列级别会继承表级别的设置。
也可以在写SQL查询的时候显示声明COLLATE来覆盖任何库表列的COLLATE设置
sql
1
2SELECT DISTINCT field1 COLLATE utf8mb4_general_ci FROM table1;SELECT field1, field2 FROM table1 ORDER BY field1 COLLATE utf8mb4_unicode_ci;
优先级:
如果全都显示设置了,那么优先级顺序是 SQL语句 > 列级别设置 > 表级别设置 > 库级别设置 > 服务器别设置
几个需要注意的点:
1. 不同校验规则连表查会报错
sqlselect * from mallPageView as mLEFT JOIN mallStore as son m.storeId=s.id;[Err] 1267 - Illegal mix of collations (utf8mb4_general_ci,IMPLICIT) and (utf8mb4_unicode_ci,IMPLICIT) for operation '='可以指定排序规则:select * from mallPageView as mLEFT JOIN mallStore as son CONVERT(m.storeId USING utf8) COLLATE utf8_unicode_ci=s.id;
2. utf8和utf8mb4
utf-8 是变化长度的编码,储存需要1~4个字节
然而,mysql的utf8只存储最多3个字节。所以有些字符存不进去,像emoji表情等。
为了兼容4字节,MySQL在5.5.3之后增加了这个utf8mb4的编码。
建库,建表时,强烈建议编码使用utf8mb4。
3. utf8_unicode_ci、utf8_general_ci该用哪一个
当前,utf8_unicode_ci校对规则仅部分支持Unicode校对规则算法。一些字符还是不能支持。并且,不能完全支持组合的记号。这主要影响越南和俄罗斯的一些少数民族语言。
utf8_unicode_ci的最主要的特色是支持扩展,即当把一个字母看作与其它字母组合相等时。例如,在德语和一些其它语言中‘ß'等于‘ss'。
utf8_general_ci是一个遗留的 校对规则,不支持扩展。它仅能够在字符之间进行逐个比较。这意味着utf8_general_ci校对规则进行的比较速度很快,但是与使用utf8_unicode_ci的 校对规则相比,比较正确性较差。
例如,使用utf8_general_ci和utf8_unicode_ci两种校对规则下面的比较相等:
Ä = A
Ö = O
Ü = U
两种校对规则之间的区别是,对于utf8_general_ci下面的等式成立:
ß = s
但是,对于utf8_unicode_ci下面等式成立:
ß = ss
总结:
utf8_general_ci校对速度快,但准确度稍差
utf8_unicode_ci准确度高,但校对速度稍慢
DBA建议使用传统的utf8_general_ci
参考资料:https://www.mysqlzh.com/doc/94.html
作者:合一研发部-王治虎