MySQL varchar详解

varcahr(255)是什么含义?

varchar(255) 表示可以存储最大255个字符,至于占多少个字节由字符集决定。

varchar的最大值是多少?

如果你去搜索过这个答案,我相信你或多或少都看到过65535这个答案。比如我们尝试询问一下当下最火的人工智能,你可能会得到和我类似答案。

Untitled

那么varchar的最大值真的是65535吗?我们不妨实验一下。

create table test(
 test_varchar_max varchar(65535not null default '' comment '测试varchar最大值'
engine=innodb default charset=utf8mb4;
Untitled

可以看到,mysql已经给我们提示错误了,而且已经提示了最大值是16383,怎么和我们想的不一样?那么varchar的最大值就是16383吗?接着看

create table test(
 test_varchar_max varchar(65535not null default '' comment '测试varchar最大值'
engine=innodb default charset=utf8;
Untitled

可以看到这次的提示又不一样了,那么varchar的最大值到底是多少呢?

再回答这个问题之前,我们还需要先了解几个概念。

字符集

细心的小伙伴已经发现了,上面我们两个建表语句只有一处不一样,那就是charset的值不一样。其实charset就是设置表的字符集。

什么是字符集?看看百科给出的解释

字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,就需要进行字符编码,以便计算机能够识别和存储各种文字。中文文字数目大,而且还分为简体中文和繁体中文两种不同书写规则的文字,而计算机最初是按英语单字节字符设计的,因此,对中文字符进行编码,是中文信息交流的技术基础。

根据上面的实验,我们可以证明不同的字符集,因为对字符的编码规则不一样,所以占用存储大小也不一样。

那么mysql支持哪些字符集,而每种字符集占用多大空间呢?我们可以通过 show charset;查看,结果如下

Untitled

那我们怎么才能知道这个最大长度是多少呢?还记得我们在上一个环节测试字符集错误提示varchar的最大长度吗?我们用那个长度 * 字符集的Maxlen 是不是就是varchar的最大值吗?我们用上面的测试结果算算看

utf8mb4 的 Maxlen = 4 对应 varchar的最大值为 4 * 16383 = 65532 utf8 的 Maxlen = 3 对应 varchar的最大值为 3 * 21845 = 65535

咦!怎么utf8mb4和utf8算出来的结果对应不上呢?我们再找一个gbk字符集测试一下呢。

Untitled

gbk 的 Maxlen = 2 对应 varchar的最大值为 2 * 32767 = 65534

这下彻底对不上了,那怎么办呢?其实去测试过的小伙伴现在应该已经发现问题了,虽然utf8和gbk错误提示了一个Max值,但是你尝试设置为这个值的时候,你会发现会报错,只能设置为比提示小1的值。看测试

Untitled
Untitled
Untitled

那我们根据最新能成功的实际最大值再计算一下varchar对应的最大值呢。

utf8mb4 的 Maxlen = 4 对应 varchar的最大值为 4 * 16383 = 65532 utf8 的 Maxlen = 3 对应 varchar的最大值为 3 * 21844 = 65532 gbk 的 Maxlen = 2 对应 varchar的最大值为 2 * 32766 = 65532

那你是不是就以为varchar的最大值就是65532字节了?先说答案,肯定是错!!!

null or not null?

上面的测试基本上证明了varchar可以存储65532字节的数据。不知道大家有没有发现,上面测试的字符集的Maxlen都是大于1的,有没有可能65532是因为刚好是上面几种字符集Maxlen的整数倍呢?

要验证这个问题,其实很简单。我们找一个字符集的Maxlen是1的测试一下不就知道了吗?

Untitled

可以看到,latin字符集的varchar可以设置为65533,也就是varchar的最大字节是65533 * 1 = 65533。那么varchar的最大值真的就是65533字节了吗?

大家仔细看我们的建表SQL,你就会发现两点规律。

  1. 字段指定为了非空,也就是not null
  2. 整张表只有一个字段

那not null对varchar的最大值有影响吗?既然这么问了肯定是有影响的,实践是检验真理的唯一标准。上测试

Untitled

测试证明,当字段设置为not null的时候,varchar可以最大存储65533字节的内容。而字段设置为允许为null的时候,最大可以存储65532字节的内容。

这是因为Innodb需要单独使用一个字节来存储允许为Null的字段。

多字段的影响

上面讲了为Null会对varchar的最大值有影响,其实表的字段数量也对varchar的最大值有影响。带大家回顾一下,mysql的错误提示

Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535. This includes storage overhead, check the manual. You have to change some columns to TEXT or BLOBs

这里有两个重要信息,一个是所用表类型(不包括BLOB)的最大行大小为65535,还有一个就是这里面还包括存储开销。

其实从这里面我们不难看出,65535是一行数据的(不包括BLOB)最大字节数量,那如果我们一行有多个字段呢。

Untitled

上面测试我们加如了一个int类型的字段,然后就发现原本能存储16383个utf8mb4字符,现在只能存储16382个utf8mb4字符了。那是因为一个int在Innodb中占4个字节,所以varchar就只能少一个字符了。字符数对应为 (行最大字节数 - int字段字节数)/ Maxlen = (65532 - 4)/ 4 = 16382。

Untitled

再次证明,65532是行的最大字节数,而非varchar的最大字节数。

而提示的65535字节是包含其他开销的,所以其他开销就占65535 - 65533 = 2个字节。这里为什么是65533,因为Maxlen为1的字符集最大是65533,65532是字符集Maxlen的整数倍最接近65533的值。

那么回到最初的问题,varchar到底最大能存储多少字符?其实varchar能存储多大字符取决于两点,表字段有多少,是否可以为null。在不允许为null 且只有一个varchar字段的话,那最大能存储的字符数就等于65533 / Maxlen;

根据Innodb的规定,如果表字段包含变长字段varchar,需要额外用两个字节来存储varcahr的长度。为什么是两个字节?因为极限情况下就是表只有一个不允许为null的varchar字段,把么这个字段的长度就最大为65533个字节,那么就至少需要两个字节才能存下这个长度。2byte=16bit=2^16=65536,所以需要两个字节存储长度。

本文使用 markdown.com.cn 排版

posted @ 2024-03-20 17:43  LvLaoTou  阅读(406)  评论(0编辑  收藏  举报