浅谈Mysql多表连接查询的执行细节

文章目录[隐藏]

驱动表如何选择？

先构建本篇博客的案列演示表：

create table a(a1 int primary key, a2 int ,index(a2));  		--双字段都有索引
create table c(c1 int primary key, c2 int ,index(c2), c3 int);  --双字段都有索引
create table b(b1 int primary key, b2 int);						--有主键索引
create table d(d1 int, d2 int); 								--没有索引

insert into a values(1,1),(2,2),(3,3),(4,4),(5,5),(6,6),(7,7),(8,8),<em style="color:transparent">本文来源[email protected]搞@^&代*@码)网9</em>(9,9),(10,10);
insert into b values(1,1),(2,2),(3,3),(4,4),(5,5),(6,6),(7,7),(8,8),(9,9),(10,10);
insert into c values(1,1,1),(2,4,4),(3,6,6),(4,5,5),(5,3,3),(6,3,3),(7,2,2),(8,8,8),(9,5,5),(10,3,3);  
insert into d values(1,1),(2,2),(3,3),(4,4),(5,5),(6,6),(7,7),(8,8),(9,9),(10,10);

驱动表如何选择？

驱动表的概念是指多表关联查询时，第一个被处理的表，使用此表的记录去关联其他表。驱动表的确定很关键，会直接影响多表连接的关联顺序，也决定了后续关联时的查询性能。

驱动表的选择遵循一个原则：在对最终结果集没影响的前提下，优先选择结果集最小的那张表作为驱动表。改变驱动表就意味着改变连接顺序，只有在不会改变最终输出结果的前提下才可以对驱动表做优化选择。在外连接情况下，很多时候改变驱动表会对输出结果有影响，比如left join的左边表和right join的右边表，驱动表选择join的左边或者右边最终输出结果很有可能会不同。

用结果集来选择驱动表，那结果集是什么？如何计算结果集？mysql在选择前会根据where里的每个表的筛选条件，相应的对每个可作为驱动表的表做个结果记录预估，预估出每个表的返回记录行数，同时再根据select里查询的字段的字节大小总和做乘积：

每行查询字节数 * 预估的行数 = 预估结果集

通过where预估结果行数，遵循以下规则：

如果where里没有相应表的筛选条件，无论on里是否有相关条件，默认为全表
如果where里有筛选条件，但是不能使用索引来筛选，那么默认为全表
如果where里有筛选条件，而且可以使用索引，那么会根据索引来预估返回的记录行数

我们以上述创建的表为基础，用如下sql作为案列来演示：

select a.*,c.c2 from a join c on a.a2=c.c2 where a.a1>5 and c.c1>5;

通过explain查看其执行计划：

explain显示结果里排在第一行的就是驱动表，此时表c为驱动表。

如果将sql修改一下，将select 里的条件c.c2 修改为 c.* ：

select a.*,c.* from a join c on a.a2=c.c2 where a.a1>5 and c.c1>5;

通过explain查看其执行计划：

此时驱动表还是c，按理来说 c.* 的数据量肯定是比 a.*大的，似乎结果集大小的规则在这里没有起作用。

此情形下如果用a作为驱动表，通过索引c2关联到c表，那么还需要再回表查询一次，因为仅仅通过c2获取不到c.*的数据，还需要通过c2上的主键c1再查询一次。而上一个sql查询的是c2，不需要额外查询。同时因为a表只有两个字段，通过a2索引能够直接获得a.*,不需要额外查询。

综上所述，虽然使用c表来驱动，结果集大一些，但是能够减少一次额外的回表查询，所以mysql认为使用c表作为驱动来效率更高。

搞代码网（gaodaima.com）提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected]‍，我们会在看到邮件的第一时间内为您处理，或直接联系QQ：872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接：浅谈Mysql多表连接查询的执行细节

驱动表如何选择？

Hi，您需要填写昵称和邮箱！