NOT IN、JOIN、IS NULL、NOT EXISTS效率对比

语句一:select count(*) from A where A.a not in (select a from B) 

语句二:select count(*) from A left join B on A.a = B.a where B.a is null 

语句三:select count(*) from A where not exists (select a from B where A.a = B.a) 

知道以上三条语句的实际效果是相同的已经很久了,但是一直没有深究其间的效率对比。一直感觉上语句二是最快的。 
今天工作上因为要对一个数千万行数据的库进行数据清除,需要删掉两千多万行数据。大量的用到了以上三条语句所要实现的功能。本来用的是语句一,但是结果是执行速度1个小时32分,日志文件占用21GB。时间上虽然可以接受,但是对硬盘空间的占用确是个问题。因此将所有的语句一都换成语句二。本以为会更快。没想到执行40多分钟后,第一批50000行都没有删掉,反而让SQL SERVER崩溃掉了,结果令人诧异。试了试单独执行这条语句,查询近一千万行的表,语句一用了4秒,语句二却用了18秒,差距很大。语句三的效率与语句一接近。 


第二种写法是大忌,应该尽量避免。第一种和第三种写法本质上几乎一样。 

假设buffer pool足够大,写法二相对于写法一来说存在以下几点不足: 
(1)left join本身更耗资源(需要更多资源来处理产生的中间结果集) 
(2)left join的中间结果集的规模不会比表A小 
(3)写法二还需要对left join产生的中间结果做is null的条件筛选,而写法一则在两个集合join的同时完成了筛选,这部分开销是额外的 

这三点综合起来,在处理海量数据时就会产生比较明显的区别(主要是内存和CPU上的开销)。我怀疑楼主在测试时buffer pool可能已经处于饱和状态,这样的话,写法二的那些额外开销不得不借助磁盘上的虚拟内存,在SQL Server做换页时,由于涉及到较慢的I/O操作因此这种差距会更加明显。 

关于日志文件过大,这也是正常的,因为删除的记录多嘛。可以根据数据库的用途考虑将恢复模型设为simple,或者在删除结束后将日志truncate掉并把文件shrink下来。 


因为以前曾经作过一个对这个库进行无条件删除的脚本,就是要删除数据量较大的表中的所有数据,但是因为客户要求,不能使用truncate table,怕破坏已有的库结构。所以只能用delete删,当时也遇到了日志文件过大的问题,当时采用的方法是分批删除,在SQL2K中用set rowcount @chunk,在SQL2K5中用delete top @chunk。这样的操作不仅使删除时间大大减少,而且让日志量大大减少,只增长了1G左右。 
但是这次清除数据的工作需要加上条件,就是delete A from A where ....后面有条件的。再次使用分批删除的方法,却已经没效果了。 
不知您知不知道这是为什么。 

mysql not in 和 left join 效率问题记录 

首先说明该条sql的功能是查询集合a不在集合b的数据。 
not in的写法 
复制代码代码如下:

select add_tb.RUID 
from (select distinct RUID 
from UserMsg 
where SubjectID =12 
and CreateTime>'2009-8-14 15:30:00' 
and CreateTime<='2009-8-17 16:00:00' 
) add_tb 
where add_tb.RUID 
not in (select distinct RUID 
from UserMsg 
where SubjectID =12 
and CreateTime<'2009-8-14 15:30:00' 


返回444行记录用时 0.07sec 
explain 结果 
+----+--------------------+------------+----------------+---------------------------+------------+---------+------+------+-- 

----------------------------+ 
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | 

Extra | 
+----+--------------------+------------+----------------+---------------------------+------------+---------+------+------+-- 

----------------------------+ 
| 1 | PRIMARY | <derived2> | ALL | NULL | NULL | NULL | NULL | 452 | 

Using where | 
| 3 | DEPENDENT SUBQUERY | UserMsg | index_subquery | RUID,SubjectID,CreateTime | RUID | 96 | func | 2 | 

Using index; Using where | 
| 2 | DERIVED | UserMsg | range | SubjectID,CreateTime | CreateTime | 9 | NULL | 1857 | 

Using where; Using temporary | 
+----+--------------------+------------+----------------+---------------------------+------------+---------+------+------+-- 

----------------------------+ 
分析:该条查询速度快原因为id=2的sql查询出来的结果比较少,所以id=1sql所以运行速度比较快,id=2的使用了临时表,不知道这个时候是否使用索引? 
其中一种left join 
复制代码代码如下:

select a.ruid,b.ruid 
from(select distinct RUID 
from UserMsg 
where SubjectID =12 
and CreateTime >= '2009-8-14 15:30:00' 
and CreateTime<='2009-8-17 16:00:00' 
) a left join ( 
select distinct RUID 
from UserMsg 
where SubjectID =12 and CreateTime< '2009-8-14 15:30:00' 
) b on a.ruid = b.ruid 
where b.ruid is null 

返回444行记录用时 0.39sec 
explain 结果 
+----+-------------+------------+-------+----------------------+------------+---------+------+------+----------------------- 

-------+ 
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra 


+----+-------------+------------+-------+----------------------+------------+---------+------+------+----------------------- 

-------+ 
| 1 | PRIMARY | <derived2> | ALL | NULL | NULL | NULL | NULL | 452 | 


| 1 | PRIMARY | <derived3> | ALL | NULL | NULL | NULL | NULL | 1112 | Using where; Not exists 


| 3 | DERIVED | UserMsg | ref | SubjectID,CreateTime | SubjectID | 5 | | 6667 | Using where; Using 

temporary | 
| 2 | DERIVED | UserMsg | range | SubjectID,CreateTime | CreateTime | 9 | NULL | 1838 | Using where; Using 

temporary | 
+----+-------------+------------+-------+----------------------+------------+---------+------+------+----------------------- 

-------+ 
分析:使用了两个临时表,并且两个临时表做了笛卡尔积,导致不能使用索引并且数据量很大 
另外一种left join 
复制代码代码如下:

select distinct a.RUID 
from UserMsg a 
left join UserMsg b 
on a.ruid = b.ruid 
and b.subjectID =12 and b.createTime < '2009-8-14 15:30:00' 
where a.subjectID =12 
and a.createTime >= '2009-8-14 15:30:00' 
and a.createtime <='2009-8-17 16:00:00' 
and b.ruid is null; 

返回444行记录用时 0.07sec 
explain 结果 
+----+-------------+-------+-------+---------------------------+------------+---------+--------------+------+--------------- 

--------------------+ 
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra 


+----+-------------+-------+-------+---------------------------+------------+---------+--------------+------+--------------- 

--------------------+ 
| 1 | SIMPLE | a | range | SubjectID,CreateTime | CreateTime | 9 | NULL | 1839 | Using where; 

Using temporary | 
| 1 | SIMPLE | b | ref | RUID,SubjectID,CreateTime | RUID | 96 | dream.a.RUID | 2 | Using where; 

Not exists; Distinct | 
+----+-------------+-------+-------+---------------------------+------------+---------+--------------+------+--------------- 

--------------------+ 
分析:两次查询都是用上了索引,并且查询时同时进行的,所以查询效率应该很高 
使用not exists的sql 
复制代码代码如下:

select distinct a.ruid 
from UserMsg a 
where a.subjectID =12 
and a.createTime >= '2009-8-14 15:30:00' 
and a.createTime <='2009-8-17 16:00:00' 
and not exists ( 
select distinct RUID 
from UserMsg 
where subjectID =12 and createTime < '2009-8-14 15:30:00' 
and ruid=a.ruid 


返回444行记录用时 0.08sec 
explain 结果 
+----+--------------------+---------+-------+---------------------------+------------+---------+--------------+------+------ 

------------------------+ 
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra 


+----+--------------------+---------+-------+---------------------------+------------+---------+--------------+------+------ 

------------------------+ 
| 1 | PRIMARY | a | range | SubjectID,CreateTime | CreateTime | 9 | NULL | 1839 | Using 

where; Using temporary | 
| 2 | DEPENDENT SUBQUERY | UserMsg | ref | RUID,SubjectID,CreateTime | RUID | 96 | dream.a.RUID | 2 | Using 

where | 
+----+--------------------+---------+-------+---------------------------+------------+---------+--------------+------+------ 

------------------------+ 
分析:同上基本上是一样的,只是分解了2个查询顺序执行,查询效率低于第3个 

为了验证数据查询效率,将上述查询中的subjectID =12的限制条件去掉,结果统计查询时间如下 
0.20s 
21.31s 
0.25s 
0.43s 

laserhe帮忙分析问题总结 
复制代码代码如下:

select a.ruid,b.ruid 
from( select distinct RUID 
from UserMsg 
where CreateTime >= '2009-8-14 15:30:00' 
and CreateTime<='2009-8-17 16:00:00' 
) a left join UserMsg b 
on a.ruid = b.ruid 
and b.createTime < '2009-8-14 15:30:00' 
where b.ruid is null; 

执行时间0.13s 
+----+-------------+------------+-------+-----------------+------------+---------+--------+------+-------------------------- 

----+ 
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra 


+----+-------------+------------+-------+-----------------+------------+---------+--------+------+-------------------------- 

----+ 
| 1 | PRIMARY | <derived2> | ALL | NULL | NULL | NULL | NULL | 1248 | 


| 1 | PRIMARY | b | ref | RUID,CreateTime | RUID | 96 | a.RUID | 2 | Using where; Not exists 


| 2 | DERIVED | UserMsg | range | CreateTime | CreateTime | 9 | NULL | 3553 | Using where; Using 

temporary | 
+----+-------------+------------+-------+-----------------+------------+---------+--------+------+-------------------------- 

----+ 
执行效率类似与not in的效率 

数据库优化的基本原则:让笛卡尔积发生在尽可能小的集合之间,mysql在join的时候可以直接通过索引来扫描,而嵌入到子查询里头,查询规 

划器就不晓得用合适的索引了。 
一个SQL在数据库里是这么优化的:首先SQL会分析成一堆分析树,一个树状数据结构,然后在这个数据结构里,查询规划器会查找有没有合适 

的索引,然后根据具体情况做一个排列组合,然后计算这个排列组合中的每一种的开销(类似explain的输出的计算机可读版本),然后比较里 

面开销最小的,选取并执行之。那么: 
explain select a.ruid,b.ruid from(select distinct RUID from UserMsg where CreateTime >= '2009-8-14 15:30:00' 

and CreateTime<='2009-8-17 16:00:00' ) a left join UserMsg b on a.ruid = b.ruid and b.createTime < '2009-8-14 15:30:00' 

where b.ruid is null; 
和 
explain select add_tb.RUID 
-> from (select distinct RUID 
-> from UserMsg 
-> where CreateTime>'2009-8-14 15:30:00' 
-> and CreateTime<='2009-8-17 16:00:00' 
-> ) add_tb 
-> where add_tb.RUID 
-> not in (select distinct RUID 
-> from UserMsg 
-> where CreateTime<'2009-8-14 15:30:00' 
-> ); 
explain 
+----+--------------------+------------+----------------+-----------------+------------+---------+------+------+------------ 

------------------+ 
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra 


+----+--------------------+------------+----------------+-----------------+------------+---------+------+------+------------ 

------------------+ 
| 1 | PRIMARY | <derived2> | ALL | NULL | NULL | NULL | NULL | 1248 | Using where 


| 3 | DEPENDENT SUBQUERY | UserMsg | index_subquery | RUID,CreateTime | RUID | 96 | func | 2 | Using index; 

Using where | 
| 2 | DERIVED | UserMsg | range | CreateTime | CreateTime | 9 | NULL | 3509 | Using where; 

Using temporary | 
+----+--------------------+------------+----------------+-----------------+------------+---------+------+------+------------ 

------------------+ 
开销是完全一样的,开销可以从 rows 那个字段得出(基本上是rows那个字段各个行的数值的乘积,也就是笛卡尔积) 
但是呢:下面这个: 
explain select a.ruid,b.ruid from(select distinct RUID from UserMsg where CreateTime >= '2009-8-14 15:30:00' 

and CreateTime<='2009-8-17 16:00:00' ) a left join ( select distinct RUID from UserMsg where createTime < '2009-8-14 

15:30:00' ) b on a.ruid = b.ruid where b.ruid is null; 
执行时间21.31s 
+----+-------------+------------+-------+---------------+------------+---------+------+-------+----------------------------- 

-+ 
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra 


+----+-------------+------------+-------+---------------+------------+---------+------+-------+----------------------------- 

-+ 
| 1 | PRIMARY | <derived2> | ALL | NULL | NULL | NULL | NULL | 1248 | 


| 1 | PRIMARY | <derived3> | ALL | NULL | NULL | NULL | NULL | 30308 | Using where; Not exists 


| 3 | DERIVED | UserMsg | ALL | CreateTime | NULL | NULL | NULL | 69366 | Using where; Using temporary 


| 2 | DERIVED | UserMsg | range | CreateTime | CreateTime | 9 | NULL | 3510 | Using where; Using temporary 


+----+-------------+------------+-------+---------------+------------+---------+------+-------+----------------------------- 

-+ 
我就有些不明白 
为何是四行 
并且中间两行巨大无比 
按理说 
查询规划器应该能把这个查询优化得跟前面的两个一样的 
(至少在我熟悉的pgsql数据库里我有信心是一样的) 
但mysql里头不是 
所以我感觉查询规划器里头可能还是糙了点 
我前面说过优化的基本原则就是,让笛卡尔积发生在尽可能小的集合之间 
那么上面最后一种写法至少没有违反这个原则 
虽然b 表因为符合条件的非常多,基本上不会用索引 
但是并不应该妨碍查询优化器看到外面的join on条件,从而和前面两个SQL一样,选取主键进行join 
不过我前面说过查询规划器的作用 
理论上来讲 
遍历一遍所有可能,计算一下开销 
是合理的 
我感觉这里最后一种写法没有遍历完整所有可能 
可能的原因是子查询的实现还是比较简单? 
子查询对数据库的确是个挑战 
因为基本都是递归的东西 
所以在这个环节有点毛病并不奇怪 
其实你仔细想想,最后一种写法无非是我们第一种写法的一个变种,关键在表b的where 条件放在哪里 
放在里面,就不会用索引去join 
放在外面就会 
这个本身就是排列组合的一个可能

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/352370.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python ssl_Python3 ssl模块不可用的问题

编译安装完Python3之后&#xff0c;使用pip来安装python库&#xff0c;发现了如下报错&#xff1a; $ pip install numpy pipis configured with locations that require TLS/SSL, however the ssl module in Python isnot available. Collecting numpy Retrying (Retry(total4…

shell脚本 如何切换当前目录

问题&#xff1a; 是这么个情况&#xff1a;当前目录是/root/replace/ 我想在脚本a.sh中执行该目录下的一个子目录/root/replace/scripts/下的可执行文件run.out和b.sh脚本。但是这个可执行文件run.out的文件读写要求在/scripts下&#xff0c;而b.sh脚本则是以/scripts为当前目…

使用DynamoDBMapper扫描DynamoDB项目

之前&#xff0c;我们介绍了如何使用DynamoDBMapper或底层Java api查询DynamoDB数据库。 除了发出查询之外&#xff0c;DynamoDB还提供扫描功能。 扫描的目的是获取您在DynamoDB表上可能拥有的所有项目。 因此&#xff0c;扫描不需要任何基于我们的分区键或您的全局/本地二级…

vs python生成exe文件_使用VScode编写python程序并打包成.exe文件-文件夹变成exe

1. 下载vscode并安装 2. 配置Python环境 点击左下角的吃了图标&#xff0c;在弹出的菜单中选择extensions&#xff0c;在左上方搜索框内输入“Python”&#xff0c;可以看到好多Python插件&#xff0c;选择安装喜欢的Python插件&#xff08;配图两张&#xff09;。安装Python插…

如何清除主板CMOS

最近很多网友反映&#xff0c;对于清除主板CMOS&#xff0c;不是很了解&#xff0c;操作上也不明白&#xff0c;因此网站重新制作主板CMOS清除的过程&#xff0c;并以图文的形式制作&#xff0c;以便更加直观清楚。 CMOS(本意是指互补金属氧化物半导体存储嚣&#xff0c;是一…

ubuntu如何安装samba

1.samba安装sudo apt-get install samba2.修改smb.confsudo gedit /etc/samba/smb.conf 文件最后增加如下代码&#xff1a;[share] path /home/liunx/share available yes browseable yes public yes writable yes 4.进入home/liunx目录创建share文件夹mkdir /share …

文本处理工具AWK详解

awk简介 awk: 中文意思是报告生成器 能够根据我们输入的信息&#xff0c;将信息格式化以后显示&#xff0c;将定义好的信息以比较美观&#xff08;直观&#xff09;的方式显示出来出现比较早&#xff0c;继而出现了new awk&#xff08;nawk&#xff09;在windows上实现&#x…

安装12G内存读出内存条为3.45G的处理方法

在台式电脑上安装2个内存条&#xff0c;之前是4G的后来加安装了8G内存&#xff0c;本应该有12G但是在电脑上却显示只有3.45G内存为可用&#xff0c; 以下是处理方式&#xff1a; 1、确定两条内存都是可以用 2、在cmd 中输入msconfig 点击enter就可以入系统配置 然后点击引导…

顺序表的介绍与简单运用

1&#xff1a;解释与结构 顺序表是用一段物理地址连续的存储单元依次存储数据元素的线性结构&#xff0c;一般情况下采用数组存 储。在数组上完成数据的增删查改。 顺序表一般可分为一下几类 1.1 静态顺序表 概念&#xff1a;使用定长数组存储元素。注意&#xff1a;这种是…

Fastest way to duplicate mongodb collection

db.myoriginal.aggregate([ { $out: "myCopy" } ]) db.runCommand({aggregate: "myOriginal",pipeline: [{ $match: {} }, { $out: "myCopy" }]});转载于:https://www.cnblogs.com/kevin1988/p/9877551.html

电脑显示链接网络正常但是不能上网,用某些软件会提示系统丢失libeay32.dll

电脑显示链接网络正常但是不能上网&#xff0c;用某些软件会提示系统丢失libeay32.dll,且可以ping通网关 按如下步骤可以重新正常上网&#xff1a; 1.在“开始”菜单找到“运行“ 2.然后在里面输入cmd 按”Enter“键 3.出现的命令提示框内输入“netsh winsock reset"按…

python做算法题优势_Python语言在科学算法中的优势

2019 年第 4 期 信息与电脑 China Computer & Communication 算法语言 Python 语言在科学算法中的优势 刘 瑞 &#xff08;辽宁师范大学海华学院&#xff0c;辽宁 沈阳 110000&#xff09; 摘 要&#xff1a; Python 是一种很有吸引力的语言&#xff0c;是一种面向对象且呈…

Java Spring IOC用法

Java Spring IOC用法 Spring IoC 转载于&#xff1a;http://www.cnblogs.com/flowwind/p/4772375.html在前两篇文章中&#xff0c;我们讲了java web环境搭建 和java web项目搭建,现在看下spring ioc在java中的运用&#xff0c;开发工具为Intellij Idea。 1.简介 IoC(Inversi…

Database学习 - mysql数据类型

MySQL数据类型 可以被分为3类&#xff1a; 1.整型,数值类型 2.日期和时间类型 3.字符串(字符)类型 整型(INT) 数据类型大小M(默认值)范围&#xff08;有符号&#xff09;范围&#xff08;无符号&#xff09;用途tinyint [(M)] [UNSIGNED] [ZEROFILL]1字节4-128~127 (-27~27-1)…

Apache Flink和Kafka入门

介绍 Apache Flink是用于分布式流和批处理数据处理的开源平台。 Flink是具有多个API的流数据流引擎&#xff0c;用于创建面向数据流的应用程序。 Flink应用程序通常使用Apache Kafka进行数据输入和输出。 本文将指导您逐步使用Apache Flink和Kafka。 先决条件 Apache Kafka 0…

matlab集群搭建问题

本文是在matlab 集群搭建中遇到一些问题的总结&#xff1a; 1、破解版的是否可以用&#xff0c;我已经搭建到集群还没使用目前看来破解版的是可以用的&#xff0c;不存在要用到“Licence Manager”。 2、同一个集群中的PC最好是安装同一版本的matlab 和mcde 以防出现不兼容的…

linux下不同服务器间数据传输(rcp,scp,rsync,ftp,sftp,lftp,wget,curl)

因为工作原因&#xff0c;需要经常在不同的服务器见进行文件传输&#xff0c;特别是大文件的传输&#xff0c;因此对linux下不同服务器间数据传输命令和工具进行了研究和总结。主要是rcp,scp,rsync,ftp,sftp,lftp,wget,curl。 rcp rcp不是一种安全的的传输文件的方式&#xff0…

bzoj3143: [Hnoi2013]游走

求经过边的期望次数&#xff0c;然后边的编号相当于给期望一个系数&#xff0c;期望大到小给编号就好 假如可以强行改边为点高斯消元的话是很方便的&#xff0c;然而并不资瓷 但是我们可以先把经过点的期望次数求出来&#xff1a;f(u)sigema((u,v)属于E且v!n)v f(v)/du(v)&…

pythonsqlite3模糊_Python编写通讯录通过数据库存储实现模糊查询功能

1.要求 数据库存储通讯录&#xff0c;要求按姓名/电话号码查询&#xff0c;查询条件只有一个输入入口&#xff0c;自动识别输入的是姓名还是号码&#xff0c;允许模糊查询。 2.实现功能 可通过输入指令进行操作。 &#xff08;1&#xff09;首先输入“add”&#xff0c;可以对通…

分布式Matlab计算集群建立方法与Demo

文章来源&#xff1a;http://hi.baidu.com/modelren/item/6a9d09ff178db405d99e7220 我的实验室有五台双核Pentium D 925计算机&#xff0c;这正适合用来做分布式或并行式计算。我打算只调用那些计算机中的一个核参与计算&#xff0c;留下一个核可以让其他人正常地使用该计算机…