SQL语句优化技术分析

最近几周一直在进行数据库培训,老师精湛的技术和生动的讲解使我受益匪浅。为了让更多的新手受益,我抽空把SQL语句优化部分进行了整理,希望大家一起进步。

一、操作符优化

1、IN 操作符

用IN写出来的SQL的优点是比较容易写及清晰易懂,这比较适合现代软件开发的风格。但是用IN的SQL性能总是比较低的,从Oracle执行的步骤来分析用IN的SQL与不用IN的SQL有以下区别:

ORACLE试图将其转换成多个表的连接,如果转换不成功则先执行IN里面的子查询,再查询外层的表记录,如果转换成功则直接采用多个表的连接方式查询。由此可见用IN的SQL至少多了一个转换的过程。一般的SQL都可以转换成功,但对于含有分组统计等方面的SQL就不能转换了。

推荐方案:在业务密集的SQL当中尽量不采用IN操作符,用EXISTS 方案代替。

2、NOT IN操作符

此操作是强列不推荐使用的,因为它不能应用表的索引。

推荐方案:用NOT EXISTS 方案代替

3、IS NULL 或IS NOT NULL操作(判断字段是否为空)

判断字段是否为空一般是不会应用索引的,因为索引是不索引空值的。

推荐方案:用其它相同功能的操作运算代替,如:a is not null 改为 a>0 或a>’’等。不允许字段为空,而用一个缺省值代替空值,如申请中状态字段不允许为空,缺省为申请。

4、> 及 < 操作符(大于或小于操作符)

大于或小于操作符一般情况下是不用调整的,因为它有索引就会采用索引查找,但有的情况下可以对它进行优化,如一个表有100万记录,一个数值型字段A,30万记录的A=0,30万记录的A=1,39万记录的A=2,1万记录的A=3。那么执行A>2与A>=3的效果就有很大的区别了,因为A>2时ORACLE会先找出为2的记录索引再进行比较,而A>=3时ORACLE则直接找到=3的记录索引。

5、LIKE操作符

LIKE操作符可以应用通配符查询,里面的通配符组合可能达到几乎是任意的查询,但是如果用得不好则会产生性能上的问题,如LIKE ‘%5400%’ 这种查询不会引用索引,而LIKE ‘X5400%’则会引用范围索引。

一个实际例子:用YW_YHJBQK表中营业编号后面的户标识号可来查询营业编号 YY_BH LIKE ‘%5400%’ 这个条件会产生全表扫描,如果改成YY_BH LIKE ’X5400%’ OR YY_BH LIKE ’B5400%’ 则会利用YY_BH的索引进行两个范围的查询,性能肯定大大提高。

6、UNION操作符

UNION在进行表链接后会筛选掉重复的记录,所以在表链接后会对所产生的结果集进行排序运算,删除重复的记录再返回结果。实际大部分应用中是不会产生重复的记录,最常见的是过程表与历史表UNION。如:
select * from gc_dfys
union
select * from ls_jg_dfys
这个SQL在运行时先取出两个表的结果,再用排序空间进行排序删除重复的记录,最后返回结果集,如果表数据量大的话可能会导致用磁盘进行排序。

推荐方案:采用UNION ALL操作符替代UNION,因为UNION ALL操作只是简单的将两个结果合并后就返回。

select * from gc_dfys
union all
select * from ls_jg_dfys

二、SQL书写的影响

1、同一功能同一性能不同写法SQL的影响。

如一个SQL在A程序员写的为  Select * from zl_yhjbqk

B程序员写的为 Select * from dlyx.zl_yhjbqk(带表所有者的前缀)

C程序员写的为 Select * from DLYX.ZLYHJBQK(大写表名)

D程序员写的为 Select *  from DLYX.ZLYHJBQK(中间多了空格)

以上四个SQL在ORACLE分析整理之后产生的结果及执行的时间是一样的,但是从ORACLE共享内存SGA的原理,可以得出ORACLE对每个SQL 都会对其进行一次分析,并且占用共享内存,如果将SQL的字符串及格式写得完全相同,则ORACLE只会分析一次,共享内存也只会留下一次的分析结果,这不仅可以减少分析SQL的时间,而且可以减少共享内存重复的信息,ORACLE也可以准确统计SQL的执行频率。

2、WHERE后面的条件顺序影响

WHERE子句后面的条件顺序对大数据量表的查询会产生直接的影响。如:
Select * from zl_yhjbqk where dy_dj = '1KV以下' and xh_bz=1
Select * from zl_yhjbqk where xh_bz=1 and dy_dj = '1KV以下'
以上两个SQL中dy_dj(电压等级)及xh_bz(销户标志)两个字段都没进行索引,所以执行的时候都是全表扫描,第一条SQL的dy_dj = '1KV以下'条件在记录集内比率为99%,而xh_bz=1的比率只为0.5%,在进行第一条SQL的时候99%条记录都进行dy_dj及xh_bz的比较,而在进行第二条SQL的时候0.5%条记录都进行dy_dj及xh_bz的比较,以此可以得出第二条SQL的CPU占用率明显比第一条低。

3、查询表顺序的影响

在FROM后面的表中的列表顺序会对SQL执行性能影响,在没有索引及ORACLE没有对表进行统计分析的情况下,ORACLE会按表出现的顺序进行链接,由此可见表的顺序不对时会产生十分耗服物器资源的数据交叉。(注:如果对表进行了统计分析,ORACLE会自动先进小表的链接,再进行大表的链接)

三、SQL语句索引的利用

1、操作符优化(同上)

2、对条件字段的一些优化

采用函数处理的字段不能利用索引,如:

substr(hbs_bh,1,4)=’5400’,优化处理:hbs_bh like ‘5400%’

trunc(sk_rq)=trunc(sysdate), 优化处理:sk_rq>=trunc(sysdate) and sk_rq<trunc(sysdate+1)

进行了显式或隐式的运算的字段不能进行索引,如:ss_df+20>50,优化处理:ss_df>30

‘X’ || hbs_bh>’X5400021452’,优化处理:hbs_bh>’5400021542’

sk_rq+5=sysdate,优化处理:sk_rq=sysdate-5

hbs_bh=5401002554,优化处理:hbs_bh=’ 5401002554’,注:此条件对hbs_bh 进行隐式的to_number转换,因为hbs_bh字段是字符型。

条件内包括了多个本表的字段运算时不能进行索引,如:ys_df>cx_df,无法进行优化
qc_bh || kh_bh=’5400250000’,优化处理:qc_bh=’5400’ and kh_bh=’250000’

四、其他

ORACLE的提示功能是比较强的功能,也是比较复杂的应用,并且提示只是给ORACLE执行的一个建议,有时如果出于成本方面的考虑ORACLE也可能不会按提示进行。根据实践应用,一般不建议开发人员应用ORACLE提示,因为各个数据库及服务器性能情况不一样,很可能一个地方性能提升了,但另一个地方却下降了,ORACLE在SQL执行分析方面已经比较成熟,如果分析执行的路径不对首先应在数据库结构(主要是索引)、服务器当前性能(共享内存、磁盘文件碎片)、数据库对象(表、索引)统计信息是否正确这几方面分析。

Tag标签: 数据库
posted @ 2008-04-27 22:24 鹰击长空 阅读(2840) 评论(27)  编辑 收藏 所属分类: 数据库设计

  回复  引用  查看    
#1楼 2008-04-27 23:04 | wingoo      
这些对于sqlserver呢?
  回复  引用  查看    
#2楼 2008-04-28 07:56 | 笨笨的考拉熊      
非常好!
如果多一些就更好了
  回复  引用  查看    
#3楼 2008-04-28 08:13 | 俺是SQL砖家      
分析得很好。

俺最喜欢看SQL最终的执行计划,查询优化器很少按俺的想象去优化。看执行计划后再调整SQL最准确。
  回复  引用  查看    
#4楼 2008-04-28 08:42 | jisen      
good
  回复  引用  查看    
#5楼 2008-04-28 08:50 | huangchangnan      
@俺是SQL砖家
我也是这么想的^^
(好多情况下都要考虑实际业务的数据量等等问题)

谢谢楼主共享知识^.^

还有几个想在这里确认一下的(学艺不精不敢确定^^)
印象里 in 和 EXISTS 我一直记得最好区分的是
in :在子查询数据量较少的时候使用。
EXISTS:在子查询里数据较多的时候使用。

不知道是书里看的还是听前辈说的了。m..m

  回复  引用  查看    
#6楼 2008-04-28 08:53 | 心悦      
谢谢分享!
  回复  引用  查看    
#7楼 2008-04-28 08:55 | hackenliu      
good
  回复  引用  查看    
#8楼 2008-04-28 09:12 | DotNet菜园      
异议:
substr(hbs_bh,1,4)=’5400’,优化处理:hbs_bh like ‘5400%’
这样并不一定是优化.
测试结果如下:
select top 1000 * from somast
where substring(sono,8,10)='401'

执行时间68ms

select top 1000 * from somast
where sono like '%401'
执行时间是217ms

这是优化吗?
我不知道你所说的优化是为了利用索引,还是为了减少查询时间?
以上有些内容还是很有参考价值的.
不会很多说的很教条.



  回复  引用  查看    
#9楼 2008-04-28 09:16 | SunnyS [未注册用户]
针对 like ‘%参数%’如何优化?


  回复  引用  查看    
#10楼 2008-04-28 09:16 | Yoshow      
收藏...
  回复  引用  查看    
#11楼 2008-04-28 09:20 | 生鱼片      
学习
  回复  引用  查看    
#12楼 [楼主]2008-04-28 09:47 | 长空新雁      
@DotNet菜园
前提是建了索引,而且数据量大时更明显。
  回复  引用  查看    
#13楼 2008-04-28 10:53 | PerfectDesign      
@wingoo
对于第二条,where顺序会被自动优化,无需关心。
like在某些场景下可以优化。
in子句在可选择数据比较小的情况下可以使用 union,但是如果in子句内选择数据较多,建议还是采用全表扫描或索引扫描。

优化不可以教条化吧,最重要还是要切合实际的场景,作出最正确的选择。
  回复  引用  查看    
#14楼 [楼主]2008-04-28 10:55 | 长空新雁      
@SunnyS
针对 like ‘%参数%’,应该尽可能改成多个‘参数%’形式的组合,即‘A参数%’OR ‘B参数%’等,如果不行,那就没辙了
  回复  引用  查看    
#15楼 2008-04-28 11:04 | DotNet菜园      
@长空新雁
substr(hbs_bh,1,4)=’5400’,优化处理:hbs_bh like ‘5400%’
测试说明:stock表中有30万条数据,每条数据有50个字段.
字段no上面有非聚集索引
测试结果如下:
select * from stock
where substring(no,1,3)='401'

执行时间
第1次:1019ms
第2次:981ms
第3次:1015ms

select * from stock
where no like '401%'
执行时间
第1次:994ms
第2次:1038ms
第3次:966ms

测试结果说明,差距在-3%--3%之间.


  回复  引用  查看    
#16楼 2008-04-28 11:12 | josephshi      
看了不少优化的,都没有实践过,半信半疑,顶一个
  回复  引用  查看    
#17楼 2008-04-28 11:27 | PerfectDesign      
@DotNet菜园
@长空新雁
关于like的优化,可以看一下这个优化案例:
http://www.cnblogs.com/perfectdesign/archive/2008/04/24/sql_tuning.html
  回复  引用  查看    
#18楼 2008-04-28 12:02 | Kevin Zeng      
谢谢分享
  回复  引用  查看    
#19楼 2008-04-28 12:15 | alisx      
学到了不少知识,谢谢
  回复  引用  查看    
#20楼 2008-04-28 17:33 | 传说中的宝玉      
不错不错
  回复  引用  查看    
#21楼 2008-04-28 20:23 | ▲ [未注册用户]
很多内容是很好的,这是程序员务必要注意的地方。

感觉讲得还不够深入,最好把一些性能参数对比出来说明。

我以前的Oracle讲座也有很多类似的说明,可以加入进去,谢谢你的共享。
  回复  引用  查看    
#22楼 2008-04-29 09:07 | 小龙22 [未注册用户]
@长空新雁
like '%AAA%' 这样的左右模糊查询不能用上索引,有什么办法加快查询速度?
注:我的表只查询,不需要更新!

表的数据有300-400万条。
解决方法:where instr(column_name,'AAA')> 0
  回复  引用  查看    
#23楼 2008-04-29 09:50 | PerfectDesign      
居然把mdx拿过来用了,强!
  回复  引用  查看    
#24楼 2008-05-05 12:46 | 留恋星空      
收藏下。
  回复  引用  查看    
#25楼 2008-05-06 08:27 | 李海      
--引用--------------------------------------------------
俺是SQL砖家: <img src="http://www.cnblogs.com/Emoticons/qface/055243188.gif" alt="" />分析得很好。<br />
<br />
俺最喜欢看SQL最终的执行计划,查询优化器很少按俺的想象去优化。看执行计划后再调整SQL最准确。<img src="http://www.cnblogs.com/Emoticons/msn/49_49.gif" alt="" />

--------------------------------------------------------


标题  
姓名  
主页
Email (只有博主才能看到) 
验证码 *  看不清,换一张
内容(请不要发表任何与政治相关的内容)  
  登录  使用高级评论  新用户注册  返回页首  恢复上次提交      
该文被作者在 2008-04-28 10:19 编辑过
 
向地震灾区捐赠爱心