分组数据筛选(group by后取出每组的第n条数据)

今天在一个群里有人问一个问题，如何在msql里执行一个查询：从一个表里面取数据，按照某个字段分组，然后取每组的第三条数据。有个人说了oracle的实现方法，用到了rank。当然，oracle我是不懂的，google的结果是mysql里面也没有rank函数。然后搜到了一篇文章研究了一下，总算折腾出来了。下面是参考文章的链接：http://blog.sina.com.cn/s/blog_4d18beb10100y3kt.html

先创建一个表作为例子：

1 CREATE TABLE sam (
2   `a` int(11) DEFAULT NULL,
3   `b` int(11) DEFAULT NULL
4 ) ENGINE=MyISAM DEFAULT CHARSET=utf8;
5 INSERT INTO sam VALUES (1,10),(1,15),(1,20),(1,25),(2,20),(2,22),(2,33),(2,45);

表里的数据如下：
a b
1 10
1 15
1 20
1 25
2 20
2 22
2 33
2 45

然后就是一个查询，给每组的行都加上序号：

1 SELECT a,b,
2     @rank:=IF(@a=a, @rank+1, 1) rank,
3     @a:=a 
4     FROM `sam`,
5     (SELECT @rank:=1,@a:=null) tt;

查询结果：

a b rank @a:=a
1 10 1 1
1 15 2 1
1 20 3 1
1 25 4 1
2 20 1 2
2 22 2 2
2 33 3 2
2 45 4 2

这里有些地方需要解释一下。
第1行：这里用到了用户变量和IF函数，用户变量就是每次查询的临时变量，类似java方法里面的临时变量。IF函数类似if语句，里面有三个参数，第一个是条件，第二个是条件成功时的返回值，第三个是条件失败时的返回值。
第3行：这里保存一下a列的值，用来跳转到下一行时在IF里面和最新a值做对比，以便决定rank是否需要重置为1。
第5行，这里其实啥都没干，主要作用类似声明变量，反正不声明结果会很诡异，详细原因还没研究清楚。

综上所述，取每组第三行的查询语句是：

1 SELECT t.a, t.b FROM (SELECT a,b,@rank:=IF(@a=a, @rank+1, 1) rank,@a:=a FROM sam) t,
2     (SELECT @rank:=1,@a:=null) tt WHERE rank=3;

查询结果：

a b
1 20
2 33

上面没有考虑顺序，因为原始数据本来就是有顺序的。如果考虑到a、b的顺序以及b可能有重复值，可以使用下面的语句，读者可以插入几条重复数据测试一下：

SELECT t.a, t.b FROM (SELECT f.a,f.b,
    @rank:=IF(@b<>f.b,IF(@a=f.a, @rank+1, 1),@rank) rank,
    @a:=f.a,
    @b:=f.b
    FROM (SELECT a,b FROM `SAM` ORDER BY a,b) f,
    (SELECT @rank:=1,@a:=null,@b:=null) tt) t WHERE rank=3;

posted @ 2012-10-12 11:08 李土鳖阅读(5180) 评论(0) 收藏举报

刷新页面返回顶部

分组数据筛选(group by后取出每组的第n条数据)

公告