mysql join sum时数据重复问题及解决方案

当我们使用mysql的join功能从多张表中取出数据并使用sum分别对取出的数据求和时

会发现sum出来的值是不对的,往往是正确值的整数倍

为什么会出现这样的情况呢

复现

假设有两张表:user_buy 和user_sell,分别记录了用户在某天的购买和出售金额,

结构如下:

CREATE TABLE `user_buy` (
`id` int(10) unsigned NOT NULL AUTO_INCREMENT,
`uid` int(10) unsigned NOT NULL COMMENT '用户id',
`amount` int(10) unsigned default '0' COMMENT '数量',
`init_time` date not null comment '日期',
PRIMARY KEY (`id`),
KEY `uid` (`uid`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COMMENT='用户购买统计';

 

CREATE TABLE `user_sell` (
`id` int(10) unsigned NOT NULL AUTO_INCREMENT,
`uid` int(10) unsigned NOT NULL COMMENT '用户id',
`amount` int(10) unsigned default '0' COMMENT '数量',
`init_time` date not null comment '日期',
PRIMARY KEY (`id`),
KEY `uid` (`uid`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COMMENT='用户出售统计';

 

数据如下:

 

 

 

 

现在我想求用户在一段时间里面的购买总金额 - 出售总金额,并根据差值排序,取前30个用户

一番思考后,我写下了如下sql

select ub.uid, sum(ub.amount) - sum(us.amount) total
from user_buy ub
left join user_sell us on ub.uid = us.uid
group by ub.uid
order by total
limit 30

 

得到如下结果:

 

很明显,这个结果是不对的

用户11的正确值应该是(100+200) - (10 + 20) = 270

用户22的正确值应该是(300+400) -(30 + 40) = 630

sql得出的结果是正确值的2倍!

猜想

由于按照uid字段进行聚合,且uid也是两个表关联的联结字段,因此会出现以下情况:

1.user_buy中的某个uid在user_sell中存在,且在user_sell中有n条记录时,会使得sum(ub.amount)的值变为正常值的n倍

2.user_sell中的某个uid在user_buy中存在,且在user_buy中有m条记录时,会使得sum(us.amount)的值变为正常值的m倍

验证

修改数据,在user_sell中增加一条uid = 11的数据

 

 

 

 

继续用上面的sql查询:

 

 

用户11的正确值应该是(100+200) - (10 + 20+30) = 240

780 怎么来的?

(100+200)* 3 - (10 + 20 +30)* 2 = 780

1260同理,猜想正确

解决方案

为了避免联表字段同时满足多条记录的情况

先用子查询在各自表中完成数据的聚合,将数据存放在临时表中,再联合临时表

此时两个临时表中的数据对聚合字段uid来说都是唯一的

sql如下:

select ub.uid, sum(ub.amount) - sum(us.amount) total
from (select uid, sum(amount) as amount from user_buy group by uid) as ub
left join (select uid, sum(amount) as amount from user_sell group by uid) as us on ub.uid = us.uid
group by ub.uid
order by total
limit 30

 

结果:

 

posted @ 2020-05-17 12:53  jiage666  阅读(4672)  评论(0编辑  收藏  举报