利用因果机器学习消除推荐系统评估中的选择偏差

移除推荐评估中的选择偏差

因果机器学习为评估某中心FBA向销售伙伴提供推荐的有效性提供了一个强大的工具。

在某中心店铺中,超过60%的销售额来自独立卖家。推动这一增长的重要因素之一是FBA,这是一个可选计划,允许卖家将订单履行外包给某中心。FBA使客户能够以快速的配送速度获取海量商品,也让卖家能够利用某中心的全球物流网络和先进技术来拣选、打包、配送客户订单,并处理客户服务和退货。FBA还使用先进的优化和机器学习模型,为卖家提供库存管理建议,例如应储备多少哪些商品、如何通过赞助广告推广商品,以及是否以及何时打折销售过剩库存。

这些建议的目标是提高卖家绩效,例如最大化与卖家相关的成果指标,如收入、发货量和商品列表的客户点击量。为了确定建议是否有效,我们希望能比较卖家遵循FBA建议得到的结果与不遵循建议可能得到的结果。

但进行这种比较并不像比较遵循建议和不遵循建议的两组卖家的结果那么简单。这是因为所谓的“选择偏差”:导致某些卖家遵循建议的特质本身可能意味着,如果他们不遵循建议,他们的结果也会与那些实际上未遵循相同建议的卖家不同。

在某机构的管理科学会议上,我们展示了一个教程,说明了如何使用前沿的因果机器学习方法来在估计FBA建议效果时过滤掉选择偏差。

为了构建因果模型,我们使用了双重机器学习。具体来说,我们训练了两个机器学习模型:一个基于库存管理历史、商品特征等输入来预测每个卖家是否会遵循建议;另一个使用与第一个模型相同的输入,加上卖家的接受决定,来预测卖家的结果。我们使用这些模型的预测来解释那些无法从观测数据中直接确定的任何选择偏差,如下文所述。

使用这种方法,我们已经证明了FBA建议为何以及能在多大程度上改善卖家的结果。我们通过卖家中心页面向卖家展示了这些效果估计,以提高认知度和采纳率。

选择偏差

为了衡量和监控此类建议的效果,理想情况下,我们会定期进行实验。但我们并不进行此类实验,因为我们希望保持卖家的良好体验、维护公平性,并且不希望负面影响卖家的决策。

实验涉及两组:接受干预(如建议)的处理组,以及不接受此干预的控制组。精心设计的实验会随机分配一些参与者到处理组,另一些到控制组,以确保无偏的比较。

为了避免卖家受到这种区别对待,我们转而依赖于通过观察卖家决策及其结果所收集的数据。因此,我们的方法非常适合那些可能无法进行实验的环境。

选择偏差发生在分配到处理组和控制组的过程不是随机的,且决定组别归属的因素也会影响结果的情况下。在我们的案例中,处理组包括决定使其行动与建议一致的卖家,而控制组则包括选择不遵循建议的卖家。换句话说,卖家不是被随机分配的,而是自我选择进入任一组的。

因此,可能的情况是,积极主动且精通库存管理的卖家可能选择进入处理组,而对库存管理不太关心的卖家可能选择进入控制组。在这种情况下,将处理组更高的收入完全归因于FBA建议是错误的,因为部分原因可能源于卖家先前关于库存管理的知识,而非他们是否遵循FBA建议。

另一种可能是,控制组的成员已经对库存管理有非常透彻的理解,以至于他们认为不需要FBA的建议,因此他们的结果可能比处理组在不接受干预的情况下会得到的结果更好。因此,简单地比较两组的结果是不够的:需要一种不同的方法来严格量化遵循FBA建议的效果。

双重机器学习

我们的解决方案是使用双重机器学习,它结合了两个模型来估计因果效应:一个模型估计在给定决定遵循或不遵循建议的情况下,卖家的预期结果;另一个模型估计遵循建议的倾向性。这些倾向性的变化是选择偏差的来源。

每个模型接收数百个输入,包括库存管理和商品数据。对于每个卖家,我们计算卖家结果模型的残差(模型预测与实际结果之间的差异)和卖家决策模型的残差(模型预测与卖家实际遵循建议的决策之间的差异)。这些残差代表了卖家结果和卖家决策中无法由观测数据解释的变异。

因此,我们“移除”了我们的输入(例如卖家的经验水平)可能对处理效果估计产生的任何影响。当我们将结果模型的残差对决策模型的残差进行回归时,我们估计了处理状态中未解释变异对结果中未解释变异的影响。由此得到的估计量就是卖家决定遵循建议对结果的因果影响。

在我们的教程中,我们展示了如何使用此方法来计算平均处理效应、处理组平均处理效应和条件平均处理效应。平均处理效应是处理(遵循FBA建议)对整个FBA卖家群体的总体影响。它回答了“平均而言,遵循建议与不遵循建议相比,对卖家结果改变了多少?”的问题。

处理组平均处理效应关注的是实际遵循了建议的卖家。它回答了“对于那些遵循了建议的人,与不遵循建议相比,平均效应是多少?”的问题。

条件平均处理效应进一步细化,根据产品类别或当前库存水平等特征查看特定的子群体。它回答了“对于特定的卖家群体和产品,遵循建议与不遵循建议相比,对他们有何影响?”的问题。

我们的方法对所使用的机器学习模型类型是不可知的。但我们观察到,考虑到我们数据的规模和表格性质,梯度提升决策树在线性回归模型的高效率但较低准确性,与深度学习模型的高准确性但较低效率之间提供了一个良好的折衷。

最后,在我们向卖家提出建议以帮助他们改善结果之前,我们进行了严谨的科学研究来构建推荐算法,监控其结果,并修订和重建它们,以确保卖家的结果确实得到改善。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2025-12-18 20:04  CodeShare  阅读(23)  评论(0)    收藏  举报