两方平台参与动态的算法策略设计
访谈:Haruka Kiyohara 谈两方平台的策略设计与参与动态
作者:Lucy Smith
在发表于ICML 2025的论文《Policy Design for Two-sided Platforms with Participation Dynamics》中,Haruka Kiyohara、Fan Yao 和 Sarah Dean 研究了两方市场中的参与动态。在这次访谈中,Haruka向我们详细介绍了此类两方平台、该工作的主要贡献以及为测试方法所进行的实验。
问:您论文中的研究主题是什么?为什么这是一个有趣的研究领域?
论文研究了决策算法对电子商务或音乐流媒体等两方平台的长期影响。在两方平台中,涉及多个利益相关者,如观众和内容创作者。传统上,研究此类问题的论文假设双方利益相关者是静态的,或者至多只考虑其中一方的动态。这种倾向很典型,尤其是在涉及用户规模或参与度时,目的是简化评估框架。然而,这些假设在实践中可能不成立,强调这些被忽视的点对于使研究发现更具实际应用价值至关重要。我们感兴趣的是,在观众和提供者都根据算法决策共同演变的实际情况下,理想的算法设计会如何改变。
问:您在工作中研究了问题的哪个方面?
我们专门研究了两方市场中的参与动态。在实际情况下,观众和提供者根据其收益改变参与度是很常见的。例如,如果用户对服务满意,他们可能会向朋友推荐该服务;如果不满意,则可能取消订阅。同样,内容创作者一方也存在动态,他们会改变内容生产的投入,或者如果其内容未能获得足够关注,可能会撤下在线资源。我们为观众和提供者子群体(例如,根据兴趣或特征对观众和提供者进行聚类)的规模增长和收缩建立了模型,并研究了它们的动态和长期影响。
问:能否谈谈您是如何研究群体动态的——您的方法论是什么?
我们使用了控制和博弈论的方法来研究动态。为了建立一个简单且可推广的动态模型,我们首先假设子群体规模会逐渐向其“参考规模”移动,而“参考规模”取决于他们的收益。具体来说,我们引入了一个任意的单调(且凹)函数作为“参考规模”函数,将观众满意度和内容曝光度映射到参考规模。这意味着当观众和提供者的收益增加时,“参考规模”会变大。我们可以通过观众和提供者(内在的)追求收益最大化的行为(同时考虑平台参与的一些成本)来证明此类函数的存在。由于观众满意度和内容曝光度可能取决于平台中的内容分配算法,因此算法(或“策略”)的设计对长期动态有重要影响。另一个关键考虑因素是,观众的满意度不仅取决于分配策略,还取决于内容创作者群体的规模。这在实际情况中非常合理,观众的满意度由其偏好和内容质量共同决定,而大量内容提供者之间的竞争往往会提高内容的整体质量。
问:您的主要发现是什么?
我们的理论分析有几点收获。我们研究中最重要的研究问题之一是,默认的推荐方法——即基于当前效用(和当前群体规模)贪婪地优化算法——在存在群体动态的实际情况下,是否仍然是首选策略。简短的答案是“不”——或者说不总是。我们的分析揭示,只有当衡量内容群体如何影响内容质量的“群体效应”函数是线性且齐次时,默认的贪婪方法才被保证是长期最优的。换句话说,当“群体效应”是异质的时候,贪婪策略会引入“富者愈富”的动态而失败。这是因为,在异质群体效应下,可能发生“交叉”效应,即最初比群体B获得更高回报的群体A,在群体变化后可能变得不那么重要。同样,当群体增长到一定程度后出现某种饱和时,目光短浅的贪婪策略可能因为无法做大平台的总盘子(即总群体规模)而力有不逮。此外,我们的分析揭示,曝光分配策略——即使将内容曝光分配给当前次优的内容群体——也可能通过有效扩大总盘子,从长远来看改善长期社会福利。这些发现尤其凸显了将曝光分配给当前质量低但具有未来增长潜力的项目(如新产品类别或新技术)的重要性。
图1:快推数据集[1]中具有饱和效应的异质群体效应示例。可以看到,虽然效用(即内容质量)随着内容群体规模增加而增长,但其增长在不同内容子群体间存在差异,并且在某些点存在“交叉”。同时,在将内容群体增加到一定程度后,我们看到群体增长出现“饱和”。
问:能否简要介绍一下您提出的用于优化长期社会福利的算法?
基于上述发现,我们提出了一种考虑长期动态的简单算法。所提出的算法称为“前瞻性”策略,其关键在于在参考点(即观众和提供者群体向其移动的目标点,可通过在线数据进行回归估计)而非短视的当前群体规模上优化策略。
我们在短视策略可能失败的两种代表性情况(情况1,合成数据)和可能长期最优的情况(情况2,公开数据[1])中测试了所提出的方法。结果表明,在情况1中,所提出的方法取得了比贪婪策略和完全曝光分配策略(称为“均匀”策略)都高得多的性能,并且与这些基线相比,在收敛时改善了观众和提供者双方的群体规模。此外,即使在短视贪婪策略可能是长期最优的情况下,所提出的方法也能达到几乎相同的性能,同时从长远来看极大地改善了内容提供者的群体规模。
图2:情况1(短视贪婪策略失败)的实验结果。β = 0.0是短视贪婪策略,β = 1.0是提出的前瞻性策略。其他β值是短视贪婪和前瞻性策略之间的线性插值。上图从较小的初始群体开始,下图从较大的初始群体开始。这些结果来自合成数据实验。
图3:情况2(短视贪婪策略长期最优)的实验结果。β = 0.0是短视贪婪策略,β = 1.0是提出的前瞻性策略。其他β值是短视贪婪和前瞻性策略之间的线性插值。这些结果来自快推[1]数据半合成实验。
问:您计划在这一领域进行进一步研究吗?
这是一个非常令人兴奋的研究领域,未来有许多有趣的工作可以做。一方面,虽然本文我们是在子群体层面进行的分析,但看看如何将分析扩展到个体层面,或者考虑连续特征空间中整体群体分布的更复杂动态,将会很有意义。扩散模型可能对此类分析有益。
另一个有趣的方向是思考如何给予内容创作者外部激励(如金钱奖励)。值得思考的是,为了长期社会福利,如何推广“小众”内容或新技术,而不是推广当前成功的行动并导致“富者愈富”的动态。
参考文献
[1] 快推数据集
关于Haruka
Haruka Kiyohara是康奈尔大学计算机科学专业的三年级博士生。她的研究兴趣在于使用因果推理和机器学习来评估和优化决策系统,特别是在推荐系统中,基于记录数据学习并优化长期社会效益。她的工作已在包括ICML、NeurIPS、ICLR、KDD、WSDM和RecSys在内的机器学习和数据挖掘会议上发表。在康奈尔大学之前,她获得了东京工业大学的工业工程与经济学学士学位。她在康奈尔大学的研究生学习得到了船井海外奖学金和四方奖学金的资助。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码


浙公网安备 33010602011771号