预测模型与搜索模型-数据科学家们忽略了什么

预测模型与搜索模型：数据科学家们忽略了什么

原文：towardsdatascience.com/the-economics-of-two-sided-platforms/

引言

作为数据科学家，我们变得极其专注于构建算法、因果/预测模型和推荐系统（现在还有生成式 AI）。我们优化准确性，微调超参数，寻找下一个大型的、花哨的模型部署到生产环境中。但在我们专注于提供最先进实现的过程中，我们忽略了一类可以重塑我们对商业问题本身思考的模型。

考虑到亚马逊、Spotify、Netflix、Uber 和 Upstart 等平台公司的兴起。虽然他们的行业看起来截然不同，但它们本质上是在需求和供应代理之间的搜索-匹配市场中的中介。这些公司的价值主张在于通过提供一个平台和匹配算法来连接代理，以降低顾客的搜索成本，并在不确定性和异质偏好下实现匹配。这些公司在其行业中扮演着中介的角色。

核心挑战

在这些市场中，基本问题不仅仅是标准化的孤立机器学习问题，例如“我们如何预测需求？”或“广告如何影响客户流失率？”相反，关键挑战是：

在预期的需求模式下，我们应该上线多少供应商？
我们如何设计匹配机制以产生最优分配？
什么定价策略可以在平衡平台增长和客户满意度的同时最大化平台收入？
当一个模型原初的变化产生连锁反应时，我们如何处理下游的影响？

传统的数据科学方法将这些视为独立的优化问题，并为它们分配了单独的工作流程。然而，经济学家自 20 世纪 80 年代以来一直在研究这些问题，并开发了一个统一的理论框架来捕捉这些平台动态的相互依存性，称为搜索理论模型。此外，这是我研究生阶段深入研究但未在行业工作中看到应用的东西，因此我想引起对这个模型集的关注。

为什么这对数据科学家来说很重要

数据科学作为一个领域，在测量和算法方面做得很好，但在问题表述方面落后（我们将其留给了产品经理和执行者）。理解这些理论基础有助于我们思考要测量哪些指标以及要构建哪些算法。我们不是构建孤立的预测模型，而是可以设计共同工作的系统，以考虑均衡效应、战略行为和反馈循环。这种理论视角帮助我们确定正确的实验，了解我们的模型因代理偏好变化而崩溃（群体漂移）时的情况，并设计出对均衡结果有第一级影响干预措施。

在这篇文章中，我将介绍搜索模型背后的理论，并使用一个贷款平台（Upstart/LendingClub/Prosper）作为具体例子，展示其实际应用。我们将探讨这个框架如何指导合作伙伴获取策略、定价和费用机制，以及应该使用哪些杠杆来推动增长。感兴趣的读者可以继续下一节，了解这些模型是如何形成的简要背景，或者直接跳到实际例子，了解如何设计这些模型。

经济文献

这个建模框架源于 20 世纪 80 年代的经济学，当时戴尔·莫滕森、克里斯托弗·皮萨里德斯和彼得·戴蒙德试图理解为什么即使在有职位空缺的情况下，失业仍然存在。这一系列问题引导他们赢得了 2010 年的诺贝尔奖，以表彰他们的工作。他们的戴蒙德-莫滕森-皮萨里德斯（DMP）模型改变了我们对市场的看法。核心洞察力是找到工作（或雇佣某人）需要时间（并且需要花钱），这导致了在竞争市场中产生的摩擦。戴蒙德在 1982 年表明，当搜索成本高昂时，工资不是由总供给和需求决定的。相反，它们是在双边谈判过程中由特定工人和企业之间协商确定的。这种谈判使用纳什谈判，其中工资取决于每一方的谈判能力和外部选择。如果任何一方有更好的外部选择，他们将获得匹配创造的价值中更大的份额。

莫滕森进一步扩展了这一观点，表明即使在健康的经济中，搜索成本也会创造一个失业工人的池子。工人会发展出一个“保留工资”——基于他们如果继续寻找能找到什么而设定的最低接受工资。企业同样会在保持职位开放的成本和预期员工带来的价值之间进行权衡。皮萨里德斯随后将这些个人谈判与整个经济的模式联系起来，展示了失业和就业创造如何与商业周期相关。

在 2005 年，杜菲、加里安努和佩德森将这种相同的思考方式应用于金融市场。在柜台市场中，买家和卖家必须找到彼此，就像工人和企业一样。这个搜索过程产生了买卖价差，并解释了为什么同一资产可以在同一时间以不同的价格进行交易。需要现金的卖家（高流动性需求）可能会接受较低的价格，而有人有足够的时间可以等待更好的出价。拉戈斯和罗切特后来放宽了对二元资产持有的限制，并为每个代理人引入了可变资产组合，展示了货币政策如何影响这些去中心化的市场。

问题的第三部分来自平台经济学。平台创造了一个需要买卖双方的市场。共享出行平台需要司机和乘客。贷款平台需要借款人和银行。关于双边市场文献表明，平台可以通过设定价格和共同控制需求和供应代理的大小来最大化其收入。这些平台必须设定一个价格，以确保参与者留在市场中（激励兼容性约束），并且接受交易对参与者是有利的（个体理性约束）。平台还可以处理多个市场的情况（亚马逊书籍/电子产品），其中某一细分的需求/供应可能会对另一细分产生溢出效应。

这三个相关的研究领域可以结合起来，为我们提供理解现代数字平台公司的工具。以下我将通过一个实际例子展示这些概念如何在理论模型中结合在一起，以理解贷款平台的最佳行为。

实际例子：贷款平台

让我们将这个框架应用于像 Upstart、LendingClub 和 Prosper 这样的贷款平台。这些公司使用人工智能进行贷款审批，将拥有可用资本的银行与需要贷款的消费者相连接。它们作为市场，合作伙伴银行提供各种贷款类型（个人、汽车、抵押贷款），消费者申请信用。平台通过发起费用、服务费用和滞纳金来赚钱，同时降低双方的搜索成本，因为银行不需要自己寻找和评估借款人，消费者也不需要四处寻找多家银行。从平台的角度来看，这些公司面临关键的经济挑战：

需求预测：下个季度我们将看到多少贷款需求？
供应管理：我们需要多少合作伙伴银行来处理这种需求？
竞争设计：我们如何保持银行之间为借款人竞争，同时又不会将他们赶走？
匹配机制：我们应该使用拍卖、挂牌价格还是算法匹配来匹配借款人和贷款人？
风险评估：我们如何模拟银行的风险偏好和借款人违约概率？
市场细分：不同市场细分之间的贷款是否存在溢出效应？

这些问题没有一个容易回答，每个问题都有许多变动因素。你可能可以使用时间序列模型来预测贷款需求，但这个总数字需要按贷款类型、金额和期限进行细分，因为银行在这些维度上有不同的偏好。资本有限的较小银行可能只想向高信用借款人发放短期贷款，而大型银行如果拥有过剩的资本，可能会向风险较高的借款人提供更长期的贷款。匹配算法需要考虑到这些偏好，同时确保双方都能获得足够的价值（贸易顺差）以接受报价。

在这个框架下，每笔贷款代表了借款人、银行和平台之间的三方谈判。借款人有权拒绝任何报价，银行有能力设定保留利率，而平台有权决定总贸易剩余的分配。平台控制着关键参数，如利率和费用，因为改变这些会影响两边的参与。过高的利率会导致借款人离开，降低采用率和增加流失。过低的利率会降低合作伙伴的满意度并减少合作伙伴的数量。每个决策都会改变均衡，理解这些动态对于平台增长至关重要。

模型环境

让我们构建一个最简单的模型来理解这些动态。我们将从使数学易于处理的假设开始，这些假设将构成我们的环境。这个环境将只包含一种贷款类型，持续一个周期，借款人和银行都是相同的。

我们的环境存在于离散时间 $t \in \mathcal{T}$ 中，没有跨期折现。存在一笔金额为 $S$ 的贷款，利率为 $r$，其中 $r$ 是一个内生变量（其结果是在系统中决定的，而不是模型的基本变量）。

借款人按照无条件的泊松率 $\Lambda$ 到达平台。借款人进入平台要求一笔金额为 $S$ 的贷款，他们评估其价值为 $V(S)$。他们有一个线性效用函数 $U_L = V(S) – (1+r)S$，这是他们从贷款中获得的估值，扣除他们必须在下一个时期支付的款项。每个时间周期未匹配的借款人存量表示为 $L_t$。每个借款人都有一个还款概率 $p$。当他们收到贷款的报价时，他们可以选择接受或拒绝该报价。如果他们拒绝报价，他们将离开市场并退出平台。借款人总是认为他们会偿还贷款。

在银行方面，存在一组银行 $i \in \mathcal{J}$，具有最大资本容量 $K$ 和原始成本 $c$。每笔金额为 $S$ 的贷款有一个到期日 $T=1$（成功发起的贷款将使该银行的可用资本减少 $S$，持续一个周期）。他们的目标是通过对平台设定最低可接受利率来最大化利润，如果不能产生利润，他们将离开平台。

在这个环境中，存在一个平台，它拥有匹配技术 $M(B,L)$ 来匹配银行和借款人。这个平台可以观察每个代理的所有参数，并确定对借款人收取的利率 $r$ 和对银行收取的原始费用 $f$，以最大化平台的收入。平台还可以通过设置 $B$ 来上线他们想要的任何数量的银行。当发生匹配时，平台从愿意参与匹配的银行中随机选择一家，并提供一个报价：$ { S, r, f }$，这个报价必须对银行和借款人都有激励兼容性。

对于这个应用，我们将使用标准的匹配技术，称为 Cobb-Douglas（在文献中也被用作生产函数），它给出了这个市场的总匹配率。这个匹配函数接受银行和借款人的数量作为输入，并将它们映射到每期的匹配数量：

\[M(B,L) = \alpha B^\beta L^{1-\beta} \]

在每个时间段内，每家银行的预期匹配率定义为银行总库存的匹配总数：$\phi \equiv \frac{M(B,L)}{B} = \alpha B^{\beta-1} L^{1-\beta}$. 如果银行和借款人是随机匹配的，每家银行每单位时间的匹配数是相同的，表示为 $\phi$。

这就完成了我们为模型设置环境的工作。这个环境应该包含足够的信息来找到模型所有参数的均衡（结果）。

寻找均衡

本节的目标是找到所有我们感兴趣的模型结果解决方案。为了求解均衡，我们必须求解所有环境未预先定义的内生（自由）变量。对于这个例子，这意味着我们需要求解利率 $r$、原始费用 $f$ 和银行数量 $B$。我们求解这些统计数据的顺序没有固定顺序，但了解代理人的参与决策也很重要，然后求解匹配率，最后解决谈判问题。

在这个完全信息框架下，最优决策是接受所有借款人和银行。对于每次贷款发起，银行的预期利润由以下公式给出：

\[\pi = p(1+r)S – (1+c)S – f \]

第一个项代表还款概率乘以借款人还款时的利润。第二个项是原始成本（因为银行必须从自己的资产负债表/存款人那里借款并支付成本 $c$）。第三个项是银行为发起贷款而给予平台的费用。在现实中，预期的利润计算考虑了长期贷款（$T>1$）、违约条件下的收款成本和其他因素。

在我们解决了每笔贷款的预期利润之后，我们必须弄清楚在每一点时间上有多少贷款被发起。为了保持未匹配借款人的稳定数量，借款人的到达率必须等于长期内的匹配数量（因为所有借款人都接受匹配的贷款条件）。这意味着借款人进入系统的流量率 $\Lambda$ 必须等于借款人离开系统的流量率 $M(B,L)$：

\[\Lambda = M(B,L) = \alpha B^\beta L^{1-\beta} \]

通过求解 $L$，我们得到 $L = \Big[ \frac{\Lambda}{\alpha B^\beta} \Big]^\frac{1}{1-\beta}$。如果需要，我们还可以通过将匹配函数除以借款人的质量来找到借款人预期到达的贷款流量。由于我们通过构造定义了匹配率 $M = \Lambda$，因此银行的贷款到达率由 $\phi = \frac{\Lambda}{B}$ 给出。

由于每家银行资助的贷款都会占用其储备能力 $K$ 的一部分，我们还可以求解银行一次可以资助的最大贷款数量 $l$。银行的预算约束由 $S \cdot \phi \leq K$ 给出。由于我们已经解决了贷款的流量率，因此银行每期的贷款数量由 $l^* = \min\{ \frac{\Lambda}{B}, \frac{K}{S}\}$ 给出。如果约束条件 $\frac{K}{S}$ 成立，这意味着平台应该增加其合作伙伴的银行数量，因为贷款供应受到限制。鉴于在贷款方没有自由进入的条件，平台可以直接控制银行数量 $B$，以便我们保持在无约束的均衡状态，使得 $l^* = \frac{\Lambda}{B}$。

现在我们知道了贷款数量，我们可以确定银行每单位时间的利润：

\[ \Pi_B = \frac{\pi \Lambda}{B} = \frac{\Lambda(p(1+r)S – (1+c)S – f)}{B}$$. 如我们所见，增加与平台合作的银行数量会通过减少每家银行可以发起的贷款数量来降低每家银行的预期利润。由于平台可以设定费用 $f$ 和银行数量 $B$，因此平台需要决定是希望拥有少量银行和高每家银行利润（冒着引起产能限制的风险）还是通过增加银行数量或降低费用率 $r$ 来最大化借款人的剩余价值。这也使我们能够设定平台可以收取的最高费用的约束条件，因为如果利润为负，银行将不愿意承担贷款。这意味着费用的上限由 $ \bar{f} = p(1+r)S – (1+c)S$ 给出。如果平台通过增加 $r$ 来增加对银行的贸易剩余分配，他们可以收取更高的费用并产生更多收入。然而，这可能会降低借款人实际转移到平台上的增长率。在这个例子中，我们将借款人的到达率设定为外生变量，因此它不会受到费用和利率的影响，但我们可以设想一个环境，其中 $\Lambda = f(f, r, B)$，这将使这个问题变成一个具有条件进入率的问题。由于我们允许银行发布一个保留利率 $\underline{r}$，以设定他们任何贷款原始的最小要求利率，我们可以将利率的下限 $\underline{r}$ 模型为： $$ \underline{r} = \frac{f + (1+c)S}{p S} – 1\]

如果平台降低收取的费用，银行可以设定更低的储备率，这会增加借款人的剩余价值。如果还款概率增加，或者原始成本（无风险利率）降低，这也是可能的。

谈判

现在我们已经完全描述了总体匹配和利润统计，我们需要确定在谈判过程中各方的行为，以及平台利润最大化的参数。

当借款人和银行匹配成功时，平台会做出一个非此即彼的出价，借款人可以选择接受或拒绝。如果借款人拒绝，他们将退出市场（没有外部选择）。因此，平台必须选择一组参数 $\{ r,f\}$ 来满足借款人和银行在 $\{ \underline{r},\bar{f}\}$ 条件下的参与约束。从线性效用函数的规格来看，借款人只有在从贷款中获得正效用的情况下才会接受贷款（因为他们可以拒绝并得到 $U_L = 0$）。这使我们能够定义一个利率参数的最大值：

\[\bar{r} = \frac{V(S)}{S} -1 \]

现在我们知道了自由参数 $r$ 和 $f$ 的界限，我们可以构建平台的最大化问题。平台选择一个利率和费用参数，以满足每个参与代理的激励，同时最大化他们自己的净收益。在这个假设下，平台最大化：

\[\Pi_p = \max_{r, f, B} f M(B,L) \\ s.t. \;\;\; \Pi_B \geq 0 \\ \;\;\;\;\;\;\;\; U_L \geq 0 \]

银行选择一组利率 $r$、费用 $f$ 和合作伙伴银行的数量 $B$，以最大化他们的费用率和匹配数量。这个问题有一个解析解，可以闭式求解以找到最优参数，或者可以通过网格搜索或约束优化数值求解，以找到最大化 $\Pi_p$ 的参数集。我将求解闭式解的问题留给读者。

为了结束本节，我们定义我们的均衡对象为参数集 $\{ r^{*} , f^<span class="mdspan-comment">{*}</span>, B^<span class="mdspan-comment">{*}</span> \}$ 的稳态解。

这对商业意味着什么

该模型揭示了平台战略的几个关键见解：

选择 B：增加合作伙伴贷款机构的数量会增加借款人的剩余价值。一种方式是通过更快的匹配速度，这会减少稳态下未匹配借款人的数量。由于我们将借款人建模为在贷款被拒绝后离开市场，这不会对贷款利率产生任何下行压力。然而，如果我们假设借款人在拒绝贷款后可以重新进入市场，那么现在他们有更高的外部选择。这给了银行更少的议价能力，并降低了借款人愿意支付的最高利率 $\bar{r}$。然而，增加合作伙伴银行的数目也会降低每家银行的每时利润（因为每家银行的利润会随着银行数量的增加而下降）。这降低了平台对每笔交易可以收取的最高金额 $\bar{f}$，从而降低了平台利润。
选择 r：选择正确的 $r$ 涉及到确定平台是想让银行还是借款人获利。在这个简单的模型中，平台会选择 $r = \bar{r}$，因为它只需要满足借款人的参与约束，不必担心进入条件。$r$ 的任何增加都会使平台能够通过增加费用从交易中提取更多剩余价值。在一个更复杂的模型中，借款人的进入率与他们的剩余价值正相关，最佳决策将是将部分剩余价值分配给借款人，以增加每期的匹配速度，这可能会增加平台的总收入。最后，在一个信息有限（平台不知道借款人的真实收益）的模型中，最佳利率依赖于对借款人估计分布的估值 $\mathbb{E}[V(S)]$ 的期望。如果存在由 $\theta$ 表示的借款人之间的差异，期望将变为对期望借款人轮廓 $\mathbb{E}[V(S) | \theta ]$ 的条件期望。如果借款人轮廓未知（在冷启动案例中很常见），我们可以用机器学习估计的版本 $\hat{\theta}$ 替换 $\theta$。

1. f 的选择：在这个模型中，$f$决定了银行和平台之间贸易剩余的分配。更高的费用会增加平台的收入，并按比例减少银行的收入。在现实中，银行可以选择参与不同的竞争平台，并且他们的参与取决于他们期望获得的收入。这意味着，对于平台来说，将部分贸易剩余分配给银行以增加在后期签订新合作伙伴的机会可能是最佳选择。

最后的评论和扩展

我们尚未考虑的事项

这个基本模型只是触及了平台动态学的表面。现实中的平台处理的是我们为了保持数学上的可处理性而有意忽略的复杂性。例如，我们假设借款人在被拒绝后退出（以使外部选择为 0），但现实中他们可以选择留在市场上，或者访问竞争对手的平台。我们还假设银行和借款人是相同的，但实际上银行在风险偏好、资本资金和到期偏好方面可能存在多样性。借款人也可以在观察到的和潜在的特征集合上有所不同，这会影响他们的还款概率、贷款估值和贷款规模。这种异质性将匹配问题从随机分配转变为排序匹配，平台需要决定哪些类型应该与谁匹配，这又回到了平台自身的价值主张。

我们还忽略了信息不对称。银行不能完美地观察到违约风险，借款人不知道他们的真实信用状况，平台对双方的对外选择了解有限。这为信号（借款人试图表现出有信用）、筛选（银行为不同的贷款类型设计不同的保留利率）和平台机制设计选择创造了机会。贷款平台应该向借款人展示所有可用的利率还是只展示最佳匹配的利率？他们应该向银行透露借款人的信用评分还是只透露他们专有的风险评估？透露过多信息是否会对匹配质量产生负面影响？

深化理解的扩展

为了使这个框架可行，几个自然的扩展浮现在脑海中：

动态进入和退出：模型如何影响市场条件下的参与。当利率上升时，一些借款人退出，而另一些人变得绝望。银行根据监管变化和资产负债表限制调整其风险偏好和资本比率。机器学习在这里起着重要作用，因为平台需要预测这些流量并相应地调整费用/利率。
平台间的竞争：当借款人可以同时在 Upstart、LendingClub 和 Prosper 上搜索时会发生什么？多平台动态改变了议价能力，迫使平台深入思考他们的决策如何影响到达流量率和增长前景。这可能解释了为什么一些平台专注于速度（即时批准）而另一些平台强调更好的利率。了解每个平台所占据的细分市场和哪些细分市场存在未满足的需求对于捕获更大份额的市场至关重要。
声誉和学习：双方都会随着时间的推移建立声誉，但前提是他们必须留在平台上以建立历史记录。始终提供具有竞争力的利率的银行可以吸引更多借款人并获得更高的匹配比率。按时还款的借款人会在平台上建立个人资料，提高其个人资料的准确性。随着时间的推移和数据的积累，由于信号可用性的提高，平台的排序匹配效率会得到改善。对这些动态进行建模将有助于理解客户终身价值，并决定平台是否应该主要关注获取或保留。
机制设计：平台可以而不是提供非此即彼的报价并将借款人随机分配给匹配的银行，而是运行拍卖，让银行竞标借款人。或者，平台可以要求银行承诺利率表。每种机制都对效率、收入和市场厚度有不同的影响。正确的选择取决于监管约束以及借款人和银行的分布。

从构建模型到建模问题

这个框架提供了一种战略优势，因为它迫使你思考第一和第二级效应。大多数数据科学家在孤立的情况下优化指标，例如降低违约率、提高转化率和降低流失率。但在这些类型的市场中，每个模型优化都会影响所有均衡对象。降低违约率可能意味着银行保留率更低，从而使平台能够通过费用捕获更多的贸易顺差。如果存在借款人异质性，更高的匹配概率可能会吸引更差的借款人，从而导致平均匹配质量下降。

该框架还有助于确定哪些指标实际上很重要。如果平台能够保持高价值的银行参与或对不同的细分市场产生积极的外溢效应，那么贷款平台可能在某些贷款上接受负的边际利润（损失领导者）。即使合作伙伴银行的资本利用率已经很高，平台也可能限制借款人进入（或降低匹配率）。这种思维方式应该有助于行业数据科学家摆脱仅仅为了测量而测量的做法，并退后一步，从他们工作的公司的更大图景来看。

获胜的平台不一定是指那些能够以 98%的准确率预测还款概率，而那些理解其算法运作的市场动态的平台。这个框架旨在将你的思维方式从构建更好的模型转移到建模正确的问题上。如果你有机会在自己的工作中应用这个概念，我很乐意听听你的想法。请随时通过我的邮箱或领英联系我，提出问题、见解或故事。如果你对这篇文章有任何反馈，也请随时联系。感谢阅读！

posted @ 2026-03-28 10:19 布客飞龙V 阅读(13) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟