介绍-AI-3P-评估框架-在投入资源前评估-AI-项目
介绍 AI-3P 评估框架:在投入资源前评估 AI 项目
在本文中,我介绍了一个框架,通过在这三个支柱上提出有针对性的、具体情境的定制问题,帮助团队评估和优先考虑 AI 项目,确保在实施开始之前识别和管理风险。
无论您是否参与 AI 流程中的技术或业务决策,本文中概述的概念旨在涵盖这两个方面。
实施 AI 用例的挑战
想象一下,面对一份来自全球企业超过 100 个潜在 AI 用例的清单。此外,考虑到用例列表分解为各种具体的部门请求,开发团队需要交付这些请求。
市场营销部门想要一个面向客户的聊天机器人。财务部门希望自动化发票处理。人力资源部门需要一款工具来总结数千份简历。每个请求都伴随着不同的发起人、不同级别的技术细节和不同的紧迫感,通常是由尽快交付可见的 AI 成果的压力所驱动。

简化利益相关者和交付团队请求的优先级。图像由作者创建。
在这种情况下,假设交付团队决定开始实施看起来是最快成功的方案,并批准了市场营销聊天机器人。但是,在最初的势头之后,问题开始出现。
首先是人员问题。例如,由于部门内的两个团队在责任归属上无法达成一致,市场营销聊天机器人停滞不前,导致开发工作停滞。
问题解决之后,流程问题就会出现。例如,聊天机器人需要实时客户数据,但获得法律和合规团队批准需要数月时间,而且没有人有空做额外的“行政”工作。
即使这个问题得到解决,产品本身也会遇到障碍。例如,团队发现这个“快速胜利”的聊天机器人无法轻易与公司的关键后端系统集成,直到这个问题得到解决,它都无法向客户提供真正的价值。
最后,经过超过六个月的时间,预算已经耗尽,利益相关者感到失望,围绕人工智能的初始热情已经消退。幸运的是,这种结果正是人工智能-3P 框架旨在预防的。
在深入框架概念之前,让我们首先看看最近的研究揭示了为什么人工智能项目会偏离轨道。
为什么人工智能项目会失败?
人们对人工智能的热情——或者更准确地说,是生成式人工智能——每天都在达到顶峰,因此我们看到了许多关于这些项目倡议的故事。但并非所有都以积极的结果结束。反映这一现实,2025 年 7 月的一份最近的麻省理工学院研究在《财富》杂志上引发了一个标题:“公司中 95%的生成式人工智能试点项目都在失败.”
报告中与我们目的相关的一部分涉及这些项目失败的原因。引用一份《财富》帖子:
报告发现的最大问题是 不是 AI 模型本身能力不足** (尽管高管们倾向于认为那是问题所在。)相反,研究人员发现了一个“学习差距”——人们和**组织根本没有理解如何正确使用 AI 工具,或者如何设计*工作流程,这些工作流程能够捕捉AI 的益处,同时最小化负面影响。
…
报告还发现,购买 AI 模型和解决方案的公司比试图建立自己系统的企业更成功。购买 AI 工具的成功率达到了 67%,而内部构建的成功率只有三分之一。
…
麻省理工学院报告的整体观点是* 问题不在于技术。** 问题在于公司如何使用这项技术。** …
考虑到这些原因,我想强调在实施 AI 用例之前更好地理解风险的重要性。
换句话说,如果大多数人工智能项目不是由于模型本身失败,而是由于所有权、工作流程或变革管理方面的问题,那么我们在评估新项目之前需要做一些前期工作。为了实现这一点,我们可以采用经典的业务采纳技术支柱——人员和流程,重点关注最终产品。
这种思考引导我开发了一套围绕这三个支柱的人工智能预开发决策的实用评分卡:AI-3P with BYOQ(自带问题)。
框架的整体思想是通过提供自己的特定问题的上下文,优先考虑 AI 用例,旨在在动手实施开始之前对 AI 机会进行资格认证并使风险可见。
让我们先解释框架的核心。
按照三个 P(3P)对 BYOQ 进行评分
如前所述,框架概念是基于审查每个潜在的 AI 用例与决定成功的三根支柱:人员、流程和产品。
对于每个支柱,我们提供了按类别分组的 BYOQ 问题示例,可用于评估特定 AI 实施请求。
问题被制定得使得可能的答案得分组合是“否/未知”(= 0)、“部分”(= 1)和“是/不适用”(= 2)。
在为每个问题分配得分后,我们计算每个支柱的总分,这个数字将在后续的加权 AI-3P 准备方程中使用。
基于这个前提,让我们分析如何考虑每个支柱。

在我们开始考虑模型和代码之前,我们应该确保“人为因素”为 AI 项目做好了准备。
这意味着确认有业务上的支持(赞助)和一位负责的负责人,他能够推动项目克服不可避免的障碍。成功也取决于对交付团队在机器学习操作等领域的技能进行诚实的评估。但除此之外,如果没有为最终用户的采用制定深思熟虑的计划,AI 项目很容易失败,这使得变革管理成为方程式中的非谈判部分。
因此,这个支柱的 BYOQ 目标是证明在构建阶段开始之前,所有权、能力和采用都存在。
然后,我们可以按照以下方式对“人民”支柱中的问题和得分进行分组:

表 1:针对“人民”支柱的不同类别,BYOQ 的准备工作。内容由作者创建。
一旦我们确信我们已经提出了正确的问题,并且已经将每个问题的得分分配在 0 到 2 的范围内,其中无/未知= 0,部分= 1,是/不适用= 2,下一步就是检查这个想法如何与组织的日常运营相一致,这把我们带到了第二个支柱。

流程支柱是确保 AI 用例解决方案适合我们组织的运营结构。
包括常见的项目终止因素,如法规和新技术内部资格流程。此外,还评估了支持产品弹性的与第二天运营相关的问题。
以这种方式,这个支柱的 BYOQ 列表被概念化为理解治理、合规和供应路径中的风险。

表 2:针对“流程”支柱的不同类别,BYOQ 的准备工作。内容由作者创建。
通过确定这个支柱的得分并清楚地了解操作安全线的状态,我们就可以讨论产品本身了。

这里是我们挑战我们的技术假设的地方,确保它们基于我们人员和流程支柱的现实。
这始于基本的“问题到技术”匹配,我们需要确定 AI 用例的类型以及是构建定制解决方案还是购买现有解决方案。此外,我们还要评估基础平台的稳定性、成熟度和可扩展性。除此之外,我们还要权衡那些关乎最终用户体验和产品支柱整体经济适应性的问题。
因此,这个支柱的问题被设计用来测试技术选择、最终用户体验和解决方案的财务可行性。

表 3:产品支柱不同类别下的准备 BYOQ。由作者创建的内容。
现在我们已经考察了“是什么”、“如何做”和“谁来做”,现在是时候将所有这些概念整合起来,并将它们转化为可执行的决策。
将 3P 整合在一起
在综合了 3P 的分数后,做出“准备/部分准备/未准备”的决策,最终表格如下,针对一个特定的 AI 请求:

表 4:AI-3P 最终表格与决策层级。由作者创建的内容。
如表 4 所示,框架的核心逻辑在于将定性答案转化为定量的 AI 准备度分数。
总结一下,以下是逐步方法的操作方式:
第一步: 我们通过回答一系列自定义问题(BYOQs)来计算一个原始分数,即“每个支柱的实际分数”。每个答案都有一个值:
-
未知/无 = 0 分。 这是一个红旗或一个重大的未知因素。
-
部分 = 1 分。 有一些进展,但尚未完全解决。
-
是/不适用 = 2 分。 需求得到满足,或者与此用例无关。
第二步: 我们为每个支柱的总分数分配一个特定的权重。在上面的例子中,根据麻省理工学院研究的结果,权重故意偏向人员支柱,分配的权重如下:40%人员,35%流程,25%产品。
在分配权重后,我们按照以下方式计算“每个支柱的加权分数”:

第三步: 我们将加权分数相加,得到AI-3P 准备度分数,一个从 0 到 100 的数字。这个分数将每个 AI 项目放入三个可执行层级之一:
-
80-100:立即构建。这是一个绿灯。这意味着关键要素已经到位,风险已经了解,可以按照标准项目护栏进行实施。
-
60–79: 在安全措施下进行试点。 小心行事。换句话说,这个想法是合理的,但一些差距可能会使项目脱轨。这里的建议是修复前三个到五个风险,然后进行时间限制的试点,以了解更多关于用例可行性的信息,然后再完全承诺。
-
0–59: 首先降低风险。 停下来修复已识别的差距,这些差距表明评估的 AI 项目存在很高的失败风险。
总结来说,决策是AI-3P Readiness公式的结果:

这就是评分单个 AI 请求的过程,重点是围绕人员、流程和产品的定制问题。
但如果我们有一系列 AI 请求呢?在组织层面优先考虑这些请求的框架的直接采用过程如下:
-
创建 AI 用例清单。 首先,收集来自整个业务的所有提议的 AI 项目。按部门(营销、财务等)、用户旅程或业务影响进行分组,以发现重叠和依赖关系。
-
与团队一起根据预先提供的问题对单个 AI 请求进行评分。 将产品负责人、技术负责人、数据所有者、倡导者、风险/合规所有者(以及其他责任人)召集到同一个房间。使用 BYOQ(自带问题)作为团队一起对每个 AI 请求进行评分。
-
按 AI-3P 评分对所有评估用例进行排序。 一旦每个 AI 用例的每个支柱的累积评分和加权
AI-3P Readiness度量计算完成,对所有 AI 项目进行排名。这产生了一个客观、风险调整的优先级列表。最后,对通过全面构建阈值的顶部n个用例进行额外的风险-收益检查,然后再在这些用例上投入资源。

现在我们来看看如何有效地使用这个框架的一些重要细节。
定制框架
在本节中,我分享了一些关于个性化 AI-3P 框架时需要考虑的注意事项。
首先,尽管“自带问题”逻辑是为了灵活性而设计的,但它仍然需要标准化。在开始使用框架之前创建一个固定的问题列表非常重要,这样每个 AI 用例在评估不同时间段时都有“公平的机会”。
其次,在框架内,一个“不适用”(NA)的回答在每个问题中得 2 分(与“是”的回答相同),将其视为该用例的非问题。虽然这简化了计算,但跟踪给定项目的 NA 回答总数很重要。虽然从理论上讲,大量的 NA 可以表明项目复杂性较低,但现实中这可能会避开许多实施障碍。明智的做法是按支柱报告 NA 比率,并将 NA 贡献限制在支柱最大值的约 25%,以防止基于非适用性的“绿色”评分。
对于得分为 0 的“未知”答案,它们代表了一个完整的“盲点”,并且如果知识在特定类别如“所有权”、“合规性”或“预算”中缺失,可能应该将其标记为“降低风险优先”层级。
第三,支柱权重(例如:40% 人员,35% 流程,25% 产品)应被视为一个可调整的指标,它可以针对特定行业或组织。例如,在高度监管的行业如金融业,流程支柱可能因严格的合规性而具有更大的权重。在这种情况下,可以考虑将权重调整为 35% 人员 / 45% 流程 / 20% 产品。
同样的灵活性也适用于决策层级(80-100,60-79,0-59)。一个风险承受能力高的组织可能会将“立即构建”的阈值降低到 75,而一个更为保守的组织可能会将其提高到 85。因此,在评估 AI 用例之前达成评分逻辑的共识是相关的。
一旦这些元素就位,您就有开始评估您的 AI 用例所需的一切。
感谢您的阅读。我希望这篇文章能帮助您通过提供一个实用的工具来识别那些准备成功的倡议,从而帮助您应对“快速 AI 胜利”的压力。
我很乐意从您对框架的经验中学习,所以请随时与我联系并在我的Medium或LinkedIn个人资料上分享您的反馈。
本文包含的资源(带有公式的表格)位于以下 GitHub 仓库:
CassandraOfTroy/ai-3p-framework-template:一个用于在部署前评估和降低 AI 项目风险的 AI-3P 框架 Excel 模板
致谢
本文最初发表在微软数据科学的 Medium 出版物上。
BYOQ 概念受我与微软同事Evgeny Minkevich和Sasa Juratovic的讨论启发。AI-3P 评分卡的想法受到了微软同事Dmitriy Nekrasov向我介绍的MEDDIC 方法的影响。
特别感谢Casey Doyle和Ben Huberman提供编辑审阅,并帮助完善本文的清晰度和结构。

浙公网安备 33010602011771号