框架维度的力量-数据科学家应该知道的内容

框架维度的力量:数据科学家应该知道的内容

原文:towardsdatascience.com/the-power-of-framework-dimensions-what-data-scientists-should-know/

一篇之前的文章提供了一个对概念框架的全面概述——用于表示抽象概念和组织数据的分析结构。数据科学家在各种环境中使用此类框架,从用例构思和机器学习模型的验证到面向用户的解决方案的产品化和运营。框架类型(例如,层次结构、矩阵、流程图、关系图)和框架维度(例如,类别、顺序、连续)在很大程度上决定了概念框架的外观和感觉。虽然之前的文章更多地讨论了框架类型,但本文将重点放在框架维度上。通过一个实际案例研究,我们将看到如何修改框架维度可以产生感知上的转变,从而揭示新的见解。这次深入探讨旨在使读者能够更有效地使用和构建概念框架。

注意:以下章节中的所有图表均由本文作者创建。

框架维度的入门指南

而框架类型定义了你试图表示的结构,框架维度则决定了内容。维度通常分为三类:类别、顺序和连续。以下几节将更详细地探讨框架维度的分类,并概述在框架中包含多个维度时应考虑的一些方面。

三大巨头

让我们从类别维度开始,这可能是最简单的维度类别。正如其名所示,这个维度由一个有限且离散的类别集合组成,这些类别不需要按任何特定顺序排列。例如,如果这个维度代表一个公司的市场,它可以分为地理类别,如“美国”、“德国”和“中国”。同样,你也可以有一个将公司产品分解为不同产品细分市场的类别维度(例如,按成分、对客户的关联等)。在将维度分解为更小的类别时,始终牢记 MECE 原则(相互独立完全穷尽)也是一个好主意;毕竟,你希望这些类别完全覆盖维度的范围,并避免重复的类别。

顺序维度与分类维度类似,但有一个额外的特性,即组成维度的类别以某种方式排序。这种排序允许你表示一个类别“大于”、“小于”、“等于”或“不等于”另一个类别。假设你根据盈利能力等标准对公司的一系列市场进行排名。排名将对市场集施加顺序,从而产生一个基于盈利能力(升序或降序)的顺序维度。然而,排名不必意味着国家的盈利能力值均匀分布;排名第一和排名第二的国家之间的盈利能力差距可能与排名第二和第三的国家之间的差距不同。顺序维度也常用于构建调查问题,形式为李克特量表(例如,“不同意”、“中立”、“同意”)。这种排序允许分析调查参与者对每个问题的回答,以他们在量表上的位置为依据。

最后,一个连续维度可以给出某种事物的定量度量。与分类和顺序维度(由离散的分类或值组成)不同,连续维度可以在给定范围内取任何值(无论多小)。例如,某个事件发生的概率,以百分比表示,可以在 0%和 100%之间任何地方;例如 5%,10%和 10.00123%这样的值都是允许的。连续维度的值也具有内在的顺序性。

聪明地选择维度

在将维度类应用于框架之前,考虑每个维度类的优势和局限性是很重要的。例如,你可以查看每个维度类的信息含量。存在顺序性和在给定范围内取越来越精细的值的可能性,这些都有助于信息含量的深度。根据信息含量,顺序维度应优先于分类维度,而连续维度应优先于其他两个维度,只要它们可以以粒度化和定量的方式测量。然而,信息丰富性是以获取和分析维度下数据的资源需求为代价的。此外,向观众展示和解释信息丰富的维度可能很困难,因为需要解包和消化大量内容。因此,即使你使用连续维度进行分析,将连续数据“桶化”为顺序数据甚至分类数据以简化向观众展示的内容,可能也是有意义的。

此外,由于框架可能涉及多个维度,因此实现维度之间的最佳互动至关重要。在这方面,你至少需要做出两个基本决定——在框架中包含多少维度以及包含哪些类型的维度。特别是在分析问题的早期阶段,倾向于对考虑的维度数量慷慨,因为此时问题可能没有得到很好的理解,存在过早排除可能具有价值的维度的风险。但随着你的分析进展,一些维度通常会从其他维度中脱颖而出,成为特别关键的维度;这些维度可能是解释解决方案最全面和简洁的维度,或者是解锁新见解的维度。维度的数量也可能取决于你想要使用的框架类型。例如,一个二维矩阵只能处理两个维度,而层次结构可以潜在地处理更多的维度。

在决定在框架中包含哪些类型的维度时,你可以选择同一类或不同类的维度。每个类别都有一种独特的思考底层数据的方式。使用同一类的维度具有让你在框架的维度之间转移一种思考方式的优势。例如,如果你知道框架只使用连续维度,那么你可以潜在地应用相同的定量思考方式——以及相关的机械,如算术运算符和统计学——到所有维度上。因此,你也可以更容易地比较同一类的维度(想想“苹果对苹果”与“苹果对橙子”)。然而,使用不同类的维度也有其优点。在层次结构框架中,为层次结构中的每个级别使用不同的维度类别可以帮助更清晰地区分级别。例如,给定层次结构中的顶级概念可能是分类的,而子概念可能是序数或连续的;在这种情况下,深入层次结构结构也会伴随着涉及维度信息丰富度的增加,这可能有助于你的分析思维过程。

最终,在数量和多样性方面选择框架维度很可能是迭代过程的一部分。你在框架构建过程的开始阶段所选择的维度可能并不一定是最终框架中包含的维度。此外,就像大多数事情一样,可能没有“完美”的维度,只有相对适合你框架目标的维度。了解维度的优势和局限性,并将框架构建视为一个迭代过程,应该有助于减轻初始的压力,并让你能够专注于构建一个有用的概念框架。

案例研究:SoftCo 的销售绩效

框架维度的多样性和它们与框架目标的强耦合意味着,手动挑选“最重要的”维度(或根据某些其他标准进行选择)可能很困难。然而,在保持相同框架类型的同时改变维度可能会导致对框架的非常不同的解释。在以下匿名案例研究中,我们将看到对维度进行轻微修改如何产生重大差异并得出新的见解。

SoftCo 是一家中等规模的技术公司,为商业提供与营销相关的软件产品和相关服务。该公司在美国运营,拥有约二十名销售代表,分布在全国不同的地区。销售代表负责在其地区扩大业务,包括从识别潜在客户到与他们互动并完成销售的所有工作。每个月底,Sally,SoftCo 经验丰富的销售部主管,会回顾所有地区的绩效并向首席执行官报告她的发现。她还向销售代表提供反馈,以认可成就并提出改进建议。多年来,Sally 已经确定了几个可能影响个别销售代表绩效的因素,包括客户互动量(通常是电话,偶尔有现场访问)。图 1 显示了一个简单的散点图(具有两个连续维度的矩阵框架),它比较了各个销售代表的销售绩效与客户互动。

图片

图 1:SoftCo 销售绩效散点图

图 1 中维度的选择以多种方式指导了对框架的解释,而不仅仅是 Sally 特别选择检查客户互动作为销售绩效的关键预测因素。连续维度的使用自然地适合定量测量。因此,销售绩效是通过每个代表每月创造的金额来衡量的,而客户互动是通过每月进行的销售电话数量来衡量的。当然,这些措施本身可能不足以完全捕捉两个框架维度。例如,电话数量并不能告诉我们关于电话的质量和客户之间分布的任何信息,而销售代表在一个月内产生的交易金额并不能告诉我们关于交易战略性质的太多信息(例如,交易是否是关于与现有客户扩大业务,还是为新客户打开新业务流的大门)。尽管如此,通过查看图 1 中的散点图,我们可以得出几个有趣的见解:

  • 在观察的月份里,SoftCo 有 23 名销售代表在工作。在此期间,销售团队总共创造了约 858,000 美元的收入。

  • 在观察的月份中,平均每个销售代表创造了约$37,300 的销售额。最高和最低的个人销售额分别约为$50,000 和$14,000。

  • 最有效和最无效的销售代表(按$/call 计算)的销售额分别约为$2,000/call 和$160/call;这大约是效率上的 12 倍差距。

  • 客户互动和销售业绩之间似乎存在非线性关系。在约 75 次电话之前,每次额外的电话似乎都与销售业绩的大幅提升相关。但超过 75 次电话后,与销售业绩的联系就变得不那么强烈了。

因此,图 1 导致了一系列的见解,这些见解是通过观察个别销售代表的业绩和整个团队的业绩得出的。其中一些见解相当直接(例如,销售代表的数量,平均销售业绩),这让我们对 SoftCo 的销售运营规模和业务性质有了总体了解。其他见解,如最有效和最无效的销售代表之间的差距,以及销售业绩和客户互动之间的非线性关系,可能更具启发性;除了突出不同销售代表能力之间的可能差距和过多电话带来的边际效应递减之外,这些见解还表明,除了客户互动之外的其他因素也可能是销售业绩的良好预测指标。散点图表示也使得容易识别销售代表中的异常值,这对于进一步分析这些异常值与其他销售代表有何不同可能很有用。

现在,为了展示改变维度类别如何导致不同的视角,图 2 展示了一个基于与之前散点图相同信息的 2x2 矩阵。散点图的两个连续维度已经被通过某些阈值值分割而转化为序数维度。月销售额低于$25,000 的被认为是“低”,而高于这个数值的被认为是“高”。同样,月客户互动次数低于 75 次的被认为是“低”,而高于这个数值的被认为是“高”。阈值值的选取显然很重要,并且应该基于合理的论证。例如,销售额性能的阈值可能基于每个销售代表必须达到的最低销售目标,而客户互动的阈值可能与图 1 中曲线开始变平的点相关(这表明额外销售电话的边际价值开始下降)。

图片

图 2:SoftCo 销售业绩的简化矩阵

与图 1 中的散点图吸引了我们对个别销售代表的业绩以及销售业绩与客户互动之间整体趋势的关注不同,图 2 中的 2x2 矩阵提供了一个更简化的视角,便于将销售代表分为不同的组别。按照惯例,2x2 矩阵的左下象限显示了可能处于不利位置的销售代表群体;这些代表进行的电话数量相对较少,产生的销售额也较少。右上象限包含“明星表现者”,显然他们与客户互动广泛,并确保这些辛勤工作转化为实际销售。其他两个象限的动态似乎不太清晰。左上象限的代表似乎在电话数量相对较少的情况下实现了高销售额——他们效率背后的秘诀是什么?这种效率是否可持续?右下象限的代表具有相反的动态,进行了大量似乎没有回报的电话——如果这些代表本质上与明星表现者一样努力工作,为什么他们没有实现类似的销售额?

通过关注销售团队的各个不同部分,2x2 矩阵可以用来制定针对每个部分独特特征的定制策略。对于矩阵左下角的成员,重要的是找出为什么客户互动和销售业绩都相对较低。这些销售代表是否需要应对难以相处的客户,代表们是否需要更多的培训,或者代表们是否将部分时间分配给了其他有价值但本月销售业绩未体现的活动(例如,培训其他员工、战略规划和个人发展)?有了这些额外的洞察力,Sally 可以制定出更好地捕捉图 2 左下角销售代表为 SoftCo 创造的真实价值的措施。

类似地,对于右下象限,可能需要一种新的策略来通过将相对较高的客户互动水平转化为实际销售来提高效率;这可能涉及优先考虑某些潜在客户而忽略其他客户,培训销售代表在关闭每笔交易时更加坚韧不拔,并激励他们继续努力。对于剩下的两个象限,实现可持续性可能是关键目标。了解是什么让左上象限的销售代表如此高效,以及其他销售代表可以从他们那里学到什么,这是值得的。同时,左上象限的代表也需要一种策略来降低如果他们的客户互动不一致导致下滑的风险。最后,需要一种策略来保持右上象限的代表(例如,通过社会认可、金钱奖励、晋升机会)的积极性,以保持他们持续在高水平上表现。

最后,这里有一个由 Mike Gastin 制作的有帮助的视频,它扩展了在选择二维矩阵维度时讨论的一些考虑因素:

反思问题

本节包含三组反思问题,这些问题将促使你更深入地思考上述材料。目的是帮助你快速理解基本原理,并让你思考如何在自己的工作中使用它们。

集合 1选择一个现有的框架(例如,你在实际数据科学项目中使用或构建的框架)并更详细地分析框架维度。框架有多少维度?它们属于我们讨论的哪三类?改变任何维度的类别是否会影响你对框架的解释和产生的见解?

集合 2如果你已经看到并/或制作了几个框架,现在可能是时候评估你最常看到的维度了。这些维度属于哪些类别?这些维度的流行程度在实现每个框架的目标方面是好事还是坏事?

集合 3你能想到我们在这篇文章中讨论过的三种维度之外的任何其他类别的维度吗?这些替代类别与我们讨论的类别在多大程度上不同?

总结

虽然框架类型决定了框架将如何表达某些内容(即结构),但框架维度定义了具体将表达什么内容(即内容)。在实践中,三类框架维度尤其常见:分类的(无序的、离散的分类)、序数的(有序的、离散的分类)和连续的(在一定范围内的数轴)。通过改变信息内容的深度(例如,将连续数据分桶以产生序数维度),可以将一个维度从一类转换为另一类。考虑框架应具备的维度数量和多样性以实现总体目标是很重要的。仅包括真正需要的维度,尤其是在展示框架时。将维度限制在单一类别可能会有一些好处,尽管来自不同类别的维度的相互作用也有其优点。

posted @ 2026-03-27 10:42  布客飞龙IV  阅读(1)  评论(0)    收藏  举报