沃顿商学院商业人工智能笔记-全-
沃顿商学院商业人工智能笔记(全)
课程 P38:向上游移动客户体验 🚀

在本节课中,我们将学习一个重要的商业策略:向上游移动客户体验。我们将探讨公司如何通过预测、缩短甚至“拥有”整个客户旅程来创造竞争优势。课程将结合多个行业案例,帮助你理解这一概念的核心及其应用。

预测与缩短客户旅程

上一节我们介绍了课程主题。本节中,我们来看看公司如何通过预测和缩短客户旅程来提升体验。
以搜索引擎为例。当人们思考搜索时,首先想到的可能是谷歌。


但数据显示,当人们寻找欲购商品时,亚马逊的实际表现远超谷歌。对于亚马逊会员用户而言,这种差距更为明显。

这表明,亚马逊会员在访问网站时,平台能做的不仅仅是推荐产品。

亚马逊能够策划你的整个购物旅程。例如,如果你想购买智能手机,亚马逊会分析你的历史购买记录和已知信息。它不仅能推荐手机,还能规划你应如何完成购买。这就是在客户旅程中向上游移动的理念。
拥有客户旅程:从智能音箱到超级应用
理解了预测旅程后,我们进一步探讨公司如何“拥有”客户旅程。让我们重新审视亚马逊Alexa和谷歌Home的例子。


我们曾讨论它们如何缩短客户旅程。现在深入看看它们如何“拥有”旅程。以亚马逊为例,它旗下还有全食超市。
想象一个场景:你可以在亚马逊Alexa上创建购物清单,并直接通过它从全食超市下单。这不仅仅是缩短旅程,而是从头到尾策划整个旅程——从你萌生购物想法(认知阶段),到最终完成购买。谷歌Home同理,你可以搜索附近餐厅并直接预订。
核心在于,公司可以超越“缩短”或“预测”旅程,转而思考如何拥有客户旅程。
另一个关键概念是超级应用。在许多国家,像韩国的KakaoTalk和中国的微信这类应用,已成为用户的“起始页面”。


例如,微信集成了支付、社交、商务沟通等多种功能,本质上成了一个大型门户。与使用独立的Facebook或Twitter应用相比,微信、KakaoTalk这类超级应用正试图成为客户旅程的策展人。这就是“向上游移动”的体现——成为客户开启旅程的起点。
策划体验:流媒体平台的例子
从超级应用回到更具体的场景,我们看看娱乐流媒体平台如何策划体验。
在美国,有Roku、Apple TV等多种流媒体设备。

它们的策略体现了不同的“向上游”方式:
- Roku:平台设置不同页面(如Netflix、Amazon Prime)。用户先决定使用哪个流媒体应用,再在其中寻找内容。旅程由各个流媒体平台策划。
- Apple TV / Amazon Firestick:用户从想观看的内容开始搜索,平台会展示所有可观看的渠道。旅程由设备平台本身策划。
这两种方式导致了完全不同的客户体验。关键在于,谁控制了旅程的起点和路径,谁就更能影响客户决策。
数据所有权:医疗保健行业的竞争
“拥有旅程”往往与“拥有数据”紧密相连。这在分散的医疗保健行业尤为明显。
苹果、亚马逊、谷歌等科技公司正进入医疗领域。
- 苹果:通过Apple Watch等可穿戴设备收集健康数据(如心率),致力于用科技使医疗保健个性化。
- 亚马逊与谷歌:也在通过不同方式探索早期测试和研究。
这里的核心问题是:谁将拥有这些健康数据? 数据在哪里,基于数据的应用生态就会围绕谁构建。例如,选择苹果生态的用户,其健康数据可能被整合进苹果的服务中,从而在某种程度上被“锁定”在该生态系统内。因此,在医疗等关键领域,思考数据所有权至关重要。
向上游与下游:扩展客户旅程

“向上游移动”关注旅程开端,但客户旅程在购买后并未停止。公司也可以思考如何向下游扩展,提供更多价值。
以下是相关案例:
床垫公司(如Casper、Nectar)
- 核心思想:它们不只销售床垫,更想成为“睡眠”垂直领域的领导者(如“睡眠界的耐克”)。
- 做法:提供与睡眠相关的其他产品和服务,扩展产品线。

Airbnb
- 核心思想:意识到人们度假时不仅需要住宿,还需要餐饮、娱乐等体验。
- 做法:推出“Airbnb体验”功能。用户可以在平台上预订当地旅行、活动。

Airbnb联合创始人指出,用户在酒店消费1美元,在当地城市会额外消费3美元。

Airbnb体验功能示例。


这体现了拥有整个客户体验,而不仅仅是初始交易。
B2B案例:Shopify的旅程演进

从B2C转向B2B视角,我们分析Shopify如何通过向上下游扩展来服务客户。

Shopify最初帮助中小型企业建立在线网店。

它的演进路径如下:

- 在线商店服务:提供建站、后端管理等基础服务。
- 销售点服务:从线上扩展到线下,提供店内POS系统。
![]()
- 履约网络:解决库存和物流需求,建立Shopify Fulfillment Network,甚至与亚马逊竞争。
![]()
- 金融服务:基于对客户的深入了解,提供资金借贷服务。
![]()
Shopify从解决客户“上线”这个最终需求开始,不断向旅程的上下游(如支付、物流、融资)移动,解决客户企业的其他痛点,从而深度绑定客户。
总结:从“为什么”出发,思考你的角色

在接触具体技术之前,思考的逻辑起点不应是本末倒置。


正确的思路是:
- 从“为什么”开始:你的客户需求是什么?你要解决什么问题?
- 再思考“如何”:什么样的技术(如视觉AI、语言AI)能帮助解决问题?
- 形成协同:在“为什么”(需求)和“如何”(技术)之间建立良好协同。
作为企业,你需要思考自己在客户旅程中扮演的角色:

- 策划整个旅程(向上游移动):如Shopify、Roku、亚马逊Prime、谷歌Home所做的那样。这是最大的胜利。
- 预测下一个步骤:如亚马逊根据历史购买预测下一件商品。
- 缩短客户旅程:简化从需求产生到购买的步骤。
确定你能发挥的最佳角色,然后利用你的数据资产和技术来实现它。



本节课中,我们一起学习了“向上游移动客户体验”的核心策略。 我们通过亚马逊、超级应用、流媒体平台、医疗保健、Airbnb和Shopify等多个案例,理解了公司如何通过预测、缩短、拥有和扩展客户旅程来构建竞争优势。关键在于,始终从客户需求(“为什么”)出发,明确自身在旅程中的角色,再辅以技术和数据来实现目标。
课程 P1:面向业务的AI简介 🧠

在本节课中,我们将从管理者的视角,学习人工智能在商业中的应用。我们将探讨几个AI商业案例,并介绍一个帮助管理者从AI投资中获取收益的战略框架。
讲师介绍
我是卡尔蒂克·哈萨纳加,在沃顿商学院从事技术与数字经济研究。我的研究重点包括互联网商务、数字媒体、数字营销以及基于数据的决策。
我曾是面向小企业的营销平台Yodl的联合创始人。多年来,我与众多初创企业和大公司合作,特别关注人工智能和数据科学在商业中的应用。
我还著有《人类的机器智能指南》一书,该书探讨了在企业内外利用人工智能进行商业决策的影响。

什么是人工智能?
人工智能旨在让计算机完成需要人类智能的各种任务,例如理解语言、推理物理世界和学习。
机器学习是人工智能的一个子领域,其核心是让计算机在没有明确编程的情况下进行学习。
核心概念公式:
人工智能 (AI) ⊇ 机器学习 (ML)
人工智能正在不断发展,并被视为数字化转型的下一个关键阶段。

数字化转型的历史脉络
多年来,各种数字技术推动了商业转型。数字化转型是指组织利用数字技术创造新机遇的理念。
- 20世纪90年代末:互联网是推动转型的核心技术。一些公司开设了在线部门。尽管在互联网泡沫期间,部分公司关闭了这些部门,但那些坚持下来的公司最终获得了长期巨大收益。
- 21世纪00年代中期:云计算带来了类似变化。早期尝试面临数据迁移、安全和合规等挑战,导致一些公司退出。然而,坚持投资云计算的公司获得了长期的商业敏捷性优势。
- 21世纪00年代末:移动计算催生了变革。早期投资移动技术的公司成功创造了移动优先的产品,并帮助企业转型进入移动世界。

如今,人工智能似乎具有同等的变革潜力。早期证据表明,人工智能可以被视为一种“通用技术”。
人工智能作为通用技术
通用技术是指在多个不同行业有广泛应用潜力,并能激励创新、推动经济增长的技术。在组织层面,它们还能为产品战略和整体设计提供信息。
判断一项技术是否为通用技术,主要有三个指标:
- 该技术在多个行业中广泛应用。
- 存在大量与该技术相关的研究职位。
- 这些研究职位本身也分布在多个行业中。
在Goldfarb等人的一项研究中,研究人员通过分析数百万份职位招聘信息,评估了机器学习(AI的重要子领域)作为通用技术的潜力。

研究发现:
- 机器学习相关的职位数量庞大,且与机器人技术、云计算等其他技术职位有重叠。
- 机器学习职位广泛分布于教育服务、专业服务、制造业、金融服务等多个行业。
- 许多行业(如制造业、专业服务、信息技术、金融、教育)都需要与机器学习相关的研究职位,这表明该技术具有持续改进和未来创新的潜力。
简而言之,统计数据表明,机器学习乃至整体人工智能很可能成为一种通用技术。
对管理者的启示
人工智能作为通用技术,对管理者有重要启示:
- 广泛影响:AI的影响将波及众多行业。即使你所在的不是科技行业,也无法免受其变革性影响。
- 需要耐心:许多AI职位是研究性质的,这表明技术本身在不断发展。其变革性影响可能不会立竿见影,管理者需要对技术投资保持耐心。
- 全面准备:为了有效利用AI带来的机遇,管理者需要理解技术及其应用,并对商业模式、技术基础设施、组织流程和文化进行重大调整以适应变化。
本课程的目的,正是帮助你为迎接这些挑战和机遇做好准备。

总结

本节课中,我们一起学习了人工智能的基本概念,回顾了数字化转型的历史,并理解了AI作为一种“通用技术”的潜力和特征。我们还探讨了这些趋势对管理者意味着什么,为后续深入具体的商业应用和战略框架打下了基础。

课程P10:强化学习与多臂老丨虎丨机算法 🎰
在本节课中,我们将学习强化学习的一个核心概念——探索与利用的权衡,并重点介绍多臂老丨虎丨机算法。我们将了解该算法如何帮助我们在信息不完全的情况下做出最优决策,例如在个性化推荐或营销策略选择等商业场景中。
强化学习与决策问题
上一节我们介绍了机器学习的不同范式。本节中,我们来看看强化学习,特别是多臂老丨虎丨机算法。这些算法在处理连续数据输入并需要从数据中学习以改善决策时,是一个强大的工具。
考虑以下商业场景:
- 一个新闻媒体网站需要为其用户决定,在成千上万条新闻中展示哪一条在主页顶部。
- 一个名为“Nanophone”的手机电商零售商,当消费者登录网站时,需要做出多种个性化决策。

以下是Nanophone可能需要做出的具体决策列表:
- 决定向消费者展示10种不同手机图片中的哪一种。
- 决定向消费者强调哪些产品特性(例如,是关注电池续航还是时尚设计)。
- 决定向消费者提供哪一种折扣(例如,零折扣、五折或十折)。
- 在多个“行动号召”按钮中选择使用哪一个。
在这些场景中,行动空间(即可供选择的选项集合)很大。目标是选择能最大化收入(或其他关键指标)的行动。
核心挑战:探索与利用的权衡
这个决策问题的核心在于平衡“探索”与“利用”。
- 探索:指收集更多关于决策环境的信息。例如,尝试一个全新的营销信息或网页布局,看看会发生什么。
- 公式化表示:尝试行动
a_t以获取其回报R(a_t)的未知信息。
- 公式化表示:尝试行动
- 利用:指基于当前已知信息做出最佳决策。例如,坚持使用目前数据表现最好的那个营销信息。

我们在日常生活中也经常面临这种权衡。例如,选择餐厅时,是去一家从未尝试过的新餐厅(探索),还是去你熟知且喜欢的老餐厅(利用)。

对于商业决策而言,核心问题就是:我们如何平衡探索与利用? 何时应该尝试全新的方案?何时应该沿用已验证有效的方案?多臂老丨虎丨机算法正是为了解决这类权衡问题。
多臂老丨虎丨机问题

多臂老丨虎丨机问题描述的是:在拥有固定或有限资源(如时间、尝试次数)的情况下,如何在多个选择之间进行分配。
想象一个赌徒在赌场面对一排老丨虎丨机(即“臂”)。赌徒只有有限的时间,只能拉动老丨虎丨机杠杆有限次(例如100次)。他必须随时决定:是尝试一台全新的老丨虎丨机,还是继续拉动当前看来回报不错的老丨虎丨机。目标是最大化有限次数内的总收益。
平衡探索与利用的算法

有许多算法可用于解决多臂老丨虎丨机问题,平衡探索与利用。以下是两种常见策略:
1. Epsilon-优先策略
这是一种启发式方法。其核心思想是:在早期阶段进行大量探索,收集数据;在后期阶段则转向利用,基于所学知识做出最优决策。
- 代码逻辑描述:
在Nanophone的例子中,网站可能在最初几周(探索阶段)尝试多种不同的营销信息和图片。之后,便将100%的流量分配给在前几周表现最佳的方案(利用阶段)。if 时间点 < 预设的探索阈值T: 行动 = 随机从所有可选行动中选择 # 探索阶段 else: 行动 = 选择历史平均回报最高的行动 # 利用阶段
2. 汤普森采样
该算法最初会将流量平均分配给所有可能的选项。随着数据不断积累,它会动态调整,使表现更好的选项被选中的概率逐渐增加。
- 算法直觉:每个选项都有一个预估的回报概率分布。每次决策时,算法从每个选项的分布中采样一个值,然后选择采样值最高的那个选项。获得真实反馈后,再更新该选项的概率分布。
对于Nanophone,这意味着最初所有营销方案(如强调电池、设计或应用商店)获得展示的概率相同。如果“强调应用商店”的方案持续产生更好的转化结果,那么它被选中的概率就会稳步提升。
总结与比较
本节课中,我们一起学习了强化学习中的多臂老丨虎丨机问题及其算法。

- 监督学习依赖于大型静态数据集进行训练。
- 强化学习则依赖更少的初始训练数据,更多地通过在动态环境中实验来学习哪些策略更有效,并增加其使用频率。

强化学习在游戏AI和在线个性化等领域有成功应用。然而,在当前的商业环境中,它的应用广泛性仍不及监督机器学习。鉴于监督学习在商业中的普遍性,我们将在接下来的课程中深入探讨监督机器学习方法。
📊 课程 P100:数据科学与人力资源管理总结

在本节课中,我们将回顾整个课程的核心内容,探讨数据科学如何改变人力资源管理,并总结其带来的机遇与挑战。
🧠 核心主题回顾
我们共同度过了四个模块、超过四小时的学习时间。在整个课程中,我们反复讨论了一个重要主题:数据科学正引领着工作场所的重大变革。这是一种全新的问题解决与决策制定方法。
上一节我们介绍了课程的整体框架,本节中我们来总结其核心思想。
⚖️ 数据科学决策的双重性
数据科学优先考虑做出准确的决策,这本身是积极的。然而,当前工作场所的许多决策,尤其是在招聘等领域,并不完善。现有做法可能包含偏见,且不一定能选拔到最优秀的人才。
关于数据科学需要记住的关键一点是:那些为优化决策而设计的模型,不一定能满足公平性、可解释性或其他社会公平目标的要求。

核心挑战公式:
优化决策 ≠ 公平性 + 可解释性 + 其他社会目标
因此,将数据科学工具应用于人力管理的核心挑战在于平衡:一方面是利用数据科学提供的强大优化工具来指导管理;另一方面是必须兼顾那些在管理机器时无需考虑、但在管理“人”时至关重要的其他关切。
🔄 从“科学管理”到员工参与
这让我们回想起课程开始时提到的历史背景:大约一百年前弗雷德里克·泰勒的“科学管理”理论。过去数十年的经验表明,单纯将人视为机器、依赖简单规则的管理方式效果有限。
关键转变:员工的参与至关重要。在我们的语境下,这意味着让员工参与到数据科学的实践与决策过程中来。
📈 数据科学驱动的变革
除了决策方法,数据科学还可能推动其他管理变革,其重要性不亚于技术本身。以下是两个主要方向:
1. 数据收集与测量
为了进行数据科学实践,我们必须收集更多数据。这促使我们测量过去可能忽略的方面。
以下是数据收集可能涵盖的新维度:
- 测量员工在多维度的表现。
- 收集培训数据,以评估其实际效果。
- 通过数据分析,审视现有决策是否明智。
2. 以新视角审视旧问题
数据科学带来的最重要方法之一是用全新的眼光看待老问题。人力资源管理领域长期沿用相对固定的范式。

当数据科学家进入工作场所,他们能做的最有价值的事情之一就是提问:“我们为什么要这样做?” 这个问题本身就能引发变革,即使没有产生新的算法或完美解决方案。
🎯 总结与展望
本节课中我们一起学习了数据科学对人力资源管理的深远影响。
总结来说,随着数据科学的发展,我们正站在工作场所重大变革的边缘。部分变革由数据科学技术直接驱动,另一部分则源于由此引发的、对组织与管理的全新思考方式。

我们祝愿您能顺利运用所学,在实践中审慎地驾驭这些机遇与挑战。感谢您的学习与陪伴。
🧠 P101:AI战略简介
在本课程中,我们将学习人工智能战略与治理的核心内容。课程将涵盖AI驱动的商业转型、成功策略、组织行为、变革管理、潜在风险以及伦理治理框架。

🚀 AI驱动的商业转型
我们将首先探讨人工智能如何驱动商业转型。许多公司早期的AI计划未能达到预期效果,我们将分析其失败原因及应对方法。
成功的企业通常采用特定策略来利用AI获取竞争优势。这些策略包括规划长期项目组合与实施短期速赢项目。
🔧 降低AI使用门槛
接下来,我们将了解机器学习的民主化如何降低各行业应用AI的技术与资源门槛。
我的同事桑尼·坦贝将阐述企业在部署AI时所需的四大关键输入要素。
以下是这四大要素:
- 软件
- 人员
- 计算资源
- 数据
企业需要思考如何以正确的方式将这四大要素有机结合,以发挥AI的最大效能。
🏢 AI与组织结构
在讨论了基础要素后,我们来看看AI在组织结构中的作用。
具体而言,我们将分析当前成功应用AI的组织有哪些共通的行为模式与结构特点。
📈 AI与变革管理
上一节我们介绍了组织结构,本节中我们来看看AI与变革管理的关系。
我的同事林吴教授将重点讨论AI在业务流程重组中的关键角色。我们将一同探讨AI实施过程中面临的一些主要挑战。
⚠️ AI的风险与挑战
任何技术都有其风险,AI也不例外。我们将探讨AI算法可能出现的失败方式。
这些失败不仅带来技术风险,也会对公司运营和声誉产生实质性影响。

因此,课程最后将聚焦于公司如何建立有效的治理框架,以防范和减轻AI失败带来的负面影响。
⚖️ AI伦理与治理
我的同事们,凯文·伍尔巴克教授和桑尼·坦贝教授将深入讨论AI伦理的基本原则。
议题将涵盖人工智能的可解释性及其相关的法律问题。

📝 总结
本节课中,我们一起学习了人工智能战略的全貌:从商业转型与成功策略,到降低应用门槛的关键要素;从组织结构与变革管理,到潜在风险与挑战;最后,我们了解了建立AI伦理与治理框架的重要性。这些内容为系统性地理解和应用AI战略奠定了基础。
课程 P102:AI驱动的业务转型 🚀

在本节课中,我们将学习人工智能如何驱动业务转型。我们将探讨AI带来的机遇与挑战,分析当前企业投资的现状与潜在风险,并理解为何需要审慎的战略规划来确保AI投资的长期回报。
AI的机遇与风险认知
上一节我们介绍了课程概述,本节中我们来看看商业领袖们如何看待AI。当前,商业领袖普遍将AI视为一个兼具巨大机遇和潜在风险的双刃剑。
波士顿咨询集团和麻省理工学院近期对众多大型公司高管进行的一项调查显示:
- 十分之九的公司认为AI是一个重要的商业机会。
- 与此同时,45%的公司将AI视为潜在的商业风险。

这种风险主要源于竞争对手可能更有效地利用AI技术,从而在市场上取得领先优势。在这种机遇与风险并存的认识驱动下,各行业公司已开始进行大量投资。
AI的广泛应用与投资回报现状

在认识到AI的重要性后,企业纷纷开始行动。AI技术目前已在金融、零售、医疗、交通等众多行业中得到广泛应用。
然而,早期的热情投资并不总能转化为实际的商业收益。同一份由BCG和MIT进行的调查报告进一步指出:
- 90%的公司已经在AI领域进行了一些投资。
- 但在这些投资的公司中,只有40%报告看到了实际的业务收益。

如果我们聚焦于那些对AI进行了非常重要投资的子群体,情况略有改善,但依然不理想:
- 只有60%的重要投资者看到了业务收益。

换言之,许多早期的AI投资尚未产生预期成果。这引发了一个重要担忧:早期的失败可能导致企业非理性地全面撤退,从而错失长期机遇。
历史教训与通用技术的启示
这种因早期挫折而撤退的模式在技术发展史上屡见不鲜,其后果往往是严重的。我们可以回顾几个历史案例:
- 20世纪90年代末的互联网:许多公司投资建立在线部门,期望很高。早期回报不佳导致互联网泡沫破裂,不少公司关闭了在线业务。为此撤退付出的代价是巨大的。
- 21世纪00年代中期的云计算:一些公司因安全或合规问题而撤回投资。而那些坚持下来的公司则获得了商业敏捷性,在长期竞争中占据了有利位置。
- 21世纪00年代末的移动计算:也经历了类似的模式。
AI与上述技术有一个关键共同点:它应该被视为一种通用技术。这意味着:
AI 的影响范围 ≈ 多个不同行业
因此,如果因为早期应用中的挫折就选择从AI领域撤退,可能会犯下与历史上类似的战略性错误,使企业在未来陷入被动。

结论与前瞻
本节课中,我们一起学习了AI驱动的业务转型所面临的现实图景。我们了解到,尽管AI机遇广阔且应用广泛,但早期投资的高失败率是一个不容忽视的挑战。历史经验表明,对通用技术因早期挫折而撤退是危险的。
因此,企业必须采取审慎而坚定的策略。在接下来的课程中,我们将探讨公司可以采用的战略框架,用于规划AI投资并确保这些投资能在中长期内产生可持续的回报,从而成功驾驭这场由AI驱动的业务转型。

🧠 课程 P103:构建人工智能项目组合
在本节课中,我们将学习如何为公司制定一个平衡的人工智能投资策略。我们将探讨如何通过组合短期“速赢”项目和长期战略项目,来系统性地推进人工智能转型,避免因早期挫折而放弃技术。


📈 从失败到长期投资
上一节我们讨论了早期失败可能导致对技术的非理性退缩,并可能产生长远影响。本节中,我们将探讨公司如何在回报不明确的较长时期内,对技术进行投资。

我倡导的一个关键原则是:公司应该思考如何开发一组人工智能项目组合来持续推进。让我们更深入地探讨这个想法。
🎯 什么是人工智能投资组合?

构建人工智能投资组合的核心思想是,提出一组可以被视为“速赢”的短期项目,以及一系列被视为“长期”的、短期内不太可能产生结果的项目。
以下是这两种项目的具体分析:
速赢项目
对于速赢项目,公司可以选择优化员工或客户的简单接触点。公司可以考虑使用现成的机器学习包或解决方案,最初利用这些来改善内部员工接触点。随着时间的推移,或许可以再利用这些技术来改善客户接触点。

请注意,当你使用现成的机器学习技术时,每个竞争对手也都可以访问。你使用这些技术来改善内部员工接触点,这些项目可能不太可能彻底改变业务,但它们服务于不同的重要目的。
速赢项目的主要好处包括:
- 建立共识与认知:它们有助于让组织,尤其是其中的怀疑者,接触到人工智能的潜力。这有助于就什么是可行的、可以做到的事情达成共识。
- 培养关键技能:它帮助公司建立关于人工智能的重要技能。这些技能涉及大规模收集数据、处理数据、标注数据以创建训练数据集,以及最终分析和解释数据结果。
速赢项目的例子:
假设我们讨论的是一家药房。药剂师需要查找替代药物。通常,他们会通过计算机接口输入不可用的药物或症状,然后得到一份可用替代药物的列表。
一个简单的短期速赢项目可能是提供一个语音接口,这样药剂师就可以更快速地查找,而无需费力输入。这可以利用现成的自然语言处理和语音识别软件来实现。

请注意,我经常提到利用内部员工接触点作为起点。这个点的风险非常低。如果出现问题,尤其是在组织没有人工智能经验的情况下,对于内部员工接触点来说,风险实际上是很低的。随着公司经验的积累,可以将其推广到客户接触点。
🚀 长期战略项目
上一节我们介绍了风险低、见效快的速赢项目。接下来,我们进入长期项目的探讨。

长期项目的理念是,这些项目必须有影响力,并提供战略价值,或为组织带来竞争优势。这可能涉及重新思考整个端到端的流程,而不仅仅是优化某个单一节点。

长期项目的例子:
可以考虑一家处理保险索赔的保险公司。对于汽车保险,可以设想一种情况:客户可以在移动应用上提交索赔,上传汽车损坏的照片。
一旦索赔进入,通常由保险代理分析并做出决策。现在,可以利用技术自动化这个过程的某些部分。例如:
- 使用图像识别算法分析索赔并识别损害类型。
- 利用针对历史索赔数据(包括批准/拒绝记录、赔偿金额)训练的机器学习算法,自动化批准或拒绝决策。
公司可能无法一开始就自动化所有索赔。然而,随着时间的推移,可以达到一个点,让50%、60%、70%的较简单索赔由机器学习系统处理。这样,组织中的人类代理可以专注于更复杂的任务。

这种端到端的自动化在长期内可以降低成本,同时也改善了客户体验,赢得了客户信任。


🌟 成功案例:谷歌的AI优先战略

我刚才倡导的投资组合方法,是一些公司取得巨大成功的关键。谷歌就是一个很好的例子。
几年前,谷歌首席执行官Sundar Pichai宣布希望成为一家“人工智能优先”的公司。他们希望利用机器学习转变多种产品,并带来整个组织的变革。

谷歌的策略包括:

- 项目组合:他们同时考虑了长期的倡议(如无人驾驶汽车),也要求所有产品团队(如Gmail、Google Photos、数据中心、人力资源等)以某种形式整合人工智能,最初专注于短期项目。
- 技能扩散:除了项目,谷歌还进行了大规模的培训活动,包括在线课程和“驻留计划”,让员工与机器学习团队合作数月,学习技能后再回到原团队,使AI技能在整个公司去中心化。
- 初期重心:他们最初的重点是帮助员工获得机器学习的经验和技能,而不是要求立即展示投资回报。这为后续更具雄心的项目奠定了基础。
具体产品示例:
- Gmail智能回复:基于机器学习,分析邮件内容并推测用户可能使用的回复,用户只需点击即可发送。这始于简单的机器学习应用,后发展成重要功能。
- Google Photos图像识别:机器学习用于自动分析图像内容(如识别狗、猫及其品种),并提取详细元数据,从而极大地增强了图像搜索能力。
谷歌的AI战略成功,正是因为它平衡了长期愿景与短期实践,并投资于全公司范围的能力建设。


🛠️ 实践练习:为你的组织构建AI组合

这是一个我建议你在组织内尝试的简单练习,可以与团队以研讨会形式进行。
以下是具体步骤:
- 识别机会:首先,识别出可以通过机器学习实现自动化的活动集合。这些活动可以跨多个职能或产品团队。目标是列出几十个相关活动。
- 分类活动:将这些活动分为两类:
- 短期活动:可以在大约六个月内见效的项目。
- 长期活动:需要数年时间才能完成的项目。
- 评估与筛选:基于投资回报率评估和公司现有数据资产,从上述列表中筛选出一个较小的子集,作为未来三年的投资组合。这个组合可以由几个(如5-6个)短期活动和一到两个长期活动组成。
- 团队辩论:在管理层和团队内进行辩论,讨论哪些活动值得追求。这样的辩论是健康的,有助于完善投资组合。
- 确定组织架构:你需要弄清楚AI团队将如何融入组织架构。是设立独立的中央AI团队,还是将AI能力分散到各个产品团队中?适合的方案取决于公司的规模和文化。
这个练习有助于促成关于AI战略的健康对话,并明确执行路径。

📝 课程总结
在本节课中,我们一起学习了如何构建一个平衡的人工智能项目组合来推动公司转型。我们探讨了:

- 速赢项目的价值在于建立共识、培养技能和降低初始风险。
- 长期战略项目的目标是创造竞争优势和实现端到端的流程革新。
- 通过谷歌的案例,我们看到了结合项目组合、技能培训和去中心化推广的成功模式。
- 最后,我们介绍了一个实践练习,帮助你为所在组织识别、分类并规划人工智能投资组合。

记住,成功的人工智能转型不是追求单个“杀手级应用”,而是通过一系列有策略的、大小结合的项目,持续积累能力和推动变革。
课程 P104:降低AI使用壁垒 🚧

在本节课中,我们将探讨机器学习民主化的趋势,了解硬件、软件、数据和人才等关键要素的门槛如何降低,从而使各类组织都能更容易地启动和发展其人工智能项目。
在上一节中,我们介绍了谷歌等大型科技公司如何利用AI重塑自身并获得丰厚回报。这些公司拥有充足的资源和内部工程能力。本节中,我们来看看规模较小的公司或缺乏技术基因的大型组织,如何也能抓住AI机遇。
好消息是,一场“机器学习民主化”的转变正在发生。它使得各种组织能够获取开展AI驱动业务转型所需的能力、资源和资产。所谓民主化,主要体现在硬件、软件、数据、模型和人才这几个方面。
硬件门槛的降低 💻
大规模机器学习通常需要定制化的硬件支持。例如,用于高强度机器学习的处理器(如GPU)就与传统CPU不同。对于公司而言,自建这类定制硬件和基础设施的成本可能非常高昂。

以下是降低硬件门槛的关键因素:
- 云计算平台:亚马逊、谷歌、微软、阿里巴巴等主要云服务商已经构建了可扩展的机器学习计算平台。
- 按需租用:企业无需进行巨额前期投资,可以按需以较低成本租用这些计算资源。
这极大地降低了进行机器学习的硬件入门成本。
软件与工具门槛的降低 🛠️
上一节我们看到了硬件获取变得更容易。本节中我们来看看软件和工具方面的进展,它们进一步简化了机器学习流程。

许多开源框架(如TensorFlow, PyTorch)的涌现,使得获取机器学习工具变得非常容易。此外,还有众多开发者工具可以自动化数据科学流程,让那些没有深厚数据科学背景的软件工程师也能贡献力量。
以下是可资利用的工具类型:
- 开源框架:例如TensorFlow, PyTorch, Scikit-learn。
- 自动化工具:例如
AutoML平台,能自动进行模型选择和超参数调优。 - 可视化工具:帮助理解和呈现数据与模型结果。
- 来源多样:这些工具既来自微软、亚马逊、谷歌等大公司,也包括H2O.ai等开源工具以及DataRobot等其他供应商的工具。
最终,这些工具使得公司无需构建复杂的自定义软件,就能轻松入门机器学习。

数据与模型门槛的降低 📊
成功应用机器学习离不开优质的数据和模型。现在,获取这两者的途径也变得更加便捷。
市场上出现了专门的数据集和算法模型交易平台,企业可以下载或购买所需资源。
以下是相关市场示例:
- 数据与算法市场:Kaggle平台提供了丰富的数据集和算法竞赛。
- 云平台市场:亚马逊、Snowflake等主要云计算平台也在积极创建数据市场和算法市场。
所有这些发展都在降低开展大规模数据科学工作的成本。

人才门槛的降低 👩💻
最后,进行数据科学工作离不开数据科学家。目前,资深数据科学家的成本可能仍然较高。
但随着越来越多工程师和数据科学家接受培训,人才供给增加,其成本也在逐渐下降。所有这些趋势共同作用,意味着在您所在行业应用机器学习的门槛正在迅速降低。
总结与建议 📝
本节课中,我们一起学习了机器学习民主化在硬件、软件、数据、模型和人才五个方面如何降低AI的应用门槛。

其核心启示是:在人工智能领域,采取缓慢而稳定的投资策略,而非一次性巨额前期投资,将在长期内产生更好回报。未来几年,这些门槛预计将继续下降,使得企业启动或扩展其AI项目变得越来越容易。
核心趋势公式可概括为:
AI应用门槛 = (硬件成本 + 软件复杂度 + 数据获取难度 + 模型开发成本 + 人才稀缺度) ↓
课程 P105:AI软件的经济学 💰

在本节课中,我们将要学习人工智能(AI)领域中的一个关键方面:其核心投入要素的经济学原理。我们将探讨软件、技能、计算资源和数据等关键投入的成本变化,以及这些变化如何影响AI领域的竞争格局和未来发展。
当我们思考人工智能如何与经济学及市场竞争相互作用时,必须考虑AI的一些关键投入要素。
这些要素包括:
- 实现机器学习和人工智能所需的软件。
- 开发AI所需的专业技能。
- 构建和运行模型所需的计算资源。
- 训练模型所需的数据。

接下来,我们来谈谈这些投入要素的成本。这些成本本身正在不断演变,这可能会对未来AI的经济学意义及其对竞争的影响产生深远作用。
软件:从昂贵专有到开源普及 🔓
上一节我们介绍了AI的关键投入要素,本节中我们来看看第一个要素——软件。人工智能无疑是一个极其强大的工具,机器学习在其功能方面也非常强大。然而,编程神经网络等工作相对困难。
这需要高水平的专业知识,聘请相关领域的博士成本高昂。构建神经网络所需的数学知识、训练神经网络等技术都相对复杂。使用神经网络进行预测涉及大量的数学运算。
因此,在某种程度上,AI的商业应用曾受到相对较高的成本限制,即组合构建基于深度学习的预测模型所需的软件价格昂贵。
几年前发生了一次重大转变,导致成本大幅下降,那就是深度学习的开源化。我指的是,包括谷歌在内的几家公司,在代码层面上向公众免费提供了他们的深度学习基础设施。

以下是关于开源软件的说明:
- 如果“开源”对你来说是一个新概念,它指的是软件可以免费下载、使用,甚至可能由你贡献代码给他人使用。
一个早期的著名例子是谷歌在2015年11月发布的 TensorFlow。TensorFlow是一个软件包,它编码了谷歌在机器学习和深度学习领域的许多知识。如今,TensorFlow是几种密切相关的深度学习框架之一。

你可能还会听到 Torch、Keras、Caffe 等名称,它们本质上包含了大部分相同类型的智能技术。但 TensorFlow 绝对是首批推出的框架之一,并且被广泛使用。

TensorFlow 由谷歌发布后,其受欢迎程度和接受度立刻飙升。许多人对如何获取和使用谷歌提供的、与深度学习相关的开源软件表现出浓厚兴趣。
TensorFlow 支持多种平台,可以用 Python、R、C++、Swift、Go 等多种语言实现。
它的核心作用是让创建和部署神经网络变得容易得多。这本质上将一项可能需要博士级别专家才能完成的任务,转变为一项目标然不简单、但所需培训时间更短的任务。
现在,拥有硕士学位的人就能在比以前快得多、简单得多的基础上进行开发。当然,这引出了一个关键问题:谷歌以及其他做了同样事情的公司,为什么要开源 TensorFlow?他们为什么会将如此强大的工具提供给包括竞争对手在内的所有人?
对此有很多潜在的答案:
- 可能是为了鼓励其他人协作、交流并为 TensorFlow 包本身贡献代码。
- 可能与人才管道有关。有时公司开源软件是为了吸引希望与优秀代码库合作的人才。
- 他们可能有兴趣销售互补的服务(例如云服务)。
但无论出于何种原因,这种逻辑或能力以开源软件的形式提供给世界,是一个游戏规则的改变。它使得其他人更容易使用这种软件,并以此为基础,为他们自己的应用程序开发深度学习引擎。

在下一节视频中,我们将讨论这对开发深度学习应用所需的技能概况意味着什么。

本节课中我们一起学习了AI软件经济学的关键转变。我们了解到,深度学习的开源化(以 TensorFlow 等框架为代表)极大地降低了软件获取成本,使得更广泛的开发者和企业能够利用先进的AI技术,从而改变了整个领域的竞争动态和发展速度。
课程P106:AI技能的经济学 📊

在本节课中,我们将探讨TensorFlow等软件框架的出现如何改变了AI领域的人才需求,并分析其如何降低技术门槛,从而推动人工智能的普及和创新。
TensorFlow及类似软件包的发布,显著改变了企业实施深度学习解决方案所需的人才结构。
此外,使用这些类型的软件变得越来越简单。因为越来越好的用户界面正在被开发,以利用这些框架。

因此,从头开始开发神经网络是非常困难的。这些软件包通过代码使得访问变得更加容易,但新界面正在被开发,让人们可以访问这些类型的框架,有时甚至不需要使用代码。
有多种无代码工具,如谷歌的Teachable Machine。这些框架正在被开发、研究,并介绍给世界。
上一节我们介绍了AI框架如何降低使用门槛,本节中我们来看看它们如何具体实现这一点。

使用像TensorFlow这样的框架作为后端,使得人们非常容易构建基本的机器学习框架。可以用于不同的任务,并部署这些任务。
这反过来又将进一步降低应用机器学习背景的入门门槛。部署这些应用程序变得越来越容易,即使对于技能相对较少的人,或者甚至完全没有编码背景。
这就是其中一大优势,使得人工智能的想法和创新更容易实现。显然,有很多优秀的想法,以及创新的空间。
理解了工具带来的便利性后,我们来看看这对行业意味着什么。

而且在许多行业中,许多都是未预见的。历史上一个大瓶颈当然是,从想法到实现,机器学习领域需要大量的软件。
正在提供的新工具和技能,以及正在提供的新框架,使得从想法直接转化为实现变得比以往任何时候都容易。
实际上实现这些想法的价值,对于员工来说,这将比以往任何时候都更容易。在不同的行业、不同的领域,市场营销、金融、人力资源可以直接与人工智能进行互动。
这消除了重要的瓶颈,使其更接近于人人可用的目标,使事情更接近于实现目标,为企业的各种任务提供可用性。
所以随着我们消除技能瓶颈,软件变得更易于使用。因为使用软件所需的技能越来越少,接下来,剩下的两大要点是什么。
以下是部署人工智能系统所需的主要资源:
- 数据
- 计算

我们将接下来讨论这些。

本节课中我们一起学习了AI工具(如TensorFlow)的演进如何重塑了人才经济学。核心在于,高级框架和可视化工具的出现,极大地降低了技术门槛,使得更多非技术背景的人员能够参与AI应用的构建与部署。这打破了从创意到实现之间的关键瓶颈,将AI的潜力带到了更广泛的行业和人群面前。
课程 P107:AI计算的经济学 💰

在本节课中,我们将要学习人工智能(AI)计算背后的经济学原理。我们将探讨计算需求如何增长、硬件如何演变以适应这些需求,以及这对企业和云服务市场意味着什么。
随着人工智能在软件应用方面变得更加容易使用,所需的技能门槛也在降低。

我们将看到更多的组织和地区,将这类技术应用于更多的场景。迄今为止,机器学习的许多进展都是由摩尔定律推动的。这条定律基本上主导了芯片计算速度和存储能力的技术进步。这些进步是近期机器学习取得诸多改善的主要驱动力。
上一节我们介绍了推动AI发展的计算基础。本节中我们来看看,当机器学习扩展到更多组织和用例时,会发生什么。

虽然机器学习正在普及,但其计算需求将开始超过硬件本身的改进速度。随着人工智能被更多人和更多场景使用,我们需要越来越强大的计算能力来构建和运行这些应用所需的模型。
因此,作为对上述需求的回应,深度学习硬件市场正在变得更好且日益专业化。


以下是机器学习硬件依赖的演变过程:
- 许多机器学习任务已从依赖CPU(中央处理单元,通用处理器)转变。
- 现在正从GPU(图形处理单元)转向更专业的硬件,如TPU(张量处理单元)。TPU是谷歌创造的专用芯片。

此外,初创公司中专门为机器学习计算开发AI芯片的市场也十分活跃。在消费电子领域,例如苹果公司在开发其新芯片时,就加入了一个专注于机器学习的核心组件。因此,围绕定制硬件和专门化的活动与投入一直非常强劲,且发展迅速。
理解了硬件专业化趋势后,我们还需要关注另一个关键因素:效率。

在某些情况下,运行机器学习应用时,能源效率也是一个重要考量。例如,谷歌的TPU被专门设计用来高效运行TensorFlow框架背后的特定算法逻辑。它不仅运行速度比其他芯片更快,而且能效也更高。

那么,为什么我们要如此关注计算呢?因为这无疑是围绕人工智能兴起的新兴背景。
如果我们思考这些公司为何投资制造能够运行、构建和训练机器学习算法的芯片和硬件,原因在于未来几年将发生大规模转变:企业将寻求利用人工智能,并找到能提供所有后端计算支持的供应商。我们考虑的许多应用需要的计算量过于庞大,无法在组织内部运行,或者自行运行非常不便。
因此,一些大型云服务提供商,如亚马逊、谷歌、微软,都对成为AI计算的云端后端表现出浓厚兴趣。这自然是一种互补的投资活动,主要是为了开发能够高效运行此类操作的硬件基础设施,从而能够提供专门针对AI操作的高效云服务。

最后,我们来看看这个新兴市场的竞争格局。这场关于“AI技术栈”主导权的竞争才刚刚开始。

你可以看到亚马逊、谷歌、微软在这方面的大量活动。它们以及其他参与者都在努力确保,当人们想要在云端运行AI时,能够理解其需求,并由这些公司提供实现需求的后端服务。新的竞争者正在进入这个市场,例如特斯拉最近就宣布将提供该领域的服务。这是一个将持续发展的市场,特别是围绕运行机器学习算法所需的计算资源。

本节课总结

在本节课中,我们一起学习了AI计算的经济学。我们了解到,AI的普及带来了爆炸式增长的计算需求,这推动了硬件从通用CPU向专用GPU和TPU的演变。能源效率成为关键考量。为了满足企业庞大的计算需求,一个由大型云服务商主导的、提供高效AI计算后端服务的市场正在形成并激烈竞争。计算能力已成为AI发展和应用的核心经济要素之一。
课程P108:AI数据的经济学 📊

在本节课中,我们将探讨数据在机器学习,特别是深度学习中的核心作用,并分析数据如何成为现代AI经济中的关键资产。
概述
我们之前讨论过软件与计算技能。机器学习的最后一个关键输入是数据。训练数据确实是机器学习应用的核心。普遍观点认为,编码与其他输入结合能产生差异化的应用。但现实是,训练数据在深度学习性能中扮演着更重要的角色。

数据:性能的关键差异化因素
与几乎其他任何因素相比,数据的获取是机器学习领域性能的一个关键差异化因素。
与数据相关的一个细微差别在于,它和深度学习以及其他类型的机器学习模型的关系不同。事实证明,对于大多数传统的、浅层的机器学习模型,随着数据规模的增加,性能虽然会提升,但最终会达到一个瓶颈。
然而,深度学习模型处于一个非常不同的状态。对于深度复杂的神经网络应用,性能会随着数据规模的扩大而持续提升,并且这种提升已经持续了很长时间。
这意味着,对于依赖复杂深度学习网络的应用,拥有大量数据能带来巨大的优势。这引出了“数据是新的石油”这一说法。
“数据是新的石油” 💎
对于复杂的应用,例如自动驾驶汽车,有些公司长期收集关于如何使用传感器输入数据进行决策的数据,从而积累了庞大的数据集。
从某种意义上说,数据是新的石油,因为它能以许多其他公司无法轻易复制的方式,为这些预测任务创造价值。
因此,一些公司拥有关于用户购买、行为模式等的大量数据资产。如果你是一个在线网站或信用卡公司,自然会收集搜索、旅行等数据。这些庞大的数据资产已经非常有价值。
随着利用数据在机器学习意义上做出预测变得越来越容易,它们的价值只会进一步增长。
数据的良性循环与马太效应
我们通常可以看到围绕数据收集的良性循环,本质上是一种“富者愈富”的马太效应。
你拥有的数据越多,你能构建的产品就越好。产品越好,你就能开始收集更多的数据。

以搜索引擎为例,我们都可能更喜欢某个特定的搜索引擎,因为它能展示我们想要的结果。但我们使用得越多,它就能收集到更多的数据来改进自身。
这导致了一个良性循环。在数据驱动的经济中,往往是那些数据丰富的实体继续变得越来越“富有”,逐渐拉开了与那些缺乏数据资产的竞争者之间的差距。
对于那些在起步和积累数据资产方面很困难的公司来说,即使他们能构建出同样高质量的算法,也难以弥补数据上的劣势。

总结
本节课中,我们一起学习了数据在AI,尤其是深度学习中的核心地位。我们了解到,数据规模对复杂神经网络的性能有持续的正面影响,这使得数据成为极具价值的战略资产。“数据是新的石油”这一比喻形象地说明了其难以复制的经济价值。最后,我们探讨了数据收集的良性循环和马太效应,解释了为何数据优势能在竞争中形成强大的壁垒。
课程 P109:自动机器学习的经济学 💰🤖

在本节课中,我们将要学习自动机器学习(AutoML)的概念及其对机器学习领域经济学的影响。我们将探讨AutoML如何通过大量计算来替代专业知识,以及它如何改变数据、计算和技能在机器学习中的相对重要性。
我们一直在讨论数据和计算在机器学习中变得越来越重要。

在这个过程中,软件和技能的重要性可能会稍微降低。下一个阶段可能会将这种趋势提升到更高的层次。越来越多的工作流程正在被提供,它们真正允许人们开发机器学习应用,而几乎不需要软件或技能专业知识。
例如,AutoML(自动化机器学习)本质上是一个工作流程。它将我们从数据收集、清理、标记、数据准备、特征工程,到运行模型、优化和查看预测的整个机器学习过程整合在一起。AutoML接管了这个工作流程中的几乎所有步骤。
你需要做的只是获取数据,然后运行它直到得到预测。
AutoML 的工作原理 ⚙️
上一节我们介绍了AutoML的基本概念,本节中我们来看看它的工作原理。AutoML的工作方式本质上是不断投入计算资源,直到它可以替代许多不同类型的专业知识。

以下是AutoML的核心运作方式:
- AutoML能够对给定问题进行大量计算,从而尝试不同的模型变体。
- 它会持续运行,直到找出最佳模型。
- 你甚至不需要指定要运行的具体模型类型,AutoML会自行找出最佳模型。
- 它只是在这个问题上投入了大量计算。
- 你只需指定数据以及你想要预测的标签。

AutoML 的实践与成本 💸
了解了原理后,我们来看看AutoML的实际应用和背后的经济学。AutoML是Google开发的一款产品,可以通过Google Cloud运行。
我们从Google关于AutoML的讨论中了解到,他们的想法是利用计算能力来替代对机器学习专业知识的需求,只是让运行过程变得越来越简单。如果你按照其工作流程进行,你只需要以正确的格式上传数据。

以下是使用AutoML的典型步骤:
- 你上传带有训练标签的数据。
- 此时,实际上只剩下一个选项:训练模型。
- 这使得过程极其容易实现,但在计算上却非常消耗资源。

例如,如果我通过AutoML运行模型(我已经做过好几次),我上传数据并开始训练模型。然后在几个小时内,我会收到一封包含结果的电子邮件。Google会尝试不同的模型,告诉我哪个是最佳的,并附上结果。当然,我也会收到账单。这是通过他们的云服务运行的,我正在利用他们的计算资源。
这使得一切比以往任何时候都更简单,但它将一部分我所需的专业知识成本,转移到了后端的计算成本上。他们只需将结果发送到我的邮箱,并附上云服务的使用账单。这实际上意味着用越来越多的原始计算能力来交换专业知识。
更广阔的AutoML生态 🌐
我们谈到了Google的AutoML,但市场上还有许多其他类型的自动化机器学习解决方案。
以下是不同公司提供的类似服务:
- 微软称之为 自动化机器学习。
- 亚马逊提到 SageMaker Autopilot。
- IBM则称之为 AutoAI。
这些不同的公司正在开发不同的工作流程,旨在使机器学习变得越来越简单。


对于专业知识较少但拥有强大数据和预测需求的人来说,这些工具能够帮助他们以一种有效做出算法决策的方式整合AI。这当然会产生影响,只会对市场、机器学习技能和计算资源的重要性产生进一步的影响。
我们本质上正在朝着一个生态系统发展,任何人都应该能够部署AI解决方案,但对计算和数据资产的需求将会更高。正如我们接下来将讨论的,也许对于那些能够对数据和AI预测进行情境化和解释的人,需求也会增加。




总结 📝
本节课中,我们一起学习了自动机器学习(AutoML)的经济学。我们了解到,AutoML通过封装复杂的工作流程和投入大量计算资源,显著降低了对专业机器学习技能的门槛。这使得数据和计算资源的重要性进一步提升,而专业技能的成本部分转移为云服务的计算成本。整个行业正在朝着让AI部署更普及的方向发展,但同时也加剧了对优质数据和强大计算能力的依赖。
课程 P11:机器学习详细视图 🧠

在本节课中,我们将深入探讨机器学习的核心概念,特别是监督学习。我们将了解机器学习模型如何工作,以及哪些关键因素决定了其预测的准确性。课程内容将力求简单明了,适合初学者理解。
概述
机器学习,尤其是监督学习,是当前人工智能商业应用中的主流。本节课将提供一个高层次的视角,解释监督学习的基本原理,并重点分析影响模型预测准确性的核心驱动因素。
什么是监督学习?
上一节我们概述了课程目标,本节中我们来看看监督学习的具体定义。
监督机器学习处理一组包含输入变量(特征)的数据,目标是预测某个特定的结果变量。这类似于我们日常生活中的预测行为。

以下是几个现实世界的例子:
- 观察乌云和强风,预测可能会下雨。
- 根据一个人的衣着和互动方式,推测是否能成为好朋友。
- 在职场中,依据教育背景、工作经验和技能,预测一个人是否会成功。
这些预测在商业中有着广泛的应用,例如预测客户是否会购买产品、是否会点击广告等。只要有良好的训练数据,所有这些预测都可以通过监督学习来实现。
一个预测示例
理解了监督学习的定义后,本节我们通过一个具体例子来加深理解。
假设我们拥有用户访问网站的数据。我们试图预测该用户最终是否会购买产品。
我们拥有的数据(即输入特征)可能包括:
- 用户过去浏览的页面数量。
- 根据IP地址获得的邮政编码。
- 用户访问网站所使用的设备类型。
- 设备所使用的操作系统。
我们试图预测的结果(即输出变量)是:该用户会购买或不会购买。
在机器学习中,我们通常用字母 X 表示输入变量(特征),用字母 Y 表示我们想要预测的输出变量(结果)。
因此,整个预测问题可以归结为:给定输入 X,我们试图预测 Y。也就是说,我们需要找到一个函数 F,使得 Y ≈ F(X)。监督机器学习的核心任务,就是找到一个能高精度近似这个函数 F 的模型,从而在给定输入 X 时,尽可能准确地预测 Y。
预测准确性的驱动因素
我们已经了解了监督学习的目标是做出准确预测。那么,是什么决定了模型的预测准确性呢?本节我们将探讨几个关键因素。
预测准确性衡量的是预测值与真实情况的接近程度。例如,模型做了100次预测,其中93次正确,那么准确率就是93%。我们希望这个准确率尽可能高。
以下是影响模型预测准确性的几个主要驱动因素:

1. 数据的数量(行数)
数据量指的是我们拥有多少条独立的观测数据。例如,如果只有100个历史用户的数据,我们很难对未来用户做出准确预测。相反,如果拥有100万用户的数据,更多的观测样本通常会显著提升模型的准确性。
2. 数据的丰富度(列数/特征数)
这指的是我们对每条观测(每个用户)了解多少信息。在之前的例子中,我们只知道用户的浏览页面数、操作系统和位置。如果我们能获得更多特征,如用户的兴趣、收入水平、历史购物记录等,模型的预测能力可能会大幅增强。
简单来说,驱动模型准确性的两个基础因素是:数据点的数量(行数)和特征的数量(列数)。
3. 数据的相关性
并非所有数据都有用。数据的相关性至关重要。例如,预测今天是否会下雨时,“今天带伞的人数”这个特征可能比“人们衣服的颜色”更有用。拥有更多相关数据能有效提升模型性能。
4. 模型的复杂性
如果我们限制自己使用非常简单的模型,它可能无法捕捉数据中复杂的潜在关系。一些更现代的机器学习方法(如后续课程会讲到的深度学习)能够建立更灵活、更复杂的输入与输出之间的关系,从而提高预测准确性。
5. 特征工程
这是指数据分析师利用其领域知识,从现有数据中创造新的、更有预测力的特征。这需要深厚的专业知识,以识别可以添加到数据集中的新数据,或如何转换现有数据以更好地进行预测。

总结
本节课我们一起学习了机器学习的详细视图,重点聚焦于监督学习。
我们了解到,监督学习的核心是找到一个函数 F,来近似描述从输入特征 X 到输出结果 Y 的映射关系。模型的成功取决于多个因素,包括数据的数量与质量(行和列)、特征的相关性、模型的复杂度以及特征工程的能力。一切始于拥有高质量且足量的数据。

在下次讲座中,我们将讨论一些具体的机器学习算法,以便让你更深入地理解这些算法究竟是如何工作的。
课程 P110:自动机器学习的傲慢经济学 🤖💰
在本节课中,我们将探讨自动机器学习(AutoML)工具的兴起及其带来的“傲慢经济学”问题。我们将分析这种技术简化如何可能加剧AI应用中的偏见、误用和治理挑战。

概述
自动机器学习等工具的推出,使得开发AI应用对几乎所有拥有强大数据集的人来说都变得极其简单。这引发了一个核心问题:人工智能在某种意义上是否变得过于简单了?

简单化带来的风险
上一节我们提到了AI开发的简单化趋势。本节中我们来看看,这种简单化可能意味着与人工智能的偏见或潜在误用相关的问题会被放大。

对人工智能内部运作的理解不足,可能会加剧使用者面临的问题,尤其是当他们对算法的运作机制一无所知时。
构建者与使用者的认知鸿沟
以下是构建这些复杂工具的工程师与最终使用者之间存在的关键认知差异:
- 任何构建算法的人都必须深入理解数据的内部结构。
- 他们需要了解数据问题可能出现的位置,以及预测引擎可能面临哪些与数据相关的挑战。
- 他们清楚算法可能产生偏见或误导性的结果。
然而,借助自动机器学习,模型构建和部署变得如此简单,以至于一个严峻的问题随之而来:我们能否在部署之前,投入足够的关注来理解算法究竟在做什么?

治理与责任的挑战
从用户的角度出发,关注算法行为并实施有效治理至关重要。我们必须确保没有将不当的、可能导致社会伤害的算法投入生产环境。
关于自动机器学习“傲慢”的问题——即对其内部运作缺乏理解却盲目使用——引发了许多担忧。这种傲慢尤其在人工智能变得特别容易部署和投入生产时,将导致严重问题。

“傲慢”催生的新需求

如果我们围绕人工智能发展出一种普遍的傲慢态度,可能会推动能够应对其影响的专业人员需求迅速增加。
以下是可能随之兴起的新兴领域或角色:
- 对更专业的人工智能伦理学家有更高的需求。
- 对真正理解决策过程的人才有更高的需求。他们需要能够剖析算法
output = model.predict(input_data)背后的逻辑,理解它是如何得出结论的,并思考这从算法的角度意味着什么,以及其中可能存在哪些陷阱和危险点。


总结
本节课中,我们一起学习了自动机器学习(AutoML)带来的“傲慢经济学”现象。我们探讨了技术简化如何可能降低应用门槛,但同时加剧了偏见、误用和治理风险。我们认识到,在AI易于部署的时代,深入理解算法决策过程、加强伦理审查和治理变得比以往任何时候都更加重要。
谢谢。
[BLANK_AUDIO]
课程 P111:AI的竞争影响经济学 📈

在本节课中,我们将探讨人工智能,特别是机器学习,对经济竞争格局的影响。我们将分析数据如何成为关键资产,以及它如何加剧市场集中度,并讨论由此引发的政策与监管思考。
数据与计算的规模效应
上一节我们介绍了AI的经济学背景,本节中我们来看看数据和计算在其中扮演的核心角色。在算法决策中,数据和计算能力的影响至关重要。

数据经济中存在显著的规模经济效应。这可以用一个简单的良性循环来描述:
拥有更多/更好数据 → 训练出更优模型 → 吸引更多用户/产生更多数据 → 进一步优化模型
这种循环使得已经拥有优势数据的公司或组织能够持续巩固其领先地位。在数字经济中,大型平台是这一现象的典型代表。
市场集中度与“富者愈富”

上述数据规模效应的直接影响是加剧了“富者愈富”的现象。数据经济很可能强化这一趋势。
在过去十年左右的时间里,我们确实观察到市场集中度在不断上升。经济收益日益集中在少数技术密集、数据丰富的公司手中。机器学习的潜力进一步放大了这一问题。
公众认知与政策钟摆的摆动
由此产生的一个副产品是公众舆论的转变。近年来,公众对于科技公司如何使用个人数据的看法开始发生变化。

这些数据曾被用于产品推荐或开发,但现在,公众和政策制定者的观点有了些许调整。人们开始更加关注数据关系及其背后的权力问题。
因此,围绕数据可移植性等议题,已经出现了一些立法倡议。
以下是相关立法倡议的主要方向:
- 要求平台必须向用户提供对其自身数据的访问权限。
- 使用户能够更轻松地将数据转移到其他平台或服务。


监管呼声与数据所有权之争
越来越多的政治和商业领袖开始质疑,技术是否应该受到更严格的监管。对于技术公司规模过大、权力过度的担忧日益严重。
这种担忧同样体现在对公司规模和权力的讨论上。现在,一些领导者正在围绕数据所有权的问题展开讨论。

核心争议点在于:
- 数据是否真的应该属于收集它们的平台?
- 数据是否应该属于提供这些数据的用户?

总结
本节课中,我们一起学习了人工智能对经济竞争的深远影响。我们探讨了数据的规模效应如何导致市场集中度加剧,并了解了公众舆论和政策“钟摆”如何开始向加强数据权利与监管的方向摆动。竞争影响、政策考量以及监管挑战,都随着我们步入以数据和机器学习为核心的经济时代而不断增加。

课程P112:AI战略与规模化应用 🚀
在本节课中,我们将学习如何构建一个能产生实际回报的AI战略。我们将探讨成功实施AI所需的三个核心支柱,并通过具体案例理解如何利用AI创造变革性的商业价值。
上一节我们介绍了AI投资的普遍现象,本节中我们来看看,企业要想从AI投资中获得显著回报,需要具备哪些关键条件。
Apoorv Saxena指出,启动AI项目虽然简单,但要产生巨大影响,需要关注以下三个方面。
以下是实现AI规模化影响的三个核心支柱:
-
构建可规模化的AI基础设施
这意味着企业需要具备完善的数据基础。数据必须易于发现和标注,同时拥有大规模训练和部署模型的能力。这构成了AI基础设施的核心。像谷歌、Facebook这样的公司在此投入巨大,这也是他们能领先行业的原因。 -
端到端地审视业务流程
不应只关注流程中的单个环节,而应审视整个端到端的业务流程,并系统性地思考AI如何优化或改造整个流程。 -
利用AI创造全新的数字体验
这是能随时间产生最大影响的领域。AI在对话交互和内容生成方面的进步,使得创造几年前无法想象的新体验成为可能。
上一节我们列出了三大支柱,本节我们来深入探讨“创造新体验”这一战略要点。
当谈论创造新体验时,具体指的是利用AI彻底改变人机交互的方式。这主要得益于两项进展:对话式交互和机器生成内容。
以下是一个在金融领域的应用示例:
通常,与私人财富顾问进行的低接触、高频率的互动是银行希望自动化的环节。例如,早上醒来后,你可以通过智能助手(如Alexa)联系银行并询问:
# 示例交互
用户: “我的投资组合今天表现如何?”
AI助手: “下跌了2%。”
用户: “为什么下跌了2%?”
AI助手: “您的投资组合中X股票因市场波动下跌,占总跌幅的1.5%...”
这种交互门槛低、频率高,但如今可以轻松实现自动化。这就是AI所创造的新体验。

本节课中我们一起学习了构建有效AI战略的三个核心支柱:可规模化的基础设施、端到端的流程视角以及创造新数字体验。关键在于,在启动大型AI项目前确保数据与平台就位,系统性地改造整个业务流程,并积极利用AI技术开辟全新的客户交互与价值创造模式。这不仅是优化现有操作,更是公司取得战略性突破的关键。
🏢 课程 P113:组织架构中的 AI 策略

在本节课中,我们将探讨管理者如何将人工智能整合到组织战略中,以实现最大效益。我们将基于 BCG 和 MIT 对高管的调查,分析那些成功从 AI 投资中获得回报的公司所采取的关键策略。
📊 AI 策略整合
上一节我们提到了构建 AI 项目组合的重要性。本节中,我们来看看如何将 AI 策略与更广泛的组织目标相结合。

调查发现,许多公司为 AI 单独制定策略,将其视为一个独立的目标。相比之下,更有效的策略是将 AI 概念化,并置于更广泛的组织战略背景下。这意味着,无论你想用 AI 做什么,都应基于组织的整体战略目标,并思考 AI 如何帮助推动这一进程。
当然,在短期内,从不太整合、不太雄心勃勃的目标开始是可以接受的,这有助于建立共识和获取初步的 AI 技能。但即便如此,你仍需确保有一些与整体长期策略相整合或对齐的长期倡议。

🚀 超越成本节约:驱动增长
仅仅将 AI 视为降低成本的工具是一种不太有效的策略。能够从 AI 中获得价值的公司,不仅关注成本效益,更利用 AI 来驱动业务增长或增加收入。

因此,那些愿意利用 AI 承担更高风险、追求更高回报项目的公司,才是真正从 AI 中看到显著回报的组织。
🗃️ 关键基础设施:数据整合
为了在 AI 上取得成功,拥有合适的基础设施至关重要,其中最重要的是数据基础设施。

以下是数据整合的关键点:
- 真正取得成效的公司,是那些努力在多个部门间整合数据资产的组织。
- 如果数据仍然被各个部门孤立使用,整个组织不太可能从 AI 中获得显著收益。
回忆早期课程,数据仓储是实现整合的一种重要方式。其核心公式可表示为:
整合数据 = 数据源1 + 数据源2 + ... + 数据源N -> 统一存储库
这个过程涉及将来自不同来源的数据整合到一个易于访问的统一存储库中,用于分析应用。投资建设这样的数据基础设施至关重要,否则你只能获得关于客户或组织本身的非常分散的视图。

👥 培养 AI 消费者:数据驱动型管理者

我们不仅应该考虑生产 AI(如开发模型),还应该考虑组织如何消费和使用 AI。
这意味着,虽然拥有创造新机器学习能力的数据科学家和专家很重要,但我们同样需要“消费者”——即在业务中利用 AI 洞察的经理。他们需要能够理解数据分析的结果,挑战其假设,并将自己的领域知识融入其中。
为了做到这一点,你需要培养具有“数据基因”的经理。这可能涉及对现有管理人才进行一定程度的再培训,使他们能够与数据科学家紧密合作,并基于数据科学和 AI 的洞察做出管理决策。
🧠 投资人才:普及 AI 知识与技能

投资人才是一个反复强调但至关重要的原则。如果只有一个由四到五个数据科学家组成的孤立团队,我们无法在 AI 上取得广泛成功。

你需要在整个组织中普及 AI 知识、理解和洞察力。这包括两方面:
- 在组织内招聘新的 AI 人才。
- 重新培训现有员工,教会他们如何在自己的工作中最佳地利用 AI。

🔄 总结与过渡

本节课我们一起学习了帮助组织转型、成功运用 AI 的几项关键原则:
- 整合策略:将 AI 战略与更广泛的组织战略结合。
- 目标导向:利用 AI 驱动增长,而非仅仅节约成本。
- 夯实基础:建立整合的数据基础设施。
- 培养消费:让管理者成为 AI 洞察的消费者。
- 投资人才:在全组织范围内普及 AI 知识与技能。
这些原则共同帮助创造组织学习,并通过项目组合来管理多个 AI 倡议。然而,在拥抱所有 AI 机遇的同时,我们也必须考虑其特有的风险。在接下来的课程中,我们将讨论这些 AI 风险,以及如何创建一个治理框架来管理它们。

课程 P114:首席数据官访谈 - 数据科学在社交电商平台的应用 🎤📊
在本节课中,我们将学习 Poshmark 首席数据官 Barkha Saxena 的访谈内容。她将分享在社交电商平台中,如何构建数据基础设施、训练算法模型以及利用机器学习来服务买家和卖家的实践经验。
概述
Barkha Saxena 于 2001 年网络泡沫末期开始了她的数据科学职业生涯。如今,她担任 Poshmark 的首席数据官。Poshmark 是一个融合了实体购物人际连接与电子商务便利性的社交市场平台。本节课将探讨她的角色、团队影响以及数据科学在平台中的具体应用。
数据基础设施的构建 🏗️
Barkha 在 2014 年加入 Poshmark 时,公司规模尚小。她的首要任务是构建数据基础设施。这一步骤为后续所有数据应用奠定了基础。
以下是构建数据基础设施的核心步骤:
- 事件模式设计:设计深思熟虑的事件模式来收集新数据。
- 数据建模:通过数据建模来丰富原始数据。
- 数据存储:构建数据表,确定数据是批处理还是实时存储。
构建稳固的数据基础设施,使得团队能够有效区分和利用买家和卖家的行为数据。
算法训练与特征工程 ⚙️
上一节我们介绍了数据基础设施的构建,本节中我们来看看如何利用这些数据来训练算法。一切始于明确的商业问题。
以下是训练算法的关键流程:
- 定义商业问题:例如,目标是提升购买转化率还是优化商品列表质量。
- 特征工程:根据商业问题,从数据中创建相关特征。例如,为购买推荐模型,主要提取与用户购买行为相关的信号。
- 目标函数设定:确保算法训练针对正确的目标(如买方行为或卖方行为)。
- 模型训练与验证:训练模型,并与业务团队讨论以获取反馈。
在某些情况下,如识别“核心用户”,需要综合买卖双方的数据特征来训练模型。
模型的可解释性与业务协作 🤝
当我们构建了复杂的模型后,确保其可被理解并与业务目标对齐至关重要。Barkha 是“可解释AI”的坚定支持者。
以下是确保模型可解释性与有效性的方法:
- 业务团队审核:任何模型在最终确定前,都必须经过业务或产品团队的审核。
- 融入领域知识:与市场、运营等一线专家合作,确保模型不仅依赖历史数据,还能适应策略变化。
- 简单清晰的解释:能够用简单的语言向任何人解释最复杂的模型。
这种协作流程确保了模型能够解决真实的业务问题,并具有长期的适用性。
移动优先战略与机器学习赋能 📱
Poshmark 的成功很大程度上得益于其早期对移动端的押注。创始人 Manish 预见到移动设备将成为购物主要入口,这一远见为数据应用创造了巨大舞台。
机器学习在提升移动端用户体验中扮演了核心角色:
- 个性化体验:利用用户历史行为数据,在信息流、搜索和推荐中提供个性化内容。
- 平衡发现与熟悉:算法不仅展示用户已知的喜好,也引入新的时尚灵感,促进探索。
- 提升买卖匹配效率:通过“需求匹配”和“供应匹配”等模型,高效连接海量商品与买家需求。
面对平台每天产生的海量互动数据,基于规则的系统无法胜任,必须引入能够持续学习和优化的机器学习智能。
总结

本节课中,我们一起学习了 Barkha Saxena 在 Poshmark 的数据科学实践。我们从构建坚实的数据基础设施开始,探讨了如何围绕具体商业问题训练算法并进行特征工程。我们强调了模型可解释性以及与业务团队紧密协作的重要性。最后,我们看到了移动优先战略如何与机器学习结合,为千万用户创造无缝且个性化的社交购物体验。其核心在于:从清晰的业务目标出发,利用高质量的数据和智能的算法,持续优化平台两端——买家与卖家的体验。
课程P115:AI与数据分析适合创新吗?🤖💡

在本节课中,我们将探讨人工智能与数据分析在创新领域的应用与潜力。我们将通过具体案例,分析AI如何驱动突破性创新,同时也会审视宏观数据中呈现的创新悖论。
我叫林吴,是Wern商学院运营信息系的副教授。我的专业领域是研究人工智能对组织的影响,尤其关注其与创新的关系。
AI驱动的创新案例 🚀
上一节我们介绍了课程主题,本节中我们来看看AI在现实世界中推动创新的几个具体案例。

1. 新抗生素的发现 💊
你可能在过去几年听过许多关于AI驱动创新的新闻。其中最著名的一个案例发生在2020年,AI协助创造了一种名为“Halicine”的新型抗生素。

这是一个重大突破,因为发现新型抗生素极其困难,这已成为一个重大的公共卫生问题。一群MIT的研究科学家利用了关于各种化合物及其抗菌活性的数据。在筛选超过一亿种化合物后,他们能够识别出数据中前所未有的新模式,从而发现了这种新抗生素。
核心过程:
输入:超过1亿种化合物的数据
处理:AI模型识别隐藏模式
输出:发现新型抗生素Halicine
Halicine在几个方面都很独特。首先,它是在AI平台的协助下被发现的。其次,它不仅非常有效,其化学结构也与其他类型的抗生素不同,并且在人体内具有良好的耐受性。
2. 医学研究的加速 🧬
几年前,IBM的沃森系统在医疗创新领域取得了重要成果。沃森消化了大约2300万篇涵盖多个学科的医学论文,以寻找关于一种名为P53的肿瘤抑制剂的信息。

P53非常重要,因为它与近一半的癌症相关。在短时间内,沃森分析了所有论文,发现了数据中的隐藏模式,并识别出六种之前未知的与P53相互作用的蛋白质。
成就对比:
- 传统研究:预计需要研究人员超过六年时间。
- AI辅助:沃森在几周内完成。
3. 颠覆性的产品设计 🏎️

AI的创新不仅限于医药领域,也体现在产品设计上。例如,Autodesk公司尝试设计一种新型汽车底盘。
他们的方法是在底盘上部署大量廉价的传感器,用于测量压力、温度和位移等数据。安装传感器后,由特技车手进行极限驾驶,以收集极端工况下的数据。
经过收集约2000万个数据点,AI与八位科学家合作,设计出了一个全新的底盘。这个底盘的外观不对称,不像传统汽车,反而像一根猛犸象的骨头。
设计逻辑:
数据发现:汽车在一个方向的转向频率远高于另一个方向。
设计结果:承受更多压力的一侧结构得到加强,导致底盘外观不对称。

4. 艺术领域的创造 🎨
即使在艺术这种被认为非常人性化的领域,AI也能创造出令人感兴趣的作品。AI可以将一张普通照片与著名画作(如梵高的《星空》)的元素相结合,创造出一幅全新的、具有艺术美感的画作。
这个过程可以应用于许多其他著名画作,AI能够融合不同作品的元素,生成许多人愿意挂在客厅墙上的艺术作品。

创新的宏观悖论 📉
上一节我们看到了AI驱动创新的精彩案例,本节中我们来看看宏观统计数据揭示的另一面。
然而,如果我们查看尼古拉斯·布恩及其合著者在2017年制作的图表,会看到不同的景象。图表显示,尽管我们在研发上投入了更多资源(以绿色线表示有效研究人员数量),但人均创新产出(蓝色线)却呈现下降趋势。
图表解读:
- 绿色线(投入):代表在研发上投入的资金和资源。
- 蓝色线(产出):代表人均产生的创新量。
数据显示,从1930年到2000年,虽然资源投入持续增长,但创新产出的效率却在下降,并且这一趋势似乎仍在持续。

这就引出了一个核心问题:为什么我们看到了这么多由AI驱动的精彩创新案例,但这些成果似乎没有充分体现在整体的生产力和创新统计数据中?这是一个非常有趣的现象。

总结与下节预告 📚
本节课中,我们一起学习了AI在药物发现、医学研究、产品设计和艺术创作等领域推动创新的具体案例。同时,我们也看到了宏观数据中存在的创新效率悖论。

这引出了关于AI能力边界的核心问题:AI擅长进行什么样的创新,又不擅长什么样的创新?在我们下一个视频中,我将详细解释,对于不同类型的创新活动,什么样的AI是合适的,什么样的AI是不合适的。
课程P116:人工智能与流程创新 🚀

在本节课中,我们将探讨人工智能如何帮助企业改善业务流程并利用数据驱动创新。我们将通过具体案例和数据,理解AI在流程优化中的关键作用。
概述:大数据与AI的机遇

大数据时代的到来为先进技术提供了巨大机遇。社交媒体、移动设备每时每刻都在生成海量的文本、图片、视频和声音数据。尽管许多数据来自用户,但同样有大量数据源自商业流程本身。一旦公司能够系统性地整理这些业务流程数据,并运用机器学习等先进分析工具,就能为流程带来显著的改进与创新。
AI优化流程的实例:谷歌数据中心
上一节我们介绍了大数据背景下的机遇,本节中我们来看看一个具体的应用案例。
谷歌运营着全球规模最大的数据中心之一,其能耗极高,需要为超过10万台服务器提供冷却。由于计算负载波动以及外部温湿度变化,保持服务器低温是一项复杂挑战。过去,这项工作主要由人工监控各种传感器并操作冷却设备来完成。


谷歌的解决方案是,利用数年的历史数据(包括计算负载、传感器读数、环境因素等)训练一个大型深度学习模型。该模型本质上是一个强化学习算法,用于自动控制所有冷却设备。

核心模型可以简化为一个函数:
冷却策略 = f(计算负载, 传感器数据, 环境因素)
其中,函数 f 由深度神经网络学习得到。

效果非常显著:启用AI控制系统后,能效(PUE)急剧提升,系统关闭并恢复人工控制后,能效又回到了原先的水平。最终,该系统帮助谷歌数据中心实现了40%的能源使用减少和15%的相关开销改善。

流程创新的广泛应用
除了数据中心,AI驱动流程创新的例子还有很多。以下是几个典型领域:
- 电商与零售:亚马逊等公司利用机器学习优化产品推荐和库存管理,通过预测用户行为(如点击、购买可能性)来提升转化率。
- 网络安全:像Deep Instinct这样的公司,利用流程数据训练模型,以在安全漏洞发生前更有效地检测恶意软件。
- 金融保险:保险公司运用机器学习分析客户数据,以改善风险评估和客户支持服务。
所有这些案例的成功,都源于公司能够捕获业务流程中的数据,并应用合适的算法来优化现有流程。

实证研究:AI投资与流程导向的关系
前面的案例展示了可能性,但要判断这是否具有普遍性,我们需要更广泛的证据。为此,我们与麦肯锡合作,对超过300家公司进行了一项大规模调查。
调查中,我们通过一系列问题来评估公司的“流程创新导向”。例如:
以下是用于评估公司流程导向程度的部分问题:
- 贵公司是否具备对业务流程进行渐进式改进的强大能力?
- 贵公司的核心活动是否包含流程开发、质量管理或改进?
- 贵公司的商业领袖是否积极致力于完善现有流程和系统?
我们将得分高的公司标记为“流程导向型”公司。其分布符合预期的钟形曲线,说明并非所有公司都同等地关注流程创新。


同时,我们通过分析公司员工的简历数据,来衡量其在数据分析和人工智能上的投资。我们关注以下几类技能关键词:
以下是用于衡量AI与数据分析投资的关键词类别:
- 数据分析:商业智能、数据驱动、数据整合等。
- 算法技能:A/B测试、机器学习、自然语言处理、神经网络等。
- 系统与工具:云计算、Hadoop、MapReduce等。


数据显示,近年来,具备这些技能的员工数量显著增长,尤其是AI技能的增长更为迅猛。


关键发现:协同效应与生产力提升

结合以上两项评估,我们得出了核心发现:
研究发现,数据分析与人工智能能极大促进基于流程的创新。更重要的是,只有那些同时投资AI工具并专注于流程改进的公司,才能获得显著的生产力提升。
具体数据表明:
- 在AI工具上投资每增加一个标准差,与7%的生产力增长相关。
- 如果一家公司只投资AI,但不关注流程改善,则无法获得这7%的增长。

这解释了所谓的“AI创新悖论”:仅仅拥有AI技术不够,必须将其应用于具体的流程优化,才能释放最大价值。

总结

本节课中,我们一起学习了人工智能如何驱动流程创新。我们从谷歌数据中心的案例出发,看到了AI在解决复杂流程问题上的巨大潜力。随后,我们通过广泛的调查数据证实,AI投资必须与流程导向的企业文化相结合,才能转化为实实在在的生产力提升。对于希望从AI中获益的公司而言,明确流程改进目标与投资AI技术同等重要。

课程资源:GPT中英字幕课程 - BV1Ju4y157dK

📚 课程 P117:产品创新与人工智能
在本节课中,我们将探讨产品创新,并分析人工智能与数据分析在其中扮演的角色。我们将通过一项大规模调查的数据,揭示企业在流程创新与产品创新上的不同表现,以及人工智能投资与这两类创新实践之间的关系。

在上一节中,我们讨论了流程创新。本节中,我们来看看产品创新,或者更具体地说,人工智能和数据分析如何帮助你确认并创新新的产品和服务。
记住我们之前提到的创新悖论:我们看到对人工智能和数据的投资在不断增长,然而,我们并未看到创新统计数据的相应提升。在某种意义上,我们没有看到更好或更多的创新。如果有的话,人均创新正在随着时间的推移而减少。
为了理解这一点,我们进行了一项大规模调查,以了解发生了什么。在早期的调查中,我们展示了人工智能在流程创新方面能有很大帮助。我们能否在产品和一般服务中看到相同的情况?
我们提出类似的问题,但这里我们真正想要聚焦的是关于产品的创新驱动实践。

以下是调查中涉及产品创新的核心问题:
- 你们组织设计、创建、引入新产品和服务需要多长时间?
- 你需要多长时间来创新或引入新的生产技术?
- 在一个主要业务单位中,最可能的核心活动是什么?
如果你对最后一个问题的答案是产品开发、产品设计或创新,我们将这家公司归类为更加面向创新的公司,其实践更驱动于创新。

再次,我们看到直方图,并非每个公司的创新都是驱动的。一些公司在这个尺度上非常高,而一些公司则非常低。其中许多处于中间位置。
这让你了解流程创新驱动实践与产品创新驱动实践之间的差异。在我们调查的300家公司中,这是一个显示分布的图表。
- 在 x轴 上,我们有流程导向的实践。
- 在 y轴 上,我们看到与创新相关的实践。

可以看到它分布在四个象限中。一些公司在两者上都很高,一些公司在两者上都很低,还有混合的情况。一些公司更偏向于流程,而对创新的关注较少。一些公司更关注创新,而对流程的关注较少。你确实看到存在异质性,存在巨大光谱。
公司在这个图中可以适应的位置,以及这些公司的可能性,最初投资人工智能和数据分析的情况。
- 在第一个柱子中,我们查看你的公司是否非常注重流程。你投资数据和AI的可能性有多大?我们看到一个标准差的过程创新的增加,有大约 2.22% 的公司更有可能采用AI和数据分析。这确实影响了非常显著的统计数据。
- 但如果你看看产品创新。在同一标准下,得分为1.0的偏差增加了你采用人工智能的可能性。如果你的产品导向,这基本上没有影响。
似乎如果公司真的对产品创新感兴趣,采用人工智能分析的可能性是零。它没有影响。

这真的很有趣。这可能与某些创新悖论有关。我们之前看到的内容。让我们也看看这如何转化为生产力。
如果你这么做,如果也许人工智能没有帮助,且没有投资人工智能,这是一个正确的决策。在这里我们关注对改善产品创新感兴趣的公司。他们也在人工智能上投资,并与其他公司进行比较,那些以流程为导向并投资于人工智能的公司。
在这个图表中我们看到,当一家公司同时投资于人工智能,并且非常注重流程时,得分为1.0的偏差变化与 7% 的生产力提升相关联。我们在之前的视频中看到了这一点。
并将其与产品创新进行对比。产品创新和人工智能基本上确认,投资于大量人工智能技能和产品以及基础设施,同时也非常关注产品的创新,他们实际上并没有看到生产力的提升。
但这里我们只是测量所有产品创新。我们还没有区分产品类别中的哪种创新。但总体来看,我们确实看到对流程导向感兴趣的公司和对产品导向感兴趣的公司之间存在差异。
一家非常关注改善流程的公司,在使用人工智能和分析方面看到显著改善。但我们在产品创新中并没有看到这一点。
所以这个重要发现是,不仅存在人工智能与分析之间的关系,一般的产品创新是零。有时这种关系甚至可能是负面的。也就是越倾向于我们的产品,服务形象越明显,他们实际上更不可能投资于人工智能。

我们看到这种关系对流程并不成立。从某种意义上说,更多的流程创新,你的公司更可能进行投资,你越有可能投资于数据分析和人工智能。此外,你还在通过提高生产力来获得这项投资的回报。
所以我们确实看到了流程与产品之间的创新差距。但再一次,这仍然是一个非常粗略的划分。我们将看看产品创新中的细分。

本节课中,我们一起学习了产品创新与人工智能应用之间的关系。核心结论是:调查数据显示,专注于流程创新的企业更可能投资人工智能并从中获得生产力提升(约 7%);而专注于产品创新的企业,其人工智能投资倾向与生产力回报之间并未显示出显著的正向关联。这揭示了当前企业创新实践中存在的一个“创新差距”。
在下一个视频中,我们将进一步探讨在产品创新中,人工智能具体在哪些方面有效,哪些方面不起作用。

课程 P118:人工智能与产品创新类型 🧠
在本节课中,我们将探讨人工智能如何影响不同类型的产品创新。我们将区分“重组创新”与“根本性创新”,并通过数据和案例理解人工智能在其中扮演的不同角色。


在上一节中,我们研究了通用产品创新的进展。本节我们将深入产品创新本身,分析其不同类型以及人工智能对它们的影响差异。
重组创新:人工智能的擅长领域 🔄


请注意,许多由人工智能驱动的创新案例都有一个共同点:它们都属于重组创新。这意味着将两种或多种现有事物以新的方式结合,创造出新事物。

以下是重组创新的几个例子:
- AI艺术生成:将一张普通照片与梵高的《星夜》风格结合,生成一幅全新的画作。公式可表示为:
新作品 = 照片 + 著名艺术风格。 - 汽车底盘优化:利用传感器数据和AI分析,改进现有底盘设计,使其性能提升。这本质上是将传感器技术、数据分析与传统工程相结合。
- 新药物发现(如Halicin):通过分析海量的抗生素研究论文和药物相互作用数据,找出一种新的、有效的抗生素分子。这是将跨学科信息和海量数据点进行重组挖掘的结果。
- 蛋白质研究(如P53):AI通过分析已知的P53蛋白及其相互作用蛋白的大量模式,帮助预测新的P53蛋白可能的结构。这是在庞大已知数据空间内寻找新的组合模式。
从本质上说,人工智能和分析技术极大地扩展了我们寻找创新组合的“搜索空间”。它擅长链接不同领域的知识,发掘隐藏的模式,从而找到以新方式结合现有技术的方法。

多样重组与根本性创新 🆕
人工智能不仅帮助组合事物,更擅长进行多样重组。这意味着将许多差异很大的元素以全新的方式组合起来。
例如,假设有三种现有技术:A、B、C。一个多样化的重组可能是结合A、B、C创造出全新的技术D。用公式表示:D = A + B + C(其中A、B、C差异显著)。
我们的假设是:人工智能能极大地帮助我们发现这类多样化的重组创新。它可以处理成千上万的元素,找出人类难以想象的有效组合。
然而,人工智能可能不擅长帮助我们发现根本性创新(或称为第一类创新)。例如,发现第一种抗生素——青霉素。这种之前完全不存在的技术类别,缺乏历史数据供AI学习,因此AI在促成此类从0到1的突破上能力有限。

数据验证:专利分析 📊
我们如何验证“人工智能促进多样化重组”这个直觉呢?一种方法是分析专利数据。
以下是利用专利进行分析的几个维度:

- 技术分类代码:专利有分类代码。如果一项专利是其技术类别中的第一个,则表明它非常新颖(可能是根本性创新)。
- 引用专利:一项专利会引用已有的技术(前案)。如果引用的专利来自许多不同的技术类别,则表明该专利是多样化重组的结果。例如,引用来自10个不同类别的专利,比引用10个同类别专利更具“多样性”。
- 文本新颖性:分析专利摘要中使用的词汇。如果某个词(如“HTML”)首次出现,表明该专利可能引入了全新概念。
通过分析企业的人工智能投资与其专利特征(是多样化重组还是全新技术)之间的关系,我们可以得到实证证据。

研究结果与生产力影响 📈

研究发现了明确的模式:
- 投资人工智能的企业,更有可能产出多样化重组类型的专利(效应显著)。
- 投资人工智能的企业,与产出全新技术(自身类别中的第一个)类型的专利之间,几乎没有正相关。
- 生产力影响:同时投资AI并专注于重组创新的公司,获得了显著的生产力提升(约1%的变化,在宏观层面影响巨大)。而投资AI但专注于寻找全新技术的公司,则未见明显的生产力增益。
- 特异性:这种效应是人工智能特有的,在一般的IT技术投资中并未观察到同样模式。
核心要点总结 🎯
本节课我们一起学习了以下核心内容:

- 产品创新可分为重组创新(结合现有事物)和根本性创新(创造全新事物)。
- 人工智能和分析技术非常擅长支持多样化的重组创新。它通过处理海量数据,发现跨领域元素的创新组合。
- 人工智能在促进根本性、全新技术的诞生方面作用有限,因为这类创新缺乏可供学习的历史数据。
- 企业获得最大生产力收益的关键在于组合策略:即投资人工智能,并将其用于寻找和实现重组创新,而非单纯追求颠覆性的新技术。
这个发现也部分解释了为何有时感觉AI没有带来颠覆性突破——如果将AI用于寻找全新的“D”类技术,其效果可能远不如将其用于寻找“A+B+C”式的重组创新。


谢谢观看。

🏢 课程 P119:组织因素如何影响AI驱动的创新
在本节课中,我们将探讨公司的组织结构如何影响其利用人工智能(AI)和分析技术进行创新的能力。我们将了解不同的组织模式(如集中化与去中心化)如何与AI技术相互作用,并最终影响公司所能创造的创新类型。


在上一个视频中,我们探讨了AI分析与特定产品创新之间的关系。然而,还有许多其他组织因素可能影响这种关系。因此,在本视频中,我们将讨论公司的组织结构如何调节AI与创新之间的关系。有些组织结构非常适合支持AI驱动的创新,而有些则不然。
🔍 组织结构的多样性
组织在安排其活动的方式上存在显著差异。它们可能以一种方式组织日常运营,而以另一种方式组织创新活动。因此,具体观察公司如何组织其创新活动,并将其与整体组织结构进行比较,这一点非常重要。
这种结构差异不仅存在于不同行业之间(例如,药物研发的组织方式可能与汽车研发截然不同),也存在于同一行业内部。例如,在药物发现领域,一家公司可能以一种方式组织创新,而另一家公司则选择不同的方式。
为了让你更清楚地理解,我们来看一些例子。
以下是两家公司:谷歌和苹果。它们以非常不同的方式组织创新活动。这两家公司都是科技行业中极具创新力的公司。
- 谷歌的创新结构更加去中心化。
- 苹果的结构则非常集中在少数几个集群中。
那么,这些图中的节点和链接代表什么呢?
- 节点代表发明者。
- 链接表示两个节点(发明者)共同撰写了一项专利。
因此,你可以看到谷歌有几个集群,但整体上是分散的。而苹果的创新结构实际上集中在少数几个集群中,中心有一个大节点,底部还有一个。谷歌的去中心化程度更高。
公司以不同方式组织创新可能有很多原因,可能是历史原因,也可能是对创新的不同思考方式。这些结构一旦形成,实际上很难改变,因为通过法令或更换领导层来改变非正式的创新合作关系并不容易。
⚖️ 集中化与去中心化的利弊
既然AI和分析技术发展迅速,我们能否看到它们对不同组织结构的公司产生不同的影响?这些技术是更有利于谷歌式的世界,还是苹果式的世界?它们是否能比集中化结构更好地促进去中心化的创新结构,或者反之亦然?

这不仅仅是苹果与谷歌的对比,因为它们是知名公司,且都极具创新性。你在其他各个行业中也会看到同样的现象。例如,大型制药公司Cenofe和Roche也有着非常不同的组织方式:Cenofe稍微分散,而Roche则更加集中在少数几个集群中。
因此,我们可以提出类似的问题:AI能否帮助谷歌/Cenofe式的世界,或者苹果/Roche式的世界更好地创新?
去中心化的优势与劣势
去中心化有许多优势:
- 团队专注于特定类型的工作,非常本地化于其市场。
- 倾向于积累粘性知识(即团队内部知晓但难以传递给他人的隐性知识)。
- 当人们长期共同解决特定问题时,更可能识别问题并创造自主解决方案。

然而,去中心化也存在劣势:
- 有时难以促进跨团队协调。
- 团队内部合作良好,但可能难以将知识转化或与沟通方式、行话不同的其他团队合作。
集中化的优势与劣势
集中化也能提供许多优势:
- 往往能催生超越个别团队的激进创新。
- 可以更好地进行广泛的、超出单个团队范围的外部信息搜索。
- 可以从组织整体利益出发考虑问题,克服单个小组可能存在的短视行为。

集中化的劣势可能包括:
- 解决方案可能只适用于特定团队,而不具有普遍性。
因此,两种结构各有利弊。那么,分析和人工智能如何介入呢?

🤖 AI如何赋能不同的组织结构
如果你考虑分析和人工智能能做什么,其中一个关键优势就是它们能够进行广泛的、多样化的知识搜索。它们可以发现隐藏的模式和关系,并将现有的信息孤岛连接起来。

通过拥有一个能自动挖掘不同领域、寻找隐藏模式的工具,AI可以在一定程度上缓解去中心化结构在协调方面的弱点。它虽然不能解决所有协调问题,但即使只是削弱这些困难,也可能促进这些组织结构在创新活动中发挥作用。
回想一下,在上一个视频中,我们展示了AI和机器学习特别擅长发现新的组合或多样化的组合,或者以新的方式使用现有技术。这一切都将有助于去中心化结构解决诸如“似乎还有其他地方发明的技术可以帮助我”之类的问题。
本质上,AI可以通过整合信息孤岛、以新的方式结合技术来帮助去中心化结构。

📊 实证检验:结构与AI的协同效应
那么,让我们看看我们的直觉是否正确。我们可以通过衡量公司的创新结构来验证。
在这里,我们使用机器学习中的社区检测算法来分析共同创作网络(基于专利共同署名)。这捕捉了图中存在多少组以及它们之间的连接程度。在高度分散的“谷歌世界”中,你会看到较高的去中心化测量值;而在集中化的“苹果世界”中,你会看到较高的集中化测量值。
需要指出,这与正式的组织层级不同。正式层级很难捕捉,且可能无法反映人们实际的工作方式。我们这里捕捉的是人们真实的合作与共同创新方式。

以下是去中心化创新的分布图。高值意味着非常分散,低值意味着非常集中。你可以看到公司之间存在巨大的光谱,有些非常分散,有些非常集中。
你可以用类似的指标来衡量自己公司的组织结构,并与竞争对手进行比较,看看你们在组织活动方式上有何不同。

当我们查看数据时,我们发现AI投资与分析技术补充了公司的去中心化创新结构。这意味着去中心化的创新结构通过投资AI和分析技术受益匪浅。
不仅它们更可能采纳这些技术,而且当它们同时投资AI并拥有去中心化结构时,其生产力比只投资AI或只拥有去中心化结构的公司高出约3%。考虑到这些行业的竞争性,这个差异相当大。这种效应在近年(2008-2013年)甚至更强,表明公司学会了如何更好地部署分析和AI进行创新,但组织结构至关重要。
🧩 AI具体支持何种创新?
好的,我向你展示了AI如何更好地支持去中心化。但其中存在细微差别:它并非支持所有类型的创新,而是主要支持一种特定类型——以新的方式组合现有事物,即重组式创新或多样化组合创新。
我们可以将创新大致分为三种类型:
- 全新技术(D):之前完全不存在的技术。
- 新的组合(如 A+B, B+C, A+B+C):将现有技术以新的方式结合。
- 重用/改进(A‘, B’, C‘):对现有技术进行渐进式改进或精炼。
同时,我们还可以从新颖性的范围来区分:
- 全球新颖:在整个世界上首次出现。
- 本地新颖:对公司或行业而言是新的,但在世界其他地方已存在。
下图展示了在去中心化结构中投资AI,对产生这六种不同类型创新的可能性影响:
- 创造全新的全球技术类别:效应几乎是负面的。
- 引入本地全新的技术类别:效应非常高。
- 创造全球范围内的新组合:效应最高。
- 创造本地的新组合:效应很高。
- 重用/改进现有技术:效应存在但不大。
这表明,AI与去中心化结构结合,最擅长的是帮助公司创造“新的组合”——无论是全球首次还是本地首次。对于渐进式的改进,由于搜索空间较小,AI的帮助相对有限。而对于全新技术,可能因为公司不知道如何有效应用,收益也不明显。
当搜索空间巨大时(例如从1000种技术中找出有效的两两组合),AI才能真正发挥其广泛搜索的优势。去中心化结构恰恰需要这种扩展搜索空间的能力,而集中化结构本身已具备一定的协调搜索能力。

📈 从专利引用看创新质量
我们还可以通过专利引用来检验创新质量。下图显示了在同时投资AI并采用去中心化结构时,专利引用模式的分布:
最大的收益出现在引用比例在40%到60%之间的中间范围。这表明最佳的创新状态是恰到好处地结合内部与外部知识,而不是完全依赖外部全新知识或完全内部渐进改进。
非常新颖(外部引用比例极高)或非常渐进(外部引用比例极低)的组合,其效应甚至是负面的或很小的。这种“中等新颖性”似乎是AI帮助去中心化组织结构进行创新的最佳点。

✅ 总结与生产力提升
最后,生产力效应再次印证了这一点。我们看到,当公司投资AI并采用去中心化创新结构时,其生产力得到显著提升。这种效应在近年(2008-2013年)甚至更强,提升了约3%的生产力。
本节课中,我们一起学习了:
- 公司的组织结构(集中化 vs. 去中心化)是其创新模式的重要基础。
- AI和分析技术特别能够补充和增强去中心化的创新结构。
- 这种协同效应的核心在于,AI擅长进行广泛搜索和发现新组合,而这正是去中心化结构所缺乏但急需的能力。
- AI主要促进的是重组式创新(以新方式结合现有技术),而非创造全新技术或进行渐进式改进。
- 同时采用去中心化结构和AI投资的公司,在创新生产力上能获得显著的提升(约3%)。


因此,对于希望利用AI推动创新的公司而言,审视并优化自身的组织结构,使其更有利于信息流动和跨领域组合,可能与投资AI技术本身同等重要。

🧠 课程 P12:具体的机器学习方法深度潜水
在本节课中,我们将深入探讨几种核心的机器学习模型,了解它们的基本工作原理。我们将从逻辑回归开始,逐步介绍决策树、随机森林和神经网络。这些模型是数据科学家工具箱中的重要工具,理解它们将帮助你更好地与数据团队协作。
请注意,本次课程内容可能比其他课程更具技术性。如果你没有数据分析背景,可能觉得有些部分难以理解。这没关系,即使只获得对这些模型的高层次定性理解,在与数据科学家交流时也会非常有帮助。当然,如果你能理解细节,将更有益处。
逻辑回归:二元分类的基础

上一节我们概述了机器学习的目标是找到一个函数 f(x) 来预测结果 y。本节中,我们来看看逻辑回归,这是最简单且最流行的分类模型之一。

逻辑回归适用于结果变量 y 只能取少数几个值(尤其是两个值)的分类问题。例如,预测一封电子邮件是否为垃圾邮件,或一个用户是否会点击广告。虽然它起源于19世纪,并长期用于统计学,但它无疑是现代数据科学中一项至关重要的技术。

逻辑回归的核心是预测某个事件发生的概率。给定一组输入变量 x1, x2, x3...,它试图计算事件(如“是垃圾邮件”)的概率 P。
其核心公式是 logit 函数:

log( P / (1 - P) ) = β0 + β1*x1 + β2*x2 + ...
这个公式表示,事件发生概率的“对数几率”是输入变量的线性组合。模型会学习系数 β,以最好地拟合数据。
可以直观地将逻辑回归视为在数据空间中寻找一条最佳分界线(在二维中是直线,在高维中是平面),将不同类别的数据点分开。

决策树:基于规则的直观模型

了解了基于线性划分的逻辑回归后,我们来看看另一种思路不同的模型——决策树。这是一种非常直观、易于解释的模型。
决策树通过一系列“是/否”问题,将数据逐步划分到不同的分支中,最终做出预测。它模仿了人类的决策过程。

以下是决策树的工作原理:
- 选择最佳分裂点:算法会遍历所有输入变量和所有可能的分裂值(例如,温度是否 > 70°F),寻找一个能最有效地区分不同结果的分裂点。衡量有效性的标准通常是最小化数据的不纯度或熵。
- 递归分裂:在每一个新产生的数据子集上,重复步骤1,继续选择最佳变量和分裂值进行划分。
- 生成叶节点:当满足某个停止条件(如节点中数据量过少,或纯度足够高)时,停止分裂。该节点成为一个“叶节点”,并给出最终的预测结果(例如,该分支下的样本有80%的可能性会下雨)。
决策树的优势在于其可解释性。你可以清晰地看到模型做出预测所依据的规则路径。


随机森林:集成智慧的威力
单一的决策树可能不稳定或容易过拟合。为了解决这个问题,我们可以使用集成方法,即结合多个模型的预测。随机森林就是其中最著名的方法之一。
随机森林的基本思想是“三个臭皮匠,顶个诸葛亮”。它通过以下步骤构建:

- 自助采样:从原始数据集中有放回地随机抽取多个样本子集(Bootstrap采样)。
- 构建多棵树:为每一个样本子集训练一棵决策树。在构建每棵树时,通常还会随机选取一部分特征作为候选分裂变量,这增加了树之间的差异性。
- 聚合结果:对于一个新的预测样本,让森林中的每一棵树都给出自己的预测。对于分类问题,最终结果通常采用投票法(多数票胜出);对于回归问题,则采用平均法。


虽然森林中的每一棵单树可能只基于部分数据和部分特征,预测能力不强,但将它们的结果结合起来后,往往能产生比单一决策树(即使在全部数据上训练)更强大、更稳定的预测性能。这体现了“群体智慧”的力量。



神经网络:模仿大脑的复杂模型

最后,我们探讨一种更复杂、更强大的模型——神经网络,特别是深度神经网络。它在处理图像、语音、文本等非结构化数据时表现尤为出色。
神经网络的设计灵感来源于生物大脑中的神经元。一个基本的人工神经元接收多个输入信号 (x1, x2, ..., xn),每个信号乘以一个对应的权重 (w1, w2, ..., wn),然后求和并加上一个偏置项 b,最后通过一个激活函数 f 产生输出。

单个神经元的计算可以表示为:
输出 = f( w1*x1 + w2*x2 + ... + wn*xn + b )
神经网络由大量这样的神经元相互连接而成。深度神经网络特指那些包含多个隐藏层的网络。
以人脸识别为例:
- 输入层:神经元对应图像中每个像素的数值(如RGB值)。
- 隐藏层:通过训练,不同层的神经元可能会自动学习到图像的不同特征。例如,第一层可能学习到边缘,第二层学习到眼睛、鼻子等部件,更深层则学习到更复杂的组合模式。
- 输出层:神经元对应可能的预测结果(如不同人的名字)。

神经网络通过调整网络中数以百万计的权重和偏置参数来学习,其强大的拟合能力使其在许多任务上达到了顶尖水平。然而,这种复杂性也带来了“黑箱”问题——我们很难解释神经网络内部究竟是如何做出某个特定决策的,这对其在需要高可信度的场景中的应用提出了挑战。


总结
本节课我们一起学习了四种重要的机器学习模型:
- 逻辑回归:通过线性函数和logit变换进行概率预测,是二元分类的基石。
- 决策树:使用树形结构和一系列规则进行预测,具有极佳的可解释性。
- 随机森林:集成多个决策树,通过投票或平均来提升预测的准确性和稳定性。
- 神经网络:模仿生物神经元结构,通过多层非线性变换学习复杂模式,尤其在非结构化数据上威力强大,但可解释性较差。

这些技术远未涵盖机器学习的全部领域(例如还有支持向量机、梯度提升等),但它们为你理解机器学习如何工作提供了坚实的基础。记住,没有一种模型在所有情况下都是最好的,选择哪种模型取决于具体的问题、数据以及对可解释性的要求。

🧠 课程 P120:如何组织AI与数据技能以驱动创新
在本节课中,我们将探讨企业应如何构建其人工智能与数据分析能力,以最大化创新产出。我们将聚焦于三个核心问题:需要何种技能、这些技能应来自何处,以及如何最佳地组织这些技能。

在上一节中,我们学习了如何构建创新以充分利用人工智能与分析。我们发现,人工智能可以补充去中心化的创新模式,从而提升公司的重组创新能力。
本节中,我们将讨论公司应关注的具体技能类型。

一方面,市场对人工智能与数据分析技能的需求非常高。数据显示,这些技能在过去十年中显著增长。

因此,一个直接的策略是:既然人工智能技能对创新至关重要,我们就应该雇佣更多具备这些技能的人才,尤其是那些同时是研究人员的AI专家。
然而,这种做法可能非常困难且成本高昂。要找到同时精通特定领域(如药物研发)和人工智能的专家非常罕见,雇佣他们的代价也可能极高。
另一种策略是雇佣任何具备人工智能技能的人。


那么,随之而来的问题是:应该将他们安置在何处?拥有人工智能技能的发明者是否至关重要?还是说,只要雇佣懂AI的人来辅助研究人员进行发现就足够了?

为了解答这个问题,我们进行了一项研究。我们比较了两种员工:同时具备AI技能的发明者 和 公司中具备AI技能的非发明者员工,并分析他们对AI产出和生产力的贡献。
以下是我们的发现:
- 关于同时具备AI技能的发明者,其数量虽然庞大,但实际影响难以精确判断。
- 然而,具备AI技能的非发明者员工,其贡献非常显著,几乎与具备AI技能的发明者一样强,尽管他们的发明技能本身可能较低。

因此,虽然我们无法断定发明者的AI技能是否绝对重要,但我们可以明确地说:非发明者的AI技能确实非常重要。
这意味着一个好消息:你无需强求雇佣那些身兼发明家与AI专家的“双重人才”。

你可以广泛招聘具备AI技能的人员,让他们辅助公司的发明者,利用AI工具来发现机会并实现创新目标。


既然我们明确了可以广泛聘用AI人才,下一个关键问题就是如何组织他们。
AI技能应该集中在一个统一的部门(如传统的IT部门),还是应该分散嵌入到各个具体的职能部门或产品团队中?这并非一个显而易见的答案,因为不同公司采取了不同的做法。

以下是两种组织模式的案例:
- 集中化模式:例如,Twitter最初将其AI技能集中在一个部门,类似于组织IT技能的方式。他们开发了许多工具,但大多数产品团队并未实际采用这些工具。集中化的AI团队被认为效用有限。
- 去中心化模式:几年后,Twitter决定改变策略,将AI技能分散嵌入到各个功能团队中,以帮助每个产品更好地利用AI。不仅科技公司如此,通用电气(GE)也有类似经历。GE发现,将行业专家与具备高数据和AI技能的人员配对,是启动产品创新的最优方式。行业专家提供直觉和专业背景,而AI专家则帮助厘清数据和应用方案。因此,GE也从早期的集中化转向了去中心化的配置。
那么,这仅仅是Twitter或GE的个别情况吗?我们对此现象进行了更广泛的研究。

我们考察了七类典型职能部门中数据技能的分布情况,包括:制造、工程、销售与市场、人力资源、会计与财务、研发以及行政管理。
我们同时关注了行业内和跨行业的比较。我们调查了约600家公司,询问他们在以上七个职能中使用数据分析的频繁程度。

调查结果显示,不同国家(美国、欧洲、亚洲)之间在技能分布上没有显著的异质性。因此,“数据技能应分散,而数据本身应集中”并非一个普遍明显的结论。
然而,行业之间确实存在差异。我们计算了“数据分散得分”:得分高意味着数据技能在七个职能间分布均匀;得分低则意味着技能高度集中在一两个部门。

数据显示,企业管理行业的分散得分最高(86.4%的公司得分高),意味着其数据技能高度分散。而医疗保健和社会系统行业的得分非常低,表明其AI技能仍相对集中在少数部门。
此外,按区域看,欧洲公司的分散性略高于美国,亚太地区居中。不同地区和行业间的得分确实存在聚集现象,且方差很大,这表明企业在如何组织数据技能上尚未形成统一共识,存在很大的异质性。

那么,分散化究竟是否对公司有利?我们进一步研究了分散程度与公司效能的关系。

我们发现,Twitter和GE的案例具有普遍意义。当公司将AI和数据技能分散化,嵌入不同的职能或产品团队时,这些公司比未这样做的公司更有效、生产力更高。

平均而言,数据分散得分每增加一个标准差,对应的企业价值大约提升3-5%。考虑到我们样本中公司的平均规模(约107亿美元),这相当于3.2亿至5.34亿美元的价值变化。因此,尽管百分比增幅看似不大,但转化为具体金额后,影响是实质性的。

本节课中,我们一起学习了如何为驱动创新而构建AI与数据能力。我们明确了非发明者的AI技能同样至关重要,这降低了企业招聘“双重人才”的难度。更重要的是,我们通过研究和案例发现,将AI和数据技能去中心化,嵌入到各个业务职能部门中,而非集中管理,能更有效地提升公司的创新产出和企业价值。组织这些技能的方式,是释放其创新潜力的关键。

📊 课程 P121:人工智能时代的管理实践变革
在本节课中,我们将探讨人工智能和机器人技术如何深刻影响企业的管理实践与员工构成。我们将基于一项覆盖加拿大的全国性研究数据,分析机器人采纳如何改变就业结构、管理角色以及公司内部的决策方式。

🔍 机器人采纳的现状与影响
上一节我们讨论了公司的组织结构和技能,本节中我们来看看其他管理实践和员工管理。与人工智能相关的实践,实际上是由人工智能及其相关领域的快速增长所驱动的。过去几年,相关投资增长非常迅速。这种增长如何改变员工的构成?管理者又应如何应对对人工智能日益增长的投资?
为了适应这一变化,公司需要采取哪些实践?这不仅仅是为了创新,更因为快速的自动化正在影响各种类型的工作。
你可能在大众媒体上听过许多关于机器人、人工智能可能对就业和管理实践造成巨大冲击的讨论。例如,有观点认为人工智能和机器人会摧毁大量工作岗位,而我们尚未做好准备。
这类观点出现在《外交事务》、哈佛商业评论等刊物,甚至影响了政策制定者。欧盟曾提出“机器人税”的构想,在2020年的总统竞选中,德布拉西奥也著名地提议征收机器人税,比尔·盖茨也曾建议机器人应像人类一样被征税。
这些讨论虽然引人注目,但我们实际上并不清楚人工智能的确切影响程度。机器人确实影响就业,但管理实践需要在多大程度上进行调整以适应这些变化?在讨论任何政策影响之前,我们首先需要确凿的事实,来了解人工智能和机器人如何改变工作的性质。

为此,我们在加拿大进行了一项全国范围的研究,详细捕捉了特定公司中所有的机器人采纳情况。这项研究使用了税收数据和人口普查数据,这意味着几乎所有公司都因合规要求而参与,覆盖率约为加拿大公司的80%至90%。
研究发现,与制造业相比,服务业的机器人采纳正在迅速增长。这与我们过去的认知不同——机器人不仅影响制造业,也正快速进入服务业,尤其是在近几年。当然,制造业仍是机器人最大的采纳者之一,但在医疗、科学研究等其他服务领域,增长也非常迅速。
因此,这不仅仅是一个关于制造业的故事,而是一个涉及制造业和服务业的全球经济现象。

📈 机器人采纳与生产力提升
我们看到,机器人或人工智能的采纳在一段时间内显著增加。人工智能的采纳模式可能增长更快,因为它属于新一代技术,正变得越来越主流。
在我们的研究中,我们发现与机器人采纳相关的生产力提升相当显著,提升因子约为10倍。这意味着,如果你采纳机器人并保持运营平衡,你应该能获得相当于机器人价值数倍的生产力回报。这类似于资本投资的回报率。
然而,这种提升的分布并不均匀。一些公司在使用机器人方面表现得非常好,而另一些则不然。这表明,与机器人采纳相配套的组织性变革正在发生,且对成功至关重要。

👥 机器人对就业与管理岗位的差异化影响
让我给你一个关于机器人和就业现状的概念。我们将其分解为对总就业和对管理者的影响两个方面。
与“机器人会消灭所有工作”的流行说法相反,左图(事件研究图)显示,在公司引入机器人之前,就业数量基本稳定。在引入机器人当年(零点),就业开始增加,并在两三年后持续上升,即使在五、六年后仍保持高于最初的水平。
因此,总体而言,机器人实际上增加了就业。
但这种效果并不是均匀的。如果你看看右侧的图表(衡量管理岗位数量),你会看到几乎完全相反的模式。在引入机器人之前,管理岗位数量稳定。但在引入机器人当年,管理类就业大幅减少,并在一两年内保持低位,之后在第三或第四年进一步下降。

那么,为什么机器人会增加总就业,却减少管理岗位?
这似乎违反直觉,因为管理者的定义就是管理他人。我们怎么能用机器人替代他们?机器人真的能成为我们的管理者吗?这里到底发生了什么?

📊 管理岗位减少的深层原因
这种变化并非统计偶然。下图比较了采纳机器人的公司(蓝线)与未采纳的公司(红线)中,管理者与员工的比例随时间的变化。可以看到,采纳机器人的公司逐渐降低了这一比例,而未采纳的公司则基本保持不变。
那么,为什么管理者会减少?

一个可能的猜测是管理者成本高昂,因此公司为削减成本而首先裁减他们。但我们的调查数据并不支持这一点。我们询问了公司其商业战略的相对重要性,包括“降低劳动成本”和“改善产品/服务”。
分析发现,“降低劳动成本”作为战略优先事项,与机器人采纳倾向几乎没有关联。然而,将“改善产品/服务”作为坚定战略优先事项的公司,其机器人采纳倾向显著更高。
因此,驱动机器人采纳的不是成本削减,而是提升产品与服务质量。
那么,为什么人工智能和机器人会对管理岗位产生如此深远的影响?真正的原因如下:
首先,回顾之前展示的图表,管理岗位在机器人引入初期显著下降,两年后趋于平稳,然后再次下降。由机器人和人工智能推动的自动化技术,可以接管许多监督性工作,例如考勤打卡、任务完成度追踪等。这些工作相对容易通过技术进行管理,从而减少了对从事此类监督工作的管理者的需求。

但技术无法接管全部,甚至大部分管理职能。两年后的第二次下降,很可能是因为就业构成发生了根本性变化。
🧠 就业技能结构的变化
我按技能水平将总就业细分为三类:
- 高技能工人:拥有大学或研究生学位。
- 中技能工人:高中毕业后拥有一些技能认证(如两年制学位、职业认证)。
- 低技能工人:只有高中学历或更低。
观察机器人对这三类工人的影响,可以发现显著差异:
- 对高技能工人的需求显著上升。
- 对低技能工人的需求也有较大增加。
- 然而,对中技能工人的影响是非常大的负数。

尽管机器人提高了总就业,但其效果是异质的:它积极影响高技能和低技能工人,却非常负面地影响中技能工人。这改变了管理者所需管理的人才类型。

🎯 管理不同类型员工意味着什么
当就业构成发生如此大的变化时,所需的管理者类型也需要进化。
- 管理低技能工人:他们的工作通常非常标准化(如仓库拣货、打包),易于通过技术监控和追踪,因此可能不需要很多监督者来指导具体工作。
- 管理中技能工人:这通常需要更多的直接监督和培训。
- 管理高技能工人:这些员工本身就是专家,可能比管理者更了解如何完成工作。因此,他们的管理者可能更像顾问或教练,帮助他们达成目标,而非指导具体操作。
因此,由于就业构成向更多低技能和更多高技能工人转变,而中技能岗位减少,平均而言,管理者数量会减少。更重要的是,所需的管理技能和风格也发生了根本变化。
🏢 随之演变的企业实践
企业的运作方式正在改变,以适应或协同机器人采纳。具体来说,我们考察了三种不同的企业实践:
以下是三种关键的企业实践变化:

-
控制范围扩大
平均而言,一个经理能管理多少人?由于员工总数增加而管理者数量减少,控制范围(每位经理下属的员工数)显著增加。我们通过独立调查也确认了这一点。 -
工作可预测性提升
如果你考虑到机器人正在处理所有可预测的任务(AI是极好的预测工具),那么留给工人的将是更多不可预测的部分。数据显示,在引入机器人后,工作的可预测性确实大幅提升,表明工作性质正在变化。 -
绩效薪酬增加
机器人可以减少生产过程中的方差,因为它们能持续、精确地工作。这使得个人的具体贡献更容易被准确衡量和归因。因此,在引入机器人后,与个人绩效挂钩的薪酬有所增加。
这些实践仍在不断演变,但我们确实看到机器人正在显著改变企业的运作方式,尤其是在人员管理方面。
🤝 决策权的重新分配

最后,这种戏剧性的变化不仅涉及人员,还涉及决策权的分配——即公司中谁为哪些任务做决定。
以下是两个关键的决策权变化示例:
- 培训内容决策:在机器人采纳后,关于“员工应该接受什么培训”的决策权,从管理者显著转移到了员工自己手中。高层管理者的决策权变化不大。这体现了决策权的去中心化。
- 生产技术选择决策:关于“使用什么生产技术”的决策权,也从中层管理者转移到了CEO/高层管理者手中。这体现了在某些关键决策上的集中化。
因此,管理者的数量不仅在减少,他们的职责和决策权也在以复杂的方式被重新分配(某些方面去中心化,某些方面集中化)。
💎 总结与启示

本节课中我们一起学习了人工智能和机器人技术如何重塑管理实践。这个故事比想象中更微妙。机器人并非直接替代管理者,而是通过改变就业的技能构成和工作的性质,间接地改变了所需管理者的类型和数量。
关键结论如下:
- 采纳机器人技术的公司提高了生产力并雇用了更多人。
- 未采纳的公司在同一行业内可能面临更大的竞争压力和就业损失。
- 机器人采纳后,公司雇佣的人员类型(更多高技能和低技能,更少中技能)与之前截然不同。
- 这导致管理岗位减少、控制范围扩大、工作可预测性提升、绩效薪酬增加,以及决策权重新分配。
因此,采纳机器人和人工智能不是一个简单的技术插入过程,它会对组织产生连锁反应,影响雇佣、决策、薪酬等各个方面。对于管理者而言,深刻理解这些变化,并持续审视和调整自身的管理实践以适应新的环境,至关重要。

谢谢。

课程P122:AI在药物研发中的应用 🧪💻

在本节课中,我们将探讨人工智能如何影响并应用于药物研发领域。我们将了解AI在药物发现过程中的具体作用、其优势与局限性,以及它如何帮助解决制药行业面临的复杂挑战。
在之前的课程中,我们介绍了AI如何影响创新以及不同类型的创新。本节中,我们将深入探讨一个具体的行业案例——制药业,看看AI在其中扮演了怎样的角色。
药物创新至关重要,尤其是在经历全球疫情之后。目前,由各种细菌和病毒引起的疾病约有3万种,但其中仅有约三分之一可以得到有效治疗。药物研发成本极高,通常需要超过10年时间和约20亿美元。这主要是因为药物发现过程极其复杂,涉及的人体生物系统组合空间巨大,可能超过10的60次方种分子。

因此,面对COVID-19疫情、超级细菌和抗药性等挑战,AI被视为一个潜在的解决方案。对于许多制药公司而言,AI具备处理、解释外部数据并从中学习的能力,从而为实现特定目标提供支持。
那么,AI对药物研发的具体影响是什么?我们如何利用已知药物化合物的数据,通过AI预测并开发出人类可以安全服用的新药?

以下是AI在药物发现中的具体应用方式。

- 数据驱动的化合物筛选:Atomwise等初创公司开发了复杂的深度学习神经网络。这些模型在关于药物、生物相互作用的庞大数据集上进行训练。
- 加速新药发现:得益于庞大的数据集,AI能够快速识别潜在的新药化合物。例如,针对埃博拉病毒,AI曾在一周内识别出新的候选化合物并提交了相应专利。这对于许多其他疾病情况也具有典型意义。
- 投资趋势:制药行业在AI领域的巨额投资反映了一个更大的趋势。近年来,制药公司对AI的投资显著增长。

我们真正关心的是,AI在多大程度上能帮助解决药物研发这个漫长而复杂的创新过程?请记住,我们的综合研究表明,AI在发现重组式创新方面表现出色。对于具有中等新颖性的创新,AI表现最佳。这通常意味着创新中50-60%的知识源于自身领域,40-50%的知识来自其他领域。

我们针对药物的新颖性进行了类似研究。在这里,药物新颖性通过其化学结构的新颖性来衡量。有趣的是,我们发现了非常相似的模式:AI在中等新颖性范围内表现良好。
以下是关于AI与药物创新关系的核心发现。
- AI不擅长发现全新化合物:AI在寻找前所未见的全新化学化合物方面效果不佳。
- AI对渐进式创新效果有限:对于现有化合物的增量改进,AI的正面影响相对较小。
- AI在中等新颖性创新中表现最佳:AI最能帮助制药公司发现具有中等新颖性的药物。这类创新通常属于重组式创新。

请记住,AI本质上是一台模式识别机器。它能发现各种相关性并利用它们进行预测。但我们都知道,相关性不等于因果关系。如果找到了错误的相关性,在制药行业可能意味着一个20亿美元的错误。因此,即使AI能提出大量潜在的化学化合物来应对某种疾病,其中许多相关性也可能是虚假或错误的。
那么我们如何辨别呢?如果选错了目标或化合物,AI甚至可能对药物创新产生负面影响。我们通过研究这些药物化合物的作用机制来探讨这个问题。

上一节我们提到了作用机制的重要性,本节中我们来看看它对AI效用的具体影响。
我们根据是否了解药物作用机制,来分类研究AI对这些新化学化合物的影响。
以下是基于作用机制知识的不同情况分析。
- 情况一:机制未知:当我们不知道某种药物如何针对疾病机制起作用时(第一栏),AI的影响微乎其微,几乎为零。这很合理,因为在盲目寻找相关性时,无法辨别哪个是真实的。
- 情况二:机制已知:当我们了解作用机制时(例如抗生素如何杀死细菌),AI可以产生很大影响。但即使机制已知,AI的影响也主要集中在化学结构具有中等新颖性的化合物上。对于高度新颖或仅是增量改进的化合物,AI的影响仍然较小。
因此,主要结论是:很难知道哪些药物候选者是真实有效的,哪些是错误的。AI是一台出色的数据挖掘机器,能发现各种隐藏的联系和模式,例如以新的方式组合事物。但在寻找真正全新的药物化合物方面,其影响相对有限。
这并不意味着新的组合方式没有益处。它们极其有益。我们发现AI可能帮助我们解决下一个超级细菌问题,也可能帮助我们找到COVID-19疫苗。这些创新不一定是激进的,但它们是组合事物的新方式,仍然非常有用。
关键在于,需要考虑创新是否属于重组式创新,以及是否已经了解其影响疾病的机制。对机制的理解有助于辨别虚假相关性和真实因果关系。
我们如何看待那种首创的、突破性的新颖创新呢?
正如我们在早期的专利研究中提到的,我们没有看到AI对这种“首创”式创新的显著影响。在药物研发领域,情况更为复杂。
因为这类药物如此新颖,关于该特定药物和病症的数据非常有限。临床经验中包含大量隐性知识,而这些知识目前很难被完全编码,使得AI在聚合和检测模式方面能力有限。

以屠呦呦教授发现青蒿素为例,这款抗疟疾药物源自古老的中文文献,结合了她深厚的临床经验和专业知识。在这种情况下,AI能做的非常有限。数据稀缺,且大量的临床隐性知识目前无法被AI编码和利用。
也许有一天,当这些知识能够被编码时,我们或许能取得突破。但目前,利用AI进行这类突破性发现的能力仍然有限。
本节课中我们一起学习了AI在药物研发中的应用与局限。
主要的结论是:
- AI可以在药物发现的早期阶段提供帮助,例如快速筛选数百万种化合物,发现新的相关性和模式,这对于生成药物假设至关重要。
- 当已知药物的作用机制时,AI尤其强大,是验证药物有效性的好方法,有助于在投入昂贵的临床试验前降低风险。
- 通过专利数据可见,AI确实通过寻找具有中等新颖性的新化合物来帮助药物研发,这与重组式创新非常相似。
- 然而,对于真正全新的、首创的疗法,AI的应用仍然受限,主要是因为缺乏相关数据,且大量隐性知识无法被编码。在很大程度上,我们仍然依赖人类的聪明才智。






















课程 P123:AI的风险 🧠⚠️
在本节课中,我们将要学习人工智能(AI)和机器学习(ML)在实际应用中可能面临的主要风险。我们将从统计风险开始,然后探讨更广泛的社会与伦理风险,并理解这些风险为何会产生。
统计风险:过拟合

上一节我们介绍了课程概述,本节中我们来看看第一种风险——过拟合风险。许多复杂的高级机器学习模型,例如神经网络和梯度提升,容易对训练数据产生过拟合。这意味着它们往往能非常完美地拟合历史数据,但在面对新的、未见过的现实情况时却会失败。

这是因为这些模型通常参数过多,能够拟合非常复杂的模式,以至于“记住”了训练数据中的噪声和特定细节,而非学习到通用的规律。因此,它们在历史数据之外并不能很好地泛化。
如果我们不了解模型表现良好的真正原因,当我们在现实世界中部署这些模型时,就会带来显著的操作风险。
以下是使用过拟合模型可能产生的一些操作风险示例:
- 财务风险:例如,一个基于机器学习的股票交易算法如果过拟合,可能做出错误的交易决策,直接导致财务损失。
- 客户认知与声誉风险:例如,一个与客户互动的聊天机器人或个性化推荐算法,如果在实践中运行不佳,会损害客户体验,长远影响客户保留率和公司声誉。

简而言之,尽管存在许多统计风险,但它们实际上可以通过测试来识别和管理。因此,对机器学习模型进行严格的压力测试至关重要。这包括进行之前提到的验证,也包括其他多种测试方法。
社会与伦理风险
上一节我们讨论了可量化的统计风险,本节中我们将探讨更具挑战性的社会与伦理风险。为了说明这一点,我将分享一些研究中的实例。

在我的研究中,我采访了一位名叫袁瑾的22岁中国生物技术专业人士。她有一个非常有趣的习惯:每晚睡觉前,她会与一位名叫邵平的中国社交媒体名人聊天,进行有趣且充满玩乐的对话。邵平在中国拥有四千万粉丝。
然而,当我深入挖掘时,我意识到邵平并不是一个人。邵平实际上是微软研究院创建的一个聊天机器人,在中国取得了很大成功。后来,同一家公司在美国推出了一个类似的聊天机器人。
它被称为“微软 Tay”。遗憾的是,Tay 上线后参与了性别歧视、充满种族主义和法西斯主义的对话,迫使微软在24小时内将其关闭。
有趣的是,同一家公司推出的两个相似聊天机器人,却得到了如此不同的结果。这反映出机器学习算法面临的挑战,以及在部署之前需要进行大规模、多场景压力测试的必要性。
另一个与机器学习相关的挑战是其在简历筛选中的应用。像亚马逊这样的大公司每年可能收到数十万甚至数百万份简历。人工筛选在规模上非常困难,因此许多公司尝试使用机器学习来筛选求职者。
然而,路透社的一则新闻报道,亚马逊发现其最初的简历筛选算法存在性别偏见。幸运的是,这一算法被内部人员发现,因此不再使用。但这表明,即使像亚马逊这样的大公司也不得不面对算法偏见的问题。

他们设计了一个基于前沿机器学习技术的算法,但它仍然存在性别偏见。
几年前,ProPublica 报道了一则新闻,关于在美国法庭中使用的算法。这些算法旨在帮助法官和假释官进行保释、判刑和假释决策。它们会评估被告的历史,预测其再次犯罪的可能性。
调查发现,该算法错误预测黑人被告未来犯罪的可能性,是错误预测白人被告的两倍。这是一个典型的例子:尽管开发者没有故意编程任何偏见,但算法却在结果中产生了种族偏见。

偏见从何而来?
显然,随之而来的问题是:为什么这些偏见会出现?为什么简历筛选算法会显示性别偏见?为什么判刑算法会存在种族主义倾向?为什么聊天机器人会发表种族主义言论?
当我们设计人工智能系统时,主要有两种方法:基于规则的方法和基于机器学习的方法。因此,驱动AI系统行为的因素,部分源于程序员编写的逻辑或规则(在专家系统中),部分源于模型从数据中学到的模式。
这与人类行为有相似之处。我们认为人类行为由“天性”(基因)和“教养”(环境)共同驱动。心理学家将一些问题行为(如酗酒)部分归因于天性,部分归因于教养。
在AI中也是如此。如果你观察AI的问题行为,“天性”和“教养”同样在发挥作用:
- 天性:是程序员为AI创建的规则和算法逻辑。
- 教养:本质上是AI用于学习的数据。
如果训练数据中存在偏见,那么AI系统也能识别并学会这些偏见。
因此,当简历筛选算法表现出性别偏见时,实际发生的情况可能是:它正在学习过去的历史数据。而这些历史数据记录了人类招聘者过去的决策——他们邀请了谁面试,雇佣并晋升了谁。如果过去的决策中存在(即使是无意识的)性别偏见,那么这种偏见就被“编码”在了数据中,并最终被AI模型捕获。

当我们思考基于AI的决策及其风险时,许多问题往往源于数据中预先存在的偏见。
风险的影响与分类
那么,这些风险具体会带来哪些影响呢?首先,社会面临许多风险,特别是当AI系统基于有偏见的数据进行自动决策时,可能导致少数群体继续被边缘化。
AI风险通常可以分为两大类:
- 分配性危害:这涉及必须将稀缺资源分配给人们的情况。例如贷款审批、招聘决策(简历筛选算法决定谁获得面试机会)等。算法决定了谁将获得这些有限的资源。
- 代表性危害:这指的是系统以不利或刻板的方式代表或对待某个群体。例如,机场的人脸识别或行为筛查系统,如果对特定少数族裔群体有更高的误报率,就是一种代表性危害。
这两类都是非常重要的危害,值得我们高度关注。
这些不仅仅是社会风险,也对公司构成了直接威胁,因为社会风险会转化为组织的声誉、法律和监管风险:
- 声誉风险:公司如果被视为有偏见,将面临公关危机,可能导致客户流失。
- 法律风险:公司可能因歧视性做法而被客户或雇员起诉。
- 监管风险:当监管机构认为你的算法存在歧视或造成社会风险时,会施加更严格的法规,带来合规成本。例如,欧盟的《通用数据保护条例》(GDPR)除了关注隐私,也包含了关于自动决策的条款,其中“解释权”就给企业带来了新的合规要求。

总结
本节课中,我们一起学习了人工智能的主要风险。
我们首先探讨了统计风险,核心是过拟合问题,即模型在训练数据上表现完美但泛化能力差,这会导致财务和声誉等操作风险。管理此类风险的关键在于进行严格的验证和压力测试。
接着,我们深入探讨了社会与伦理风险。通过聊天机器人(如微软Tay)、简历筛选算法和司法判决算法等实例,我们看到AI可能复制并放大数据中存在的性别、种族等社会偏见。这些偏见并非总是程序员有意为之,而常常是模型从带有偏见的历史数据中学到的结果。

最后,我们将这些风险的影响归纳为分配性危害和代表性危害两类,并指出它们不仅危害社会公平,也会给企业带来声誉、法律和监管层面的实际风险。
那么,如何管理这些风险呢?我们将在接下来的课程中进行探讨。
课程 P124:算法偏见与公平性 ⚖️

在本节课中,我们将要学习算法偏见与公平性的核心概念。我们将探讨人工智能系统如何复制和放大人类社会的偏见,理解其产生的原因,并了解组织可以采取哪些措施来应对这一挑战。
概述
人工智能常被认为能克服人类的偏见与盲点。人类确实容易受到刻板印象、隐性偏见甚至明确歧视的影响。而人工智能系统仅基于数据运行。然而,认为人工智能本质上是客观的想法是危险且具有误导性的。实际上,人工智能可以复制甚至强化人类偏见,导致严重的不公平现象。
算法偏见的危害 🚨
上一节我们提到了算法可能复制偏见,本节中我们来看看这种偏见会带来哪些具体的危害。
算法偏见在伦理上是错误的。它对边缘化群体造成伤害。这可能引发员工、客户及其他利益相关者的反感,甚至可能导致法律后果。
以下是几个著名的案例:
- 医疗资源分配:2019年《科学》杂志的一项研究显示,波士顿一家大型医院使用的护理管理算法存在种族偏见。该算法根据患者风险高低推荐额外资源,但研究发现,黑人患者需要比白人患者病得更重,才能获得同等水平的护理。当算法被修正后,符合额外护理条件的黑人患者比例几乎增加了两倍。
- 人脸识别:人脸识别系统已被证明对深肤色面孔的识别准确率较低。
- 招聘筛选:亚马逊等公司使用的、基于简历预测工作表现的招聘算法,被发现对女性求职者不利。
- 文本生成:文本生成和机器翻译系统有时会强加性别歧视甚至种族主义的关联。例如,将匈牙利语(使用性别中立代词)翻译成英语时,系统可能将“教授”和“政治家”与“他”关联,而将“洗衣工”和“助手”与“她”关联。
偏见从何而来?🔍
了解了偏见的危害后,我们自然会问:这些偏见是如何产生的?本节中我们来探究其根源。
算法偏见主要源于数据和模型设计。
1. 数据嵌入人类偏见
训练数据本身可能反映了历史或社会中的不平等。例如:
- 如果女性在职场中因普遍的性别歧视而难以晋升,AI系统可能会从历史数据中“学习”到“女性与不良职业结果相关”。
- 在医疗案例中,算法使用“历史治疗成本”作为“病情严重程度”的代理指标。但问题在于,黑人患者通常获得的护理质量较差,即使病情相同或更重,花费也更少。因此,这个代理指标本身就带有偏见。

2. 数据代表性不足
训练数据集中可能缺少少数群体的足够样本。这似乎是导致人脸识别系统对某些群体准确率较低的部分原因。
3. 代理变量编码偏见
即使数据中不直接包含种族、性别等受保护特征,这些因素也可能通过代理变量影响模型。
例如:邮政编码本身只是一个地址标记,但它可能与种族或社会经济地位高度相关。
定义“公平”的挑战 ⚔️
认识到偏见的来源后,我们试图在算法中追求公平。但本节中我们将看到,定义和实现“公平”本身就是一个重大挑战。

有多种工具可以将公平标准纳入算法设计或评估结果。然而,它们并非万无一失。
首先,公平的定义并不统一。以用于提供假释建议的COMPAS系统为例:
- 它对黑人的错误率高于白人(群体层面不公平)。
- 但给定两个除种族外完全相同的囚犯,系统通常会给出相同的风险评分(个体层面公平)。
这表明,个体公平和群体公平是两种不同的衡量方式。研究证明,某些公平目标在数学上无法同时满足,必须做出权衡。有时,更公平的系统可能整体准确性较低。

其次,在某些情况下,可能根本没有客观的公平标准。
例如:如何判断社交媒体新闻推送是否对保守派或自由派存在歧视?这依赖于对“何为中立基线”、“如何定义政治类别内容”等主观决定。我们无法写出一个关于“绝对中立”新闻推送的客观规范。
最终,设计算法时提出的问题、收集和评估数据的方式,与导致社会歧视的人为因素处于相同的背景中。
法律现状与局限 ⚖️

既然算法偏见可能造成伤害,那么法律如何规制呢?本节中我们来了解当前的法律框架及其局限性。
目前可以对有偏见或不公平的算法提出一些法律主张,但其适用范围相当有限。
-
美国:“不同影响”理论
主要法律依据是“不同影响”,即一项表面上中立的政策或做法,虽未明确区别对待少数群体,却产生了差异化的负面影响。- 局限一:通常只适用于有限的受保护类别(如种族、性别)和特定领域(如就业、住房)。
- 局限二:美国最高法院裁定,仅显示统计差异(算法结果)不够,必须指向某项具体的政策或步骤。仅仅使用算法本身不足以构成“不同影响”。因此,现有歧视法的结构与算法系统产生的问题之间存在脱节。
-
欧洲:GDPR条款
《通用数据保护条例》(GDPR)中包含处理“完全自动化决策”的反歧视条款,但其规定较为模糊,应用尚不明确。

- 立法提案
多个司法管辖区提出了新立法提案,如欧盟的《人工智能法案》和美国的《算法问责法案》,要求进行偏见审计,但这些尚未被广泛采纳。
组织的应对策略 🛡️
面对技术与法律的双重挑战,组织应如何行动?本节我们将探讨一些实用的应对策略。
以下是组织可以采取的关键步骤:
- 确保数据深厚多样:训练数据集必须在不同的多样性维度上包含足够多的样本。
- 警惕代理变量:注意那些表面上中立、实则可能编码了受保护群体特征的变量(如邮政编码)。
- 选择公平性定义:思考哪种公平性定义(个体公平、群体公平等)最符合你的应用场景。有多种数学方式可以定义算法公平。
- 测试与评估系统:基于选定的公平性指标对系统进行测试和评估。目前已有一些工具可用于评估算法影响。
- 组建多元化团队:意识到潜在的历史偏见至关重要。拥有多元背景、特别是包含曾经历歧视的成员的团队,更有可能在设计过程中发现并指出潜在问题。

总结

本节课中,我们一起学习了算法偏见与公平性的核心议题。我们了解到,人工智能并非天生客观,它可能通过有偏见的数据和模型设计复制并放大社会不公。我们探讨了定义“公平”的复杂性以及当前法律框架的局限性。最后,我们学习了组织可以通过确保数据多样性、警惕代理变量、明确定义公平、持续测试评估以及组建多元化团队等策略,来积极应对算法偏见带来的挑战。在开发和部署人工智能系统时,主动关注并解决公平性问题,是负责任创新的关键一步。

课程 P125:人工智能中的操纵问题 🎭
在本节课中,我们将探讨人工智能(AI)系统中的“操纵”问题。操纵介于合法的说服与非法的强迫之间,是AI伦理中的一个核心挑战。我们将了解什么是操纵,它在AI中的具体表现,以及如何负责任地应对。

什么是操纵?🤔
操纵是指以某种方式影响他人,使其按照操纵者的意愿行事,同时绕过或削弱其理性决策能力的过程。

并非所有操纵都是非法或不道德的。例如,广告、政治竞选和筹款活动常常通过激发人们的情感来获取支持或促使行动。如果人们停下来进行逻辑思考,他们可能不会采取这些行动。或者,他们可能没有意识到自己的选择正被他人刻意影响。
因此,区分单纯的“令人毛骨悚然”与不道德甚至非法的操纵行为,有时非常困难,但这却是一个至关重要的问题。
AI如何实现操纵?⚙️

AI可以在用户不知情的情况下,通过算法微妙地塑造其选择或决策。
上一节我们介绍了操纵的基本概念,本节中我们来看看AI实现操纵的具体机制。

核心机制:算法推荐系统。系统通过分析用户数据,预测其偏好,并推送特定内容以影响其情绪或行为。
以下是几个著名的案例:
- 情感传染实验:Facebook曾与学术研究人员合作,研究其动态消息算法能否影响用户情绪(即“情感传染”)。他们故意向一部分用户推送更快乐的内容,结果这些用户自己也分享了更快乐的内容。当这项研究公开后,引发了公众愤怒,因为人们意识到,既然算法能让人快乐,同样也能让人悲伤甚至抑郁。
- 影响选民参与:在其他研究中,Facebook发现可以通过调整推送内容来增加选民的参与率。这引发了一个问题:如果算法微妙地偏向某位候选人的内容,这是否构成对民主进程的操纵?用户可能永远不知道自己的投票受到了影响。
- 算法的不透明性:用户在Facebook动态中看到的一切都是算法运算的结果,而这些算法一直在变化。例如,如果Facebook决定向你展示更多关于气候变化的帖子,这是操纵吗?如果公司高管认为这对世界有益,或是为了从相关广告中获利,其性质是否不同?

非法的与有害的操纵形式 🚫
除了上述灰色地带,一些形式的操纵是法律明确禁止的,例如虚假广告或潜意识广告。然而,这些定义通常较为狭窄。
更普遍的相关法律概念是“欺骗”。向客户推销他们想买的产品(即使通过AI个性化推荐)是允许的,因为用户理解广告的意图。问题在于,当双方关系的本质不明确时,就可能构成欺骗。
接下来,我们探讨一种更有害的操纵形式:剥削。

剥削涉及利用他人的脆弱性,促使其达成在公平竞争市场中不会发生的“自愿”协议。
- 航空公司案例:例如,有航空公司使用算法,在乘客购买廉价机票但未选座时,故意将家庭成员分开安排座位。这是一种鼓励他们付费升级座位以坐在一起的策略。虽然当时的算法很简单(仅查看姓氏),但可以想象更复杂的系统能够识别用户处于压力或困难时刻,并加以利用。
- 利用情绪状态:一份泄露的Facebook广告演示文件显示,其系统能够识别青少年何时感到“无价值”、“不安”或“焦虑”。对于负责任的AI从业者而言,这正是需要划清界限的时刻。除了可能引发的公关反弹,如果一个商业模式不会故意利用脆弱群体,那么也不应通过算法间接实现。
市场操纵与算法共谋 📈
算法还可能被用于更宏观的市场操纵,微妙地破坏市场竞争。
- 平台自营偏见:例如,亚马逊同时销售第三方卖家和自家的自营商品。其搜索引擎虽不直接优先展示自营产品,但会结合使用各种代理信号来提升亚马逊的整体盈利能力,这可能导致隐性的偏见。问题在于,这是否构成对产品市场的不可接受操控。
- 算法共谋:在某些情况下,算法可能参与“共谋”,这通常违反反垄断法(或称竞争政策)。2018年,美国司法部曾起诉亚马逊上的海报销售商,因为他们的算法故意串通以维持高价格。研究甚至表明,机器学习算法可以自行学会采用共谋策略,从而提高(共谋者的)利润。

如何应对操纵问题?🛡️
正如前文所述,除了市场操纵案件可适用反垄断原则外,对于操纵并没有明确的法定界限。
那么,该如何解决这些担忧呢?你应该问的核心问题是:你的AI系统目标是否在于与利益相关者建立互惠互利的关系?

以下是关键的评估思路:
- 透明度:如果人们理解了你们之间关系的本质,他们还会选择参与吗?
- 诚实性:你是在本质上欺骗他们,还是在提供真实的价值?
在学术研究领域,针对以人为对象的研究已有一套成熟的原则(源于1970年代的《贝尔蒙特报告》),可供我们借鉴:
以下是四项主要原则:

- 知情同意:用户必须真正理解他们参与的是什么,除非是那些对他们没有真正伤害风险的活动。
- 慈善:这是一条“不伤害”原则。不应将人们置于可能遭受严重身体或心理伤害的境地。
- 公正:即不剥削、不利用他人脆弱性的理念。系统应以公平的方式实施。
- 审查委员会:在大学中,这被称为机构审查委员会(IRB),任何涉及人类受试者的学术研究都必须事先获得其批准。
虽然要求私营部门的每个AI项目都接受如此严格的审查并不现实,但许多组织发现,设立一个专门的卓越中心或伦理委员会来评估重大AI项目中的此类问题(以及其他如算法偏见等问题)是很有帮助的。
然而,这不应以削弱组织内全体成员对负责任AI的责任感为代价。每一位参与者都应对避免不道德的操纵、剥削以及算法偏见等问题负责。

总结 📝

本节课中,我们一起学习了人工智能中的操纵问题。我们了解到,操纵是介于说服与强迫之间的灰色地带,AI通过算法可以微妙地影响用户决策。我们探讨了从情感传染、用户剥削到市场操纵等多种表现形式。最后,我们学习了如何通过借鉴伦理原则(如知情同意、慈善、公正)和建立审查机制来应对这些挑战,核心在于确保AI系统的目标是建立透明、互惠的关系,而非欺骗或剥削用户。

📚 课程 P126:数据保护与人工智能
在本节课中,我们将要学习人工智能与大数据时代下的数据保护问题。我们将探讨数据隐私面临的新挑战、隐私生命周期的各个阶段、全球主要的隐私法律框架,以及如何在技术和管理层面构建保护隐私的AI系统。

人工智能和分析依赖于数据,即大数据。

你在这个课程中学到了聚合和分析的一些技术,并应用数据来推动机器学习和其他类型的算法。与此同时,尽管人工智能取得了飞速发展,但围绕数字隐私问题的关注也在增加。
各国政府对学者肖申娜·祖博夫所称的“监视资本主义”商业模型表示担忧。这种模型将个人数据视为可以通过不断更复杂的个性化和定位来获利的资产。值得注意的是,这些问题已经存在很长时间。自从20世纪60年代数据库广泛应用于商业以来,人们就一直对数据权力可能被滥用或侵犯基本权利感到担忧。

然而,大数据和机器学习引发了新型的数据保护问题。

🔍 大数据与机器学习带来的新挑战
上一节我们介绍了数据隐私问题的历史背景,本节中我们来看看大数据和AI带来的三个新挑战。
以下是三个核心的新问题:
- 数据规模与整合:机器学习需要庞大的数据集,其价值往往来自于使用海量数据。更多的数据意味着需要从更多的人那里收集信息,以及整合不同数据集的机会。这些信息单独来看可能并不令人担忧,但整合后能构建出全面的用户画像。
- 推断隐私侵犯:随着机器学习技术的发展,有时无需直接要求用户提供敏感信息,系统就能推断出来。例如,研究员迈克尔·卡辛斯基构建了一个能够根据Facebook个人资料照片可靠预测性取向的系统。系统并未直接收集性别或性取向信息,而是通过关联分析推断出来。这在法律和伦理上都是一个模糊地带。
- 数据转移与集中风险:AI模型通常需要大量数据,这涉及数据从用户设备(如手机)向云端服务器的转移和集中存储。然而,新技术如联邦学习正在发展,它允许模型在训练时不必将所有个人信息从终端用户设备转移至中央服务器。

📊 隐私生命周期:五个关键阶段
理解了新挑战后,我们需要系统地看待数据保护。数据保护不仅仅是收集阶段的问题,它贯穿于隐私生命周期的五个阶段。每一个阶段都是在开发AI解决方案时需要考虑的重要因素。
以下是隐私生命周期的五个阶段:
- 收集:这是获取用户信息的初始环节。
- 聚合与分析:问题不仅在于收集了什么,还在于如何处理。少量信息与其他数据集整合,或通过分析和特征工程,可能最终引发隐私担忧。
- 存储:存储大量数据用于训练机器学习算法,其本身就成了巨大的安全风险。数据泄露可能造成严重问题,因此关于存储哪些数据、保留多久的决策至关重要。
- 使用:数据的用途可能引发担忧。学者海伦·尼斯巴姆提出了“上下文完整性”概念,即人们希望数据被用于他们同意收集的特定上下文中。超出此范围的使用(如将医疗数据用于营销)可能不被接受。
- 分发:数据被转移或转售给第三方(数据经纪人)。这不仅是用户关心的问题,也引发了额外的安全风险,因为你无法控制第三方如何处理数据。
⚖️ 全球隐私法律框架:美国 vs. 欧洲
在了解了数据处理的完整周期后,我们来看看管理这些活动的法律框架。全球主要有两种做法:美国模式和欧洲模式。

- 美国模式:通常是基于市场的、分部门的。其理念是创造一个功能正常的市场,防止市场失灵和虐待。它依赖于基本通知和用户选择(通常是“选择退出”)。美国没有全面的联邦隐私法,而是在医疗、金融等特定领域有规则,并由联邦贸易委员会进行一般性的消费者保护监管。
- 欧洲模式:以通用数据保护条例(GDPR) 为代表,基于人权理念,认为数据保护是一项基本权利。它是全面的,适用于所有情况下的所有类型数据收集和处理者。GDPR的核心原则包括:
- 选择加入:数据收集前必须获得用户的明确授权。
- 目的限制:必须出于特定、合法的目的收集数据,不能用于其他目的除非获得进一步同意。
- 数据主体权利:用户拥有访问、纠正、删除(“被遗忘权”)其个人数据的明确权利。
- 监管自动化决策:对完全由算法做出重大决策的情况有专门规则。

🌍 发展趋势:趋同与强化
上一节我们对比了两种主要框架,本节中我们来看看全球的发展趋势。实际上,世界正朝着更接近欧洲GDPR模式的方向发展。

许多主要管辖区,如日本、南美国家,甚至中国,都已出台或正在制定类似GDPR的全面隐私法律。中国的数据保护法虽然并非完全相同,但已体现出类似的全面监管思路。
在美国,联邦层面已有推动全面隐私法的倡议,而州层面(如《加州消费者隐私法案》)已经实施了更严格的规定。全球范围内,针对涉及高风险数据(如医疗数据)的AI系统,正在推动更明确的保护要求,以防止歧视和偏见。
因此,跨国公司往往需要遵循其运营所在地中最严格的规则,这通常意味着实施更具保护性的措施。需要注意的是,GDPR具有域外效力,适用于处理欧盟公民数据的任何公司,无论其位于何处。
🛡️ 构建保护隐私的AI系统:技术与运营
了解了法律环境后,我们来看看在构建AI项目时,如何在技术和运营层面落实数据保护。
技术层面
有多种技术可以使系统更加保护隐私:
- 联邦学习:一种允许模型在分散的设备上训练,而无需将原始数据集中到服务器的技术。
- 差分隐私:一种通过向数据集中战略性添加噪声的数学技术。其核心公式或目标是:确保查询结果在统计上有效,但极难判断某个特定个体是否在数据集中。这提供了技术性的隐私保障。
- 代码/概念描述:
差分隐私通过添加可控的噪声,在数据可用性和个体隐私之间实现权衡。 - 应用示例:Uber用于内部查询,苹果用于iPhone数据收集,美国人口普查用于2020年人口普查数据。
- 代码/概念描述:


运营与管理层面
这涉及商业实践和组织机制:
- 隐私设计:这一由安妮·卡伏基安提出的概念,现已正式纳入GDPR。其理念是将隐私和数据保护融入系统设计的每一个环节,贯穿隐私生命周期的所有五个阶段。
- 数据保护影响评估:类似于环境影响评估,是对可能产生高风险的数据处理活动进行正式评估,以识别和降低风险。美国提出的《算法责任法案》等法律可能要求此类评估。
- 组织意识:确保团队中的每个人都意识到隐私风险,并在每个决策点考虑隐私问题。

最重要的原则是将隐私视为无处不在。它不仅仅是为了满足法律要求而进行的一次性合规检查,而是需要在每个阶段持续思考:“这里可能会发生什么?哪里可能出现问题?第三方或攻击者会如何利用这些数据?”

📝 总结
本节课中我们一起学习了人工智能时代下的数据保护。我们探讨了大数据和机器学习带来的新隐私挑战,系统分析了隐私生命周期的五个阶段(收集、聚合分析、存储、使用、分发),对比了以市场为导向的美国模式和以权利为基础的欧洲GDPR模式,并观察到全球隐私保护标准趋严的趋势。最后,我们介绍了在技术层面(如联邦学习、差分隐私)和运营层面(如隐私设计、影响评估)构建保护隐私的AI系统的具体方法。记住,数据保护是一个需要贯穿始终、持续关注的综合性议题。


📚 课程 P127:AI 风险管理基础教程

在本节课中,我们将学习 AI 风险管理的基本概念,了解其主要风险类别,并探讨如何通过建立信任来应对这些挑战。课程内容基于对风险管理专家 Yogesh Mudgal 的访谈整理而成。
🧭 概述:什么是 AI 风险管理?
AI 风险管理是指识别、评估和缓解与人工智能技术相关的潜在危害的过程。任何技术的应用都应进行风险管理,AI 也不例外。机构面临的 AI 相关风险取决于多种变量,包括 AI 的实施方式、现有控制措施的强度,以及机构自身的风险承受能力。
🔍 AI 的主要风险类别
上一节我们介绍了 AI 风险管理的整体概念,本节中我们来看看 AI 具体包含哪些主要风险类别。根据 ERS 小组的研究,AI 风险可以归纳为以下几个核心领域。
以下是 AI 的四大风险类别:
-
数据相关风险
- 学习限制:AI 系统的能力受限于其训练数据。
- 数据质量:AI 系统的有效性通常与用于训练它的数据质量成正比。公式可表示为:
系统有效性 ∝ 数据质量。
-
AI 攻击
- 包括数据隐私攻击、训练数据投毒、对抗性输入和模型提取等。
-
测试与信任
- 这是 AI 领域最常讨论的话题,涉及偏见、公平性和模型的可解释性。
-
合规性
- 涉及遵守内部政策与外部监管要求。
⚖️ 风险优先级:没有放之四海而皆准的答案
我们了解了 AI 的风险类别,那么这些风险中哪个最重要呢?实际上,风险的优先级并非固定不变。
这完全取决于 AI 在何处、以何种方式被实施,以及机构自身的风险偏好。因此,不存在一个适用于所有情况的主要风险。
例如,一个运行在云端的 AI 模型,可能面临更高的外部攻击风险;而一个仅在组织内部使用的模型,虽然外部攻击可能性较低,但可能需更关注普遍的合规风险。风险的评估必须结合具体的用例。
💡 建立信任:透明度的角色
既然风险因情况而异,那么作为开发者和用户,我们应如何应对呢?核心在于建立信任。近年来,关于算法透明度和可解释性的讨论日益增多。
考虑透明度时,明确受众至关重要。不同利益相关者对透明度的需求不同:
- 内部审计员或监管者 可能需要深入了解决策逻辑。
- 最终用户 可能更关注系统是否可靠、公平。
这里的关键是 信任。一个常用的类比是乘坐飞机:乘客不需要知道引擎如何工作,但信任飞机会安全抵达目的地。同样,我们需要在 AI 系统中建立这种信任。当利益相关者在“需要知道”的基础上,理解了 AI 系统的运作方式和权衡,就能更好地建立信任。
⚠️ 关于“公开源代码”的讨论
谈到透明度,有时会引发“是否应该公开 AI 模型源代码”的争论。这涉及到更深层次的风险管理问题。
公开源代码可能带来一系列风险,主要包括:
- 知识产权泄露:核心算法和商业机密暴露。
- 方法论暴露:决策逻辑和系统构建方法被公开。
- 安全后门:恶意攻击者可能利用公开的代码植入后门。
在某些特定法律情况下,公开源代码可能是必须的。但通常情况下,公司不应轻易公开源代码,并且需要向消费者解释,过度公开可能反而会让他们暴露在更多风险之下。
📝 总结
本节课中,我们一起学习了 AI 风险管理的基础知识。我们了解到 AI 风险主要涵盖数据、安全攻击、测试信任和合规四大类别,并且其优先级高度依赖于具体的实施场景和机构偏好。应对这些风险的核心在于针对不同受众建立适当的透明度,从而在用户与 AI 系统之间构建坚实的信任。最后,我们也探讨了像“公开源代码”这类具体挑战背后的复杂权衡。


课程 P128:AI治理 🧠
在本节课中,我们将学习如何确保在享受人工智能(AI)带来好处的同时,有效管理其潜在风险。我们将探讨三个核心治理原则:用户控制、透明度和审计。
概述
人工智能系统,特别是那些用于自动化决策的系统,可能带来偏见、不透明和失控等风险。为了应对这些挑战,我们需要建立有效的治理框架。本节课将介绍三个关键原则,帮助我们设计更负责任、更可信赖的AI系统。
1. 用户控制:让人参与决策循环 🎮
上一节我们概述了AI治理的重要性,本节中我们来看看第一个原则:用户控制。其核心思想是让用户对算法的决策方式拥有一定的控制权,即“让人参与其中”。

1.1 控制的价值与案例
以下是用户控制的一个实际案例:
- Facebook新闻推送的演变:2016年,Facebook因其平台上传播假新闻而受到批评。作为回应,它推出了允许用户标记他们认为不恰当(如假新闻或冒犯性内容)帖子的功能。这赋予了用户控制权,并向算法提供了反馈,帮助其识别和减少问题内容。
1.2 控制的潜在风险与设计考量
然而,控制并非越多越好。一个需要谨慎对待的例子同样来自Facebook。
- 过度控制的实验:2015年,Facebook测试了一个功能,允许用户精细控制新闻推送中出现的帖子类型(例如,显示更多或更少某位朋友的动态)。结果发现,使用该功能的用户满意度虽然上升,但用户参与度(如花费时间、点赞、点击)却下降了。这表明,过多的用户控制可能干扰算法有效展示用户真正感兴趣内容的能力。
因此,虽然用户控制很重要,但设计时必须权衡:既要让用户能够标记问题或推翻算法,又要避免因控制过多而导致系统性能下降。
1.3 研究启示:多少控制才够?
我的研究以及其他学者的工作,为如何设计控制提供了见解。一项由沃顿商学院同事进行的研究评估了用户控制对信任的影响。
实验设置如下:
# 实验分组示例(非实际代码)
group_1 = “无控制组” # 必须完全接受算法建议
group_2 = “有限推翻组” # 可在极少数情况下推翻算法
group_3 = “微调组” # 可小幅修改算法预测
group_4 = “完全控制组” # 对算法拥有完全控制权
研究发现:
- 毫无控制权的用户信任度低,不愿使用算法。
- 只要给予一点控制权(无论多少),用户的信任度就会显著提高,并且更愿意使用算法。
- 信任水平在“有一点控制”和“有很多控制”的组别中同样高。
结论:给予用户一点控制权对于建立信任非常有效,但过多的控制可能带来性能风险。关键在于设计允许用户在发现问题时进行干预的系统,而不是让算法完全不能独立决策。

2. 透明度:解释算法的决策过程 🔍
上一节我们探讨了用户控制,本节中我们来看看第二个原则:透明度。这意味着为用户提供关于算法如何做出决策的足够信息。
2.1 技术透明度的局限性
对透明度的一种常见误解是“技术透明度”,即公开算法的源代码。然而,这种做法存在争议:
- 案例:金融市场与政府提案:在2010年美股“闪电崩盘”后,曾有监管机构提议强制交易公司公开其自动交易算法的源代码。类似地,纽约市也曾提出法案,要求市政部门使用的自动决策软件公开源代码。
- 抵制与原因:这些提议遭到了强烈抵制,原因包括:1) 泄露商业秘密和知识产权;2) 使系统更容易受到黑客攻击。最终,这些严格的技术透明度要求大多被修改或放弃,因为其实际价值有限(普通人难以理解代码),且弊端明显。
2.2 有效的透明度:高层次解释
对最终用户而言,更有用的是高层次的、可理解的解释。Renee Kieselchak的研究评估了不同透明度对信任的影响:
实验让学生知道其作业成绩由算法决定,并分为三组:
- 无信息组:信任度很低。
- 基本解释组:获得高层次信息(如算法考虑了哪些因素,哪些因素最重要)。信任度显著提高。
- 详细公式组:获得详细的算法公式和具体信息。信任度依然较低,因为用户难以消化复杂信息。
结论:用户不需要看到源代码,他们需要的是基本信息,例如:
- 是否使用了算法做决策?
- 算法使用了哪些数据?
- 考虑了哪些变量?
- 哪些变量对当前决策最重要?
2.3 可解释机器学习:全局与局部

这与机器学习中的“可解释性”领域直接相关。该领域主要关注两个层面:
- 全局可解释性:解释整个模型的决策逻辑。例如,在贷款审批模型中,可以说明“申请人的收入是影响决策的最重要因素,其次是信用历史”。
- 公式表示(示例):
决策权重 = f(收入, 信用历史, 负债率...), 并给出各因素的重要性排序。
- 公式表示(示例):
- 局部可解释性:解释针对单个样本的决策原因。例如,解释“为什么张三的贷款申请被拒绝了?可能是因为其收入低于阈值X,且近期有Y次逾期记录”。
欧盟的《通用数据保护条例》(GDPR)赋予了消费者“解释权”,推动了可解释机器学习的发展。这不仅有助于向消费者提供解释、建立信任,也能帮助数据科学家和管理者理解复杂模型(如神经网络)的内部逻辑,从而更好地调试和部署系统。
3. 审计:对高风险算法进行压力测试 🧪
上一节我们讨论了透明度,本节中我们来看看最后一个原则:审计。特别是在高风险应用场景中,对算法进行系统性审查至关重要。
3.1 审计的必要性与监管趋势
即使有控制和透明度,算法仍可能存在隐藏的偏见或缺陷。美国国会曾提出《算法问责法案》的提案(尚未通过),要求大公司对其用于高风险决策(如贷款、招聘)的自动化系统进行准确性和公平性等方面的审计。
前瞻性的公司不应等待法规强制,而应主动建立审计流程,以赢得信任、预防问题并确保系统长期稳健。
3.2 审计流程框架
一个典型的审计流程可能包含以下步骤:
以下是审计流程可能包含的关键步骤:
- 建立清单:创建公司使用的所有机器学习模型的清单。
- 识别与评估:针对每个模型,识别其用途、开发者、业务负责人。根据模型出错可能带来的社会和财务风险,对其进行风险评级。
- 启动审计:对高风险模型启动审计。审计可由内部专家或外部第三方执行。
- 审计内容:审计将多维度评估模型:
- 输入(数据):检查训练数据的质量和是否存在偏见。
- 模型本身:将当前模型与替代模型进行性能对比,确保其最优。
- 压力测试:使用模拟数据或对抗性样本来测试模型在异常情况下的鲁棒性。
- 输出(决策):分析模型的预测结果,评估其决策逻辑是否合理,并查找异常预测。
3.3 将审计融入组织流程
可以将审计思想融入团队设计。就像软件开发中有“开发工程师”和“测试工程师”一样,数据科学团队也可以设立“模型开发”和“数据科学质量保证”角色。后者专门负责对模型进行测试和审计,特别是针对那些高风险模型。
总结
本节课我们一起学习了管理AI风险的三个核心治理原则:

- 用户控制 🎮:在系统设计中融入用户干预的选项,特别是在算法出错时,这能有效建立信任,但需注意平衡,避免过度控制损害性能。
- 透明度 🔍:为用户和管理者提供关于算法决策的高层次、可理解的解释,而非复杂的源代码。这涉及可解释机器学习中的全局与局部解释。
- 审计 🧪:对高风险AI系统进行系统性审查,包括数据检查、模型对比、压力测试等,以主动发现问题、确保公平与稳健。

通过结合控制、透明度和审计,我们可以构建一个框架,帮助我们在享受人工智能巨大潜力的同时,有效地治理其伴随的风险。
课程 P129:AI伦理原则 🧭

在本节课中,我们将学习如何为你的AI倡议建立负责任的伦理框架。我们将探讨核心的AI伦理原则,了解如何将它们从抽象概念转化为具体行动,并确保这些原则在你的组织中真正发挥作用。
概述
你希望在你的AI倡议中负责和伦理。什么原则应该指导你?越来越多的组织正在创建官方的AI伦理框架。是否想要创建正式文件取决于你组织的性质。所有这些共同点在于它们都是对理想的自愿承诺。它们在某种直接法律上是不可执行的。当然,这既好又坏。这带来了更多的灵活性。但这也引出了关于拥有一个好看的文件或框架的问题。这实际上意味着该组织更致力于负责任的AI。如果你打算走这条路,你应该考虑这些为什么重要。对你而言的原则,并承诺确保你的组织看到这些原则。
作为具体内容。通常,从整体上考虑应该指导的高层原则是有帮助的。你的AI倡议。无论你是否将它们简化为正式列表。明确列出原则使得评估决策更容易符合标准。这也可以突出在问题发生之前你需要关注的担忧。这也是一个机会,让你考虑哪些价值对你特定的组织最重要。每个实体都是不同的。基于你的历史、文化和行业。你的地理位置或其他一些因素,你可能特别关注某些原则,而对其他原则关注较少。

核心伦理原则类别
上一节我们介绍了建立AI伦理框架的重要性,本节中我们来看看有哪些普遍认可的核心原则类别。哈佛大学在2020年的一份报告中评估了来自全球大公司、标准机构和政府的36个主要AI伦理框架。它确定了八个反复出现的共同类别。
以下是这些核心原则类别:

- 隐私
- 问责
- 安全与保障
- 透明性和可解释性
- 公平和非歧视
- 人类控制
- 专业责任:这意味着在整个过程中注入伦理和法律问题以及组织的推广。
- 人类价值的体现:这意味着要问你的行为是否最终服务于人类的繁荣。
现在你不需要将这些作为你的AI伦理原则,或一定要包含所有这些。在列表上。但你应该问自己每个特征在这个背景下是否合理。组织以及你如何看待它们。具体来说是什么呢?在这个背景下,透明性或可解释性意味着什么。你正在开发的系统?
原则的趋同与定制

哈佛报告的重要发现是这些原则似乎在趋同。公司、组织和政府正在考虑现有的框架。不要在外面试图重新发明轮子。越来越多的原则,如我列出的那些,正在被理解为。大多数框架的通用基础。
这并不意味着会有一套适合所有人的统一原则。再次强调,文化、社区和国家在适当性方面各有不同。但这确实意味着你的人工智能伦理原则的可能起点列表相对。简短。
让原则落地:从口号到行动

好的,你如何让原则不仅仅是口号,就像我之前提到的那样?首先,考虑你的人工智能伦理原则如何与更大组织价值观相连接。
以下是让伦理原则落地的具体步骤:
- 与组织价值观对齐:如果你把自己定义为以客户为中心的公司,你在这方面是否真正以客户为中心。你的人工智能倡议呢?如果你已公开承诺促进种族公正。你能否识别它在你的人工智能业务应用和其他数据分析形式中的体现?
- 建立专业能力与文化:接下来,确保你在法律和伦理考虑方面有集中专长。围绕人工智能以及每个人都认为自己有责任提问的文化。伦理问题。再说一次,原则只有在组织内部广泛考虑时才有意义。在开发和实施基于人工智能的系统的整个过程中。

总结

本节课中我们一起学习了如何构建负责任的AI伦理框架。我们探讨了八个核心的AI伦理原则类别,理解了这些原则在全球范围内的趋同性,并学习了如何将这些原则与你的组织价值观相结合,通过建立专业能力和培育问责文化,将它们从纸面口号转化为贯穿AI系统开发与实施全过程的实际行动。
机器学习基础课程 P13:模型选择入门 🧠

在本节课中,我们将要学习如何为特定的机器学习任务选择合适的算法。我们将探讨评估模型性能的核心方法,并理解数据与模型孰轻孰重。
鉴于存在许多不同的机器学习算法,我们如何决定在特定任务中使用哪一种呢?
在实践中,我们通过评估不同机器学习方法在验证数据集上的表现来进行选择。假设我们有一个包含输入和对应输出标签的大型训练数据集。

验证的核心思想是将整个数据集划分为两部分:训练数据集和一个保留数据集(即验证集)。我们首先在训练数据集上训练模型。模型训练完成后,我们使用它来对保留的验证集进行预测,并评估这些预测的准确性。如果一个模型的预测比另一个模型更准确,那么我们更倾向于选择这个模型。
上一节我们介绍了基本的验证集方法,本节中我们来看看一种更稳健的变体——交叉验证。
交叉验证的思想是将数据集分成多个部分(例如10份)。以下是其基本流程:
- 首先,我们将第1部分作为验证数据集,使用第2到第9部分来训练模型,并在第1部分上测试模型性能。
- 接着,我们将第2部分作为验证数据集,使用第1、第3到第9部分训练模型,并在第2部分上评估性能。
- 我们会对每一个部分都重复这个过程,轮流将其作为验证集。
最终,我们会得到多个性能评估结果,通常取其平均值作为模型性能的最终估计。这种方法的核心主题是:给定一个大型数据集,我们从中创建多个保留子集。我们在其余数据上训练模型,并在这些未参与训练的子集上评估其性能,从而更可靠地估计模型的泛化能力。
在选择了评估方法后,另一个关键问题是:公司应该投资于更好的数据还是更好的机器学习模型?

两者都很有价值,但在实践中,我们常常发现数据胜过精巧的算法。微软研究人员Banko和Brill进行了一项关于语言理解任务的研究。他们为多个不同的机器学习模型创建了规模不一的训练数据集:有些模型只能访问约50万字的小型数据集,而另一些则可以访问包含10亿字的大型数据集。
评估结果显示,当比较不同算法在相同数据量下的性能差异时,其差异相对较小。然而,当相同算法在更多数据与更少数据下进行比较时,性能的提升则非常显著。
简而言之,为一个合理的机器学习算法提供大量数据,通常比为一个精妙的算法提供少量数据效果更好。谷歌的Peter Norvig常提及此观点,称之为“数据的非理性有效性”。
这表明,一个良好的起点是:公司需要认真审视自身的数据资产,思考是否拥有高质量、足量的数据来支持预测任务。一旦具备了优质的数据基础,再去调查针对当前任务的更优机器学习模型才是值得的。但通常,一切始于数据集。

本节课总结
在本节课中,我们一起学习了:
- 模型选择方法:通过划分训练集和验证集来评估和比较不同机器学习模型的性能。
- 交叉验证:一种更稳健的评估技术,通过将数据分成多个部分并轮流验证,以减少评估结果的随机性。
- 数据与算法的权衡:认识到高质量、大规模的数据集往往比选择更复杂的算法更能提升模型性能,即“数据的非理性有效性”。

理解这些基础概念,是构建有效机器学习解决方案的第一步。
课程P130:可解释的AI是什么?🤔

在本节课中,我们将要学习人工智能领域中的一个重要概念——可解释的AI。我们将探讨其定义、重要性,以及它与传统“黑箱”模型的区别。
概述
使用AI系统的一个主要挑战与可解释性相关。

因此,AI的可解释性是指AI系统中使用的方法,解释算法为何得出这样的结果。特定结果可以被人类专家轻松理解。这与可解释性概念密切相关,即理解为什么算法是如何得出决策的。即使你能够理解结果,它可能无法解释该逻辑。这与通常关联的黑箱方法形成对比,后者常见于某些类型的更复杂的机器学习,特别是深度学习。
可解释性的重要性
上一节我们介绍了可解释性的基本概念,本节中我们来看看为什么它如此重要。

在许多背景下,这对采纳至关重要。当你考虑实施时,即使模型非常准确,无法解释它是如何得出决策的,将成为采纳的主要障碍。可解释性目前是AI中的一个关键举措,是关键的科研前沿。大型科技公司目前在这一问题上投入了大量资源,政府也在努力,比如资助相关项目以开发更好的可解释AI。

不同模型的可解释性对比
理解了可解释性的重要性后,我们来看看不同类型的模型在可解释性上的差异。
所以稍微对比一下,如果我们的决定是基于基本商业规则,通常这些是容易解释的。我们可以清晰地说明是如何得出这个决定的,以及哪些因素对得出该决定起了作用。
以下是几种模型的可解释性分析:
- 基于决策树的模型:例如,相对容易解释。可以查看决策树,基本上可以了解特定决策是如何得出的,到底是如何得出决策的,哪些因素对决策起了作用。
- 基于神经网络的深度学习模型:特别是基于大量数据的复杂模型,它们变得相对更难去解释。有时很难深入算法内部,理解导致这一结果的原因,决策被做出。
对于更复杂的模型,这存在一个主要的权衡:一方面,它们能够处理大量数据并做出非常准确的预测;但另一方面,它们可能难以解释逻辑。

总结

本节课中我们一起学习了可解释AI的概念。我们了解到,可解释性是指让AI的决策过程对人类而言是清晰、可理解的。它与传统“黑箱”模型形成对比,对于AI系统的实际应用和信任建立至关重要。我们对比了基于规则的系统、决策树模型与复杂深度学习模型在可解释性上的差异,认识到在模型性能与可解释性之间往往需要权衡。目前,可解释AI是业界和学术界共同关注的关键前沿领域。
🧠 课程 P131:可解释性为何重要?—— 四个关键领域示例

在本节课中,我们将探讨“可解释性”在人工智能和机器学习中的重要性。我们将通过四个具体领域的例子,理解为什么算法的决策过程需要清晰、可解释,以及这对法律合规、安全与信任至关重要。
什么是可解释性?
可解释性是指能够解释或理解一个算法是如何得出结论的。
在特定决策中,理解其背后的逻辑至关重要。

可解释性为何重要?
接下来,我们来看看可解释性在哪些具体场景下显得尤为重要。以下是四个关键领域的示例。

1. 人力资源与法律合规
在人力资源领域应用算法时,决策关乎个人职业发展,因此必须清晰透明。例如,有像平等就业机会委员会这样的机构,规定了招聘和雇佣的指导方针。许多人力资源实践和法律框架要求能够非常清晰地记录决策是如何做出的。

该决定可能与晋升、招聘、解雇或其他雇佣相关行动有关。因此,在这种情况下,当你为人力资源使用算法时,至关重要的一点是:你必须非常清楚地理解这个算法是如何得出决定的。这样我们才能回顾和重新审视这些决策,确保它们符合管理这些决策的法律框架。
2. 自动驾驶系统与安全问责
另一个重要例子是自动驾驶系统。人工智能在自动驾驶汽车中有大量应用,系统需要处理不断涌入的复杂数据。
在路上,自动驾驶车辆会做出许多决策。可以想象,如果出现问题,比如发生事故或有人受伤,在自动驾驶车辆的背景下,公司能够回顾并准确理解出了什么问题、导致事故发生的原因以及需要修复什么,这一点非常重要。
同时,从公关角度,也需要能够解释问题所在以及出现问题的原因。出于这个以及其他原因,一些在自动驾驶汽车领域的公司已经成为可解释人工智能及其应用方面的领导者,致力于让这些框架更加开放,并将其提供给其他公司。

3. 数据隐私法规(如GDPR)
第三个例子涉及数据隐私法。你可能听说过GDPR(一般数据保护条例)或CCPA(加利福尼亚消费者隐私法案)。
一些新的隐私法规,比如GDPR,规定当算法做出决策时,一旦做出决策,其逻辑必须能够向受决策影响的人解释。
因此,如果做出的决策影响到你,人们有权要求对所涉及的逻辑给出有意义的解释。这只有在所使用的算法是可解释的算法时才有可能。所以,在符合该条例的背景下使用机器学习算法时,根据欧盟的全球数据保护条例,所使用的算法必须满足相关要求。这些算法确实需要是可解释的,以便公司遵守此类立法。
4. 客户服务与金融信贷
最后一个例子是客户服务领域,特别是在金融贷款、医疗保健或贷款处理的背景下。
如果客户前来申请贷款,而你使用算法来决定是否批准,那么并非所有客户都符合贷款要求。你显然需要关注这一点,并且不能仅仅告知某人通过或未通过筛选。
在贷款资格测试中,你希望能够准确反映出影响结果的因素。这种决策类型需要大量背景信息,尤其是在做出影响个人的决策时。人工智能系统的可解释性对于其成功采用至关重要。

总结
本节课中,我们一起学习了可解释性的定义及其在四个关键领域的重要性:
- 人力资源:确保招聘、晋升等决策合法、公平、可追溯。
- 自动驾驶:在发生事故时厘清责任,确保安全并维护公众信任。
- 数据隐私:遵守GDPR等法规,保障用户对算法决策的“解释权”。
- 金融信贷:向客户透明解释信贷决策的原因,建立信任并满足监管要求。

核心在于,可解释性不仅是技术需求,更是法律、伦理和商业成功的基石。
🧠 课程 P132:解释性与性能之间的权衡

在本节课中,我们将探讨人工智能模型中的一个核心矛盾:解释性与预测性能之间的权衡。理解这一权衡对于在实际应用中正确选择和评估模型至关重要。
鉴于解释性对于人工智能的使用和采纳非常重要,一个自然的疑问是:为什么不直接让每个模型都具备良好的解释性呢?
结果发现,在模型的解释性与其预测性能之间通常存在一种权衡关系。这种权衡在复杂的数据环境中表现得尤为明显。当你追求模型的高解释性时,往往需要接受其在预测能力上的某种妥协。
因此,我们可以将这个问题视为算法的预测能力与其解释性之间的平衡。

正如我们之前所讨论的,像商业规则、简单的决策树或线性回归模型通常具有较好的解释性。例如,一个线性模型的决策可以表示为:
公式: y = w1*x1 + w2*x2 + ... + b
其中,权重 w 直接显示了每个特征 x 对结果 y 的影响程度,这非常容易理解。
然而,这些模型的预测能力相对有限,难以处理高度非线性的复杂关系,无法与像深度神经网络这样更强大的模型相提并论。

上一节我们介绍了简单模型的特点,本节中我们来看看更复杂的模型。随着我们接触到神经网络等复杂模型,它们虽然具有更高的预测能力,能够从海量数据中学习到精妙的模式,但其内部运作机制就像一个“黑箱”,更难以解释。
当然,我们理想的目标是找到一个完美的平衡点,即拥有一个同时具备高度预测性和高度解释性的模型。但遗憾的是,这类模型往往很难找到。
因此,当你考虑选择一个算法或应用一个模型时,通常必须在精准度和可解释性之间做出权衡。你需要问自己:我是更想要一个在预测中非常精确的模型,还是更需要一个能够解释其决策原因和过程的模型?
为了更清晰地理解这种权衡,以下是几个具体的应用场景分析:
- 贷款审批与医疗诊断:在这些领域,如果一个模型虽然预测能力很强但完全不可解释,可能是无法被接受的。例如,银行需要向客户解释拒贷理由以符合监管要求;医生需要理解算法的诊断建议才能与患者沟通并建立信任。因此,在这些场景下,解释性的优先级可能高于纯粹的预测准确性。
- 内容推荐与金融交易:相比之下,在预测用户点击广告、推荐商品或执行高频金融交易时,算法的解释性可能不那么重要。这些决策不直接对人产生法律或伦理上的重大影响,核心目标是最大化点击率、转化率或收益。因此,在这些场景下,可以优先优化模型的预测性能。
- 组织内部决策(如晋升):这类决策对人的影响重大,公平性和透明性至关重要。因此,模型的解释性再次变得非常重要,需要能够说明影响决策的关键因素。

所以在不同的应用上下文中,哪个因素更重要——是使用一个更精确的算法,还是一个更具解释性的算法——并不总是容易决定,需要根据具体情况确定优先级。
本节课总结
本节课中,我们一起学习了人工智能模型解释性与性能之间的核心权衡关系。我们了解到:
- 简单模型(如线性模型、决策树)通常解释性好但预测性能有限。
- 复杂模型(如神经网络)通常预测性能强但解释性差,像一个“黑箱”。
- 在实际应用中,需要根据场景(如医疗、金融、推荐系统)的具体需求和监管要求,来决定是优先追求准确性还是可解释性。
- 做出这种权衡是构建负责任且可用的AI系统的关键一步。

理解这一权衡,能帮助我们在面对具体问题时,做出更明智的模型选择与设计决策。
课程 P133:可解释AI的几种方法 🧠

在本节课中,我们将学习几种使人工智能(AI)算法更具可解释性的主流方法。理解这些方法有助于我们洞察模型如何做出决策,这对于建立信任和确保公平至关重要。
概述
我们将介绍四种核心方法:SHAP、LIME、替代决策树和变分自编码器。每种方法都从不同角度出发,旨在揭示复杂模型内部的决策逻辑。

SHAP:量化特征贡献 📊
上一节我们概述了可解释AI的重要性,本节中我们来看看第一种具体方法——SHAP。

SHAP的全称是Shapley加法解释。其核心思想是,当模型使用多个变量进行预测时,SHAP可以量化每个变量对最终预测结果的重要性。
其目标是:通过计算每个特征对单个预测实例的贡献来解释模型的输出。它会系统地替换掉不同的特征,观察预测结果如何变化,从而得到每个特征重要性的指示。
以下是SHAP方法的关键点:
- 功能:识别并量化每个特征在特定预测中扮演的角色和影响。
- 示例:在一个人口统计预测模型中(考虑性别、年龄等特征),SHAP会告诉你哪些因素对最终决策最为重要。
- 输出:提供关于哪些输入特征对结果至关重要的清晰解释。
核心公式/概念:SHAP值基于合作博弈论中的Shapley值,为每个特征 i 分配一个贡献值 φ_i,所有特征的SHAP值之和等于模型预测值与平均预测值之差。
LIME:局部近似解释 🎯
理解了全局特征重要性后,我们可能会想:对于某个具体的预测,模型在局部是如何思考的?LIME方法正是为此而生。
LIME的全称是局部可解释模型无关解释。其思想是,在复杂的全局模型决策边界附近,为一个特定的预测实例生成一个更简单的、可解释的局部近似模型(如线性模型)。
想象你有一个包含众多客户的数据空间,而用于预测的模型非常复杂。LIME的作用是“放大”到与目标实例相似的一小部分客户数据上。在这个局部范围内,它能提供一个清晰的解释。
以下是LIME方法的关键点:
- 工作原理:在目标数据点附近采样,用一个简单的可解释模型(如线性回归)去拟合复杂模型在这个局部区域的输入输出关系。
- 优点:即使复杂模型整体难以理解,LIME也能为单个预测提供直观的、基于相似实例的解释。
- 应用:它可以帮助向受决策影响的用户透明地解释:“与您情况相似的人相比,是这几个因素导致了不同的预测结果。”
核心代码/概念:
# 伪代码示例:LIME 的核心思想
explainer = lime.lime_tabular.LimeTabularExplainer(training_data, mode='classification')
explanation = explainer.explain_instance(instance_to_explain, complex_model.predict_proba)

替代决策树:全局可解释性 🌳
LIME提供了局部视角,但有时我们需要理解模型的整体行为。这时,替代决策树就派上了用场。
这种方法的思想是训练一个全局的、易于理解的决策树模型,来近似模仿一个复杂黑盒模型(如深度学习网络)的决策逻辑。
可以想象,一个深度神经网络非常复杂。替代决策树的理念是创建一个能模仿该网络输入输出行为的决策树。由于决策树的结构(一系列“如果-那么”规则)比深度学习模型更容易解读,因此可以用它来解释复杂模型。

以下是替代决策树方法的关键点:
- 目标:用一个可解释的模型(决策树)作为复杂模型的“代理”或“替身”。
- 结果:用户可以通过分析这棵决策树来理解复杂模型整体的决策规则和重要特征。
- 价值:使得原本难以解释的模型应用变得更具可解释性。
变分自编码器:提炼可解释特征 🔍
最后,我们来看一种从数据表示层面入手的方法——变分自编码器。

变分自编码器是一种生成模型,它能将高维、复杂的原始数据(如图像、文本)编码(压缩)到低维的潜在空间。这个潜在空间中的关键特征往往比原始数据本身更具可解释性。
其流程可以理解为:原始数据输入模型,在得到最终预测输出之前,经历了一个中间步骤——数据被简化和提炼为一组核心的、可解释的潜在特征。公司可以利用这些提炼后的特征来理解和解释模型的决策依据。
以下是变分自编码器方法的关键点:
- 机制:通过编码器将数据压缩为潜在变量,再通过解码器重建数据。学习到的潜在变量代表了数据的核心特征。
- 可解释性应用:分析这些潜在特征与最终决策之间的关系,从而理解模型关注的是什么。
- 地位:这是业界用来实现可解释AI的另一种重要思路。
核心公式/概念:变分自编码器优化的是证据下界(ELBO):
ELBO = E[log p(x|z)] - KL(q(z|x) || p(z))
其中,z 是学习到的潜在特征。

总结与行业展望

本节课中,我们一起学习了四种使AI系统更具可解释性的方法:
- SHAP:量化每个特征对预测的贡献。
- LIME:为单个预测构建局部可解释模型。
- 替代决策树:用可解释的树模型全局近似复杂模型。
- 变分自编码器:从数据中提炼可解释的潜在特征。
这些方法各有优缺点,目前是可解释AI领域非常活跃的研究方向。许多领先的科技公司,如微软、IBM等,正积极地将可解释性功能整合到他们的机器学习产品和服务中(例如云平台上的AI服务)。提供模型输出的可解释性,对于AI技术在金融、医疗等关键行业的广泛应用和采纳至关重要。
课程 P134:人工智能的可解释性与法律 📜⚖️

在本节课中,我们将要学习人工智能(AI)系统中的“可解释性”概念,以及它与现有及潜在法律框架之间的关系。理解这一点对于构建负责任、透明且合规的AI系统至关重要。

概述:为什么可解释性至关重要?
透明性是负责任的人工智能中的核心概念之一。许多现有和提议的法律框架会要求某种形式的可解释性,至少在某些情况下。如果人工智能系统是一个黑箱,就无法评估决策是否基于不合法的因素,例如某人的种族或性取向。更普遍地说,很难评估系统出了什么问题,甚至是否真的出了问题。
上一节我们介绍了可解释性的重要性,本节中我们来看看法律是如何具体要求和塑造这一概念的。

历史先例:信用报告模型
现有的最突出法律可解释性模型是信用报告。信用局在1960年代发展,是数据分析在经济中首次大规模应用的重大例子之一。它们迅速成为像美国这样的国家消费者金融市场的必需品,以及其他如招聘等领域使用信用报告数据来评估候选人。
但信用报告的权力意味着一个不准确的报告,或者以歧视性方式使用它,可能会造成严重后果。在没有监管的情况下,消费者无法评估他们的信用评分如何影响决策。
当1970年代美国的两部法律——《平等信贷机会法》(ECOA)和《公平信用报告法案》(FCRA)通过时,对信用报告的法律可解释性施加了标准。

具体来说,这意味着企业必须在拒绝某人信用时发出“不利行动通知”。这意味着要提供“主要原因”来说明决定。他们不必列出每一个原因,也不需要给出算法的确切公式或每个因素如何影响结果,但他们确实需要给客户一些指示,说明是什么驱动了不利的决定。
这给消费者提供了他们可以使用的信息,以便在他们认为决定基于错误或不当信息时,可以质疑该决定。这可以在对公司没有不必要和不合理负担的情况下发生。

标准化披露的尝试
在某些情况下,政府规定具体的披露公式。例如,美国的信用卡优惠必须包含一个所谓的“Schumer Box”(以提案议员命名),它以标准、受监管、易于理解的方式陈述利率和其他条款。虽然目前尚无完全类似于人工智能系统的强制披露机制,但科技公司正在尝试类似的披露方式。

因为这再次给用户,甚至在某些情况下给其他开发者,提供了更容易理解发生了什么的机会。
以下是科技公司采取的一些措施示例:
- 模型卡:谷歌引入的一种标准化描述机器学习系统模型的方式。
- 数据集的数据表:微软采用的一种标准化的信息披露方式,用于描述数据集的情况,帮助识别源数据和构建模型所涉及的技术。

尽管并不一定要为每个内部专有AI系统设立类似机制,但某种标准化报告,至少要有机会向监管者披露(即使不直接面向消费者),未来主要的AI系统似乎也可能需要如此。

法律框架中的解释权
再次强调,如果监管者不知道发生了什么,他们无法判断是否出了问题。欧洲的《通用数据保护条例》(GDPR)虽然主要是一项隐私法,但包括了通常所描述的在有限情况下的“解释权”。
所以,如果存在完全自动化处理(即机器学习或其他算法系统完全决定了一个人所经历的事情),并带来严重后果(如某人获得或未获得贷款、工作,或面临某种法律后果),那么系统实施者需要提供解释决策所依据的因素的信息。不幸的是,这在实践中到底意味着什么并不明确,GDPR中的语言有些笼统,且缺乏显著的案例法。
在美国,至少有一起涉及休斯敦教师的联邦上诉法院案件。教师们因基于学生测试分数的黑箱评估算法被解雇,法院发现缺乏解释违反了教师们享有的宪法正当程序权利。教师们无法挑战他们的解雇,因为他们不知道算法是如何处理测试分数的。这最终导致案件和解,算法被披露或停用。虽然这在美国并非普遍法律,但它表明在不同法律理论下,对解释要求的运动正在加速。

高风险场景与算法影响评估
同样,在任何需要分配法律责任的情况下,例如涉及自动驾驶车辆的事故,调查人员通常需要并能够访问计算机视觉系统的数据,以了解系统是如何行为的,以及它认为自己在路上看到或没有看到什么。因此,当发生事故调查后要求解释时,确实需要一种机制。
我之前提到的《算法责任法案》是美国的一项提议法案。欧盟的白皮书以及建议新人工智能立法的文件都提议,在高风险人工智能系统部署前,必须提供正式的“算法影响声明”。
高风险指的是有可能导致非法歧视、伤害或重大财务后果的系统。在这些情况下,算法影响声明将迫使公司或政府机构明确识别系统的工作方式。
与早期的信用报告法律一样,确切理解这些法律如何实施,以及在充分解释和公司所需灵活性之间找到适当平衡的道路还很漫长,特别是考虑到在技术上很难确切解释一个复杂的深度学习系统内部发生了什么。但法律的确在朝这个方向发展。
对开发者的启示与未来展望
所以,当你有机会在内部更好地理解系统行为的解释时,你应该尝试这样做。现在,一些关于这些算法影响声明的提案要求向公众披露。
但即使他们不这样做,公司可能仍需向监管机构证明他们采取了必要措施,并在影响评估中评估或解决了可能的危害。所以再次强调,如果可以的话,提前考虑你拥有的可解释性机制是值得的。

这些潜在的法律要求也会推动研究人员和供应商开发更好的可解释人工智能技术和工具。目前已有许多解决方案,未来会有更多更好的解决方案。
人工智能的一大优势是它能够发现人类无法察觉的联系。然而,更好地理解人工智能系统如何做出决策以及发生了什么,将惠及所有人。
总结

本节课中我们一起学习了:
- 可解释性的法律必要性:透明性是评估AI决策合法性、公平性和排查问题的关键。
- 历史模型:以美国信用报告法律为例,展示了“不利行动通知”和“主要原因”披露如何平衡消费者权利与企业负担。
- 标准化实践:科技公司推出的“模型卡”、“数据表”等,是行业自我规范的可解释性尝试。
- 法律权利:GDPR的“解释权”和美国的司法案例表明,法律正逐步要求对自动化决策提供解释。
- 未来监管方向:“算法影响声明”可能成为部署高风险AI系统的前置要求,推动技术透明化。
- 行动建议:开发者应主动构建和理解系统的可解释性机制,以应对未来的法律和伦理要求。

理解并实践AI的可解释性,不仅是合规的需要,更是构建可信、可靠人工智能系统的基石。祝你在这个项目的其余部分以及在你的组织中实施这些技术时好运。
课程 P14:特征工程与深度学习简介 🧠

在本节课中,我们将学习什么是特征工程,以及深度学习如何解决传统特征工程方法中的一些挑战。我们将从结构化数据与非结构化数据的区别开始,逐步深入到特征工程的具体过程及其难点,最后引出深度学习的基本概念。
结构化数据与机器学习
上一节我们提到了机器学习算法的目标。给定一组变量,机器学习算法的目标是学习从这些输入变量到算法要预测的输出之间的映射关系。
想象你有一列或几列变量,你正试图用这些变量来预测某种输出。
非结构化数据的挑战

但是,非结构化数据呢?预测领域的重大革命确实在于从非结构化数据中进行预测。
例如,在线评论、声音或图片。这些数据是如何被转换成可以用于预测某种结果的列的呢?你如何从这些非结构化数据中提取信息,将其转换为例如可以放入电子表格的格式,然后用它来进行预测?

什么是特征工程?
当数据不是结构化的,比如是在线评论时,你需要经过一个称为特征工程的过程。特征必须从数据中构建。这意味着你需要从非结构化数据中提取信息,你基本上是从那些非结构化数据中创建或编码出单个特征。
这是一个耗时且通常相当具有挑战性的过程,通常还需要相当多的领域专业知识。这在许多方面都是机器学习中最困难的部分之一,而这正是数据科学家通常会花费大量时间的地方。这需要在艺术和科学之间取得平衡。
特征工程实例:预测房屋价值
让我给你举个例子。假设当前的任务是使用房地产列表中的图片来预测房屋价值。
因此,你有很多房子的图片,包括房子的不同房间、院子,也许甚至是该地区的情况。你想利用那张图片中的数据生成对房屋价值的某种预测。

因此,你需要做的是获取这些图像,这些单独的图像,并提取出可能用于预测房屋实际价值的单个特征或变量。
特征工程所需的专业知识
如果我们提取这些图像并提取你可能关心的特征,当考虑房地产价值时,这将需要多种不同类型的知识。

这不仅仅是软件开发任务,因为你还需要了解房地产经纪人知道哪些重要的事情。你在寻找什么?在房间和布局方面你在寻找什么?在地块和地块风格方面,这些都需要一定的知识组合。
所以,如果你考虑这种情况下的特征工程,它需要房地产经纪人的知识,同时也需要软件开发人员的技能。他们可以合作尝试从图像中提取这些信息。他们可以一起坐下来,讨论写点什么来提取这些图像中可能对预测房屋价值很重要的相关方面。
特征工程的局限性
但这涉及到相当多的猜测。这是一个耗时的任务。你很可能会错过那些最终对预测房屋价值至关重要的关键特征。
深度学习的引入
我们接下来要谈的深度学习,解决了许多这些问题。

深度学习通过让模型自动从原始数据(如图像、文本)中学习特征表示,减少了对人工特征工程的依赖。模型可以自行发现对预测任务重要的模式和特征。

总结
本节课中,我们一起学习了特征工程的概念及其在将非结构化数据转换为可用于预测的结构化特征过程中的核心作用。我们通过预测房屋价值的例子,看到了特征工程需要结合领域知识与技术能力,且过程耗时并可能遗漏关键信息。最后,我们了解到深度学习作为一种方法,能够自动学习特征,从而有效应对传统特征工程面临的诸多挑战。
课程 P15:深度学习简介 🧠

在本节课中,我们将要学习深度学习的基本概念,特别是它与传统机器学习方法的区别,以及它如何通过自动化特征工程来改变我们处理非结构化数据的方式。
传统机器学习流程 🔄
上一节我们介绍了课程背景,本节中我们来看看传统的机器学习方法。
使用浅层机器学习或非深度学习方法时,你可能会观察到以下流程。

所谓的结构化特征会传递给一个算法,算法会学习最佳映射。这个映射基于你提供的一些示例。所以可以把数据想象成像电子表格一样组织。你有一个想要预测的结果,然后你有多个列。你需要有关于预测因子的数据显示。你需要以这种格式拥有数据,其中有描述的结构化列。

你试图预测的数据,正如我们之前讨论的那样。在处理非结构化数据时,需要一个特征工程步骤。这个步骤是将原始非结构化数据处理成这些特征,将其转换为可以用来预测的格式,即数据列和一些输出。
同样,需要花费相当多的工作来弄清楚如何处理这些原始非结构化数据,以及生成这些列。如何选择合适的列,如何实际创建给定的结构化数据列等。所以发生的事情是工程师处理这些原始数据,创建这些特征,运行模型。

如果性能不达标或无法接受,他们可能会尝试一组新的特征,或者调整当前模型中使用的特征。这个过程需要大量领域专业知识。如果你查看某些类型的数据,理解这些数据是什么非常困难。

提取正确的特征,尤其是对于某些类型的非结构化数据,如图像、声音、论文,理解某些内容可能需要相当多的领域专业知识或关于知识领域的专业知识。


如何将这些原始非结构化数据转换为可用特征,其中一个例子可能是医学诊断成像。想象一张X光片,你试图理解如何使用这些数据来预测某人是否有某种病症。如果你想象一张X光片,并考虑你可能想要从中提取什么特征,以预测某人是否有某种病症,这需要大量专业知识。需要特别的医学专业知识来理解你所看到的内容,以及如何知道在该图像中值得识别的内容。

这可能与颜色阴影或图像的某些部分有关,或观察图像中出现的一些可能不常见的内容。但需要具备大量医学专业知识的人才能知道这一点。然后那个人需要与开发者合作,帮助理解如何处理一个这样的图像并提取相关数据。这是一个例子,你可能需要多种不同类型的专业知识来处理原始数据,如医疗图像,并提取可以放入列的数据,用于预测某种医疗结果,比如一个人是否真的有病。而且,再一次,这需要领域专业知识。
它需要开发者时间,需要大量资源。这也可能非常容易出错,因为你可以提取的特征数量庞大。图像的复杂性是巨大的。因此,确保你拥有正确的特征是一个固有易错的过程。

我们谈论深度学习。深度学习所做的就是消除了对特征提取的需求。

深度学习的工作流程 ⚙️
上一节我们介绍了传统方法的局限,本节中我们来看看深度学习如何改变这一流程。
在正常的机器学习工作流程中,你有某种输入数据,然后你有一个特征提取过程,人们必须坐下来弄清楚要使用哪些特征。从输入数据中提取出数据,以便将其放入那种列式的电子表格格式中,然后可以用于预测,最后你得到你的输出。

当你使用深度学习时,你跳过特征提取步骤。深度学习将使我们能够直接从这种原始非结构化输入数据中进行预测,以做出对我们有价值的预测。

那么,深度学习为什么是一个颠覆性的游戏规则?原因在于这个特征工程步骤特别昂贵。再次,它需要大量领域专业知识,容易出错,高度不确定。因此,当我们能够使用深度学习跳过特征工程步骤时,它相对于我们必须手动编码或手动选择要使用的特征的过程,可以带来巨大的改进。
我们将讨论的代价是计算成本。但计算成本在下降,使深度学习在各种应用中变得更加可行。这将使我们能够在规模上对非结构化数据进行预测。因此,再一次,想想图像或在线文本,如评论或客户满意度表,健康数据,音频等等。因此,对于任何预测或分类任务,深度学习都将是一个替代的应用。
越来越多的数据与标记示例的专业知识。


我们不再需要手动编码或提取特征所需的领域专业知识,因为我们有大量的数据可以让机器学习这部分本身。
深度学习的应用示例 📸
以下是深度学习在实际中的几个应用示例。
示例一:图像识别
如果你想要一种能够基本上识别面孔的软件,这就是一个例子。你可以直接使用原始图像数据来训练它识别面孔,而无需去识别,比如说人们的眼睛或面部宽度的长度。你不需要做任何这些。你可以直接使用标记的原始图像数据,与合适的模型合作,它将基本上学会自动识别人。
示例二:检测假新闻
你怎么判断一则新闻是假的还是真实的?需要特征工程的过程可能需要你坐下来尝试理解,或者找出消息或新闻帖子中可能表明某些东西是假的内容。这很难做,假新闻的真实性正在变得越来越好。深度学习将使我们能够处理大量的新闻示例。我们不需要知道在预测中什么是重要的,只需原始新闻帖子本身,关于它是否是假的或真实的标签,并且给了这两个信息。深度学习引擎将找出帖子中相关的信息来判断某些东西是否是假的,我们不需要告诉它那部分。
示例三:识别奢侈品的仿制品
你拥有奢侈品的图像,而你正在尝试开发某种东西来判断它是否真实,或者是否伪造。

在这种情况下,你可能会拥有大量特定产品的图像,可能是一条围巾或一个包,以及是否该产品是真品的标签。我们不需要坐在那里告诉机器学习引擎在图像中寻找什么。我们只是给它输入大量的图像和正确的答案,标签,以及这些信息。在这种情况下,深度学习引擎可以自动找出答案,图像中可能表明某些东西是仿制品或伪造品的内容是什么,它是否真实。

总结 📝
本节课中我们一起学习了深度学习的基本原理。我们了解到,传统机器学习方法严重依赖人工特征工程,这需要大量领域知识且容易出错。而深度学习通过直接从原始非结构化数据(如图像、文本、音频)中学习,自动完成特征提取,从而绕过了这一瓶颈。这使得处理复杂数据(如医疗影像、假新闻检测、产品真伪鉴别)变得更加高效和可扩展。深度学习的核心优势在于其端到端的学习能力,其流程可以概括为:
原始数据 -> 深度学习模型 -> 预测结果

随着计算成本的降低,深度学习正在成为解决各类预测和分类任务的重要工具。

课程 P16:深度学习的工作原理 🧠
在本节课中,我们将学习深度学习的基本工作原理。我们将了解深度学习如何处理原始的非结构化数据,神经网络如何模仿人脑神经元进行决策,以及它如何通过自我调整来学习预测,从而省去了传统机器学习中繁琐的特征工程步骤。

我们已经讨论过,深度学习可以直接使用原始的非结构化数据进行预测。我们不需要经历特征工程步骤,不需要将数据转换为单独的列、变量或特征。对于非结构化数据,我们可以从其原始的数字表示形式开始。

首先,我们讨论的任何非结构化数据,包括文本、声音和图像,始终可以以某种数字形式表示。例如,音频可以表示为频谱图,图像数据可以通过像素表示,文本可以通过词向量表示。因此,所有这些不同类型的数据都可以用其原始的、本地的数字格式来表示。
数据随后会经过某种预处理,使其在预测任务中标准化。一旦数据标准化,它就会被传递到一个叫做神经网络的结构中。我们之所以称之为神经网络,是因为它的模型本质上是基于对神经元的模仿。大脑中的神经元接收多个输入,然后根据这些输入决定是否触发输出。

类似地,深度学习中的神经网络在某种程度上非常相似。构成深度学习基础的神经网络,其输入层接收的就是我们讨论过的原始本地数据。就像神经元一样,神经网络会查看输入的数据,然后根据数据的值,决定是否触发其输出,或将输出设置在某个水平。因此,你可以将神经网络想象为一系列决策点、节点或神经元,输入数据从一侧进入。
神经网络由一系列层组成,这些层在进行某种观察,查看输入数据的不同组合。因此,输入数据不需要预先转换为特征。神经网络中的层会自动尝试从原始非结构化数据中找出特征,并将这些数据以各种方式组合和重组,以形成对预测最有效的特征组合。
这种情况的发生,是因为工程师选择了一个损失函数或成本函数,用来与训练标签进行比较。这只是一种衡量我们离预测正确答案有多近的方式。例如,在医疗诊断图像的案例中,你拥有大量带有正确答案(即医生确诊患者是否患病)的医疗图像数据。
神经网络将尝试处理这些图像数据。网络中的各层会尝试找到使用原始像素数据进行预测的正确组合,预测结果将是这个人是否患病。既然我们已经知道训练数据中的正确答案,我们就可以开始比较预测的准确率。损失函数或成本函数就告诉我们模型的预测与真实情况之间的距离。
神经网络将开始反复进行前向和后向的调整,重新排列节点上的值和权重。网络的不同部分会开始自我调整,直到达到一个点:原始输入数据被组合、加权并传递到预测层后,其错误被最小化。本质上,它将自我调整到预测结果尽可能接近训练数据所代表的真实情况。

你可能会听到一些与神经网络相关的术语,比如反向传播。反向传播是调整网络参数的过程。这些网络通常被称为前馈网络,而反向传播指的是数据向前传递后,不同类型的信息在网络中前后传递,以便网络可以从数据中学习如何以最优方式进行配置来进行预测。因此,反向传播是该学习过程的一部分。
深度学习或神经网络的一个好处是,模型中需要嵌入的领域专业知识信息非常有限。这意味着,你是在用计算能力来替代专家知识。例如,在医疗诊断图像的深度学习案例中,我们所做的是将图像数据传递给深度学习引擎,它将学习如何预测患者是否患病。

相比之下,在我们之前讨论的特征工程步骤(浅层学习)中,需要有人获取图像,并研究如何从中选择和编码出个别特征。这是一个非常耗时且困难的过程。而这种深度学习方法所需的领域信息要少得多,但它确实需要相当多的计算资源。不过,由于省去了需要领域理解的特征提取任务,这仍然是一个巨大的优势。
所以,当你手动编码特征时,可能需要开发人员和具备显著医学专业知识的人员。而采用深度学习方法,机器学习工程师主要需要大量带有可靠标签的医学图像数据。

最终,基于这些图像数据做出的决策,可以自己创建一个能够有效执行预测任务的深度学习引擎。一个常见的问题是,在这种新范式下,工程师的角色是什么?在之前的特征工程案例中,工程师的重要性在于能够从原始数据中提取出单独的信息片段。例如,处理原始图像,提取出毛细血管宽度或颜色阴影等特征,这需要图像处理技术专长。

在这里,你不再需要进行特征工程,那么工程师做什么呢?事实证明,在深度学习方法中,仍然有许多设置工作需要工程师来完成。这些设置被称为超参数,需要工程知识来调整,但通常对领域知识的要求较低。
以下是需要工程师决定的一些关键超参数:
- Epochs(训练轮数):模型遍历整个训练数据集的次数。
- Batch Size(批大小):单次训练迭代中使用的样本数量。
- Learning Rate(学习率):控制模型根据损失梯度调整其权重的速度。
- Regularization(正则化):防止模型过拟合的技术。
- Activation Function(激活函数):决定神经元是否被激活的函数,如
ReLU或Sigmoid。 - Number of Hidden Layers(隐藏层数量):神经网络中除输入和输出层之外的层数。
工程师必须决定这些多种设置,以使网络能够表现良好。这些超参数值必须由工程师管理,但整体工作流程最终发生了变化。
再次强调,特征提取在深度学习中不是一个重要步骤。在没有深度学习的工作流程中,我们有输入数据(如图像),然后有一个耗时的处理过程是从这些数据中提取单独的列变量或特征,再将其放入分类或预测步骤,最后得到输出。

而在深度学习方法中,你没有特征提取的步骤。你可以直接从标注良好的原始非结构化数据开始,放入深度学习引擎,就可以得到预测结果,而不需要做任何特征工程。这再次省去了昂贵且不确定的特征工程过程。


在本节课中,我们一起学习了深度学习的工作原理。我们了解到,深度学习可以直接处理原始的非结构化数据,通过模仿神经元的神经网络结构自动学习有效特征。网络通过损失函数和反向传播机制自我调整,以最小化预测错误。这种方法减少了对特定领域专家知识的依赖,但需要工程师精心调整超参数。最终,深度学习通过将原始数据直接映射到预测结果,简化了传统机器学习中繁琐的特征工程流程。
课程P17:深度学习的局限性 🧠
在本节课中,我们将探讨深度学习技术虽然强大,但在实际应用中存在的几个关键局限性。理解这些局限性有助于我们判断何时适合使用深度学习,何时应选择其他方法。

概述
深度学习能够自动学习特征,避免了传统机器学习中繁琐的特征工程步骤,并在许多领域带来了显著的准确性提升。然而,这引出一个问题:我们为什么不总是使用深度学习?它是否存在缺点?接下来,我们将分析三个最重要的局限性。
1. 对数据规模的依赖 📊
深度学习模型通常需要大量的训练数据才能表现良好。与其他机器学习方法相比,深度学习对数据规模和多样性的要求更高。
以下是深度学习对数据需求高的具体表现:
- 数据量需求大:模型需要海量数据来学习有效的特征表示,避免过拟合。
- 数据多样性要求高:数据需要覆盖尽可能多的场景和变化,以确保模型的泛化能力。
上一节我们介绍了深度学习对数据量的高要求,这直接引出了下一个相关的挑战。
2. 高昂的计算与存储成本 ⚙️
需要处理更多数据,意味着对计算资源和存储空间的需求也大幅增加。
以下是主要的相关成本:
- 计算能力:训练深度学习模型(尤其是大型神经网络)需要强大的GPU或TPU进行并行计算,耗时且昂贵。
- 存储空间:存储用于训练的海量数据集本身就需要可观的硬件资源。
因此,深度学习的硬件和运维成本远高于许多传统机器学习方法。除了资源消耗,深度学习模型在决策逻辑上也存在一个根本性的挑战。

3. 模型的可解释性差 🕵️♂️
第三个关键局限在于模型的可解释性,即我们理解模型为何做出特定决策的难度。在许多关键应用中,了解预测背后的原因至关重要。
在某些情况下,理解决策原因变得尤为重要。例如,在医疗保健领域:

如果模型对患者病情做出判断,向医生或患者解释该判断的依据非常重要。如果医生无法理解算法推荐某种治疗方案的原因,他可能不愿意采纳该建议。同理,在客户信贷审批等场景中,向申请人解释拒贷理由也是必要的。
相比之下,其他更简单的机器学习模型(如决策树或线性回归)的决策过程通常更容易追溯和理解。而深度学习模型像一个“黑箱”,其从输入数据到最终决策的内部逻辑非常复杂,难以清晰阐释。在这种对可解释性要求高的上下文中,深度学习可能并非最佳选择。
总结
本节课我们一起学习了深度学习的三个主要局限性:
- 对大规模、多样化数据的依赖。
- 高昂的计算和存储资源成本。
- 模型决策过程缺乏可解释性。
认识到这些局限性,能帮助我们在项目初期更好地进行技术选型,权衡深度学习的强大能力与其带来的实际挑战,从而做出更合适的决策。
机器学习基础课程 P18:评估机器学习性能 📊

在本节课中,我们将要学习如何评估机器学习算法的性能。构建算法时,我们不仅需要关注它是否能做出预测,更重要的是要判断其预测的好坏。这涉及到选择正确的评估标准,因为不同的应用场景对“好”的定义可能截然不同。
当我们谈论构建或训练机器学习算法时,有多种方式来考量其表现优劣。算法试图根据我们提供的带有标签的示例进行学习。核心问题是:我们应该告诉算法去优化什么目标?是尽可能多地预测正确,还是需要优化其他方面?例如,在商业应用中,正确预测和错误预测可能带来不同的成本与收益,这会直接影响我们构建有效算法的方式。
在构建算法时,存在许多可供优化的损失函数或成本函数。这些函数有不同的名称,例如准确率、精确率、召回率和特异度。
为什么需要这么多评估指标? 🤔

上一节我们介绍了多种评估指标的存在,本节中我们通过一个例子来看看其原因。
想象一个旨在识别欺诈性信用卡交易的应用程序。这是机器学习的一个热门应用。在这个场景中,你拥有训练数据,其中包含了交易是否欺诈的正确答案(即“实际值”)。你的算法会对交易做出“预测值”,判断其是欺诈还是合法。
问题在于,我们如何比较“实际值”和“预测值”这两列数据,以判断分类器的表现好坏?这并非简单地追求正确答案的数量最多,因为在此背景下,我们需要从成本和收益的角度来考量。
例如,错过一次欺诈交易(漏报)的成本可能非常高。因此,你可能会决定,可以容忍一些误报,但绝不能漏掉任何欺诈交易。另一方面,如果错误地将合法交易标记为欺诈(误报),可能导致有价值的客户体验受损。优化“不漏报”和“减少误报”这两个目标在某种程度上是相互竞争的,构建算法时必须做出权衡。

精确率、召回率和特异度这些不同的术语,正是为了捕捉在预测任务中,犯不同类型错误时存在不同成本与收益的这一概念。这对于决定如何训练算法以及我们关心什么至关重要。
核心评估指标详解 📈
在理解了评估指标的多样性后,本节我们来看看一些具体的损失函数及其计算方式。
以下是几个关键的分类评估指标及其定义:
- 准确率:模型预测正确的样本数占总样本数的比例。
- 公式:
准确率 = (TP + TN) / (TP + TN + FP + FN)
- 公式:
- 精确率:在所有被模型预测为“正类”的样本中,实际也是“正类”的比例。它关注预测的准确性。
- 公式:
精确率 = TP / (TP + FP)
- 公式:
- 召回率:在所有实际为“正类”的样本中,被模型正确预测出来的比例。它关注对正类的覆盖度。
- 公式:
召回率 = TP / (TP + FN)
- 公式:
- 特异度:在所有实际为“负类”的样本中,被模型正确预测为“负类”的比例。
- 公式:
特异度 = TN / (TN + FP)
- 公式:
术语解释:
- TP:真正例(实际为真,预测为真)
- TN:真负例(实际为假,预测为假)
- FP:假正例(实际为假,预测为真)-> 误报
- FN:假负例(实际为真,预测为假)-> 漏报
以欺诈检测为例:
- 追求高精确率意味着:当系统报警说“这是欺诈”时,很有把握它是真的欺诈(减少误报,避免打扰好客户)。
- 追求高召回率意味着:尽可能抓住所有的欺诈交易(减少漏报,避免资金损失)。

总结 🎯

本节课中,我们一起学习了评估机器学习性能的核心思想与方法。我们了解到,不能仅用“正确率”来简单衡量算法好坏,而需要根据具体应用场景选择评估指标。在欺诈检测的例子中,我们看到了精确率和召回率之间的权衡关系。理解这些概念,能帮助我们在训练模型时选择正确的优化目标,从而构建出真正符合业务需求的机器学习算法。
📊 课程 P19:常见损失函数

在本节课中,我们将学习机器学习中几种常见的损失函数与评估指标。这些指标用于衡量模型预测结果与真实情况之间的差异,帮助我们理解和优化模型性能。
1️⃣ 准确率与分类错误
上一节我们介绍了损失函数的基本概念,本节中我们来看看最直观的评估指标:准确率。
准确率衡量的是模型预测正确的比例。以一个欺诈交易检测为例,我们有一列真实标签(欺诈/合法),另一列是模型的预测标签。准确率就是这两列标签匹配的次数占总次数的比例。
其公式可以表示为:
准确率 = (预测正确的样本数) / (总样本数)
分类错误是准确率的逆,即预测错误的比例:
分类错误 = 1 - 准确率
2️⃣ 精度、敏感度与特异性
除了准确率,还有其他指标从不同角度评估模型性能。以下是几个关键概念:
精度 关注的是模型预测为正类的样本中,真正为正类的比例。例如,在所有被模型预测为“欺诈”的交易中,实际为欺诈的比例。

敏感度(或称召回率)关注的是所有实际为正类的样本中,被模型正确预测出来的比例。例如,在所有实际欺诈的交易中,模型成功识别出的比例。
特异性 关注的是所有实际为负类的样本中,被模型正确预测为负类的比例。例如,在所有合法交易中,模型正确识别为合法的比例。
这些指标分别强调了预测结果的不同方面,在实际应用中需要根据具体需求进行权衡。
3️⃣ 真正例、真负例、假阳性与假阴性
为了更精确地讨论模型表现,我们引入以下术语:
- 真正例:实际为正类,且被模型正确预测为正类。
- 真负例:实际为负类,且被模型正确预测为负类。
- 假阳性:实际为负类,但被模型错误预测为正类。
- 假阴性:实际为正类,但被模型错误预测为负类。
假阳性和假阴性代表了两种不同类型的错误,通常对应不同的业务成本。例如,在欺诈检测中,假阴性(漏掉欺诈交易)可能导致资金损失;而假阳性(误判合法交易)则可能导致客户不满。
4️⃣ 混淆矩阵与ROC曲线

有多种方式可以可视化上述指标,以便向不同利益相关者传达模型性能。
混淆矩阵 是一个二维表格,清晰地列出了真正例、假阳性、真负例和假阴性的数量。

ROC曲线(接收者操作特征曲线)则通过绘制真正例率与假阳性率之间的关系,来展示模型在不同阈值下的性能权衡。

总结
本节课中我们一起学习了机器学习中常见的损失函数与评估指标,包括准确率、精度、敏感度、特异性等。我们还了解了真正例、假阳性等关键概念,以及混淆矩阵和ROC曲线这两种性能可视化工具。理解这些指标有助于我们根据具体业务需求,选择合适的评估标准来优化模型。

在下一个视频中,我们将讨论在什么情况下某些损失函数可能比其他函数更可取。
课程一:人工智能商业基础入门 🧠
在本课程中,我们将从商业视角出发,探讨人工智能的基础知识。我们将依次了解大数据、人工智能与机器学习的基本概念、实践应用,以及数据在构建AI系统中的关键作用。


第一部分:大数据简介 📊
上一节我们概述了课程内容,本节中我们来看看大数据的核心概念。
我们将从介绍大数据开始。具体而言,大数据指的是规模巨大、类型多样且处理速度要求高的数据集合。
以下是关于大数据的几个关键问题:
- 什么是大数据?
- 如何使用大数据?
- 大数据能帮助你回答哪些类型的商业问题?
第二部分:人工智能与机器学习 🤖
了解了大数据的基础后,我们接下来将进入人工智能领域。
我们将讨论什么是人工智能,以及什么是机器学习,并阐明两者之间的关系。
机器学习是人工智能的一个核心子领域,其核心思想是让计算机从数据中学习规律,而无需进行明确的编程。机器学习方法主要分为以下几类:
- 监督学习:模型从带有标签的数据中学习。例如,根据历史邮件数据学习识别垃圾邮件。其目标通常是找到一个函数
f,使得f(x) ≈ y,其中x是输入特征,y是已知标签。 - 无监督学习:模型从无标签的数据中发现内在结构。例如,对客户进行分群。
- 强化学习:模型通过与环境互动并获得奖励反馈来学习最佳策略。
第三部分:机器学习的实践应用 🛠️
理解了机器学习的基本类型后,我们来看看它在实际中是如何应用的。
接下来,我的同事Sunny Thambbe教授将探讨机器学习在实践中的应用。他将介绍机器学习可视化,以及如AutoML等最新发展。AutoML旨在自动化机器学习的工作流程,使得非工程师和非数据科学家也能通过简易的界面,利用人工智能来解决商业问题。
第四部分:数据在AI系统中的作用 💎

在看到了机器学习的强大应用后,我们必须认识到,这一切都离不开数据的支撑。
最后,我将讨论数据在构建人工智能系统中的根本作用。具体来说,现代人工智能建立在大规模训练数据集之上。这意味着公司若想在人工智能实践中取得成功,就必须能够获取大量数据。
但一个现实的问题是:小公司如何在缺乏数据的情况下启动人工智能实践?或者更广泛地说,企业如何在数据不足的情况下推行人工智能?
我们将在本课程的最后一个模块中,探讨如何在缺乏数据的情况下构建人工智能系统。


总结:本节课中,我们一起学习了人工智能的商业基础。我们从大数据的概念与用途出发,进而了解了人工智能与机器学习的关系及主要方法。接着,我们探讨了机器学习(包括AutoML)的实际应用,并最终认识到高质量、大规模的数据对于构建有效AI系统的至关重要性,同时也引出了在数据有限时如何启动AI项目的问题。
机器学习基础课程 P20:损失函数之间的权衡 ⚖️

在本节课中,我们将要学习在机器学习模型的评估中,如何根据不同的应用场景,在精确度(Precision)和召回率(Recall)等指标之间进行权衡。理解这种权衡对于构建符合实际业务需求的模型至关重要。
核心问题:假阴性与假阳性的成本
上一节我们介绍了评估指标的基本概念,本节中我们来看看如何根据具体场景选择侧重点。关键问题是,在我们考虑的特定应用或商业背景中,假阴性和假阳性的相对成本是什么?
何时需要高召回率(高敏感性)的测试?
以下是需要优先考虑召回率(即希望尽可能减少假阴性)的应用场景:
- 医疗筛查场景:例如,算法正在筛查一种非常严重的疾病或某种类型的癌症。我们希望绝对确认不遗漏任何患有该疾病的人。即使这可能会导致错误识别一些没有患病的人(假阳性)。
- 安全预警系统:例如,二战期间发展的雷达系统,用于探测来袭飞机。我们担心敌方攻击,并希望有一个可以探测所有潜在威胁的系统。我们不介意几个误报,但希望确保不遗漏任何实际发生的攻击。
在这些情况下,我们可能想要一个高度敏感的测试,即优先考虑召回率。
何时需要高精确度的测试?
上一节我们介绍了高召回率的场景,本节中我们来看看另一个方向。以下是需要优先考虑精确度(即希望尽可能减少假阳性)的应用场景:
- 自动驾驶决策:例如,开发一个算法用于预测汽车何时可以安全左转。我们可能希望在推荐左转决策之前,绝对确认左转是安全的。即使这意味着我们可能会错过几次左转的机会。核心要求是:只要算法预测可以左转,就必须确保左转实际上是安全的。
- 严厉违规判定:例如,识别某种会导致开除等严厉惩罚的作弊行为。我们可能想在实际做出算法判定之前,极其确定某人确实违规。即使这意味着我们可能会漏掉一些实际发生的违规情况。我们希望有一个非常精确的测试,以确保不会错误地指控某人。
在这些情况下,我们可能想要一个高度精确的测试,即优先考虑精确度。

总结
本节课中我们一起学习了在机器学习模型评估中如何进行权衡。核心在于分析具体应用中假阳性和假阴性带来的不同代价:
- 当遗漏正例(假阴性)的代价非常高时(如重症筛查、安全预警),应优先优化召回率(Recall)。
- 当误报正例(假阳性)的代价非常高时(如自动驾驶决策、严厉处罚判定),应优先优化精确度(Precision)。

理解这种权衡是设计有效、负责任的人工智能系统的关键一步。

课程 P21:机器学习训练数据获取指南 📚
在本节课中,我们将要学习机器学习项目中的一个核心环节:如何获取训练数据。训练数据是算法学习输入与正确输出之间映射关系的基础,其来源多种多样。我们将系统地介绍几种常见的获取途径。
概述
任何机器学习、深度学习及其应用的关键是训练。模型需要训练数据,因此训练数据是机器学习过程的核心。训练数据是算法用于学习最佳映射关系的数据,包括输入和正确的预测或输出。核心问题是:训练数据从哪里来?
当你构建一个机器学习算法时,你需要获取大量包含输入数据和对应正确决策或预测的数据集。在实践中,训练数据可以来自多个地方。
来源一:组织内的档案或历史数据 🗃️
最常见的训练数据来源可能是组织中已经存在的档案或历史数据。在许多业务领域,历史决策记录可用于训练一个模型。
以下是几个具体的应用场景:
- 简历筛选:任何收到大量就业申请的组织都会有一个数据库,其中可能包含已提交的简历数据、面试数据、以及最终的招聘决策和员工后续表现。
- 其他领域:在财务、会计和运营方面也有类似的应用。这些领域通常都有记录着历史输入和实际决策(如招聘、补货、资产交易)的数据库。
如果这类现成的历史数据不可用,我们就需要考虑其他方法来生成训练数据。
来源二:通过众包人工生成数据 👥
有时需要人工来生成训练数据。例如,当你构建一个新的应用程序时,可能需要为你的输入数据添加标注,以便将其用作训练数据。
一个典型的例子是图像分类。假设你有很多图像,并试图识别其中哪些包含花朵。你可以利用专门的众包平台来处理这项任务。
以下是利用众包平台的基本流程:
- 将成千上万的图像数据上传到平台。
- 平台上的工作人员会查看这些图像,并进行视觉检查。
- 他们根据图像是否包含花朵来标记数据。
- 平台最终返回给你的数据,将是原始图像数据与新增的标签列(指示是否有花)的结合体。
通过这种方式,可以将数据标注工作众包出去,从而高效地获得标注好的训练数据。

来源三:利用用户互动生成数据 🤝
第三种常见的方式是直接利用平台用户的行为来生成标注数据。许多知名平台都巧妙地利用用户输入来创建训练标签。
以下是两个经典案例:
- Gmail 垃圾邮件过滤:Gmail 在识别垃圾邮件方面表现出色。其学习方式很大程度上依赖于历史用户行为。长期以来,Gmail 用户通过点击“标记为垃圾邮件”按钮,为系统提供了大量邮件信息以及用户对其是否为垃圾邮件的判断。
- 社交网络人脸识别:在社交网络中,用户在识别照片中的面孔、标记好友等方面花费了大量时间。这些互动数据可以被用来构建算法,以自动识别不同的人。

在这些例子中,平台用户通过与产品互动,手动为平台创建了可供使用的训练数据集,平台随后利用这些数据来实施和优化其机器学习算法。
总结

本节课我们一起学习了获取机器学习训练数据的三种主要途径。我们首先介绍了利用组织内部现成的档案或历史数据,这是最常见且成本较低的方式。接着,我们探讨了当历史数据不足时,如何通过众包平台人工生成标注数据。最后,我们了解了如何巧妙设计产品,让用户互动本身成为高质量训练数据的来源。理解这些数据获取方法,是成功启动机器学习项目的重要第一步。
课程 P22:过拟合问题 🎯

在本节课中,我们将要学习机器学习中的一个核心挑战——过拟合。我们将探讨它的定义、产生原因、带来的问题,并通过一个生动的例子来帮助你理解。理解过拟合是构建有效、泛化能力强的模型的关键一步。
概述
正如我们所谈到的,算法学习输入数据与输出之间映射的关键在于训练数据。这是算法用来学习输入特征和它应该做出的预测之间关系的数据集。
因此,训练数据是构建算法的关键,但我们真正关心的其实是模型在所谓的“未见数据”上的表现。整个目的在于预测我们尚不知道结果的情况。
什么是过拟合?🤔
上一节我们介绍了训练数据的目的,本节中我们来看看过拟合问题。过拟合是一个重要的机器学习挑战。其危险在于,模型在训练数据上表现良好,但当我们将其应用于未见数据或投入生产时,性能会显著下降。

所以,机器学习工程师常常需要处理这个问题。他们试图避免模型拟合到捕捉训练数据中基本噪声的地步。他们不断与过拟合问题作斗争,试图在使用训练数据构建准确模型与保持模型在未见数据上良好表现之间找到平衡。
一个生动的类比:学习与应试 📚
我喜欢用的一个例子是“学习测试”与“学习材料”的对比。
想象一下,你正在为考试复习,你有很多做过的样本测试(历史数据)。你可以通过两种方式准备:
以下是两种学习策略:
- 理解概念:你使用旧测试和其他资料来深入理解材料。这样,你获得的知识能够很好地转移到任何新测试中。
- 死记硬背:你反复复习旧测试,以至于能准确记住那些问题的答案。这意味着如果给你完全相同的测试,你会表现得极好。但如果给你一个新测试,那些死记硬背的知识就不会很好地转移。
这与机器学习中的过拟合问题类似。模型不应在独特的层面上过度学习训练数据的细节,以至于这些细节无法转移到其他数据集。
实例分析:客户目标营销 🛒

让我们谈谈一个关于客户目标营销的具体例子。假设我们想进行一次促销,针对那些可能购买特定商品的客户。
为此,我们将基于一小组过去参与过促销的客户数据作为训练数据。我们希望利用这些训练数据来了解,未来哪些类型的客户(更大的人群)应该获得那次促销。
所以我们想做的是运行一个模型,挑选出可能对预测客户反应有用的相关属性(如人口统计、位置等)。

或者,我们可以想象模型运行过度,它学习了这个小数据集中客户响应的某些特定方面。例如,简单来说,在训练数据集中,可能所有名为“朱莉”的客户刚好都对那次促销做出了反应。
因此,机器学习模型在训练数据集上学习后,可能会得出一个结论:名字为“朱莉”是预测促销响应的好特征。
但这可能只是训练数据中某个单一客户或一小组客户的巧合特征,并不是适用于更大客户数据集的真实规律。

关键是你需要平衡模型,让它能够挑选训练数据中实际重要的相关信号,并忽略那些不会转移到新数据集的噪音。
总结与过渡
本节课中,我们一起学习了过拟合的核心概念。我们了解到,过拟合是指模型在训练数据上表现太好,以至于学习了数据中的噪声和无关细节,从而导致在新数据上表现不佳。处理过拟合是机器学习过程中最重要的挑战之一。
在下一个视频中,我们将讨论测试数据在评估模型性能和避免过拟合问题中的关键作用。
课程P23:测试数据 🧪

在本节课中,我们将要学习机器学习中的一个重要概念——测试数据。我们将了解它的定义、作用、来源以及如何利用它来防止模型过拟合,从而确保模型具有良好的泛化能力。
理解过拟合与测试数据

上一节我们介绍了过拟合问题,理解这个概念很重要。测试数据是工程师用来避免过拟合的工具之一。
测试数据,也称为保留样本,是一个不用于训练或构建模型的数据集。我们用它来验证模型。在未用于构建模型的数据集上验证性能,有助于确保该模型在外部样本上也能很好地工作。

训练集与测试集
因此,可以考虑拥有两个数据集:训练数据集和测试数据集。我们可以在训练数据上构建模型,模型会在训练数据上越来越准确。它也可能在测试数据上变得越来越准确。
然而在某个时刻,如果模型开始对训练数据中的特定特征拟合得太好,我们就会开始看到偏差,模型在测试数据上的表现会不如之前。
同时拥有这两个数据集有助于我们管理这个过拟合问题。这个问题帮助我们确保模型正在接受的训练,也适用于外部样本。
测试数据的来源

那么测试数据来自哪里?我们需要一个未用于构建模型的数据集,以便机器学习算法没有从中学习,但我们仍然需要数据中可用的正确答案。我们还需要在测试数据中有这些标签。
以下是机器学习工程师常用的方法:
- 从所有数据开始:他们有一个带有标签的大型数据集。
- 进行数据划分:将这个大数据集简单地分为训练数据和测试数据。
所以你可能会进行所谓的70/30划分,其中保留70%的数据用于训练模型,然后保留30%的数据用于评估,以了解模型在这些外部样本数据上的表现。

这种方法有很多变种,但基本思路相同:你在训练数据(一个数据集)上训练模型,然后在未用于训练模型的数据上验证它。
实际应用示例
例如,如果你尝试使用保险数据来预测事故发生的可能性(基于客户属性、驾驶特性等),你可以将所有历史事故数据与客户属性和特性一起考虑。

以下是具体操作步骤:
- 划分数据:将最后六个月之前的所有数据用作训练数据。
- 保留测试集:将从六个月前到现在的所有数据用作测试数据。
- 训练与验证:从六个月之前的所有数据中训练模型,然后使用该模型查看它在过去六个月的数据上表现如何。
过去六个月的数据不会用于建立模型,但可以用来验证它在未实际用于建立模型的数据上的表现。在你确信模型在测试数据上表现良好后,就可以将其推广到部署中,以预测未来基于不同客户属性和特征的事故。
总结

本节课中,我们一起学习了测试数据。我们了解到,测试数据是一个独立的数据集,用于在模型训练后评估其泛化能力,是防止过拟合的关键工具。通过将原始数据划分为训练集和测试集,我们可以更好地监控模型性能,确保其在实际应用中的有效性。
课程 P24:端到端机器学习工作流程示例 🏥

在本节课中,我们将通过一个具体的医学图像诊断案例,学习如何将机器学习的核心概念串联起来,构建一个完整的端到端工作流程。我们将看到如何从原始数据开始,最终部署一个能够辅助诊断的算法。
让我们快速浏览一个端到端示例,将之前学过的概念结合在一起。

我们讨论一个具体案例:使用机器学习,特别是深度学习,来识别医学图像中的特定病症。
第一步是收集大量医学诊断数据。这些数据应包含医学图像以及专家基于这些图像所做的决策。例如,可以设想一个包含大量X光片和相应放射科诊断报告的数据库。因此,前往医院获取这样的数据库是一个良好的起点。这个数据库可能包含数年积累的医学图像和对应的诊断决策,这些决策最终由放射科医生做出,用于判断患者是否需要接受特定治疗。
第二步是注意到,这些专家(即放射科医生)已经对图像进行了标注,指明了患者是否患有某种病症。因此,我们拥有一个结构化的数据库,非常适合进行预测任务:我们既有大量的图像数据,也有大量已做出的诊断决策。
现在,我们可以利用这些数据来构建并评估一个算法。具体做法是获取数据,并将其划分为训练集和测试集。
以下是核心步骤:
- 数据划分:将数据集分为训练样本和测试样本。
- 模型训练:在训练集中,我们将图像数据输入深度学习模型(如神经网络),并将放射科医生提供的诊断标签作为监督信号。模型将通过自我调整参数,学习做出与专家决策最吻合的预测。
- 模型评估:我们使用测试集来验证训练好的算法。这确保了算法不仅在训练数据上表现良好,在未见过的样本外数据上也能保持有效性。
通过以上步骤,我们可以训练机器根据医学图像,以相对较高的准确度预测某人是否患有某种病症。整个过程仅需几个关键步骤:从医院获取结构正确的数据库(包含图像和专家标签),划分数据,用训练数据训练模型,并用测试数据验证其泛化能力。
当模型表现良好时,我们就可以部署这个算法。让它处理新的医学图像,并做出相对准确的预测或诊断建议。
这里的一个关键点是,在整个过程中,我们从未要求任何人坐下来详细描述医学图像的哪些特征暗示了某种病症。我们并不需要那种显性的医学专业知识。专业知识隐含在数据库的标签中,但我们不需要专家解释“某种病症在X光片上具体表现为何种形态,应如何识别”。实际上,我们无需与医疗专家进行深入的规则交流。

这正是机器学习的魔力所在:数据和计算最终可以替代多种不同类型的显性专业知识。
以这种方式操作有很多优点,其中之一就是一致性。与人类决策相比,算法决策能提供高度一致的输出。无论是一天忙碌结束时还是清晨开始时,算法的判断标准都不会改变。这带来了稳定性。
显然,这也涉及到规模和速度的优势。一个训练好的算法能够快速、准确地处理大量决策任务,其能力可以轻松扩展。

这在许多类型的任务中表现得非常出色。

如果一个任务能够按照我们讨论的方式被结构化——即拥有输入数据(如图像)和对应的输出标签(如诊断)——那么,借助现今强大的深度学习工具,我们可以处理这些带标签的原始非结构化数据,让机器学习算法完成剩下的模式识别工作。
实际上,对于许多问题,构建这样的数据驱动解决方案,可能比与领域专家深入交谈、总结并形式化他们的专业知识规则更为高效。


本节课总结

在本节课中,我们一起学习了一个完整的端到端机器学习工作流程示例。我们从数据收集(医学图像与专家标签)开始,经历了数据准备与划分、模型训练(使用深度学习网络),再到模型评估与验证,最后展望了模型部署的优势,如一致性、速度和可扩展性。这个案例清晰地展示了如何利用数据和计算,让机器从示例中学习,从而完成复杂的专业任务。

课程P25:自然语言处理入门 🗣️➡️🤖
在本节课中,我们将要学习自然语言处理的基本概念及其在商业和数据分析中的应用。我们将了解如何将文本数据转化为可用于预测或分类的特征,并探讨一些实际应用场景。
概述
随着文本成为越来越有价值的无结构数据形式,对自然语言处理的关注也日益增多。文本数据可以提供关于市场和商业决策的有价值信号。例如,在线评论可以揭示产品信息和客户反馈,而在线讨论则可能预示金融市场的活动。因此,处理和分析文本数据具有重要的预测价值。
从文本到特征
为了利用文本数据进行预测,我们首先需要将文本转换为机器可理解的特征。这意味着我们需要识别文本中对预测或决策至关重要的内容。

将文本转换为特征时,有许多候选项,包括情感、拼写、文本长度以及其中使用的词汇等。
文本预处理
我们的做法是首先对文本进行预处理,为后续分析做好准备。预处理可能涉及修正各种问题,例如多余的空格、标点符号错位等。
以下是预处理可能包含的步骤:
- 修正空格和标点问题。
- 将文本转换为统一的格式(如小写)。
- 移除无关字符或停用词。
构建文本特征
预处理之后,我们需要识别文本中可能对未来预测重要的内容。文本特征最简单的例子就是单个词汇。
例如,我们可能会统计不同文本中出现的特定单词,并用它来预测结果。对于在线评论,我们可能关注具有特定含义的词,以预测产品销售情况或评论是否有帮助。

选择哪些词以及如何呈现它们,取决于我们的目标。这些词可以是表达情感的词(正面或负面),也可以是关于产品特定方面的词(例如,对于相机评论,可能是“存储”、“镜头”、“电池”等)。
不仅仅是单个单词,我们也可以使用更复杂的特征,例如词的组合(两个或三个单词组成的词组),或者构建整体的情感度量。
情感分析
情感分析是从文本中提取或创建特征的最常见示例之一。它旨在描述文本作者所使用的语言所表达的情感倾向。
从在线评论到社交媒体帖子,情感分析可以判断作者对某事物是持积极还是消极态度。情感映射也可以扩展到更复杂的情感集合,如恐惧、愤怒等。
一旦我们从文本中提取了这些特征(如情感倾向、词汇类型、评论长度、拼写或语法质量),它们就能帮助我们预测结果。例如,情感特征可以用来预测购买行为。
深度学习与自然语言处理
深度学习为我们处理文本提供了更大的灵活性。它可以更丰富、更有意义地结合文本内容,而不仅仅局限于我们手动编码的有限特征集。
虽然深度学习在方法上更先进,但其概念上的运作方式与传统方法类似:提取语言信息,创建特征,然后用于预测。
应用实例:新闻与股价预测
让我们看一个具体的例子:利用突发新闻预测股票价格变动。

想象我们构建一个算法,输入是突发新闻,输出是对股票价格的预测。我们有一个新闻文章数据库,可以从文章中生成特征,如情感倾向、出现的特定词汇(如公司名、国家名、领导人名等)。
假设我们关注特定公司的新闻。我们提取指示对公司积极或消极情绪的特征(例如,提及新产品发布、创新或专利)。我们要预测的标签是该公司在新闻发布后特定时间内的股价变动。
我们利用这些数据(新闻特征和对应的股价变动)来训练一个模型。模型将学习新闻中使用的语言如何影响或预测股价变动。通过训练和测试,我们可以得到一个预测模型,用于根据新的突发新闻来预测公司股价的变化。
主题建模
自然语言处理另一个常见的应用是主题建模,这是一种无监督学习方法。其目的不是预测特定标签,而是将大量文本自动分组或分类到不同的主题中。

主题建模是一种处理文档并按内容对其进行分类的方法,使其更易于理解和处理。
例如,如果你有一个包含数百万条消息或电子邮件的大型数据库,你可以使用主题建模将其自动分类为5到10个不同的主题(如商业、科技、娱乐等)。这样,人们就能更容易地根据主题来导航信息、做出决策或采取行动。
以新闻为例,我们可以将每天涌入的成千上万篇文章自动分类到“商业”、“科技”、“科学”、“娱乐”等类别中,极大地方便了消费者查找感兴趣的内容。
总结

本节课中,我们一起学习了自然语言处理的核心概念。我们了解到文本数据需要被转化为特征才能用于分析,并探讨了文本预处理、特征构建(如词频、情感分析)的基本步骤。我们还介绍了深度学习为文本处理带来的灵活性,并通过新闻预测股价的例子说明了预测性应用,通过主题建模的例子说明了文本分类应用。自然语言处理是将无结构文本数据转化为可操作见解的强大工具。

课程 P26:生成对抗网络与变分自编码器 🧠
在本节课中,我们将要学习机器学习中一个令人兴奋的领域——生成模型。我们将重点介绍两种重要的生成模型:生成对抗网络和变分自编码器,了解它们的基本原理、工作方式以及实际应用。

机器学习中最令人兴奋的领域之一就是生成模型。
生成模型变得越来越重要,应用也越来越广泛。我们之前主要讨论的模型基本上是区分两个类别的。它们标记某些东西为真或假,或一或零。这称为判别模型。
生成模型的作用略有不同。与其将数据分类为两个类别,生成模型问的是“数据是如何产生的”。其基本目标是能够生成我们所看到的数据类型。这意味着生成模型可以创建新的数据实例。一旦它们学习并理解了能够生成我们观察到的数据的过程,就可以开始利用这些信息创建新的数据实例。
这变得非常有趣,因为它开始在机器学习和我们所认为的传统人类创造力领域之间模糊界限。

生成模型的应用实例 🎨
以下是生成模型在多个领域的具体应用示例:
- 艺术与音乐:有生成模型用于生成模仿特定风格(如乡村或爵士乐)的新歌曲。这些模型能产生乐器编制、歌词,甚至模仿人声。也有生成模型可用于生成模仿特定大师(例如梵高)风格的艺术作品。
- 文本生成:最著名的生成模型或许是文本应用,特别是GPT-3和GPT-2。这类生成模型能够生成看起来像是人类写的文本,例如学生的论文或记者的文章。使用像GPT-3这样的模型,你给它一个起始点或几句话,它基本上会生成沿着这些思路的文本,填充出几个看起来由人类撰写的段落。
虽然媒体对GPT-3的许多有趣演示进行了报道,但人们也在考虑其商业应用。现在有一些企业在尝试开发针对这类技术的产品,例如使用它来创建完整的电子邮件或简化邮件回复流程。

生成对抗网络 ⚔️
现在,这种称为生成对抗网络的变体在生成模型中特别重要。这是一种用于生成越来越难以与真实内容区分的人工内容的技术。

生成对抗网络的工作方式是使用两个网络相互竞争。它使用一个生成网络创建新内容,然后使用另一个判别网络来判断第一个网络的输出是真实的还是虚假的。
因此,一个生成器不断输出新的人工内容,而判别器则观察输出的内容并判断其是真还是假。随着时间的推移,生成器会学习如何创建内容,使得判别器识别虚假内容变得越来越困难。通过这个过程,生成器发展出越来越多在真实性方面难以区分的内容。

有很多例子表明,GANs已被用于迅速推进我们使用算法生成人工内容的能力。例如,GANs已被用于大规模生成人工面孔,使得机器或人类很难看着图片并判断其是否是一个真实人类面孔的图片。

然而,这些类型的应用同样存在很多争议。当我们思考这些技术时,这些是一些担忧的来源,比如“深度伪造”现象的出现。当我们对图像进行人工处理,并以你无法判断其真实性的方式进行转换时,就会产生很多围绕其使用的争议。

变分自编码器 🔄

上一节我们介绍了生成对抗网络,本节中我们来看看另一种相关的生成技术:变分自编码器。它们有稍微不同的角色和目标。

自编码器本身所做的是提取数据,将其简化为更简单的表示(即编码),然后用于重建自身(即解码)。自编码器会处理像图像或歌曲这样的东西,将其简化为自身的更简单表示,然后可以用来重建自身。
变分自编码器特别有趣,因为它可以稍微变换一些数据的属性或方面。所以我们可以获取一张图片,将其分解成各个部分,也许在某些方面进行调整(例如改变头发颜色),然后重新创建图像。这将允许一种称为控制生成的技术出现。
我们不仅是在生成人工内容,而且是在生成我们可以控制其不同属性的人工内容。这引入了许多新颖的用例。

以下是变分自编码器的应用潜力:

- 以面孔为例,我们可以使用VAEs以特定方式改变面孔,这在建模事物或简化不同类型方面可能是有用的,例如模拟眼镜在面孔上的样子。
- 受控内容生成在图像编辑、属性变换等方面有很多应用,对于以更多或更少的方式处理那些图片的特定属性是有用的。


本节课中我们一起学习了生成模型的核心概念,重点探讨了生成对抗网络和变分自编码器。GANs通过生成器和判别器的对抗训练来创造逼真内容,而VAEs则通过编码-解码框架实现对生成内容的可控变换。这两种技术正在推动人工智能在创意和内容生成领域的前沿发展,同时也带来了新的伦理挑战。理解它们的工作原理是探索现代AI应用的重要一步。
课程 P27:自动机器学习简介 🤖

在本节课中,我们将要学习自动机器学习(AutoML)的基本概念。我们将了解AutoML的目标、它能解决的问题,以及它在实际应用中的一些例子。
什么是AutoML?
AutoML是“自动化机器学习”的缩写。AutoML的目标是自动化机器学习过程中的尽可能多的环节,从而简化整个流程。
当我们思考传统的机器学习过程时,通常会涉及多个阶段。首先是数据获取与准备阶段,接着是特征工程,包括特征提取和特征选择等步骤。完成这些前期工作后,我们才进入模型选择阶段,并需要考虑参数调整等问题。
构建一个机器学习模型涉及如此多的阶段,而AutoML的理念就是尽可能地自动化这些部分。
AutoML的目标与市场
AutoML的目标,从某种意义上说,也是当前市场的目标。许多公司已经开始提供AutoML解决方案。
其核心目的是让机器学习技术变得更易于获取和使用,降低使用门槛。无论使用者是否具备专业的机器学习知识,都能借助AutoML来应用机器学习。
例如,观察Google的云端AutoML解决方案,其首页的第一行就明确表示:“你可以用最少的努力和机器学习专业知识,训练出高质量的定制机器学习模型。”

AutoML如何工作?
这些AutoML模型本质上所做的是,用大量的计算过程来替代人工决策。这样,用户就不必过于担心在机器学习工作流中做出的某些特定选择。

因此,AutoML允许你训练出一些高质量的模型,同时削弱了对用户专业选择能力的依赖。你无需过度担忧某些技术细节的选择。
以下是AutoML工作流程的一个简化表示:
# 传统机器学习流程
数据准备 -> 特征工程 -> 模型选择 -> 超参数调优 -> 模型评估
# AutoML流程
输入数据 -> AutoML系统 -> 输出优化后的模型

AutoML的应用领域

AutoML有不同的应用方向。至少,在Google的产品体系中是如此。此外,还有许多其他公司也提供与AutoML相关的解决方案,它们有时会使用不同的名称,但核心理念都非常相似,即致力于自动化机器学习过程的多个环节。
你可以看到,AutoML在计算机视觉领域有应用,在自然语言处理领域也有应用。我们将通过自然语言界面、翻译等示例来具体了解。

这些应用都将处理一些非结构化数据,并允许你利用这些数据来进行预测。

总结
本节课中,我们一起学习了自动机器学习(AutoML)的基础知识。我们了解到AutoML旨在自动化机器学习的多个阶段,从而降低技术门槛,让更多人能够应用机器学习技术。我们还探讨了AutoML的目标、工作原理以及它在视觉和自然语言处理等领域的广泛应用。
课程 P28:使用自动机器学习 🚀

在本节课中,我们将通过一个识别垃圾邮件的示例,了解自动机器学习(AutoML)的完整工作流程,并观察有多少步骤被自动化了。
概述
我们将使用机器学习算法来识别文本消息(如电子邮件或短信)是否为垃圾邮件。这类算法可以自动将垃圾邮件归类到特定文件夹中。假设我们有一个文本消息文件,目标是建立一个能够自动区分垃圾邮件与非垃圾邮件的算法。
工作流程详解
1. 准备训练数据
首先,我们需要一个训练数据集。这个数据集应包含大量文本消息,并在其中一列明确标注每条消息是否为垃圾邮件。数据是启动任何机器学习项目的基础。
以下是一个数据示例的示意结构:
| 文本消息 | 是否为垃圾邮件 |
|---|---|
| “恭喜您获得大奖!” | 是 |
| “今晚一起吃饭吗?” | 否 |
2. 使用 AutoML 平台
自动机器学习的核心理念是让数据准备之后的过程变得尽可能简单。我们将使用谷歌的 AutoML 自然语言平台。

以下是使用该平台的关键步骤:
- 导入数据:将准备好的数据集上传到平台。
- 开始训练:平台界面上通常有一个明确的“开始训练”按钮。点击后,系统将接管后续所有复杂工作。

3. 模型训练与评估

点击“开始训练”后,计算任务会被提交到谷歌云端。平台会利用强大的计算资源,自动尝试多种模型和参数,以找到针对您数据的最优预测模型。这个过程可能需要数小时。
训练完成后,您会收到通知。此时,您可以查看模型的性能报告。
报告通常会包含以下核心评估指标:
- 精度:模型预测为垃圾邮件的消息中,真正是垃圾邮件的比例。公式为:
精度 = 真正例 / (真正例 + 假正例) - 召回率:所有真实的垃圾邮件中,被模型正确识别出来的比例。公式为:
召回率 = 真正例 / (真正例 + 假反例)

4. 模型部署与使用
在评估模型性能并感到满意后,您可以将模型部署到生产环境。部署后的模型可以接收新的文本消息,并自动判断其是否为垃圾邮件,从而实现自动化分类。
总结
本节课我们一起学习了自动机器学习(AutoML)的基本工作流程。关键要点在于,像谷歌 AutoML 这样的解决方案极大地简化了机器学习过程。其明确目标是让没有专业背景的人也能应用机器学习技术。

一旦准备好数据,您只需“开始训练”,然后等待系统自动完成模型构建和优化。最后,对生成的模型进行评估并部署使用即可。需要注意的是,使用此类云端服务会产生相应的计算资源费用。

课程 P29:无代码机器学习入门 🚀

在本节课中,我们将要学习什么是无代码机器学习工具,并以谷歌的“可教机器”为例,了解如何在不编写代码的情况下,快速训练一个图像分类模型。

无代码工具正使深度学习技术变得越来越易于使用,让更多人能够将自己的想法转化为实际的产品和解决方案。一个典型的例子就是谷歌的“可教机器”,它通过一个直观的图形界面,让机器学习的过程变得相对简单。


什么是“可教机器”?🤖


“可教机器”是谷歌推出的一个基于网页的工具,其背后依赖于强大的 TensorFlow 深度学习引擎。TensorFlow 是一个包含大量深度学习算法和逻辑的软件包。

这个工具之所以叫“可教机器”,是因为你可以像教导一个学习算法一样,通过提供示例数据来“训练”它。它作为一个优秀的前端界面,非常适合初学者体验和探索深度学习的基本概念。

开始一个图像分类项目 🖼️

上一节我们介绍了“可教机器”的基本概念,本节中我们来看看如何使用它创建一个实际的机器学习项目。
打开“可教机器”网站,你会看到它可以用于多种类型的分类任务,例如:
- 图像分类:识别图片内容。
- 音频分类:识别声音。
- 姿势分类:识别人体姿势。
我们将从最基础的图像项目开始。点击创建“图像项目”。

准备与上传训练数据 📁


机器学习的第一步是准备数据集。我们需要为每个类别提供足够多的图片示例,模型通过学习这些示例,未来才能识别新的图片。


我们将创建一个区分猫和狗的简单模型。以下是操作步骤:


- 创建类别:界面默认有两个类别(“类别 1”和“类别 2”)。我们将它们分别重命名为“狗”和“猫”。
- 上传图片:
- 点击“狗”类别下的“上传”按钮,选择一系列狗的图片。
- 点击“猫”类别下的“上传”按钮,选择一系列猫的图片。
- 数据量原则:提供的图片示例越多,模型通常表现越好。你可以从少量图片开始尝试,但为了更好的效果,应尽可能收集更多样化的图片。

训练你的模型 ⚙️
准备好数据后,就可以开始训练模型了。点击界面上的 训练模型 按钮。

在训练开始前,你可能会看到一些高级选项(超参数)。对于初学者,可以暂时忽略它们,直接使用默认设置。这些参数可以用来微调模型的行为,但在入门阶段并非必需。
点击训练后,系统会开始处理你上传的图片,背后的深度学习算法会开始学习如何区分猫和狗。这个过程可能需要一些时间。


测试与使用模型 ✅


模型训练完成后,界面会提示“模型已训练好”。此时,你可以进入“预览”标签页测试模型效果。

测试模型的方法很简单:
- 点击“上传图像”按钮,选择一张新的、未在训练中使用的猫或狗图片。
- 模型会分析图片,并给出它属于“猫”或“狗”类别的置信度百分比。

例如,上传一张狗的测试图片,模型可能会显示“狗:99%”。这表明模型能够正确识别,并且对自己的判断非常有信心。你可以尝试上传更多不同类型的猫狗图片来检验模型的泛化能力。

总结与展望 📝
本节课中我们一起学习了如何使用“可教机器”这一无代码工具,快速构建一个图像分类模型。关键步骤包括:创建项目、准备并上传训练数据、启动模型训练,以及测试模型效果。


这类工具的核心优势在于,你几乎不需要编写代码或深入理解复杂的机器学习算法,只需整理好数据,通过直观的界面即可完成模型训练。这使得深度学习技术能够更广泛地被应用,让那些有创意但缺乏专业编程知识的人也能实现自己的想法。训练好的模型还可以导出,以便集成到其他应用程序中更广泛地使用。

课程P3:大数据概述 📊

在本节课中,我们将要学习大数据的基本概念。我们将探讨大数据的定义、核心特征、其重要性以及在不同行业中的应用。通过本课,你将理解为什么大数据在当今世界变得如此关键。

什么是大数据?

上一节我们介绍了课程目标,本节中我们来看看大数据的定义。
数据是一个存在已久的概念,但近年来对其重视程度日益增加。我们常听到“数据是新石油”或“数据就像原油,它很有价值,但如果未加提炼就无法使用”这样的说法。

未来学家约翰·奈斯比特指出,我们首次拥有一种基于关键资源——信息的经济。这种资源不仅是可再生的,还能自我生成。因此,资源枯竭不是问题,真正的问题是如何处理海量信息。

数据对商业的重要性已持续数十年,但对“大数据”的关注则相对较新。顾名思义,大数据涉及海量数据。美国国家标准与技术研究院将大数据定义为:数据量超出了传统方法和计算机系统处理能力的范畴。
然而,大数据不仅仅关乎数据量。
大数据的核心特征:三个V

当我们谈论大数据时,我们指的是具有特定特征的数据。以下是描述大数据核心特征的三个“V”:

- 体量 (Volume):指巨大的数据量。我们谈论的不再是TB或PB级的数据,而是那些无法放入个人电脑或在Excel中直接打开分析的数据。
- 多样性 (Variety):指数据类型的多样化。我们不再只处理结构化数据(如Excel表格),而是包括文本、音频、视频等非结构化数据,这些数据中隐藏着待提取的智能信息。
- 速度 (Velocity):指数据生成和流动的速度。数据持续不断地实时流入,我们需要能够即时分析数据并做出决策。

有时,大数据还会提到第四个“V”:
- 真实性 (Veracity):指数据的质量和可信度。数据来自多个来源(如社交媒体上的用户生成内容),可能未经筛选,存在不一致、不完整或质量不高的问题。确保数据的真实性是大数据面临的关键挑战之一。

大数据为何在当今兴起?
一个自然的问题是:为何大数据在近年才受到如此重视?原因主要有两点:

- 计算能力的指数级增长:我们存储和处理数据的能力飞速提升,使得十年前不存在的大数据工具如今成为可能。
- 数据生成方式的转变:过去,数据以集中、有限的方式生成。如今,数据以去中心化的方式爆炸性增长,来源包括用户生成内容、移动设备和成千上万的传感器。
这种转变不仅带来了数据量的激增,更重要的是改变了管理者能做的事情。
大数据的价值与应用
大数据使管理者能够提出以往无法提出的新问题,并能更好地回答旧有问题。
提出新问题的例子:市场经理为新产品设计营销活动时,过去依赖直觉或小规模调研来决定强调产品的哪个特性(如电池续航、设计或用户界面)。现在,他们可以分析社交媒体平台(如Twitter、Facebook)上的大数据,了解顾客真正欣赏产品的哪些方面,从而精准制定营销信息。
更好回答旧问题的例子:信用卡欺诈检测。过去,欺诈通常在交易发生很久后才被发现,造成巨大损失。如今,借助大数据工具,公司能在交易发生后即时分析,判断是否存在欺诈行为,实现更快、更大规模的检测。

大数据的价值不仅限于金融服务业,其应用已遍及多个行业:

- 医疗保健:可穿戴设备(如Fitbit)能捕捉心率、睡眠模式等数据,帮助消费者采取行动改善健康。
- 交通运输:道路传感器捕捉交通模式、事故等数据,并实时提供给移动设备(如谷歌地图),帮助用户更好地规划路线。

在后续课程中,我们将深入探讨大数据在各行业的更多应用,以及机器学习如何从这些数据中提取智能信息。

总结

本节课中,我们一起学习了大数据的基本概念。我们明确了大数据不仅指海量数据,更由其体量、多样性、速度和真实性等核心特征定义。我们探讨了大数据兴起的两个驱动力:计算能力的提升和数据生成方式的转变。最后,我们通过市场营销和欺诈检测等例子,看到了大数据如何赋能管理者,并了解了其在医疗、交通等领域的广泛应用。理解这些基础,是进一步学习大数据工具与技术的第一步。
🎮 课程 P30:TensorFlow 游乐场入门指南

在本节课中,我们将学习如何使用 TensorFlow 游乐场这一交互式工具,来直观地理解深度学习网络的工作原理。我们将探索其界面、核心参数以及如何通过调整这些参数来观察神经网络的学习过程。
随着机器学习被越来越多的人和企业所采用,出现了许多工具来帮助人们更好地理解机器学习的工作原理,以及在不同选择之间如何进行权衡。
TensorFlow 游乐场就是这样一个示例工具。它由谷歌开发,旨在封装深度学习的核心逻辑,并以简单透明的方式,帮助用户理解其软件中不同部分和元素是如何组合在一起的。
因此,TensorFlow 游乐场是众多在线工具之一,专门用于理解不同类型的深度学习或机器学习是如何工作的。
🧠 理解深度学习网络的选择
上一节我们介绍了TensorFlow游乐场的背景,本节中我们来看看它的核心功能:展示你在深度学习网络中可以进行哪些选择。
我们讨论的是深度学习。我们已经知道如何将数据输入网络。这里运行的神经网络,其目标是学习如何进行预测。虽然它不需要很多领域专业知识,但存在许多超参数需要调整和优化,以使网络能够高效学习。
学习工程师必须理解如何以最佳方式调整这些参数,以使得预测尽可能准确。TensorFlow游乐场就是一个让你可以“玩弄”这类参数、理解它们的作用以及神经网络如何组合的界面。
🏗️ 神经网络的构成与调整
我们讨论了神经网络是由一些隐藏层组成的深度学习网络。在游乐场中,你可以调整或减少网络层的数量。
以下是一个深度学习引擎的基本构成,它接收多个数据点并进行分类,其核心任务是在数据点之间绘制一个作为分类器的决策边界:
# 一个简化的神经网络分类过程概念
输入数据点 -> 隐藏层(处理特征)-> 输出层(生成预测/分类)
因此,理解机器学习或深度学习的一种方式是:如果你有一组点,核心任务就是在它们之间找到一个最佳的划分边界。


其核心思想是:给定这样一组点,我可以在哪里画出最佳的边界?如果我说边界一侧的所有点都属于类别A,另一侧的所有点都属于类别B,那么我希望这个划分尽可能准确。哪里是划定那个边界的最佳方法?
🔬 探索不同数据与参数
TensorFlow游乐场让你可以从多种不同的点分布开始,观察网络在不同数据假设和不同参数设置下的表现。
例如,在这个场景中运行网络,你可以改变参数。网络会尝试画一条线来分割这些点(即训练数据集)。它可能会学习到沿着对角线某处进行分割,比如说,对角线右上方的所有点属于一个类别(例如蓝色),左下方的点属于另一个类别(例如橙色)。
这样,当未来获得一个位于右上角空间的新点时,它就会被分类为蓝色。运行网络后,它可能会在对角线位置创建一条决策边界。
主要需要了解的是,这个工具本质上是在向你展示或说明深度学习引擎是如何“思考”和工作的。它会展示每一层不同节点的输出,以及这些输出如何组合以进行下一步计算。
因此,这又是一个用于理解深度学习引擎如何构建,以及不同参数如何影响其性能的工具。
⚙️ 调整核心参数
以下是你可以调整的一些核心参数,看看它们如何影响深度学习网络的学习效果和预测能力:
- 激活函数:决定神经元是否被激活的数学函数,例如
ReLU或Sigmoid。 - 学习率:控制模型在每次更新参数时的步长大小。
- 正则化/噪声:向训练数据添加噪声或使用正则化技术,以防止模型过拟合。
- 训练数据:选择不同的数据集分布来测试模型的泛化能力。


通过进行这些调整,你可以直观地看到它们对深度学习网络学习过程和最终预测结果的影响。


本节课中,我们一起学习了TensorFlow游乐场这个交互式工具。我们了解了它如何通过可视化方式展示深度学习网络的构成、学习过程以及决策边界的形成。重点探索了如何通过调整激活函数、学习率等关键超参数,来观察并理解它们对神经网络性能的影响。这是一个非常适合初学者直观感受深度学习原理的实践平台。
课程 P31:机器学习运维 (MLOps) 🚀

在本节课中,我们将要学习机器学习运维(MLOps)的核心概念。我们将从传统的软件开发运维(DevOps)入手,探讨其在机器学习领域的延伸与独特之处,并了解相关的工具和实践。
从 DevOps 到 MLOps 🔄
在与数据科学家合作时,你可能会遇到“MLOps”这个术语。这是一个有用的概念,但在深入讨论 MLOps 之前,先了解“DevOps”(开发者运维)会很有帮助。DevOps 是软件世界中一个已存在并被频繁使用的术语。

DevOps 是指开发者用于构建、测试和部署代码到生产环境的一系列实践和工具。当开发者对一个庞大且复杂的代码库进行更改时,最大的担忧是这些更改可能会引入问题,导致软件意外失败。
因此,我们需要一种更系统的方法来管理软件变更。这种方法通常涉及创建一个新的代码分支,在不影响主分支(即生产代码)的情况下进行修改。在合并回主分支并最终部署到生产环境之前,需要使用自动化测试来验证这些更改。
传统 DevOps 的核心:CI/CD ⚙️
传统 DevOps 有两个主要组成部分:持续集成 和 持续部署,合称为 CI/CD。
- 持续集成 指的是创建主代码分支、进行更改、推送、测试并最终合并更改的实践。
- 持续部署 指的是在代码最终被推送到生产环境之前运行的一系列测试。
因此,标准的 CI/CD 流程可以概括为:开发 -> 测试 -> 合并 -> 部署。

机器学习系统的独特挑战 🤖
上一节我们介绍了传统的 DevOps,本节中我们来看看机器学习系统的开发。机器学习模型的开发同样需要谨慎关注细节,但与传统 DevOps 有一些关键区别。
在机器学习系统中,代码并不是唯一的变化来源。用于训练和验证模型的底层数据可能会随时间变化,机器学习模型本身也可能通过持续的再训练而改变。

此外,在任何机器学习系统中,机器学习模型的输出也需要进行验证和质量检查。这是因为随着模型的演变,我们无法事先知道系统在所有不同情况下的正确输出是什么。因此,我们需要对模型的行为和输出给予额外关注。
MLOps 的工具生态 🧰
市场上有许多被数据科学家和开发者使用的 MLOps 工具。MLOps 的范围非常广泛,涵盖了管理机器学习全生命周期的各种工具。

以下是 MLOps 工具生态的主要类别:
- 基础设施管理工具:机器学习通常需要定制硬件,例如被称为 GPU 的处理器。存在专门管理这类基础设施的工具。
- 数据管理工具:用于管理和版本控制训练数据。
- 模型管理工具:用于跟踪、版本控制和注册机器学习模型。
- 部署工具:用于将训练好的模型部署到生产环境。
- 监控工具:用于监控 AI 模型在生产环境中的行为,确保其输出符合预期。
市面上有许多工具,例如亚马逊的 SageMaker 提供了一个集成的平台来处理许多上述功能。此外,还有像 PaperSpace 这样的平台,以及 Pachyderm 这类专注于数据流水线和模型管理的专业工具。当然,也存在许多专注于单一功能(如专门部署)的工具。
这些工具对于数据科学家至关重要,能确保他们构建的大规模机器学习应用能够稳定、可靠且无故障地运行。

总结 📝

本节课中,我们一起学习了机器学习运维(MLOps)。我们从传统的 DevOps 及其 CI/CD 流程讲起,理解了其系统化管理代码变更的核心思想。接着,我们探讨了机器学习系统引入的独特挑战,即数据、模型和输出的动态变化。最后,我们概述了支撑 MLOps 实践的广泛工具生态,这些工具帮助管理从基础设施、数据、模型到部署和监控的整个机器学习生命周期。掌握 MLOps 是确保机器学习项目成功从实验走向生产的关键。

课程 P32:AI产品中的数据挑战与策略 🧠
在本节课中,我们将要学习数据在构建机器学习系统中的核心作用,并探讨当缺乏大规模数据集时,如何启动和推进AI产品开发。我们将分析“鸡生蛋还是蛋生鸡”的经典困境,并介绍五种实用的解决策略。
数据是训练现代AI系统,特别是监督学习系统的基石。然而,许多有前景的AI构想面临一个根本性挑战:没有数据就无法构建有效的系统,而没有有效的系统又难以获取数据。这个问题在金融服务、医疗等数据敏感的领域尤为突出。
数据的重要性与“鸡蛋”困境 📊


在之前的课程中,我们讨论了不同机器学习算法之间的性能差异。实际上,对于同一算法,使用大量数据与少量数据训练出的模型,其性能差异往往远大于不同算法之间的差异。这意味着,获取正确类型且足量的训练数据,通常是项目成功更关键的因素。
现有公司通常拥有历史数据来启动其“AI飞轮”,但新产品或初创公司则可能陷入困境:没有用户,就没有数据;没有数据,就无法构建吸引用户的AI产品。这不仅困扰着企业家,也同样是产品经理在开发新产品时需要解决的核心问题。
解决“鸡蛋”困境的五种策略 🛠️

上一节我们明确了数据匮乏的挑战,本节中我们来看看五种可以打破这一循环的策略。
策略一:从非AI产品起步

第一种策略是先创建一个能解决用户问题的非AI产品或服务。这个产品本身可以生成后续训练AI系统所需的数据。

以下是两个典型案例:
- Facebook:最初是一个纯粹的社交网络平台,专注于帮助人们建立连接。随着用户增长,平台自然生成了海量社交数据。这些数据后来被用于训练AI系统,以个性化新闻推送和实现精准广告。
- Lemonade:这家保险科技公司最初提供了一个用户友好的数字化保险产品,并未使用复杂AI。在积累了足够多的用户和数据后,他们逐步引入AI能力,如今已能用AI自动化处理绝大部分保险报价和理赔流程。
策略二:与数据持有方合作

当你难以自行生成所需数据时,可以考虑与拥有数据但可能缺乏AI专业知识的组织建立合作关系。

这种方法在医疗等数据获取门槛高的领域特别有用。例如,Google与斯坦福医学的合作:谷歌利用其AI能力,结合斯坦福医院的患者数据,共同开发了能更准确识别医院监护环境中真实警报与误报的AI系统。

需要注意的是,潜在合作伙伴可能更倾向于与大型科技公司合作。因此,寻找合适的伙伴并创造性地思考合作模式(例如与特定行业的中小型企业合作)至关重要。
策略三:众包数据标注

在许多情况下,原始数据(如图片、文本)是大量存在的,但缺乏清晰的标签。这时,可以利用众包平台来获取标注数据。
以下是获取标注数据的两种方式:
- 利用专业众包平台:例如使用Amazon Mechanical Turk或Scale.ai等平台,雇佣人力对数据进行标注。
- 设计产品内标注流程:更巧妙的方式是将数据标注融入用户的产品使用流程中。例如:
- 网络安全产品:运维工程师在处理警报时,标记其是否为真实威胁或误报,这个过程就产生了高质量的标注数据。
- 音乐推荐服务:如Pandora,用户通过“点赞”或“点踩”来反馈推荐结果,这些行为本身就是对音乐的标注。

策略四:利用公开数据与模型

在尝试获取私有数据之前,应首先探索公开可用的资源。如今,网络上有许多高质量的数据集和预训练模型可供使用。


尽管完全基于公开数据构建的产品可能面临较低的竞争壁垒(因为对手也能获取相同数据),但产品的防御性可以通过其他创新(如独特的算法、优秀的用户体验或特定的业务逻辑)来构建。此外,可以利用迁移学习等方法,基于公开的预训练模型,使用你有限的私有数据进行微调,从而快速构建定制化AI能力。

策略五:重新思考对数据的需求
虽然当前大多数实用AI基于监督学习,但并非所有AI都需要大型标注数据集。我们可以考虑其他不严重依赖大数据的方法。


以下是两种替代路径:
- 强化学习:这类算法通过与环境的交互进行学习,通过“试错”来优化策略,无需预先准备大型静态数据集。例如,DeepMind的AlphaGo和AlphaZero就是通过自我对弈的强化学习,掌握了复杂的围棋策略。
- 专家系统:这是一种基于规则的系统,通过编码领域专家(如医生)的知识来构建。虽然其性能可能不及基于海量数据训练的深度学习模型,但在早期阶段,一个设计良好的专家系统可能“足够好用”,能够吸引首批用户,从而为后续收集数据、构建更复杂的机器学习系统创造条件。其核心是
if-then规则集合。
总结 📝

本节课中我们一起学习了数据在AI产品开发中的核心地位以及应对数据短缺的多种策略。我们认识到,一个强大的AI战略必须包含周密的数据管理、收集和标注计划。然而,当数据访问成为瓶颈时,不应轻易放弃雄心勃勃的AI项目。

我们可以通过从非AI产品起步、寻求合作伙伴、众包标注、利用公开资源,甚至转向强化学习或专家系统等方法来创造性地启动项目,逐步积累数据,最终打破“鸡生蛋还是蛋生鸡”的困境,推动AI飞轮转动起来。
课程 P33:麦当劳如何利用AI驱动增长 🍟🤖


在本节课中,我们将通过麦当劳全球菜单战略副总裁艾德·李的访谈,学习一家全球性餐饮企业如何将人工智能(AI)和机器学习(ML)应用于实际业务,以提升客户体验、优化运营并驱动增长。
概述:麦当劳的AI战略领导
作为副总裁,艾德·李领导麦当劳的全球菜单战略团队。

在这个角色中,他负责推动核心类别和品牌的增长,创建未来增长平台,并在麦当劳构建食品营销和开发能力。最近,他还领导了全球战略洞察团队,利用消费洞察和商业分析为麦当劳寻找新的增长机会。
在加入麦当劳之前,艾德在凯洛格公司工作了12年,积累了丰富的快速消费品行业经验。
AI在麦当劳的核心价值驱动
上一节我们介绍了艾德·李的背景和角色,本节中我们来看看AI为麦当劳顾客带来的核心价值。艾德指出,最大的价值驱动在于个性化和客户体验。
以下是AI带来的两个关键结果:
- 个性化体验:麦当劳每天服务约6000万顾客。利用大数据和AI,公司可以更深入地理解每一位顾客,从而提供更符合个体需求的个性化体验。
- 提升客户满意度:麦当劳每年通过收据等渠道收集约6000万份客户反馈。利用AI挖掘这些数据,可以快速识别服务短板,并采取措施改善体验,最终推动业务增长。
AI在“得来速”的创新应用
我们了解了AI带来的宏观价值,现在聚焦到一个具体场景。对于麦当劳而言,“得来速”是一个至关重要的销售渠道,其销售额占比在疫情期间从约50%上升至超过60%。
麦当劳通过收购Dynamic Yield公司,将个性化技术应用于“得来速”点餐环节。
系统工作原理简述:
当顾客驾车进入“得来速”时,系统会实时分析多种数据,例如:
- 当前天气
- 前10辆车的点单记录
- 周二下午两点的常见点单习惯
基于这些分析,菜单板会实时生成个性化建议。例如,当顾客点了一个双层芝士汉堡时,系统会立即推荐与之搭配的饮品或小食。这项创新成功提升了销售额和客户满意度。
自然语言处理(NLP)的实际应用
除了个性化推荐,自然语言处理(NLP)是AI在麦当劳的另一项重要应用。它主要用于分析海量的非结构化文本数据,例如顾客在满意度调查中填写的评论。
NLP的应用场景:
面对成千上万条文本评论,人工分析效率低下。NLP技术可以:
- 挖掘情感倾向:了解顾客对某款新产品或某项新服务(如疫情期间的安全协议)的真实感受。
- 提供实时反馈:将分析结果快速反馈给每一家单独的餐厅,帮助其迅速改进运营,提升顾客体验。
因此,AI不仅服务于消费者端的个性化,也深入到每家门店的日常运营优化中。
麦当劳AI战略的演进与实施
那么,麦当劳应用AI的方式与五年前有何不同?艾德指出,这经历了从偶然尝试到战略核心的转变。
如今,麦当劳以明确的战略意图在全公司推行AI。其核心是建立了数据与分析卓越中心。这些中心通过收购(如硅谷和特拉维夫的公司)和内部建设,汇聚了尖端知识与能力。
来自不同国家、不同职能的业务实践者会与这些中心协作,共同确定年度优先事项,并将资源和注意力集中在公司最高优先级的领域。这使AI应用成为一种常态化的商业实践。
业务部门与技术专家的协作模式
我们讨论了战略层面,接下来看看具体执行中,业务部门如何与技术专家协作。在麦当劳,通常由业务部门(如全球洞察小组或某国运营团队)提出具体的业务问题。
协作流程示例:
- 业务方提出问题(例如:如何评估新产品、送餐服务和促销活动各自对销售额的贡献?)。
- 问题被提交给与卓越中心相连的业务人员或中心的专家。
- 团队利用AI工具进行分析,得出洞察。
目前的一个重要趋势是工具的“民主化”。市场上出现了许多新工具和平台,能让业务单位更容易地进行自主分析。麦当劳的目标不是让一个小组包揽所有工作,而是建立一个专家中心,赋能全公司其他部门。
A/B测试与AI的结合
在利用先进的AI和机器学习方法时,A/B测试是一个至关重要的组成部分。它应该与AI项目的实施同步推进,因为它能提供快速、实时的反馈。
A/B测试的关键要素:
许多人可能不知道,新闻网站的标题经常通过A/B测试来优化点击率。麦当劳正将这一理念引入实体空间。
应用实例:
在“得来速”的户外数字菜单板上,麦当劳可以进行多种A/B测试:
- 测试不同美食图片的吸引力。
- 测试字体、大小和版式布局。
- 根据时段动态调整内容(例如,下午3点是否为咖啡预留更多展示空间)。
通过这些测试,麦当劳可以迅速确定到单店级别的最优菜单板设计,从而最大化销售机会。A/B测试在公司所有不同的AI应用中都得到了严格使用。
展望:让创始人惊叹的AI创新
最后,让我们展望一下未来。如果麦当劳创始人雷·克罗克今天还在世,哪项AI创新会让他惊叹?艾德提到了目前正在测试的“得来速”语音自动化。
语音AI机器人的潜力:
一个AI机器人可以与驾车前来点餐的顾客互动并接收订单。如果将其与数字菜单板展示的优惠或忠诚度计划连接,将能创造高度个性化的体验。
想象一下这个场景:
顾客驾车到来,AI机器人可以说:“你好,玛丽!感谢光临麦当劳。看起来你还有200个忠诚积分,你想点一个芝士汉堡吗?”
此外,机器人可以说多种语言,或在特定促销期模仿知名角色(如达斯·维德)的声音。艾德认为,这种水平的创新和技术肯定会让雷·克罗克感到惊讶。
总结
本节课中,我们一起学习了麦当劳如何将人工智能从战略规划落实到具体业务场景:
- 核心价值:AI驱动个性化体验和客户满意度提升。
- 场景应用:在“得来速”通过实时数据分析提供个性化推荐;利用自然语言处理(NLP) 分析客户反馈。
- 战略与协作:公司建立了数据与分析卓越中心,以战略意图推动AI,并通过“民主化”工具促进业务部门与技术专家的协作。
- 关键方法:将A/B测试与AI结合,在实体场景中快速验证和优化方案。
- 未来展望:语音AI机器人等创新将继续重塑顾客体验。
通过麦当劳的案例,我们可以看到,AI的成功应用离不开清晰的业务目标、跨部门的紧密协作以及对快速实验和反馈的重视。


课程P34:人工智能的商业应用 🚀

在本课程中,我们将探讨人工智能(AI)在商业领域,特别是营销和金融服务行业中的实际应用。我们将了解AI如何作为一项通用技术,影响多个行业和职能,并通过具体案例理解其运作方式与价值。
人工智能作为通用技术 🌉
在之前的课程中,我们讨论了人工智能,特别是机器学习,如何表现出成为通用技术的早期指标。
人工智能作为通用技术的意义在于,我们需要认识到大多数行业都可能因其而发生变化。我们看到人工智能职位广泛分布于医疗、金融、制造业、IT咨询、教育等多个行业。同样,人工智能也正在影响这些行业内的多个职位职能,范围从营销到人力资源和人员管理。
人工智能在营销中的应用 🎯
本节我们将重点讨论人工智能在营销功能中的应用,特别是在金融服务行业的背景下。
我的同事拉古教授将首先探讨人工智能与客户旅程的关系。具体来说,他将解释客户旅程是什么,以及人工智能如何在旅程的不同阶段提供帮助。他将通过一些案例研究,帮助我们理解人工智能在此领域的相关性。
接下来,我将讨论人工智能在个性化中的作用。我将从推荐系统的简要介绍开始,例如我们在亚马逊上看到的“购买此商品的顾客也购买了”功能,或者Netflix和Spotify的内容推荐。
以下是推荐系统的一个基础示例:
# 一个简单的协同过滤推荐逻辑示意
def recommend_items(user_history, all_users_history):
# 基于用户历史行为与其他用户行为进行匹配,找出相似用户喜欢的物品
similar_users = find_similar_users(user_history, all_users_history)
recommended_items = aggregate_preferences(similar_users)
return recommended_items
我将探讨不同推荐系统面临的具体挑战,我们如何利用人工智能应对这些挑战,以及个性化在影响消费者参与度方面的潜在作用。
人工智能在金融服务行业中的应用 💳
现在,让我们将目光转向人工智能在金融服务行业中的具体应用。
我将首先讨论诸如信用卡欺诈等问题,以及机器学习如何应用于欺诈检测。我们将探讨机器学习在该领域应对的其他挑战,包括身份验证、贷款承保、客户流失预测、信用风险评估和投资管理等。
例如,一个简单的欺诈检测模型可能基于交易特征的异常评分:
欺诈概率 = f(交易金额、地点、频率、设备指纹...)
其中,函数 f 通常是一个由历史数据训练得到的机器学习模型(如逻辑回归、随机森林或神经网络),用于计算某笔交易是欺诈交易的可能性。

实践者视角:在企业中利用人工智能 🛠️
最后,我们将从数据和人工智能从业者的角度出发,探讨他们如何在企业内部有效地利用人工智能技术。这将帮助我们理解从理论到实践的跨越。

总结 📝
在本节课中,我们一起学习了人工智能作为通用技术的广泛影响,重点探讨了其在营销个性化(如推荐系统)和金融服务(如欺诈检测、风险管理)等领域的具体应用。通过理解这些案例,我们可以更好地认识到人工智能如何改变商业运作模式并为不同行业创造价值。

课程 P35:人工智能应用模块简介 🧠
在本节课中,我们将从客户视角出发,探讨人工智能在商业领域的应用。我们将了解客户旅程的概念,并分析人工智能在其中扮演的角色。

目前,零售、银行、制药等多个行业都在经历由人工智能、机器学习和大数据驱动的变革。例如,联邦快递和微软等公司都在积极应用这些技术。理解这些应用的最佳方式,是思考它们具体实现了什么功能。


上一节我们概述了人工智能应用的广泛背景,本节中我们来看看几种主要的人工智能应用类型。

语音人工智能 🗣️
语音人工智能旨在让用户通过声音更便捷地控制设备或获取服务。

以下是语音人工智能的几个例子:
- 智能音箱:例如谷歌智能音箱和亚马逊Echo,它们允许用户通过语音指令控制智能家居设备或获取信息。
- 流媒体服务:例如Netflix,用户可以通过语音轻松切换影片的语言或进行搜索。
- 企业级应用:在客户服务中心,语音AI可以用于分析来电客户的身份、情绪、通话时长以及座席的响应效率,从而优化服务流程。
更具未来感的设想,如电影《她》中描绘的人机关系,也属于语音交互的范畴。目前,与Alexa或Google Assistant的对话已初具雏形。
视觉人工智能 👁️

视觉人工智能主要处理图像和视频信息,实现识别、追踪和增强现实等功能。

以下是视觉人工智能的几个应用方向:
- 包裹追踪:通过手机扫描二维码等代码,轻松追踪物流包裹。
- 虚拟试衣:用户上传身高、体型等数据,AI可以推荐合身的衣物,无需亲临实体店试穿。
- 社交媒体分析:例如在TikTok上,企业可以分析用户观看品牌视频时的行为和反应,以优化营销策略。
- 图像识别:这项技术应用广泛但也存在争议,涉及隐私问题,例如IBM就因此退出了相关业务领域。

视觉AI还有两个重要的前沿应用:
- 自动驾驶汽车:车辆通过视觉系统实时识别道路标志、行人和其他车辆,以实现安全驾驶。其核心功能可概括为:
识别对象(图像) -> 分类(例如:“停止标志”、“行人”) -> 决策(例如:刹车)。 - 智慧城市:城市基础设施利用视觉AI识别市民需求,以提供更无缝的服务体验,但这同样面临复杂的隐私挑战。

语言人工智能 📝
语言人工智能专注于文本的理解、生成和翻译。
以下是语言人工智能的典型应用:
- 实时翻译:手机应用可以轻松将一种语言(如印地语)翻译成另一种语言(如英语)。
- 文本生成:例如GPT-3这类模型,能够根据提示撰写完整的文章,这可能会对出版和内容创作行业产生深远影响。


本节课中,我们一起学习了人工智能的三种主要应用类型:语音人工智能、视觉人工智能和语言人工智能。每种类型都通过不同的方式(如语音控制、图像识别、文本处理)嵌入客户旅程,解决特定问题并创造价值。理解这些分类有助于我们明确兴趣所在,并思考如何将AI技术应用于实际场景。

课程 P36:客户体验与AI应用 🧭
在本节课中,我们将学习如何从客户旅程的视角来思考人工智能(AI)的应用。我们将探讨客户旅程的非线性特征,并通过迪士尼和联合利华的实际案例,理解如何识别客户需求,并利用技术(如大数据和机器学习)来创造无缝的客户体验。
理解客户旅程 🗺️
在之前的模块中,我们讨论了许多AI应用。思考AI应用的最佳方式是聚焦于客户需求。而要理解客户需求,最好的方法就是剖析他们的“客户旅程”。
一个典型的客户旅程始于对需求的认知。例如,你开始考虑购买一件新毛衣。接着,你会查看“考虑集”,即市场上哪些公司能帮你找到一件好毛衣。然后,你开始仔细评估所有不同的选项,并可能最终做出购买决定。购买后,你会回顾这次体验,积极的反馈会带来满意,而消极的体验则可能让你重新开始寻找。
然而,在当今时代,这个旅程远非线性。客户可能在Instagram上看到朋友的毛衣,访问网站,查看评论,并在旅程中的任何一点因产品不可用而重新开始。这种非线性特征,虽然看似复杂,却为AI应用提供了巨大的机会。无论是通过语音、视觉还是语言技术,AI都可以在客户旅程的各个节点提供帮助,满足他们的需求。
客户细分与个性化机会 🎯

上一节我们介绍了客户旅程的基本概念,本节中我们来看看客户旅程的差异性。幻灯片提示我们,每个人的客户旅程都可能大不相同,这引出了“客户细分”的概念。
“没有两个客户是相同的”这一想法,不应仅仅被视为挑战或限制,更应被看作一个巨大的机会。人工智能与各种可能性相结合,能够实现高度定制化。关键在于能够识别客户处于旅程的哪个阶段,并了解他们的具体需求。这种洞察力正是创造价值的机会所在。
为了更具体地理解,让我们来看一些例子。
案例研究:迪士尼的魔法腕带 🏰
让我们以一个广为人知的例子——迪士尼——来具体分析。许多人都去过迪士尼度假区或听说过它。迪士尼投入巨资开发了一项围绕“魔法腕带”的技术。
幻灯片中的人物佩戴的正是魔法腕带。这条腕带能为客户提供便利,同时也为迪士尼收集大量信息。例如,客户在抵达前可以将住宿信息、无现金支付功能以及心仪的游乐项目选择录入腕带。它甚至可以替代传统的“快速通行证”。
从迪士尼的角度思考,他们为何要投资这项技术并关心这些数据呢?以下是几个关键原因:
以下是迪士尼利用魔法腕带数据的几个方面:
- 运营优化:度假区内的客流管理是一大挑战。通过数字化收集家庭游客的动线、项目偏好等数据,迪士尼能实时了解各区域的客流情况,从而更高效地进行运营管理。
- 市场营销与个性化:了解客户对哪些游乐设施感兴趣、他们的期待是什么,有助于迪士尼提供个性化的推荐和营销信息,极大提升客户体验。
- 新产品开发:这些数据能揭示游客的潜在需求。例如,与迪士尼的流媒体平台Disney+相结合,可以探索全新的互动体验或产品开发方向。
更广泛地说,这个案例启示我们,应少纠结于技术本身,多思考客户旅程:客户的需求是什么?如何让他们的体验更无缝?然后,我们再思考如何利用新技术来实现这一目标。
案例研究:联合利华的货车追踪 🚚
上一节我们看了面向消费者(B2C)的迪士尼案例,本节中我们来看看一个企业对企业(B2B)的例子——联合利华。
联合利华作为大型消费品公司,为其送货车队实现了实时追踪。这看似与迪士尼的魔法腕带应用迥异,但让我们先从根本问题出发:他们为什么这么做?

联合利华的客户主要是零售商。零售商希望清楚了解库存位置和到货时间。此外,许多零售商倾向于更频繁地下单,但每单数量更少。在实现货车追踪前,这对联合利华的物流来说是沉重负担。
因此,联合利华要解决的核心客户需求是:提升供应链透明度与物流效率。那么,他们是如何做的呢?机器学习等技术在此发挥了作用。
联合利华的做法类似于为货车打造了一个“优步”系统。他们追踪货车路线,并结合天气、交通模式等数据,目标是:
- 公式/目标:
最大化准时交付次数且最小化重复出行与空驶里程。
最终,他们通过优化路线,不仅减少了碳排放,还增加了单次货车运输的货品量,实现了双赢。
请注意我们提问的顺序:“为什么”永远是第一个问题,它定义了客户需求。然后,“如何”利用技术来实现解决方案。管理者应始终从客户视角出发进行思考。
管理问题框架与总结 📝

在深入探讨客户旅程的其他方面之前,我们先简要总结一下已讨论的内容。以下是一套管理者在考虑新技术应用时应提出的问题框架:
以下是关键的管理问题:
- 为什么(Why):你正在解决什么客户需求?(无论是B2C还是B2B场景)
- 谁与障碍(Who & Obstacles):站在客户角度思考,他们面临的主要障碍是什么?
- 如何(How):需要哪些数据资产和技术来解决这些问题?
- 投资回报率(ROI):始终关注解决方案带来的投资回报洞察。

很多时候,管理者容易对最新的“闪亮技术”感到兴奋。保持对趋势的了解是好的,但一旦开始思考投资回报率(ROI),就能更冷静地决策资金应该投向哪里,以及在全面投资前,哪些地方应该先进行试点测试。

本节课中,我们一起学习了如何通过客户旅程的视角来规划和评估AI应用。我们认识到客户旅程是非线性的,且因人而异,这恰恰是进行个性化创新的机会。通过迪士尼和联合利华的案例,我们掌握了从“为什么”(客户需求)出发,再到“如何”(技术实现)的分析方法,并最终要始终以投资回报率为导向进行决策。记住,技术是工具,满足客户需求、提升客户体验才是核心目标。

课程 P37:人工智能与客户旅程 🧭
在本节课中,我们将探讨人工智能如何与客户旅程相结合。我们将重点学习人工智能的两大核心应用:预测客户旅程与缩短客户旅程。通过具体的商业案例,我们将理解机器学习与人工智能技术如何帮助企业更好地理解和服务客户。


预测客户旅程 🔮

上一节我们介绍了课程主题,本节中我们来看看人工智能如何用于预测客户旅程。其核心思想是:通过分析客户的历史行为数据,算法可以预测他们未来可能采取的行动或感兴趣的内容。
以下是几个预测客户旅程的典型例子:
- 亚马逊的商品推荐:如果你是亚马逊Prime会员,登录后可能会看到“经常一起购买”或基于你过往购物记录的推荐。背后的算法通过分析你过去的购买行为,预测你未来可能想买什么。其逻辑可以简化为一个推荐公式:
推荐项 = f(用户历史行为, 相似用户行为)。 - Netflix的内容推荐:Netflix的首页因人而异。算法根据你观看过的影片,个性化地推荐你可能感兴趣的未来内容。这同样基于用户行为数据的模式识别。
- Stitch Fix的服装订阅:对于订阅用户Raghu,Stitch Fix会分析他已拥有的衣物,然后预测并推荐他下一次可能想购买的服装款式。

在所有这些例子中,机器学习和后台算法的目标是:审视你迄今为止的行为,预测你下一步将去向何方。
缩短客户旅程 ⚡
理解了预测之后,我们来看看人工智能如何帮助缩短客户旅程。这里的核心目标是:在客户产生需求后,利用技术手段尽可能简化从“意识”到“购买”的步骤,提升效率与体验。
以下是几种缩短客户旅程的技术应用:
- 视觉AI应用(如Snap Find Shop):你可以用手机拍下别人穿的好看鞋子,该应用会通过图像识别技术告诉你鞋子的品牌或推荐类似商品。这直接跳过了“搜索-比价”等环节,将“看到”(意识)与“购买”之间的旅程大幅缩短。
- 虚拟试衣间(如Style.me, Magic Mirror):在线购买服装时,虚拟试衣技术让你能直观看到上身效果,减少了因尺寸、款式不合而退货的麻烦,降低了决策成本和风险,从而缩短了购买旅程。
- 语言AI与聊天机器人(B2B场景):许多企业使用聊天机器人来与客户进行即时沟通,快速解答问题或处理交易。这加速了B2B领域的商务流程,从“询盘”到“成交”的旅程变得更高效。
- 工业视觉辅助(如Google Glass):在工厂车间,工人通过智能眼镜等设备,能直接看到操作指引,无需翻阅厚重的手册。这从工作流程上缩短了“遇到问题”到“找到解决方案”的旅程。
- 语音AI助手(如Amazon Echo, Google Home):你可以让Alexa播放音乐,或让Google Home搜索并预订附近餐厅。语音交互使得从“产生需求”(如想听歌、想吃饭)到“满足需求”的路径变得极其便捷。


这些应用,无论是基于语音、语言还是视觉AI,其共同目标都是:在客户意识到某个特定需求后,利用人工智能技术,最大限度地简化并加速满足该需求的整个过程。
总结 📝

本节课中,我们一起学习了人工智能在客户旅程管理中的两大核心作用。
首先,我们探讨了预测客户旅程。通过分析历史数据,AI算法能够预测客户未来的行为或偏好,帮助企业进行个性化推荐,例如亚马逊的商品推荐和Netflix的影片推荐。
接着,我们研究了缩短客户旅程。AI技术(如视觉识别、聊天机器人、语音助手)能够简化从需求产生到需求满足的各个环节,为客户提供更直接、高效的体验,例如拍照购物和虚拟试衣。

总而言之,人工智能通过预测和缩短旅程,正在深刻改变企业与客户互动的方式,使服务变得更加智能、便捷和个性化。

课程 P39:利用机器智能识别新的风险形式 🧠
在本节课中,我们将探讨在应用机器学习和人工智能技术时可能遇到的风险与挑战。我们将通过具体案例,理解数据来源、隐私保护以及模型更新等核心问题,帮助你建立对AI应用潜在风险的全面认识。
理解数据来源的风险
上一节我们介绍了课程主题,本节中我们来看看数据来源可能带来的风险。机器学习模型的输出质量高度依赖于输入数据的质量与代表性。如果训练数据存在偏差,模型就会继承并放大这些偏差。
以下是两个来自亚马逊的典型案例,用以说明数据偏差的普遍性:
-
案例一:AI招聘工具的性别偏见:亚马逊曾开发一个用于筛选软件开发职位简历的AI工具。该工具以公司现有员工的简历作为训练数据。由于历史原因,亚马逊的软件开发人员多为男性,导致训练数据存在性别不平衡。结果,该AI工具学会了对包含“女性”相关词汇(如“女子学院”)的简历给予较低评分,从而产生了对女性的歧视性偏见。这个案例表明,问题往往出在数据本身,而非工具。
-
案例二:Prime服务的“种族歧视”算法:亚马逊在考虑向美国波士顿地区扩展Prime服务时,使用算法分析不同邮政编码区域的盈利潜力。算法发现,围绕低收入社区罗克斯伯里(Roxbury)的周边区域更具商业价值,因此决定向罗克斯伯里周边区域提供Prime服务,但跳过罗克斯伯里本身。这形成了一个“甜甜圈”状的服务覆盖图。尽管从纯商业角度看可能有其逻辑,但该决策因涉嫌基于社区经济状况(常与种族相关)进行歧视而引发巨大争议。这个案例揭示了算法决策可能忽视社会公平,带来伦理风险。
这两个例子提醒我们,在利用客户数据进行预测时,必须首先审视数据的代表性和普遍性。
关注数据集与隐私问题
理解了数据来源的风险后,我们接下来关注数据集组合与客户隐私这一重大问题。全球各地如欧盟的GDPR和加州的隐私法案等,都对数据保护提出了严格要求。
在利用客户数据进行旅程匹配、定制化或个性化服务时,必须确保不侵犯用户隐私。一个常见的误区是认为“匿名化”数据就绝对安全。
以下是一个关于Strava公司的案例:
Strava是一款运动社交应用,用户可以在上面分享跑步、骑行等活动的路线。该公司发布了一份“全球热图”,聚合了数亿用户的匿名活动轨迹数据。理论上,这些数据无法识别到个人。
然而,有人将这份热图与公开的谷歌地图进行叠加分析。结果,他们成功识别出了一些位于阿富汗等敏感地区的美军基地和巡逻路线,因为那些区域出现了异常密集的运动轨迹。这暴露了军事人员的活动规律,造成了严重的安全隐患。
这个案例的核心教训是:即使单个数据集是匿名的,当它与其他公开或私有数据集结合时,也可能重新识别出个人身份或泄露敏感信息。因此,保护隐私不仅要考虑自身数据集,还需警惕数据聚合带来的风险。
模型与数据的持续更新
最后,我们来看看模型使用过程中的动态风险。这与数据本身有关,但更侧重于数据的时效性和应用场景的演变。
你使用的数据可能是一年或两年前的,而客户行为、市场环境和竞争格局却在不断变化。因此,你需要思考:
- 客户购买产品的频率和旅程是否发生了变化?
- 旅程中的哪些环节保持了稳定(“粘性”)?
- 哪些环节因为新技术或新竞争者的出现而发生了改变?
机器学习模型并非一次部署就一劳永逸。数据不是免费的,意味着持续收集新数据、测试新模型需要成本与主动性。
建议采取“测试-学习”的敏捷方法:不断收集新数据,启用新模型进行验证,并评估模型在新数据上的预测表现。你实践得越多,就越能理解机器学习模型在获取新数据后需要如何“更新”,以及旧模型在何处需要调整。
课程总结

本节课中,我们一起学习了在应用机器智能时识别新风险形式的三个关键方面:
- 数据来源风险:训练数据若存在历史偏差(如性别、地域),会导致模型产生歧视性输出。核心在于审视数据的代表性和普遍性。
- 数据隐私风险:“匿名化”数据在与其他数据集结合时,仍可能泄露个人身份或敏感信息。必须综合考虑数据聚合效应,严格遵守隐私法规。
- 模型迭代风险:市场与客户行为持续变化,模型必须随新数据的输入而持续更新和验证,采用“测试-学习”的敏捷方法保持预测有效性。

保持对数据质量、隐私保护和模型时效性的主动关注,是负责任且有效地利用机器智能的关键。
课程P4:大数据分析 vs. 传统分析 🆚

在本节课中,我们将探讨大数据分析与传统数据分析的核心区别,并了解企业实施大数据分析所需的新技能与工具组合。
概述
大数据分析与传统数据分析在方法和目标上存在显著差异。传统分析通常是假设驱动的,而大数据分析则更具探索性和迭代性。这种差异直接影响了组织所需的技能和工具。
大数据分析 vs. 传统分析
上一节我们概述了课程内容,本节中我们来看看大数据分析与传统分析的具体区别。

传统数据分析通常始于一个具体的管理问题或假设,由统计学家或数据科学家提出。其核心目标是分析数据以验证该假设,从而确认或否定其正确性。整个过程是假设驱动的。
相比之下,大数据分析更具探索性。它通常从数据本身出发,而非一个具体的假设,并伴随着广泛的商业问题。通过探索性分析,我们旨在发现数据中的模式、关系或相关性,这些发现可能暗示某些商业洞察。有时,这些洞察甚至会促成新假设的形成,进而进行更正式的假设检验。简而言之,大数据分析是一个数据引领方向的迭代探索过程。
大数据分析所需的新技能
理解了方法上的差异后,我们来看看实施大数据分析需要组织具备哪些新的技能或能力。这些技能主要可分为三类。
以下是三类核心技能:
-
管理数据
这项技能关乎如何有效地组织数据,以便后续进行分析。它可能涉及采购第三方数据管理工具,也可能需要内部的数据专家(如数据架构师或首席数据官)来制定数据治理政策,并设计数据在本地或云端的组织架构。 -
理解数据
这项技能涉及使用工具从数据中提取智能,大致属于数据科学的范畴。它包括:- 进行传统分析的统计学家。
- 应用机器学习、数据挖掘等现代技术的专家。
- 数据可视化能力,因为关键不仅在于分析,还在于能以有意义的方式构建故事并呈现洞察,让所有利益相关者都能轻松理解。
-
基于数据采取行动
这是管理者的核心技能。它要求管理者能够运用数据分析的洞察来辅助决策。这需要两种子技能:- 数据技能:管理者需能解读数据科学家的分析,并能在适当时刻挑战分析结果,因为数据洞察有时可能具有误导性或存在虚假相关性。这要求管理者具备基本的数据科学知识,以理解分析的局限性。
- 领域专业知识:数据通常展示的是过去的模式,需要具备相关领域知识的管理者提出正确的问题,并将数据洞察转化为实际行动。
因此,在数据时代最成功的管理者,往往是那些既能理解数据,又具备深厚垂直领域专业知识,并能将二者结合以推动行动的人。
大数据分析所需的新工具
除了新技能,大数据分析也需要新的工具组合。从功能上看,这些工具主要分为两类。
以下是两类核心工具:
- 数据管理工具
这类工具主要用于帮助组织收集、存储和管理公司内的所有数据。

- 数据分析工具
这类工具帮助我们分析数据,并从数据中提取有意义、可管理的智慧与信息。
在下一节课中,我们将更深入地探讨数据管理工具的具体内容。

总结
本节课中,我们一起学习了大数据分析与传统分析的本质区别。传统分析是假设驱动的,而大数据分析是数据驱动的探索过程。这种转变要求组织培养管理数据、理解数据和基于数据行动的新技能,并配备相应的数据管理与数据分析新工具。掌握这些是企业在数据时代取得成功的关键。

📊 课程 P40:面向分析的组织架构
在本节课中,我们将学习如何为数据分析工作设置有效的组织架构。我们将探讨几种常见的模型,分析它们的优缺点,并帮助你思考哪种架构最适合你所在组织的成熟度。
我们已经讨论了声音、愿景以及各种AI技术。我认为,在组织内部如何获得成功,其关键部分取决于分析结构的设置。因此,让我们通过一些例子来理解不同类型的架构及其可能性,从而在如何让组织更有结构以获取分析成果方面获得一些启发。
🏛️ 集中式模型

我们先从集中式模型开始。这里的理念是建立一个服务整个公司的核心分析单位。
以下是这种模型的优点:
- 跨职能协作:有能力处理跨职能项目。
- 全局视野:核心单位能看到公司各个部门(如营销、财务)的分析活动全貌。
- 知识共享:便于公司不同部门的分析师之间分享想法。
- 高可靠性:中央单位及其分析师对公司具有很高的可靠性。
然而,这种模型也存在一些缺点:
- 资源压力:根据分析师的配置,工作量和时间限制可能会很大。
- 优先级冲突:有时可能优先处理营销项目,有时又需处理运营项目。
- 灵活性不足:作为一个大单位,同时处理多个项目时,灵活性会降低。
🔗 卓越中心模型
上一节我们介绍了集中式模型,本节中我们来看看卓越中心模型。这是一个非常有趣的组合,行业内通常称之为 COE。
其核心思想是尝试兼得两全其美。这意味着有一个小的核心小组(中心小组),同时分析师也嵌入在各个业务单元中。
以下是这种模型的优点:
- 业务知识:嵌入业务单元的分析师拥有实质性的业务知识。
- 集中培训:中心小组负责所有培训,确保标准统一。
- 良好协调:中心小组能在不同业务单元间进行协调。
这种模型的潜在缺点包括:
- 控制力有限:中心小组规模较小,可能对整体分析活动缺乏足够的控制力。
- 支持力度:组织内部对该模型的支持信号强弱会影响其效果。
🧩 职能模型
接下来,我们讨论职能模型。这个模型的选择很大程度上取决于组织的成熟度。
这里的想法是,分析师通常集中在主导分析活动的特定职能内部。例如,公司的财务小组或运营团队可能因为活动密集而集中了大量分析师。
以下是职能模型的优点:
- 聚焦收益:分析集中在最能获益的职能领域,便于评估投资回报。
- 技术评估:有助于理解新技术在特定领域的应用效果。
其缺点则在于:
- 支持不均:其他职能可能得不到所需的分析支持。例如,如果分析师都集中在运营领域,市场营销就可能缺乏支持。
🌐 分散式模型
最后,我们来看一种严格来说不算“模型”的架构——分散式模型。其基本思想是分析师遍布整个组织,但没有中央支持。不幸的是,许多组织目前正处于这种状态。
如果要说优点,那就是某些单位碰巧有分析师,因此能得到支持。但我认为它有很多缺点:
- 不成体系:这并非真正的模型,只是组织不同部分的零星火花,不足以形成燎原之势。
- 缺乏结构:没有一种真正的方法可以期待其形成有效的分析结构。
如果你发现自己的组织正处于这种状态,那么是时候开始思考如何改变分析工作的组织了。
🤔 如何选择模型?
我们讨论了不同的模型:集中式、COE、职能式等。那么,究竟该使用哪个模型?
老实说,这取决于组织的具体需求。在某些组织中,我观察到随着它们变得更加成熟,架构也在演变。最初开始时,你需要一定程度的集中化,以便了解组织内(如营销、运营等部门)正在进行的活动。这样,在一个部门可用的经验或许能在其他部门得到利用。

因此,你需要某种形式的集中化。反过来,你也需要持续监测,确保组织采用的模型与其成熟度保持一致。我看到,在那些更成熟的最佳实践中,组织通常采用类似COE的结构,但同时也在职能单位中嵌入了分析师。
为什么?因为我认为,让分析师理解决策背后的实质性特征非常重要。当分析师构建模型或采用新技术来帮助其业务时,他们需要理解决策者所经历的过程,以及公司内部决策者在采用新技术时面临的障碍。
📝 总结

本节课中,我们一起学习了四种面向分析的组织架构模型:集中式、卓越中心、职能式和分散式。每种模型都有其适用的场景和优缺点。关键在于,没有一刀切的解决方案。你需要审视自己组织的成熟度水平,判断哪种类型的结构最适合你的组织,并随着组织的发展不断调整和优化。
🚀 课程 P41:AI转型实施指南

在本节课中,我们将学习如何在一个组织内成功规划和实施人工智能项目。我们将探讨如何组建团队、识别机会、平衡短期与长期目标,并确保项目最终能带来实际价值与变革。
🤝 组建多元化AI智囊团
上一节我们介绍了课程主题,本节中我们来看看如何启动转型。成功的第一步是在组织内部建立一个专门的团队。
这个团队应由8到12名成员组成,他们分享共同的转型愿景。团队构成应是内部人员与外部专家的结合。
以下是组建团队的核心要点:
- 确保多样性:成员应来自不同的职能领域,以提供多元视角。
- 聚焦共同目标:团队需围绕一套可实施的、能真正推动组织变革的想法凝聚起来。
- 识别内部资源:团队应开始梳理组织内部现有的数据资产和可能自动化的活动清单。
在思考数据和自动化时,必须始终以客户旅程为核心,牢记客户的需求与痛点。
🎯 坚持问题驱动,而非技术驱动
在组建团队后,我们需要确立正确的工作方向。关键在于保持问题驱动的思维,避免被新奇技术本身所诱惑。
这意味着要持续追问“为什么”,明确需要解决的客户需求是什么。只有从问题出发,才能做出明智的技术决策。
基于此视角,我们可以更好地判断:
- 哪些技术当下就有帮助。
- 哪些技术可能未来才有帮助。
- 解决客户需求的方法是什么。
⏳ 平衡短期收益与长期变革
明确了方向后,我们需要规划具体的项目路径。一个健康的AI项目组合应同时包含能快速见效的短期项目和能带来根本性变革的长期项目。
短期项目(例如:开发一个移动应用简化流程)旨在快速展示AI投资的回报,获取“低垂的果实”。建议启动四到五个在不同领域的短期项目,以实现快速收益和多元化验证。
长期项目则通常涉及客户习惯或组织流程的重大改变,需要更长时间和持续投入。
规划时需从组织和客户两个角度,优先考虑那些从长远看能创造最大价值的举措。
🏗️ 设计合适的组织架构
项目规划完成后,我们需要思考支撑它们运行的组织结构。这关系到团队在哪里、以何种模式运作。
回顾我们之前讨论过的分析型组织,常见的模型包括:
- 卓越中心模型:集中化的专家团队。
- 功能模型:AI能力嵌入各业务部门。
选择哪种模型取决于组织的成熟度。关键在于明确问责制——谁对不同的项目负责。清晰的责权划分是项目成功的重要保障。
📊 持续追踪投资回报与风险
最后,在整个AI转型过程中,我们必须建立持续的评估机制。不能只关注投入,更要关注产出和风险。

我们需要系统性地思考:
- 投资回报率:如何确保所有投资都能带来正的财务或业务回报?
- 各类风险:包括技术风险、业务风险等。
- 隐私与合规问题:在数据应用过程中严格遵守相关规定。
跟踪这些指标,能确保我们的行动始终围绕创造真实价值,而不仅仅是追逐技术热点。
✅ 总结与核心建议
本节课中,我们一起学习了成功实施AI转型的完整框架。
核心公式可归纳为:
成功AI转型 = 多元化团队 × 问题驱动视角 × (短期收益 + 长期变革) × 清晰组织架构 × 持续ROI追踪
记住,在拥抱最新AI与机器学习技术时,切勿忘记你的客户。将客户旅程、客户障碍与管理问题,与最新技术实现相结合,这种协同效应将为你带来最大的成功。

祝你AI转型之旅顺利!

课程P42:个性化推荐系统 🎯
在本节课中,我们将学习个性化推荐系统。我们将从网络个性化的概念引入,并深入探讨推荐系统的核心原理、主要类型、应用实例以及面临的挑战。
什么是推荐系统? 🤔

上一节我们介绍了网络个性化,本节中我们来看看推荐系统的具体定义。
推荐系统,有时也被称为推荐引擎,其目标是预测用户可能感兴趣的项目、产品或内容。这些预测基于用户的一些信息,例如他们的个人资料、过去的购买记录或评分行为。

最常见的推荐系统例子是协同过滤。这类系统使用诸如“购买此商品的顾客也购买了…”或“看过此视频的人也看了…”等标签或短语来生成推荐。
推荐系统之所以独特,是因为它们能为用户和公司双方创造价值。
- 对于消费者,它们帮助发现新产品,并在海量选项中筛选出最相关、最合适的选择。
- 对于公司,它们有助于将浏览者转化为购买者,促进交叉销售,并通过提供定制化的浏览体验来提高客户忠诚度。

推荐系统的应用实例 📱
以下是推荐系统在现实世界中的一些常见应用,你可能已经非常熟悉。
- 在电商网站(如亚马逊)上,你会看到“购买此商品的顾客也购买了…”的提示。
- 在Google新闻上,你会看到根据你兴趣定制的个性化新闻推荐。
- 在YouTube或Netflix上,你会看到为你推荐的个性化视频和电影。

推荐系统的两种主要设计 🏗️
从高层次看,业界主要采用两种推荐系统设计。上一节我们看到了推荐系统的广泛应用,本节中我们来详细解析这两种核心设计。
1. 基于内容的推荐系统
正如其名,这类系统关注内容或产品本身的属性。它们试图通过分析用户喜欢的产品属性,来寻找具有相似属性的其他产品。
一个典型例子是Pandora在线音乐服务。Pandora源于“音乐基因组计划”,在该项目中,专家对数百万首歌曲从数百个音乐属性(如“电子影响力”、“节奏切分音”、“大调音色”等)进行评分。
其工作原理可概括为:
- 用户表明喜欢某首歌曲(例如,Imagine Dragons的《Thunder》)。
- 系统在数据库中查找具有相似音乐属性(如特定的dub制作、雷鬼元素、原声钢琴节奏等)的其他歌曲。
- 系统推荐这些歌曲(例如,推荐21 Pilots的《Ride》)。
这种设计高度依赖对产品内容的深入元数据。系统可以通过用户反馈(如“不喜欢”)进行实时学习和调整。
2. 协同过滤推荐系统
协同过滤不深入分析产品属性,而是基于其他用户的行为数据进行推荐。它试图找到品味相似的用户,然后推荐这些用户喜欢的内容。
例如,亚马逊的“购买此商品的顾客也购买了…”就是基于协同过滤。Netflix早期的流媒体推荐和Last.fm的音乐推荐也采用此方法。

协同过滤主要有两种变体:
以下是两种主要的协同过滤方法:
- 基于物品的协同过滤:输入是用户喜欢的特定物品(如歌曲《Thunder》),系统会寻找其他也被喜欢该物品的用户所喜爱的物品进行推荐。公式可简化为:
推荐物品 = 与目标物品相似度最高的物品集合。 - 基于用户的协同过滤:输入是用户的历史行为(如所有评分记录),系统会寻找与该用户历史偏好相似的其他用户,然后推荐这些相似用户喜欢的物品。公式可简化为:
推荐物品 = 相似用户喜欢而目标用户未接触过的物品集合。
协同过滤的优势在于不需要产品的详细元数据,构建相对简单且成本较低,同时效果非常显著,因此在实践中极为流行。
构建推荐系统的挑战 ⚠️

上一节我们了解了两种主流设计,本节中我们来看看在构建这些系统时会遇到哪些挑战。
无论是构建基于内容的系统还是协同过滤系统,都面临一些共同挑战:
- 数据稀疏性:用户通常只对海量商品中的极少数进行评分或互动,导致用户-物品矩阵非常稀疏,难以计算可靠的相似度。
- 冷启动问题:这包含两个方面:
- 新用户问题:如何为新用户(没有历史行为数据)做出推荐。
- 新物品问题:如何推荐刚加入系统、尚未有任何用户行为记录的新物品。
数据科学家需要花费大量精力解决这些设计挑战。幸运的是,这是一个相当成熟的领域,已有许多有效的解决方案。如今,构建推荐系统并不十分复杂,公司甚至可以选择集成第三方提供的推荐服务。
总结 📝

本节课中,我们一起学习了推荐系统的核心知识。
我们了解到,推荐系统通过预测用户兴趣来为用户和公司创造价值。最流行的两种设计是基于内容的推荐和协同过滤推荐。前者依赖于产品的深度属性信息,后者则利用用户群体的行为模式。两者在实践中效果显著,但各有权衡,并共同面临数据稀疏性和冷启动等挑战。在实际应用中,需要根据业务需求和数据情况选择合适的方案。
课程 P43:个性化推荐对市场的影响 📈

在本节课中,我们将探讨推荐系统如何影响消费者的选择,以及这种影响对市场产生的整体效应。我们将通过具体数据和案例,分析推荐系统是促进了选择的多样性,还是加剧了热门商品的集中度。

推荐系统的影响力概述
推荐系统在多种线上场景中显著影响着消费者的决策。研究表明,在亚马逊等零售平台上,约有28%到35%的消费比例直接归因于算法的推荐。

这意味着,推荐系统主要通过两种方式改变我们的选择:
- 改变初始选择:用户原本打算购买产品A,但系统通过“购买了此商品的顾客也购买了…”等推荐,说服用户转而购买产品B。
- 促进交叉销售:用户在购买产品A后,看到“购买A的人也购买了B”的推荐,从而额外购买了产品B。
简而言之,算法推荐在很大程度上引导了用户的消费行为。

推荐系统提升用户参与度
推荐系统不仅能改变选择,还能显著提升平台的用户参与度和使用量。

以下是相关研究数据:
- 在Google News上,算法推荐使网站的消费者使用率增加了约38%,意味着用户阅读了更多新闻,停留时间更长。
- 来自Netflix数据科学家的论文指出,其平台上80% 的观看时长来源于算法推荐。
这些数据表明,推荐系统是驱动用户消费内容的关键引擎。
推荐如何改变消费内容:长尾理论
推荐系统不仅增加了消费总量,也改变了我们所消费的商品或内容类型。关于其影响,一个著名的理论是“长尾理论”。
该理论由克里斯·安德森在《长尾》一书中提出,核心观点是:互联网(尤其是自动化推荐)将帮助消费者从追逐最热门的商品,转向发现和购买更小众、更个性化的商品。

其逻辑在于,在没有推荐时,我们通常依赖“畅销榜”、“热门电影”等列表做选择,这些列表天然偏向流行商品。而个性化推荐有望根据个人偏好,引导我们发现那些虽不热门但更符合兴趣的项目。
然而,一个关键问题是:这真的发生了吗? 尤其是考虑到协同过滤等主流算法,其推荐本身就基于大众的消费行为,这可能导致其推荐结果依然带有“流行度偏见”。
衡量市场多样性:基尼系数
为了科学地验证推荐系统是促进了多样性还是集中度,我们可以使用“基尼系数”作为衡量指标。
基尼系数是衡量收入或消费集中度的通用指标,取值范围在0到1之间。
- 基尼系数为0:表示所有产品的销售额完全相等,市场极度多样化。
- 基尼系数为1:表示单一产品产生了全部销售额,市场极度集中。
计算基尼系数需要先绘制洛伦兹曲线。该曲线展示了:排名前X%的产品,占据了总销售额的百分之多少。如果所有产品销售额相等,洛伦兹曲线将是一条45度的对角线。基尼系数就是洛伦兹曲线与这条对角线之间面积的两倍。
通过比较有推荐系统时市场的基尼系数(G1) 和无推荐系统时市场的基尼系数(G0),我们可以判断推荐的影响:
- 若 G1 < G0,则推荐促进了多样性(长尾效应)。
- 若 G1 > G0,则推荐加剧了集中度(流行偏见)。

实验验证:推荐系统的真实影响

为了验证上述理论,我们与北美一家大型零售商合作,在2013年8月进行了一次大规模的A/B测试。
实验将超过130万网站访问者分为三组:
- 控制组(77%用户):不显示任何推荐。
- 实验组A(11.5%用户):显示“看了又看”(基于浏览的协同过滤)推荐。
- 实验组B(11.5%用户):显示“买了又买”(基于购买的协同过滤)推荐。

随后,我们分别计算并比较了三组用户消费数据所对应的基尼系数。
实验结果分析
实验数据清晰地揭示了协同过滤推荐的影响。

以下是基于“看了又看”推荐的实验结果:
- 开启推荐后,洛伦兹曲线更加偏离对角线。
- 具体表现为:底部40%和60%的产品所占的市场份额显著下降。
- 基尼系数从控制组的 0.60 上升至实验组的 0.68。销售变得更加集中。
以下是基于“买了又买”推荐的实验结果:
- 集中化趋势更为明显。
- 基尼系数从控制组的 0.60 大幅上升至 0.70。
结论:协同过滤推荐存在显著的流行度偏见。它们倾向于推荐已经被大量浏览或购买的商品,从而强化了热门商品的流行地位,而非帮助小众商品获得曝光。
重要补充:绝对销售额的增长
然而,以上结论需要一个重要补充。当我们观察产品的绝对销售额(而非市场份额)时,会发现一个不同的现象。
在推荐开启后,所有类别产品的绝对销售额都获得了增长,无论是左侧的小众商品还是右侧的流行商品。

这意味着:
- 推荐系统确实帮助了所有商品(包括小众商品)更好地被用户发现和购买。
- 但是,这种增长是不均衡的。流行商品从中获得的收益增长,远远超过小众商品。
这类似于社会收入不平等的辩论:所有人的绝对收入都在增加,但富人的收入增长远快于穷人,导致相对差距拉大。推荐系统创造了类似的“市场不平等”:它做大了整个蛋糕,但分给热门商品的那块变得更大。

不同推荐算法的差异

需要指出的是,并非所有推荐算法都有相同的偏见。
- 协同过滤(基于用户行为):如实验所示,具有强烈的流行度偏见。
- 基于内容的推荐(基于商品属性匹配):能更好地帮助用户发现符合其偏好的商品,而这些商品不一定是最热门的。因此,基于内容的推荐更有利于实现长尾效应。
两种设计各有优劣,公司在选择时需要权衡。
课程总结

本节课中,我们一起学习了推荐系统对市场的深远影响。
- 推荐系统是驱动用户消费和参与度的核心力量,能显著改变用户的选择。
- 关于其是否促进消费多样性,长尾理论提出了乐观预期,但需要实证检验。
- 通过基尼系数和洛伦兹曲线,我们可以量化市场集中度。
- 大型A/B测试表明,主流的协同过滤推荐会加剧市场的集中度,存在流行度偏见,使热门商品更热门。
- 但推荐也提升了所有商品的绝对销售额,只是增长收益不均衡。
- 相比之下,基于内容的推荐更有可能帮助发现小众商品,促进多样性。
理解这些影响,有助于我们更理性地看待推荐结果,并为设计更平衡、更负责任的推荐系统提供思考方向。
课程 P44:个性化与推荐系统的挑战与融合 🧩

在本节课中,我们将结束关于个性化与推荐系统的讨论,重点探讨其面临的挑战以及如何通过融合不同方法来解决这些问题。
系统回顾与挑战权衡
上一节我们介绍了推荐系统的基本类型。本节中,我们来看看这些系统设计中的核心挑战与权衡。
回想上次讲座,我们讨论了与推荐设计相关的某些挑战或权衡。
协作过滤的主要优势之一是它不需要关于所推荐产品的深度元数据,因此它非常容易构建。与此同时,它相当有效,并已证明有助于消费者发现新产品。这具有良好的社交吸引力,例如,知道其他人像我一样喜欢或消费某些歌曲,会增加我对那首歌的兴趣。
然而,这种设计也有一些缺点。我们讨论了协作过滤设计的受欢迎程度偏差挑战,尤其是如果作为零售商你想让客户接触你的旧目录。还有,因为这些系统对所推荐的产品没有深入的了解,它们无法解释为什么某些产品被推荐给用户。最后,它们也往往面临新用户和新产品的挑战。

相对而言,基于内容的推荐系统实际上没有受欢迎程度偏差。它们也非常有效,并且对所推荐的产品有深刻的了解。它们可以向消费者解释推荐背后的理由。但建立起来相当昂贵,因为你需要关于被推荐产品的详细元数据。
因此,出现的问题是:是否有办法实际上结合这两者,这样你就能获得两者的好处。这是许多公司近年来所走的方向。
融合实践:以Spotify为例 🎵
一个例子是 Spotify。对于那些习惯使用 Spotify 的用户,你可能对 Spotify 的 Discover Weekly 推荐非常熟悉,Spotify 为你策划了一系列歌曲供你收听。
现在 Spotify 的 Discover Weekly 最初是基于协作过滤设计的。所以最初 Spotify 的推荐系统纯粹基于协作过滤。但随着时间的推移,它也结合了基于内容的推荐设计原则。
为了做基于内容的推荐,需要关于歌曲质量的非常丰富的元数据。如果你打算按照 Pandora 最初启动其服务的方式去收集,这会很昂贵,意味着让艺术家听歌曲并对这些歌曲进行评分。
所以一个替代方案是使用机器学习自动提取歌曲的属性。Spotify 通过两种方式做到这一点:
以下是Spotify提取歌曲属性的两种方法:
- 网络爬取与文本分析:Spotify 爬取网络,查看关于歌曲的博客帖子或任何在线讨论,并查看人们在讨论或描述歌曲时使用的描述性语言。它使用那些描述性词语作为歌曲的属性。这对已经存在一段时间并受到讨论的歌曲非常有用。
- 音频信号分析:新歌或小众歌曲代表着一个挑战,因为它们在网上讨论得不多。为了解决这个问题,Spotify使用机器学习分析每首歌曲的音频信号。现在它能够提取许多音乐特征,例如歌曲的节奏、歌曲是否具有大调音调、歌曲有多响、乐器使用多少、歌曲中存在的内容等等。

最终,Spotify可以使用所有这些通过机器学习提取的内容属性,并结合协作过滤类型的功能(查看其他人正在消费什么),因此结合了这两种世界的优点。
这是Netflix以及许多主要在线媒体公司发展的方向,即结合这两种不同推荐设计的优势。
超越产品推荐:全方位的个性化体验
当然,我们花了很多时间讨论产品推荐,主要是因为它们非常普遍,并且对零售商或消费者都有显著价值。但重要的是要承认,个性化不仅仅是产品推荐。
它还涉及跨不同渠道定制客户体验,与可能在你的网站上、可能在移动应用上、通过电子邮件或可能是在商店的客户互动。这是实际弄清楚如何提供整体集成体验的能力,这就是个性化的核心。
例如,如今,公司甚至在个性化电子邮件。因此,电子邮件发送到客户数据库,但电子邮件中的某些内容可能会在客户打开电子邮件时,实时填充信息。
以下是电子邮件个性化的一个技术示例:
- 电子邮件可能以HTML格式发送,意味着与网页格式相同。
- 当客户打开电子邮件时,可能会调用某个JavaScript脚本。
- 该脚本可以查看客户打开电子邮件时的位置,并据此定制图像。
例如,如果电子邮件是关于夹克促销的,当客户在一个当前下雨的地方打开时,可能会看到一件雨衣的图像;如果在下雪,他们可能会看到一张雪衣的图像。这种个性化是在客户打开电子邮件时,根据运行的脚本和客户的过去数据实现的。
个性化的风险与考量 ⚠️
说到这些,个性化为消费者和企业都增添了很多价值,但也带来了某些风险。
以下是几个主要的风险与考量:
- 误用与糟糕推荐:当你的推荐或个性化算法对客户做出笼统的概括,并做出非常糟糕的推荐时,这最终会使客户对个性化产生反感。
- 数据隐私:消费者对隐私的敏感性显著增加,尤其是考虑到企业对客户的了解信息量之大,以及由于某些公司对客户数据的肆意滥用。因此企业在使用数据及其呈现个性化结果的方式时必须非常谨慎,因为很容易越界,对消费者而言显得有些“ creepy ”。
- 监管与合规:基于非常敏感的消费者数据的过度个性化还有另一个风险,即监管者可能会介入。实际上在许多管辖区,监管者正在介入,发布了多项不同的数据隐私法规,因此合规性也成为一个问题。随着企业越来越多地进行个性化,这给它们带来了新的负担。

总结
本节课中我们一起学习了推荐系统面临的挑战,特别是协作过滤的流行度偏差和冷启动问题,以及基于内容推荐的元数据成本问题。我们探讨了通过融合两种方法(如Spotify所做)来取长补短的解决方案。此外,我们认识到个性化远不止产品推荐,它涵盖了跨渠道的定制化客户体验。最后,我们讨论了伴随个性化而来的数据隐私、算法误用和监管合规等重要风险。接下来,我们将讨论机器学习在金融服务中的应用。


课程 P45:Pandora 推荐系统与机器学习应用 🎵
在本节课中,我们将跟随 SiriusXM 机器学习副总裁斯科特·王的访谈,学习 Pandora 推荐系统背后的核心原理、机器学习如何驱动个性化体验,以及数据、模型和测试在其中的关键作用。
1. 背景介绍:斯科特·王与 Pandora
斯科特·王是 SiriusXM 基础搜索与语音科学的机器学习副总裁。他的团队负责构建可重用的机器学习系统,为 SiriusXM 旗下包括 Pandora 在内的产品提供推荐和发现功能。
上一节我们介绍了课程背景,本节中我们来看看 Pandora 的起源。
2. 起源:音乐基因项目 🧬
Pandora 起源于约 20 年前的“音乐基因项目”。这是一个由专业音乐家团队参与的倡议,他们每天聆听音乐曲目,并为每首曲目标注超过 450 种不同的属性。
以下是这些属性的例子:
- 节拍:音乐的节奏和速度。
- 和声:音符的组合方式。
- 声乐:人声的类型和特点(例如,鼻音、男性声乐)。
- 流派与时期:音乐的风格和所属年代。
- 乐器与语言:使用的乐器和歌词的语言。
这个项目的核心思想是:如果你理解了构成音乐的这些“基因”元素,你就能识别出相似的曲目和艺术家。这成为了推荐系统中“基于内容的推荐策略”的基础。
核心概念公式:
相似度(曲目A, 曲目B) = f(基因属性A, 基因属性B)
这种策略在“冷启动”场景中特别有效,即当系统对新用户一无所知,需要快速提供初始推荐时。音乐基因项目为 Pandora 的成功起步奠定了基础,并且至今仍是其宝贵的数据资产。
3. 推荐系统的演进:从反馈到飞轮 🔄
基于内容的推荐让 Pandora 起步,但真正的个性化始于用户互动。当听众使用“点赞”(赞成)和“点踩”(反对)功能时,一个持续的反馈循环就建立了。
我的团队利用这个反馈循环,结合多种策略来驱动推荐系统。
以下是几种主要的推荐策略:
- 基于内容的策略:利用音乐基因等元数据,推荐属性相似的曲目。
- 基于用户的策略:分析用户行为,发现“和你相似的人也喜欢……”的模式。
- 协同过滤策略:同时分析哪些听众相似、哪些内容相似,发现隐藏的关联。
这个“反馈-学习-推荐”的循环就像一个强大的飞轮。点赞数据形成了有标签的训练集,让机器学习模型能够学习哪些曲目在特定情境下更受欢迎。
此外,为了处理海量曲目,我们开发了“机器监听系统”。模型直接分析音频,利用从音乐基因项目获得的标签数据,来预测新歌曲的属性,实现了“人类提供质量,机器服务规模”。
4. 机器学习为多方利益相关者服务 🎯
机器学习不仅服务于听众,也服务于其他利益相关者。上一节我们了解了推荐系统的核心,本节中我们来看看它如何满足不同角色的需求。
以下是三个主要利益相关者及其对应的机器学习应用:
- 市场营销与广告商:
- 智能转换:模型分析用户行为,预测增销订阅的最佳时机和对象。
- 个性化营销:在推送和邮件中,推荐最合适的内容或艺术家。
- 广告效果衡量:利用系统工具建模,评估广告在不同场景下的有效性。
- 创作者(音乐人/播客主):
- 受众发现:帮助新创作者找到最可能对其内容感兴趣的听众。
- 听众:
- 广播:决定“下一首播放”的歌曲。
- 主页发现:推荐新的音乐、播客和节目。
- 搜索与语音:通过自然语言处理理解用户意图,提供精准结果。
5. 数据的核心:显式与隐式信号 📊
构建有效的模型离不开高质量的数据。数据主要分为显式信号和隐式信号。
显式信号是用户明确表达喜好的行为,例如:
- 对电台或歌曲的“点赞”或“点踩”。
- 将内容添加到个人收藏夹。
隐式信号则间接反映了用户的兴趣和意图,例如:
- 是否完整听完一首曲目。
- 在某个电台收听的时长。
- 是否点击了推荐并阅读了艺术家介绍。
核心概念代码(伪代码):
# 收集信号示例
user_signals = {
“explicit”: [“thumbs_up”, “added_to_favorites”],
“implicit”: [“track_completed”, “listen_duration_seconds”, “clicked_recommendation”]
}
在训练模型时,关键在于将正确的数据与正确的模型结合,以解决正确的业务问题。例如,点赞数据可以作为监督学习模型的标签,用来预测用户未来可能喜欢的内容。
6. 模型的权衡:准确性与可解释性 ⚖️
选择模型时,需要在准确性和可解释性之间做出权衡。这并非一成不变,而是取决于具体任务。
以下是考量的关键因素:
- 任务风险:出错的成本有多高?例如,金融预测模型对准确性要求极高。
- 用户信任:模型的消费者是谁?他们需要多大程度的解释?
- 对于面向听众的“为你推荐”页面,模型需要一定的可解释性(例如,“因为你喜欢A,所以我们推荐B”),以建立信任并促进探索。
- 对于内部数据科学家,他们更关注模型性能,可以接受更复杂、更难对外解释的模型(如深度神经网络),事后再分析推荐原因。
7. 验证与测试:确保模型有效 ✅
开发出模型后,必须通过测试验证其有效性。A/B测试是衡量因果效应的黄金标准。
A/B测试:将用户随机分为两组(A组和B组),让他们体验产品的不同版本,从而将指标变化归因于特定的改动。
为了更高效地进行测试,我们还会采用多臂老丨虎丨机框架。在这个框架中,系统可以同时测试多个版本(A/B/C/D...),并动态调整流量分配,在“探索”(尝试新选项)和“利用”(聚焦表现好的选项)之间取得平衡,从而更快地找到最佳方案。
人工智能本身也可以帮助优化测试过程,例如通过离线分析预先筛选出成功概率更高的实验参数,避免让用户接触到可能很差的体验。
8. 搜索、语音与未来的整合 🔍
搜索和语音请求是宝贵的实时信号。例如,突然激增的搜索关键词可以作为一个趋势信号,提前输入推荐算法。
语音交互则推动了新的产品用例。当用户提出“播放90年代R&B女声”这类主题化请求时,这不仅是一个搜索查询,更启示我们需要构建能够满足这种灵活需求的电台或推荐逻辑。
展望未来,SiriusXM与Pandora的结合带来了独特优势。SiriusXM拥有成熟的广播网络和车载场景,而Pandora擅长个性化的数字流媒体。两者的整合意味着:
- 跨平台的内容共享与听众体验融合。
- 更强大的订阅套餐和营销能力。
- 利用Pandora的反馈数据来个性化传统的广播体验,例如在新型号汽车中开始收集收听指标,为车内个性化铺平道路。
总结 📝
本节课中我们一起学习了:
- Pandora 推荐系统始于音乐基因项目,它通过标注数百个音乐属性来定义歌曲的“DNA”。
- 系统通过收集用户的显式(点赞/点踩)和隐式(收听时长)信号,驱动了基于内容、基于用户和协同过滤等多种推荐策略的“飞轮”。
- 机器学习服务于听众、创作者和广告商等多方利益相关者,实现个性化推荐、受众发现和效果优化。
- 在模型选择上,需要在准确性与可解释性之间根据任务风险和用户信任进行权衡。
- A/B测试和多臂老丨虎丨机是验证模型效果和高效实验的关键方法。
- 搜索和语音数据不仅用于直接满足请求,也为推荐系统提供了趋势信号和创新灵感。
- SiriusXM与Pandora的结合,正在推动个性化音频体验从数字端向传统广播和车载场景的扩展。
课程 P46:金融机器学习与人工智能简介 🧠💰

在本节课中,我们将探讨金融、机器学习与人工智能的交汇点。我们将了解金融领域如何长期依赖数据与技术,并聚焦于一个具体应用——企业信用风险分析——来展示如何将科学方法、经济学原理与数据科学工作流程相结合,从而避免常见陷阱。
金融一直是以技术、数据和模型为导向的领域。从20世纪初的穆迪手册开始,数据就在金融中扮演着核心角色。技术的发展也始终是金融演进的前沿。
因此,近期大众对机器学习和人工智能的关注,在金融领域并非全新现象。金融一直处于数据技术和建模的前沿。
至于应用方面,在金融、机器学习或人工智能领域进行搜索,会得到大量信息。实际上,很难找到一个数据不发挥核心作用的金融应用。
根据对机器学习的定义,回归分析自20世纪上半叶手动计算时就已经存在。考虑到金融、机器学习和人工智能这一主题的广度和深度,我们在此需要明确目标。
我们将专注于一个具体应用,以提供直观感受并说明其用法,而不是泛泛而谈。这个应用就是企业信用风险分析。
我们将特别强调科学方法和数据科学工作流程。同时,强调对经济现象、原则以及企业信用风险背后制度细节的理解至关重要。这有助于避免常见的陷阱和错误,这些错误通常源于盲目地将复杂模型或“黑箱”应用于数据,并期望得到正确答案。
对人工智能和机器学习的失望,往往与过度依赖模型和算法有关,误以为它们是解决所有问题的灵丹妙药。我们必须认识到,数据、经济学和对问题的制度性理解在任何应用中都是核心。

上一节我们概述了金融与机器学习结合的基本理念,本节中我们来看看具体的应用目标。
我们的目标是在后端展示一个机器学习问题的简单应用。这是一个分类问题:我们将尝试推测未评级公司的信用风险或信用评级。

我们将以非正式、对话式的方式进行讲解。这种方式虽然可能包含口误或即兴修正,但旨在模拟我们并肩坐在电脑前共同探讨数据与模型的情景。希望这种动态、非脚本化的方法能带来更有趣、更具启发性且富有成效的学习体验。
那么,我们的核心目标是什么?
目标是传达关于实证分析或金融分析的一些核心理念。我们将特别强调流程的重要性。规范的流程不会限制创造力,但能规范我们分析数据的方式。
以下是本课程希望强调的几个关键方面:
- 强调数据的重要性:数据是分析的基石。
- 强调经济和制度细节的重要性:理解背后的原理和规则至关重要。
- 适当弱化算法复杂性:我们将不过分强调复杂算法、流行术语或过程的“黑箱”方面。
我们需要在两种理想之间找到平衡:一是对研究现象具备领域专业知识,清晰理解其数据和经济背景;二是理解处理数据并输出答案的算法或模型。本课程将强调这两方面的平衡。
过去几年的经验表明,人工智能和机器学习组件受到了不成比例的大量关注。虽然这有其合理理由,因为该领域取得了巨大进展,但代价可能是忽视了其他同等重要的组成部分。
正如之前提到的,这些同等重要的组成部分包括数据和经济学等内容。


本节课中,我们一起学习了金融与机器学习、人工智能结合的历史背景与核心理念。我们明确了课程将聚焦于企业信用风险这一具体应用,并强调了平衡数据科学、经济学原理与制度理解的重要性,避免陷入过度依赖复杂模型的陷阱。在接下来的课程中,我们将深入这一应用的具体实践。
📘 课程 P47:科学方法在数据分析中的应用

在本节课中,我们将学习如何运用科学方法来解决商业和数据分析问题。科学方法是一种经过时间检验的、系统化的解决问题流程,它能帮助我们清晰地定义问题、提出假设、验证猜想,并最终基于数据得出结论。
🔍 什么是科学方法?

上一节我们提到了科学方法的重要性,本节中我们来看看它的具体定义。科学方法是一种逻辑严谨的探究过程。物理学家理查德·费曼曾精辟地总结道:“无论你的理论多么美妙,只要它与实验不符,那就是错误的。” 这句话简洁而优雅地揭示了科学的核心。
对于解决商业问题而言,这种基于假设和验证的科学方法同样极为有效。
📝 科学方法的四个步骤
科学方法可以通过多种方式描述,以下是一种非常实用的四步框架:

-
清晰地表述具体问题
首先,你需要明确你想要解决什么问题。一个模糊的问题无法进行有效的数据分析。 -
猜测一个答案(提出假设)
针对问题,提出一个或多个可能的答案或解决方案。在统计学中,这被称为建立假设。 -
识别假设的经验含义
思考并明确:如果你的假设是正确的,那么在实际数据中我们应该观察到什么现象? -
将预测与数据进行比较
最后,收集并分析实际数据,将观察到的结果与第三步中的预测进行对比,以验证或推翻你的假设。
💡 应用实例:分析收入增长放缓
让我们通过一个具体的商业案例来应用上述科学方法。
第一步:明确具体问题
初始问题:“为什么我们的收入增长在放缓?” 这个问题看似明确,实则模糊。我们需要将其具体化,例如:
为什么过去三年公司的合并收入增长放缓了?
第二步:提出潜在假设
针对这个具体问题,我们可以提出几种可能的解释(假设)。以下是几种常见的猜想:
- 假设A:市场需求放缓。消费者对我们的产品需求下降了。
- 假设B:供应链出现问题。市场需求旺盛,但我们无法生产或供应足够的产品。
- 假设C:定价策略变化。我们降低了产品售价,影响了总收入。
核心概念:收入的基本公式为 收入 = 价格 × 销量。因此,收入增长放缓可能通过价格或销量(或两者)的渠道实现。
第三步:推导经验含义

接下来,我们需要明确,如果上述假设成立,在数据中应该看到什么迹象:
- 如果 假设A(需求放缓) 成立,我们应该观察到产品销量的下降。
- 如果 假设B(供应问题) 成立,我们同样会观察到产品销量的下降(因为供不应求)。
- 如果 假设C(定价变化) 成立,我们应该观察到产品平均售价的下降。

第四步:用数据验证
最后,我们需要收集关于产品销量和价格的历史数据,并进行分析:
- 检查销量数据是否呈现下降趋势。
- 检查价格数据是否呈现下降趋势。
- 结合两者,判断哪个假设更符合数据所揭示的事实。

✅ 总结

本节课中,我们一起学习了如何将科学方法系统地应用于数据分析。我们首先需要清晰地定义问题,然后提出合理的假设,接着推导出可验证的数据预测,最后通过实际数据来检验这些预测。这个过程能帮助我们从杂乱的数据中提炼出有价值的商业洞察,做出更明智的决策。掌握这一流程,是进行任何有效机器学习、人工智能或财务分析工作的坚实基础。
课程 P48:数据科学工作流程 🧭

在本节课中,我们将要学习数据科学工作流程。这是一个将科学方法应用于数据,以解决问题并得出结论的系统性过程。
上一节我们介绍了科学方法,它是一个包含提出问题、提出假设、识别经验影响并与数据比较的四步过程。本节中我们来看看如何具体执行最后一步——将假设的影响与实际数据进行比较。这个过程被称为数据科学工作流程。
概述:什么是数据科学工作流程?

数据科学工作流程是一个结构化的过程,用于将原始数据转化为可操作的见解。它确保分析工作系统、可重复且可靠。
工作流程的四个核心步骤
虽然存在多种描述方式,但一个直观且通用的数据科学工作流程可以概括为以下四个步骤。

第一步:获取与验证 📥
首先,你需要获取数据。数据来源多种多样,可能包括:
- 从本地文件(如电子表格)加载。
- 从组织内部的不同系统集成。
- 通过外部API接口下载。
- 从互联网上抓取(网络爬虫)。
- 购买专有的商业数据集。
获取数据后,验证步骤至关重要。永远不要盲目相信数据附带的文档或假设。必须通过实际查看和初步探索数据来确认其内容、格式和质量符合预期。
第二步:准备与探索 🧹
这是工作流程中最耗时的环节。本步骤的目标是将原始数据整理成适合分析的格式。
以下是准备数据时常见的任务:
- 数据整理:将数据从多种原始格式(如宽表、长表、JSON)转换为统一、整洁的结构。
- 数据清洗:处理缺失值、纠正错误、去除重复项、格式化不一致的数据(例如日期格式)。
- 探索性数据分析:通过计算统计量(如均值
mean(data)、标准差std(data))和绘制图表来深入理解数据的分布、关系和潜在问题。
这个过程通常是迭代的,你可能需要返回第一步获取更多数据,或者基于新的发现调整清洗策略。
第三步:分析与建模 🤖
当数据准备就绪后,便可以进行分析。这个阶段的复杂性跨度很大:
- 简单分析:计算描述性统计、进行假设检验。
- 复杂分析:构建机器学习或人工智能模型。这通常涉及:
- 选择合适的算法(如线性回归
y = β₀ + β₁x + ε)。 - 将数据划分为训练集和测试集。
- 训练模型并调整参数。
- 评估模型性能,并可能进行多轮迭代以选择最佳模型。
- 选择合适的算法(如线性回归
第四步:沟通与呈现 📢
这是将分析价值转化为实际影响的关键一步。你需要清晰、有说服力地向决策者(他们可能不具备技术背景)传达你的发现。
有效的沟通包括:
- 用简洁的语言解释复杂的结果。
- 使用可视化图表(如图表、仪表盘)来支持你的论点。
- 明确指出基于数据的建议或结论。
许多数据分析项目失败,正是因为技术专家与决策者之间的沟通存在脱节。
时间与精力分配 ⏳
根据普遍经验,数据科学工作流程中各步骤的时间分配大致如下(以一个饼图示意):
- 获取与验证:约占5-10%。
- 准备与探索:约占60-80%。
- 分析与建模:约占10-20%。
- 沟通与呈现:约占5-10%。
可以看到,数据准备占据了绝大部分时间和精力。确保输入模型的数据干净、可靠,远比运行一个复杂的模型更重要。

总结

本节课中我们一起学习了数据科学工作流程。我们将其分解为四个核心步骤:获取与验证、准备与探索、分析与建模以及沟通与呈现。记住,这是一个非线性的、迭代的过程,尤其是数据准备阶段,需要投入最多的耐心和细致工作。掌握这个工作流程,能帮助你更有条理、更高效地从数据中挖掘价值。
课程 P49:企业信用风险入门 🏢💰

在本节课中,我们将学习企业信用风险的基本概念、其重要性以及如何对其进行量化评估。我们将通过一个简化的机器学习示例来演示预测信用评级的过程,并探讨其背后的逻辑。
企业信用风险概述 📊
企业信用风险是指一家公司可能无法偿还其财务义务的风险。这包括无法按时支付债券利息、偿还贷款本金等。

上一节我们介绍了企业信用风险的定义,本节中我们来看看它在经济中的规模与重要性。
企业债务市场规模 📈
企业通过发行债券和申请贷款进行融资。在美国经济中,企业债券发行规模巨大。
以下是截至2018年,美国不同发行者债券发行的构成情况图示:
- 资产支持证券(棕色部分)
- 联邦机构证券(海军蓝色部分)
- 企业债务(橙色部分)
- 抵押贷款相关债券
- 国债(联邦政府发行的债务)
- 政府和市政债券(绿色部分,由各州和市政当局发行)

我们将重点关注企业债券(图示中的橙色部分)。其规模达到数万亿美元。

除了债券,公司还通过贷款市场借款。例如,银团贷款(由多家金融机构共同持有的贷款)的未偿还金额也超过两万亿美元。
这些数据表明,企业债务和贷款市场是一个规模巨大的市场,其核心关联点就是企业信用风险。

企业信用风险为何重要?🤔
企业信用风险之所以重要,是因为它涉及巨额资金,并影响到广泛的利益相关者。
以下是受企业信用风险影响的主要群体:

- 投资者:例如持有企业债券或债券共同基金的个人或机构。公司违约将直接导致其投资损失。
- 员工:如果公司因违约而倒闭,员工将面临失业风险。
- 客户:客户可能不愿从濒临破产的公司购买产品或服务,因为未来的保修、服务等可能无法保障。(例如2008年金融危机中的汽车制造商)
- 供应商:供应商可能不愿意向信用风险高、有违约可能的采购方提供商品或服务。
- 纳税人:在系统性风险发生时(如2008年金融危机),政府可能动用公共资金救助金融机构,最终风险由纳税人承担。
因此,准确评估和管理企业信用风险对金融稳定和经济发展至关重要。
课程大纲与机器学习应用示例 🧠
在接下来的内容中,我们将探讨如何量化和评估企业信用风险。
我们将通过一个风格化的机器学习示例来进行说明。这个示例的核心任务是:预测企业的信用评级。

信用评级是衡量企业信用风险的一个常用且重要的指标。通过这个简化的预测任务,我们可以清晰地展示数据处理、模型构建和评估的完整流程。
核心任务公式化描述:
我们的目标是构建一个模型 f,它能够根据企业的各项特征 X(如财务比率、规模、行业等),预测其信用评级 y。
y = f(X)

在后续章节中,我们将详细拆解这个示例,并讨论可能的扩展与应用。

总结 📝

本节课我们一起学习了企业信用风险的基础知识。我们明确了企业信用风险是指公司无法履行财务义务的风险。通过数据,我们了解到企业债务市场(包括债券和贷款)规模巨大,涉及数万亿美元。同时,企业信用风险影响着投资者、员工、客户、供应商乃至纳税人等多个群体。最后,我们介绍了本课程将使用机器学习方法来预测信用评级,以此作为量化评估信用风险的一个实践切入点。

课程P5:数据管理工具 🗃️
在本节课中,我们将学习企业在启动AI项目前必须建立的数据基础设施。我们将重点介绍数据仓库和大数据工具的核心概念、工作原理及其价值。
数据仓库:企业的数据中枢 🏛️
上一节我们提到了数据基础设施的重要性,本节中我们来看看数据仓库。很多人可能熟悉数据库的概念。数据库是一个结构化的数据集合。例如,Excel电子表格就可以被视为一种数据库。
在实际操作中,我们通常需要更专业的工具来管理数据。数据库管理系统(DBMS)是允许用户更好地访问和管理数据库的系统。Excel提供了一些简单功能,而来自微软、Oracle等公司的更先进数据库系统能帮助企业更好地管理数据。有时,我们也简单地称DBMS为数据库。
数据仓库是一种特定类型的DBMS,它在两个方面具有专业性:
- 它在存储的数据类型上是专业化的,通常是来自企业多个来源的历史数据。
- 它在服务目的上是专业化的,即服务于分析。
普通数据库可能服务于操作。例如,当银行客户登录网站查看账户信息时,他们是在与一个操作数据库交互,该数据库能快速响应查询(如当前余额)。相比之下,分析需要访问公司可能拥有的所有或大部分数据,其目的通常不是追求极致的速度,而是能够提供更全面、全局的数据视图。数据仓库就服务于这个目的,它不一定是最快的数据库,但专门用于分析功能。
以下是常见的数据仓库产品示例:
- 微软 Azure SQL 数据仓库
- Google BigQuery
- Snowflake
- Amazon Redshift

数据仓库的工作原理 ⚙️
了解了数据仓库是什么之后,我们来看看它是如何工作的。在大多数公司,操作数据通常分散存储在许多不同的地方。例如,客户数据可能存储在CRM系统中,合作伙伴和供应链信息可能存储在ERP系统中,而客户账单信息可能存储在另一个独立的数据库中。
如果我们想要一个公司所有数据的统一视图,首先需要将所有数据提取到数据仓库中。ETL工具对此非常有用。ETL代表提取(Extract)、转换(Transform)、加载(Load)。
以下是ETL过程的简要说明:
- 提取:从不同的独立数据库(如CRM系统、账单系统)中提取数据。
- 转换:按需对数据进行清洗、整合和格式化。
- 加载:将转换后的数据加载到数据仓库中。
流行的ETL工具包括Informatica、Stitch(现属Talon公司)等提供的工具。数据仓库汇集了来自所有不同来源的数据后,就可以在其上构建报告和数据可视化工具。例如,Tableau这样的商业智能工具就位于数据仓库之上。当分析师输入查询时,这些系统可以访问数据仓库并提取必要的信息。
数据仓库的核心价值 💎
上一节我们介绍了数据仓库如何工作,本节中我们来总结它的核心价值。数据仓库的主要价值在于它作为公司所有数据的单一访问点和中心枢纽,并且存储所有数据的历史记录。
数据仓库帮助将操作与分析分离。操作数据库追求速度以快速响应用户请求;而分析查询则需要更全面的访问、历史数据以及数据质量保障。例如,如果分析师想查询“过去10年各产品线按月、按城市和州的收入情况”,这样的查询需要访问大量历史数据。数据仓库提供了数据质量保障和关于所有这些数据的单一访问点。

大数据工具:Hadoop与Spark 🚀
作为数据基础设施的一部分,除了数据仓库,我们还应该了解Hadoop和Spark这样的大数据工具。这类工具有两个主要目的:存储和处理。
存储大数据面临独特挑战。少量数据可以存储在单台计算机上,但像过去10年数亿客户的数据这样的海量数据,则无法存储在单台计算机上。像Hadoop这样的大数据工具的作用之一,就是以分布式方式将数据存储在多台计算机(或称节点)上。
接下来,这些系统也会处理这些数据。这种处理通常涉及分布式处理,即在多个节点间并行进行数据处理和计算,这有助于显著提高速度。
- Hadoop:一个由Apache基金会(提供开源软件的非营利组织)提供的开源工具。其最受欢迎的发行版由Cloudera等公司提供。
- Spark:一个更新的、可视为Hadoop更强大的替代品,它解决了Hadoop过去面临的一些问题。Databricks是围绕Spark构建的主导公司。

总结 📚

本节课我们一起学习了企业AI项目的基础——数据管理工具。我们首先介绍了数据仓库作为一种专门用于分析的数据库管理系统,理解了它的ETL工作原理(提取、转换、加载)和作为企业数据单一真相源的核心价值。接着,我们探讨了用于海量数据存储与处理的大数据工具,如Hadoop和Spark,它们通过分布式架构解决了单机无法处理的问题。掌握这些工具是构建稳健数据基础设施、进而成功开展AI项目的重要前提。

课程 P50:信用风险关键绩效指标 (KPIs) 📊
在本节课中,我们将学习如何评估公司的信用风险。信用风险是指公司无法按时偿还其债务的可能性。我们将通过分析公司的财务报表,并计算一系列关键绩效指标来量化这种风险。课程将以英特尔和AMD两家公司为例,对比说明不同财务状况下的信用风险差异。
概述与数据准备
首先,我们来看一些基础数据。下图展示了英特尔公司2014财年的损益表和资产负债表。这些历史数据将帮助我们理解后续要讨论的概念。



观察英特尔的损益表,其收入超过550亿美元,营业收入超过140亿美元,净收入约为100亿美元。仅从损益表看,这是一家盈利的公司,但这并不能直接说明其偿还债务的能力。
为了评估偿债能力,我们需要查看其资产负债表,特别是财务义务部分。英特尔的短期债务约为60亿美元,长期债务约为120亿美元,总财务债务超过137亿美元。同时,公司持有约140亿美元的现金及短期投资。从表面上看,英特尔似乎拥有充足的现金和盈利来覆盖其债务。
然而,这种判断过于粗略。接下来,我们将引入更正式的分析工具——信用风险关键绩效指标。
流动性比率分析
上一节我们查看了公司的整体财务数据,本节中我们来看看用于捕捉公司短期偿债能力的流动性比率。大多数偿付能力问题最初都表现为流动性问题,因此分析流动性至关重要。
以下是三种常用的流动性比率及其对英特尔的分析:
- 流动比率:该比率衡量公司用一年内可变现的资产偿还一年内到期债务的能力。
- 公式:
流动比率 = 流动资产 / 流动负债 - 英特尔的比率为 1.73,意味着每1美元流动负债,有1.73美元的流动资产作为支撑。
- 公式:
- 速动比率:该比率在流动比率的基础上,排除了变现能力相对较差的存货,能更严格地反映短期偿债能力。
- 公式:
速动比率 = (流动资产 - 存货) / 流动负债 - 英特尔的比率降至 1.15。
- 公式:
- 现金比率:这是最保守的流动性比率,只考虑现金及现金等价物与流动负债的关系。
- 公式:
现金比率 = 现金及现金等价物 / 流动负债 - 英特尔的比率为 0.88。
- 公式:
这些比率从宽松到严格,提供了不同层面的流动性信息。对于英特尔而言,无论使用哪个指标,其短期偿债能力看起来都较为充足。
偿债保障比率分析
了解了短期流动性后,我们进一步分析公司用经营收益覆盖其财务成本的能力,即偿债保障比率。
以下是两个关键的偿债保障比率:
- 利息保障倍数:该比率衡量公司用经营利润支付利息费用的能力,是贷款协议中常见的约束条款。
- 公式:
利息保障倍数 = 息税前利润 / 利息费用 - 英特尔的比率为 343.42,表明其营业利润足以轻松覆盖利息支出。
- 公式:
- 债务偿还保障倍数:该比率不仅考虑利息,还将到期本金纳入考量,能更全面地反映偿债压力。
- 公式:
债务偿还保障倍数 = 息税前利润 / (利息费用 + 到期债务本金) - 英特尔的比率降至 8.96,意味着其营业利润仍能覆盖近9倍的年度本息偿付额。
- 公式:


此外,现金利息保障倍数(现金资产/利息费用)对于现金充裕的英特尔来说也非常高。这些指标共同表明,英特尔通过经营活动产生的收益足以应对其当前的财务义务。


杠杆比率分析

最后,我们转向杠杆比率,这些比率从资本结构的角度审视公司的财务风险,即公司如何通过债务和股权来为其运营融资。


以下是几个重要的杠杆比率:


- 债务/EBITDA比率:该比率衡量公司总债务相对于其核心经营盈利的规模,也是贷款契约中的常见指标。
- 公式:
债务/EBITDA比率 = 总债务 / 息税折旧摊销前利润 - 英特尔的比率为 0.59倍,表明其债务规模小于年度经营利润。
- 公式:
- 债务/权益比率:该比率直接反映债务融资与股权融资的比例关系。
- 债务/资产比率:该比率显示公司总资产中有多少比例是通过债务融资的。
- 公式:
债务/资产比率 = 总债务 / 总资产 - 英特尔的比率为 0.15,意味着其资产仅有15%由债务融资,85%由股权融资。
- 公式:
这些杠杆比率一致表明,英特尔并非一家高杠杆公司,财务结构相对稳健。

案例对比:英特尔 vs. AMD
为了更深刻地理解这些KPI如何揭示信用风险差异,我们将同一行业的AMD公司作为对比案例。

首先观察AMD的损益表,其在2014年处于亏损状态。其资产负债表显示现金持有量远少于英特尔。


更有趣的是对比两者的信用风险KPI:

- 流动性比率:AMD的流动比率和速动比率甚至略高于英特尔,仅现金比率稍低。单看流动性,AMD似乎也没有迫在眉睫的危机。
- 偿债保障比率:此处差异显著。
- AMD的利息保障倍数为 0.86,意味着其营业利润不足以支付利息,需要动用其他资金。
- 其债务偿还保障倍数更是低至 0.42,营业利润连一半的本息都无法覆盖,严重依赖流动资产或其他融资来偿债。
- 杠杆比率:AMD的债务/EBITDA比率高达 6.0倍,债务/资产比率约为 0.60,表明其资产近60%由债务融资,杠杆水平远高于英特尔。

通过对比可以清晰看出:
- 英特尔:经营收益足以覆盖债务本息,流动性资产可用于战略运营。
- AMD:经营收益无法覆盖债务本息,必须依赖持有的现金缓冲或其他融资来偿债,财务压力更大。
因此,从信用风险角度看,AMD是一家风险显著更高的公司。
总结

本节课中,我们一起学习了信用风险分析的基础知识。我们通过英特尔和AMD的实例,探讨了三大类关键绩效指标:
- 流动性比率(如流动比率、速动比率):评估公司短期偿债能力。
- 偿债保障比率(如利息保障倍数、债务偿还保障倍数):评估公司经营收益覆盖财务成本的能力。
- 杠杆比率(如债务/EBITDA比率、债务/资产比率):评估公司的资本结构和长期财务风险。


这些KPI能够有效地识别公司在流动性和偿付能力方面可能存在的问题。即使在同行业(如芯片制造)内,不同公司的这些指标也可能表现出巨大差异,从而清晰地反映出它们信用风险的高低。掌握这些工具,是进行初步信用风险判断的重要一步。
课程P51:信用风险与信用评级入门 🏦

在本节课中,我们将学习信用风险的一个重要概念——信用评级。我们将了解主要的评级机构、评级等级的含义,以及评级如何与企业的违约概率相关联。
上一节我们介绍了企业信用风险的基本概念。本节中,我们来看看如何通过信用评级来量化和表征这种风险。
信用评级的核心理念是,对不同公司和金融工具的信用风险进行相对排序和表征。这就像我们之前比较英特尔和AMD的风险时,需要一个更具体的衡量标准。信用评级正是提供了这样一种“风险标尺”。
以下是全球最主要的三家信用评级机构:
- 穆迪
- 标准普尔
- 惠誉
它们的评级体系虽然字母标记略有不同,但逻辑相似,都从最高信用等级开始,逐步下降到高风险等级。
现在,让我们具体看看评级等级是如何划分的。评级机构通常使用字母组合(如AAA、BB+)来表示信用质量。
随着评级从最高级(如AAA)向最低级(如C)下降,意味着公司的信用风险在逐步增加。评级为AAA的公司被认为信用风险极低,而评级为C的公司则意味着已接近或处于违约状态。
以下是三大机构长期评级等级的简要对比(以高信用等级到低信用等级为序):
| 风险水平 | 穆迪 | 标准普尔 | 惠誉 |
|---|---|---|---|
| 最高信用质量 | Aaa | AAA | AAA |
| 高信用质量 | Aa1 | AA+ | AA+ |
| 中上信用质量 | A1 | A+ | A+ |
| 中等信用质量 | Baa1 | BBB+ | BBB+ |
| 投机级别 | Ba1 | BB+ | BB+ |
| 高风险 | C | C | C |

理解了评级等级后,一个关键问题是:这些字母等级到底对应多大的实际违约风险?信用评级与违约概率(PD)密切相关。
每个具体的评级等级都对应着一个历史平均违约概率。例如,根据公开数据:
- 评级为AA或以上的公司,其违约概率极低,大约在 0.1% (即10个基点)左右。
- 评级为BBB级的公司,违约概率仍然较低,大约在 1% 左右。
- 然而,一旦评级降至BB+(标普/惠誉)或Ba1(穆迪)及以下,违约概率会显著跃升,例如可能达到 7.5% 或更高。

这个从BBB-到BB+(或Baa3到Ba1)的界限非常重要,它区分了投资级和投机级(或非投资级)。这个区别不仅意味着违约概率的跃升,也影响着许多机构投资者的投资决策,因为法规常限制他们投资于投机级债券的比例。
那么,我们如何形象地理解信用评级呢?你可以把它想象成学生获得的成绩。
- 获得A(对应AAA/AA)意味着表现优异,是一家非常安全、信用风险极低的公司。
- 获得B(对应A/BBB)意味着表现良好,是一家相对安全、违约概率较低的公司。
- 评级越低,就像成绩越差,对应的违约概率也越高。
因此,信用评级是信用风险的一种有用且流行的描述工具。尽管在全部公司中,拥有信用评级的公司只占一部分(例如,可能只占上市公司的30%-40%),但这些公司通常规模巨大,在经济活动中举足轻重,使得信用评级备受关注。

本节课中,我们一起学习了信用评级的基础知识。我们了解到信用评级是衡量企业信用风险的重要标尺,由穆迪、标准普尔和惠誉等主要机构发布。评级等级从AAA(风险最低)到C(风险最高),并且与违约概率紧密相关,其中投资级(BBB-及以上) 和投机级(BB+及以下) 的划分是一个关键界限。

信用评级为我们提供了一种相对风险评估的框架。在接下来的课程中,我们将以此为基础,探讨如何对信用评级的变化进行建模和预测。

课程 P52:信用风险与信用评级预测 📊

在本节课中,我们将学习如何利用机器学习模型来预测企业的信用评级,特别是区分投资级与投机级公司。我们将明确建模目标,并深入探讨如何定义和衡量模型预测的成功与否。


明确建模目标 🎯

上一节我们介绍了信用风险预测的背景,本节中我们来看看如何精准地定义我们的任务。

我们正在尝试开发一个能够区分投资级评级公司和投机级评级公司的模型。

为了明确目标,让我们回顾一下投资级与投机级的划分标准。在标准普尔或惠誉的评级体系中,分界线位于 B- 与 BB+ 之间。所有评级在此线以上的公司属于投资级,而评级在此线以下的公司则属于投机级。这就是我们模型需要完成的核心分类任务。

理论上,我们可以开发一个模型来精确预测每一个具体的评级级别(例如区分 AAA 和 AA+)。但为了保持相对简单,我们当前的目标是尝试将公司年度观察数据分配到投资级和投机级这两个大类中。


如何衡量模型成功?📈
现在的问题是,我们如何知道模型表现良好?这并不像看起来那么简单。换句话说,我们的基准假设是什么?
一种自然的假设是,我们的模型表现应该优于随机猜测(例如抛硬币)。每当面对一个公司观察数据时,随机猜测有50%的正确率。我们希望模型能显著超越这个基准。
但请考虑以下情景:想象一个模型总是预测“投资级”。对于数据中所有实际为投资级的公司,其分类准确率将为100%。然而,对于所有实际为投机级的公司,其分类准确率将为0%。这个模型一方面在某些类别上完美,另一方面却完全失败。

这引出了一个关键问题:我们需要清晰地定义“成功”。在大多数分类任务中,这归结为评估不同类型错误的成本。

理解分类错误与成本 💰

为了更清晰地讨论,让我们通过一个混淆矩阵来可视化不同的预测结果。

每一行对应数据中的一个实际观察结果(例如,2014年的英特尔或2018年的AMD)。每个公司年度观察的实际分类要么是投机级,要么是投资级。


我们的模型会做出预测,因此存在四种可能的实际与预测组合:
- 真负例:正确预测一个投机级公司。
- 真正例:正确预测一个投资级公司。
- 两种类型的错误:
- 假正例:错误地将一个投机级公司预测为投资级。
- 假负例:错误地将一个投资级公司预测为投机级。

使用那个总是预测“投资级”的简单模型,我们可以使真正例率达到100%,但无法正确分类任何投机级公司。

因此,我们需要认真思考:造成这两种错误的成本分别是什么?

- 如果两种错误的成本相同(例如,错误地将投机级分类为投资级的成本,与错误地将投资级分类为投机级的成本相同),那么我们只需要平衡这两种错误,或者说平衡两类的分类准确率。
- 如果其中一种错误的成本特别高,那么我们将更倾向于选择能够避免这种代价高昂错误的模型。

让我们用一个具体的例子来说明。假设你是一家银行,负责发放贷款。

- 如果你错误地将一个投机级(高风险)借款人归类为投资级(低风险),成本可能非常高昂。因为你可能会提供宽松的贷款条件(低利率、松散契约),最终更可能在这笔贷款上亏损。
- 如果你错误地将一个投资级(低风险)公司归类为投机级(高风险),成本则不同。假设该公司仍然接受了贷款,你反而会因为收取了较高的利率而赚取更多利润。当然,真正的成本在于你可能因此失去这位优质客户的业务。

有人可能认为,将高风险公司错误地归类为低风险公司,在任何重大时间段或大量交易中,给贷方带来的潜在损失都特别高。在这种情况下,我们会特别关注减少假正例(即避免将投机级误判为投资级)。

这个例子说明,与不同类型错误相关的成本可能是不同的。因此,一个成功的模型真正取决于你的目标函数是什么。这需要在开始建模之前就清晰地定义。

总结与目标确认 ✅

在本节课中,我们一起学习了信用评级预测模型的构建思路。

让我们总结并明确最终目标:我们的目标是开发一个能够区分投资级和投机级公司的模型。在本课程的后续实践中,我们将暂时假设两种分类错误的成本相近。因此,我们将致力于构建一个能够平衡地、准确地分类投机级和投资级公司的模型,并以此作为衡量成功的标准。

这就是我们前进的方向。

课程 P53:信用风险数据探索 🏦
在本节课中,我们将学习用于信用风险分类模型的数据集。我们将了解数据的来源、结构,并通过探索性数据分析来观察投资级与投机级公司在关键财务指标上的差异。
数据来源与准备
上一节我们介绍了分类模型的背景,本节中我们来看看我们将要使用的具体数据。

一切始于科学过程:明确问题、提出假设,然后用数据进行测试。我们现在正处于用数据测试假设的阶段。这是数据科学工作流的开始,包括数据获取和验证。
数据来源于一个标准开放的CompuSAT数据库,其中包含了美国大多数上市公司以及部分私有公司的信用评级和财务信息。我们对原始数据进行了筛选和清理,最终得到了一个包含10540个观测值的样本。
该样本涉及1400家公司从1995年至2016年的数据,因此每个观测值代表一个“公司-年份”。
评级分布探索

在查看了数据的基本情况后,我们接下来对评级分布进行探索性数据分析。
为了简化呈现,已将标准普尔评级合并为字母评级桶。例如,“AA”桶包含了“AA-”、“AA”和“AA+”。评级分布大致呈钟形,但并非正态分布,部分原因是数据本身是离散的。
以下是样本中评级分布的观察:
- 大部分观测值集中在区分投资级(右侧)和投机级(左侧)的虚线附近。
- 数据主要集中在B级到A级公司之间。
- “AAA”评级仅有93个观测值,“CC”级评级则更少。

我们的目标变量并非具体的评级字母,而是一个二元分类:区分公司属于投资级还是投机级。
投资级与投机级样本概览
了解了整体评级分布后,我们聚焦于目标变量本身。

在我们的数据集中,投资级(标记为1)与投机级(标记为0)的分布几乎各占一半:51.1%为投资级,48.9%为投机级。这种均衡的分布使我们的建模工作更容易,因为两类公司都有很好的代表性。这与欺诈检测等类别极度不平衡的数据集形成对比。
关键财务指标对比分析

现在,我们将样本按投资级和投机级分组,并计算各组在之前讨论过的信用风险关键绩效指标上的平均值,然后进行配对t检验。
以下是分组后主要财务指标的平均值及t检验结果:
流动性比率
- 流动比率:投机级公司平均为
1.78,投资级公司平均为1.64。投机级公司的流动性反而更高,t统计量为-3.29,差异显著。 - 速动比率与现金比率也呈现类似模式。这可能是因为投资级公司现金流充裕,无需持有过多流动性资产。

偿债能力比率
- 利息覆盖率:投资级公司平均为
13.0,投机级公司平均为5.38。投资级公司的偿债能力远强于投机级公司,差异显著。 - 债务偿还覆盖率:投资级公司平均为
6.27,投机级公司平均为3.55。同样显示投资级公司偿债能力更强。
杠杆比率
- 债务/EBITDA:投机级公司平均为
4.25,投资级公司平均为1.97。投机级公司杠杆率明显更高。 - 债务/总资产:投机级公司平均为
0.45,投资级公司平均为0.26。表明投机级公司资产中债务融资的比例更高。

所有杠杆比率在两组间的差异都具有高度统计显著性。


总结
本节课中,我们一起学习了用于信用风险建模的数据集。

我们首先了解了数据的来源和基本结构。接着,通过探索性数据分析,我们观察了信用评级的分布以及投资级与投机级公司的样本平衡性。最后,我们重点对比分析了两类公司在流动性、偿债能力和杠杆水平等关键财务指标上的显著差异。

这些分析表明,我们所选取的财务指标在投资级与投机级公司之间存在系统性差异,这为后续构建一个有效的分类模型提供了良好的基础。在下一节课中,我们将利用这些特征开始构建分类模型。

📊 课程 P54:信用风险模型准备
在本节课中,我们将学习如何为信用风险模型的训练与测试进行数据准备。我们将重点讨论预测变量的相关性分析、冗余问题以及如何正确地将数据集拆分为训练集和测试集,以避免模型过拟合。

上一节我们介绍了信用风险建模的目标,即估计一个函数 F,利用一系列预测变量 x 来对结果变量 y(投资级为1,非投资级为0)进行分类。
🔍 预测变量的相关性分析
为了理解预测变量之间的关系,我们首先需要分析它们的相关性矩阵。相关性矩阵以热图形式呈现,帮助我们识别变量间的强正相关或强负相关。
以下是分析相关性矩阵的几个关键点:
- 矩阵的对角线元素均为1,代表变量与自身的完全正相关。
- 较深的颜色表示较强的正相关关系。
- 较浅的颜色表示较强的负相关关系。
- 例如,债务与资产比率和利息覆盖比率之间存在较强的负相关(约-0.5)。
⚠️ 识别冗余变量
我之所以展示相关性矩阵,是为了引出冗余变量的问题。在最初引入信用风险关键绩效指标时,我们根据其衡量内容进行了分组。
以下是按组划分的变量示例:
- 流动性指标组:包括流动比率、速动比率和现金比率。这些指标旨在衡量同一概念(流动性),因此彼此之间存在非常强的正相关。

冗余变量可能导致模型过于复杂。模型的简约性对于样本外预测非常重要。因此,我们可能需要减少使用的变量数量。虽然我们可以将所有变量放入模型,让模型自行筛选,但这并非总是最佳策略。完全相关的变量会给模型带来各种问题。
🧩 训练集与测试集拆分
接下来,我们需要讨论训练集与测试集的拆分。这一步应在建模过程开始时进行。其核心目的是避免过拟合——即模型在训练数据上表现完美,但在新数据上表现糟糕。
我们需要将完整的数据样本拆分为两部分:
- 训练集:用于估计模型、寻找最佳模型。
- 测试集(或保留样本):仅在确定最终模型后使用一次,用于评估模型在未见数据上的表现。
我执行了数据拆分。完整数据集共有10,540个观测值。拆分后,训练集包含8,432个观测值,测试集包含2,108个观测值。通过比较预测变量和结果变量(投资等级指示符)在完整数据集、训练集和测试集中的平均值,可以发现它们在统计和经济意义上均无显著差异。这正是随机分配观测值到训练集和测试集时应有的结果。


本节课中,我们一起学习了信用风险模型准备的关键步骤。我们分析了预测变量的相关性并识别了潜在的冗余问题,理解了模型简约性的重要性。最后,我们掌握了如何正确地进行训练集与测试集的拆分,这是防止模型过拟合、确保其泛化能力的基础。至此,数据准备阶段已完成,我们即将过渡到实际的模型训练环节。
课程 P55:信用风险模型训练 🧠

在本节课中,我们将学习如何训练一个基础的信用风险模型,评估其在训练数据上的表现,并通过简化模型和引入新指标来优化分析过程。
模型训练与初步评估
现在开始训练我们的模型。首先,我们使用一个基础的 Logit 模型来预测训练数据中的公司信用级别(投机级或投资级)。训练样本总数为 8,432 个观察值。
以下是模型在训练数据上的预测结果,以混淆矩阵的形式呈现:

在混淆矩阵中,行代表实际的观察结果,列代表模型的预测结果。准确的预测位于矩阵的对角线上。
- 当公司实际为投机级,模型也预测为投机级时,正确次数为 3,181。
- 当公司实际为投资级,模型也预测为投资级时,正确次数为 3,330。
模型出错的次数略低于 2,000 次:
- 当公司实际为投资级,但模型预测为投机级的次数为 959。
- 当公司实际为投机级,但模型预测为投资级的次数为 962。
为了更直观地理解,我们将这些数字转换为概率。将每个数值除以总观察数 8432,并重新计算行列总和。
转换后的概率矩阵显示:
- 正确预测投机级公司的概率为 37.7%。
- 正确预测投资级公司的概率为 39.0%。
因此,模型的整体准确率(模型评分)为 77.2%。这意味着模型正确分类了超过四分之三的观察结果。与随机猜测(鉴于数据中投机级和投资级各占约一半,准确率约50%)相比,这个表现要好得多。然而,22.8% 的错误率仍然不容忽视,其重要性取决于实际应用中不同类型错误所带来的成本。
模型简化与比较
上一节我们评估了包含11个预测变量的完整模型。本节中,我们来看看如果简化模型,只保留核心变量,表现会如何变化。
我们尝试删除7个变量,仅保留以下4个关键财务指标作为输入:
- 流动比率
- 利息保障倍数
- 债务/EBITDA 比率
- 债务/资产比率
这个简约模型在训练数据上的准确率为 76.5%,仅比完整模型(77.2%)低 0.7%。
这个差异可能具有实际意义(例如,在大型投资组合中,0.7%的差异可能意味着巨大的成本),但也带来了好处:
- 模型更简约、紧凑。
- 可能更不容易过拟合训练数据,从而在样本外预测时表现更稳健。
这种简化之所以可行,且性能下降不大,是因为在每个信用关键绩效指标组(如流动性覆盖率、杠杆比率)内部,变量之间存在高度相关性,因此保留一个代表性变量往往就足够了。
引入额外评估指标
除了整体准确率,在二元分类问题中,我们还可以使用其他指标来更细致地评估模型性能。以下是几个常用指标:
- 精确率:在所有被模型预测为“正面”(例如投资级)的案例中,实际也是“正面”的比例。它衡量的是预测的准确性。
精确率 = 真正例 / (真正例 + 假正例)
- 召回率:在所有实际为“正面”的案例中,被模型正确预测出来的比例。它衡量的是模型的查全能力。
召回率 = 真正例 / (真正例 + 假反例)
- F1分数:精确率和召回率的调和平均数,用于在两者之间寻求平衡。
F1分数 = 2 * (精确率 * 召回率) / (精确率 + 召回率)
在我们的简约模型中:
- 精确率约为 76.5%。
- 召回率约为 77.6%。
- F1分数约为 77.1%。
精确率和召回率通常存在此消彼长的关系。哪个指标更重要,完全取决于具体的业务目标和对不同类型错误的容忍成本。
总结与核心思想
本节课中,我们一起学习了信用风险模型训练与评估的全过程。
首先,我们训练了一个Logit模型,并通过混淆矩阵和准确率评估了其表现。接着,我们通过简化模型变量探讨了在模型复杂度与性能之间的权衡。最后,我们引入了精确率、召回率和F1分数等更细致的评估指标。

整个过程的核心思想是:模型评估不能只看单一数字。

(检查模型的混淆矩阵或概率版本)


(审视模型评分及其他指标)
最终,无论是关注整体准确率、精确率、召回率,还是混淆矩阵中的某个特定单元格,都取决于我们最初设定的明确目标以及不同预测错误所带来的相对成本。


因此,在整个建模流程中,最关键的一步是像科学方法要求的那样,清晰、具体地定义你要解决的问题,并基于此选择数据和评估标准。

(明确目标与假设是成功的起点)

[BLANK_AUDIO]



课程 P56:信用风险模型与数据 📊
在本节课中,我们将学习信用风险建模中模型与数据的关系。我们将回顾之前建立的Logit模型,并比较不同机器学习模型(如K最近邻、决策树、随机森林和支持向量机)在预测公司信用评级(投资级或投机级)上的表现。更重要的是,我们将探讨使用不同的预测变量(数据)对模型性能的影响,并理解在机器学习实践中,数据质量往往比模型选择更为关键。
回顾已建立的Logit模型 📈
上一节我们介绍了如何使用Logit模型来预测公司的信用评级。现在,让我们回顾一下该模型基于11个信用风险关键绩效指标(KPI)的表现。
该模型的评估结果如下:
- 精确度:76.8%。这表示当模型预测一个公司为“投资级”时,有76.8%的概率是正确的。
- 召回率:77.3%。这表示在所有实际为“投资级”的公司中,模型成功识别出了77.3%。
- F1分数:约77.1%。这是精确度和召回率的调和平均值,用于综合评估模型性能。
探索替代机器学习模型 🤖
在建立了基准Logit模型后,本节中我们来看看其他几种机器学习模型的表现。为了确保结论的稳健性,我们对所有模型都进行了交叉验证,以避免过拟合。
以下是使用相同11个预测变量时,各模型的性能比较(重点关注F1分数):
- K最近邻 (K-Nearest Neighbors):表现优异,召回率高达84%,整体F1分数为79.6%。
- 决策树 (Decision Tree):在所有评估指标上表现均不如其他模型。
- 随机森林 (Random Forest):表现良好,F1分数与K最近邻模型接近。
- 支持向量机 (Support Vector Machine):表现与Logit模型相似。

通过比较可以发现,K最近邻和随机森林模型的预测准确性略优于最初的Logit模型。这表明,在现有数据规格下,我们可以通过选择不同的模型来获得性能提升。
数据 vs. 模型:何者更重要?⚖️
我们已经看到更换模型能带来一些改进。现在,我们想探讨一个更根本的问题:是改进模型更重要,还是改进输入数据更重要?
为此,我们引入了一套新的预测变量,这些变量来源于穆迪(Moody‘s)信用评级研究报告中使用过的指标。然后,我们用相同的五个模型,分别基于原始11个KPI和穆迪预测因子进行训练和评估。
以下是核心发现对比(以F1分数为例):
| 模型 | 使用原始预测因子的F1分数 | 使用穆迪预测因子的F1分数 |
|---|---|---|
| Logit | 77.1% | 86.2% |
| K最近邻 | 79.6% | 88.1% |
| 决策树 | 71.0% | 82.4% |
| 随机森林 | 78.8% | 88.6% |
| 支持向量机 | 77.0% | 87.5% |
从表格中可以清晰地看到,当使用更具信息量的“穆迪预测因子”时,所有模型的性能都获得了飞跃性的提升。这种提升的幅度(例如,随机森林F1分数从78.8%升至88.6%)远远超过了通过更换模型所获得的微幅改进。
这个对比实验传递了一个关键信息:在机器学习实践中,高质量、相关性强的数据往往比模型算法的选择更能驱动项目的成功。这并不是说模型不重要,而是强调在资源有限的情况下,优先投资于数据理解和数据质量提升,通常能获得更高的回报,并真正将机器学习转化为商业价值。

总结 🎯

本节课中我们一起学习了信用风险建模中模型与数据的核心关系。我们首先回顾了Logit基准模型,然后比较了多种机器学习模型的性能。最关键的是,我们通过对比实验发现,改进输入数据所带来的模型性能提升,远大于更换模型算法本身。这深刻启示我们,在追求更精准的预测模型时,首要任务应是获取和理解高质量的数据。

课程 P57:信用风险模型误差分析 📊


在本节课中,我们将学习信用风险建模中的一个关键环节:误差分析。我们将探讨如何通过分析模型的错误分类来理解其局限性,并从中获得改进模型的洞见。



误差分析的重要性 🔍

上一节我们介绍了多种信用风险模型及其数据。本节中我们来看看模型开发过程中的另一个重要因素:误差分析。

误差分析旨在回答一个问题:模型在哪里出错?具体来说,我们是如何错误分类公司的?


误差分析表格解读 📈
为了理解模型的错误,我们构建了一个分析表格。


以下是该表格的核心构成:


- 评级类别:表格的每一行代表一个不同的信用评级,从最高的 AAA 级一直到 B- 级(这是投资级中最低的评级)。
- 观察数量:此列显示了训练数据中属于每个评级类别的公司总数。
- 错误数量/错误率:此列显示了模型错误分类的公司数量及其占总数的比例(错误率)。错误率计算公式为:
错误率 = 错误分类数量 / 观察总数 - 输入变量平均值:此部分展示了用于模型预测的各个输入变量(如利息覆盖率、杠杆率等)在对应评级类别中的平均值。

例如,对于评级为 BBB- 的公司,训练数据中有 862 个样本。模型错误地将其中 234 个分类为投机级,错误率为 27%。这些公司的平均利息覆盖率为 6.44,杠杆率为 0.50。


这个表格为我们提供了一个视角,让我们了解模型在哪些分类上容易出错,以及那些被错误分类的公司在财务特征上有什么共性。


深入分析具体错误案例 🧐


分析整体错误模式后,我们需要深入具体的错误案例。

请注意,模型没有错误分类任何 AAA 级公司。这很重要,因为如果连 AAA 级公司都分类错误,可能意味着输入数据存在严重问题,因为这些公司的财务指标与投机级公司相差甚远,本应很容易被正确识别。


然而,模型错误分类了四个 AA- 级的公司。让我们来仔细查看其中一个案例(涉及上世纪90年代中期的宾夕法尼亚州某公司):
- 利息覆盖率:1110,这虽然低于 AA- 级的典型值,但仍远高于投资级门槛。
- 杠杆率:约30%,属于相当保守的水平。
- 盈利能力:0.09, comfortably 处于投资级范围内。
- 杠杆波动性:2.6,对于高评级公司来说显得较高,但可能与某些投机级公司相比仍不算突出。
- 收入稳定性:5.5,这个值相对较低,可能是一个令人不安的信号。
- 公司规模(总资产):约2.75亿美元。这是最引人注目的差异。当我们查看投资级公司的典型规模时,其资产往往以十亿计。相比之下,2.75亿美元的规模显得非常小。

通过这个案例,我们可以假设,公司规模较小,连同收入稳定性较低和杠杆波动性较高,可能是导致模型对这个本应属于投资级的公司产生混淆、并将其误判为投机级的主要原因。


误差分析的目的与后续行动 🎯


需要明确的是,误差分析的目标并非追求在训练集上100%正确分类每一个样本。过度复杂的模型虽然能在训练集上做到完美,但往往在未知数据(样本外)上表现糟糕。

我们自然会容忍一些错误。但我们希望通过误差分析来理解模型犯错的系统性原因。因为如果模型总是以某种可预测的模式犯错,我们就可能通过改进模型来捕捉这种模式。

例如,如果反复发现错误分类与公司规模和收入稳定性相关,我们可能需要考虑:
- 在模型中使用更灵活的函数形式来处理公司规模这个变量。
- 或者,重新审视公司规模这个特征在模型中的重要性(尽管我们知道它确实重要)。


通过从错误中学习并识别共同主题,我们可以有针对性地改进模型。事实上,许多先进的机器学习算法(如提升模型)的核心思想,正是从自身的错误中不断学习。


总结 📝


本节课中我们一起学习了信用风险建模中的误差分析。我们了解到,误差分析是模型开发流程中的重要一环,它帮助我们理解模型为何出错,从这些错误中汲取经验,并最终指导我们改进模型,提升其分类准确率与稳健性。通过系统性地检查错误案例,我们可以将模型的弱点转化为进一步优化的方向。

课程 P58:信用风险总结与思考 💭
在本节课中,我们将对“金融、数据与技术”这一系列主题进行总结,并回顾在信用风险建模过程中学到的核心概念。我们将探讨数据、模型与人工智能在金融领域的作用,并思考未来的发展方向。
正如课程开始时提到的,金融、数据与技术三者密不可分。自金融活动诞生以来,数据就扮演着核心角色。随着技术的发展,这些技术逐渐渗透到金融实践乃至学术研究中,形成了强大的合力,引领我们走到今天。
在当今环境中,机器学习与人工智能等概念已成为核心。在本系列视频中,我们以线性方式探讨了多个相互关联的主题。所有工作都始于科学方法:清晰地定义问题、提出精确的假设、理解这些假设对数据可能产生的影响,并最终通过数据进行检验。
上一节我们介绍了科学方法论,本节中我们来看看数据科学工作流程的具体组成部分。
以下是数据科学工作流程的主要步骤:
- 数据获取与验证:从源头获取数据并确保其质量。
- 数据准备:清洗和转换数据,使其适合进行分析。
- 探索性数据分析:初步探索数据,发现模式和异常。
- 建模:基于准备好的数据构建预测或分析模型。
我们以企业信用风险作为应用背景,展示了上述所有步骤。我们首先讨论了企业信用风险的含义及其对公司和各类利益相关者的重要性。接着,我们探讨了通过分析企业财务报表和关键绩效指标来评估信用风险的基础知识。
然后,我们过渡到信用评级的讨论。信用评级是我们基于财务报表分析,向量化信用风险迈进的关键一步。我们以区分“投资级”与“投机级”这一相对粗略的视角为例,决定对信用评级进行建模。
在建模部分,我们实施了一个机器学习流程。我们从逻辑回归模型开始,并探索了包括K近邻算法在内的其他模型。我们有意避免了复杂的技术细节,旨在提供对这些概念的总体概述。对于希望深入学习的同学,有大量其他资源可供参考。
然而,从中得出的一个不常被强调的重要教训是:数据比模型更重要。如果你有资源可以投入,应该优先投入到数据质量上,而非一味追求更复杂的模型。因为模型的表现上限受限于输入数据的质量。
我们学到的另一件事是:了解模型在何处犯错,可能与了解其成功之处同等重要。错误所在之处,正是建模过程中需要改进的关键环节。
通过以上所有内容,你可能会问:“那么人工智能呢?我们还没谈到人工智能。”

我喜欢将人工智能视为一个包含机器学习的更大集合,其中还包括其他内容。为了保持内容的可消化性并将本系列控制在合理时长内,我们之前没有深入探讨。现在请允许我简要补充几句。
人工智能在金融领域可以扮演许多角色。我认为值得强调的一点是,它在克服或减轻人类决策中固有的行为偏见方面潜力巨大。看看丹尼尔·卡尼曼和理查德·塞勒等诺贝尔奖得主在行为经济学和行为金融学领域的工作,他们揭示了人类在做出经济或财务决策时常犯的错误。

我们总是会犯错。我认为人工智能的功能之一(当然它还有很多其他功能),就是帮助我们规范决策过程,避免在投资或其他金融决策中犯一些常识性错误。这方面潜力巨大,我们已经在智能投顾等领域看到了初步应用。并且,随着我们获得更多数据和计算能力的提升,人工智能在帮助人们做出更好财务决策方面的作用只会越来越重要。
本节课总结

在本节课中,我们一起回顾了整个信用风险分析的学习路径:
- 我们理解了金融、数据与技术的紧密联系。
- 我们实践了从问题定义、数据准备、探索分析到建模的完整数据科学工作流。
- 我们以企业信用风险为案例,学习了如何通过财务指标分析和机器学习模型(如逻辑回归)来评估风险。
- 我们认识到数据质量的核心重要性,以及分析模型错误对于改进的关键作用。
- 最后,我们展望了人工智能在规范金融决策、克服行为偏见方面的未来潜力。

希望本系列课程为你理解数据科学在金融领域的应用提供了一个清晰而实用的起点。

课程P59:人工智能在金融领域的应用 🏦💡
在本节课中,我们将学习人工智能在金融服务行业中的具体应用。我们将探讨人工智能如何改变前台客户互动和后台运营,并了解成功实施人工智能项目所需的关键策略。
访谈概述
我们曾讨论过使用投资组合来管理人工智能项目,也探讨过机器学习的民主化。本次访谈是与Apoorv Saxena的深入对话。Apoorv Saxena曾在谷歌工作,帮助实施了许多人工智能项目,目前是摩根大通的全球人工智能负责人。本课程提供的文章可作为可选阅读材料,鼓励大家深入了解。现在,让我们开始与Apoorv的对话。
你好。现在与我一同参与的是Apoorv Saxena,他是摩根大通的全球人工智能负责人。Apoorv,感谢您加入我们。如果可以,请简要介绍一下自己和您的背景。
谢谢你,Karthik,邀请我参与这次对话。正如你所说,我领导摩根大通的人工智能和机器学习团队。我在这里快一年了。我根本相信人工智能对金融行业是非常具有变革性的。这是我在过去几年中的主题。在此之前,我在谷歌工作,负责谷歌人工智能垂直团队,基本上是将人工智能应用于医疗、金融和工业领域。我们相信人工智能是一个贯穿始终的主题,关于转型多个行业。我正在摩根大通实现这一点。
很好。事实上,关于这一点,我很想听听人工智能在金融服务中的影响。你能帮助我们了解人工智能如何被使用的全貌吗?人工智能在金融中是如何应用的?
如果你看看金融历史,它一直是一个技术驱动的行业,从自动取款机到使用数字银行。这是一个非常数据驱动的行业。人工智能转型所需的两个基本论点是,您必须拥有大量数据,并且这必须是数字化的。这两个关键因素在金融中一直存在。第三个非常有趣的方面是,通常不存在代理问题。其他行业中存在于医疗领域,拥有数据的人有巨大的激励来实现盈利,作为任何人工智能决策过程的结果。金融领域的转型速度非常快。所以我认为这三个组合使人工智能在金融行业非常成熟,通过人工智能的颠覆。有多种事情正在发生。人工智能现在被用来颠覆您与前台的互动方式,一直到在后台,可以给您多个例子说明这一点是如何实现的。
前台应用:客户互动转型
上一节我们介绍了人工智能在金融领域的整体成熟度。本节中我们来看看人工智能如何具体改变金融服务公司与客户的互动方式,即前台应用。
我想再说一遍。在前台,最重要的是客户互动。因此,AI正在被用来从根本上转变多渠道、全渠道的体验。无论你现在谈论的是哪种方式,是否只是访问一个在线网站,你可以与银行进行对话。这是一个正在利用对话AI进步而转变的领域。更好的目标定位,微目标定位,使用通常的独特信号。银行在目标客户群体时从未使用这种方式。而第三个是个性化。个性化已经存在一段时间,但创造个性化的金融产品,还有正在前端发生的事情。
好的。你所说的创造个性化金融产品是什么意思?我们在本课程中确实讨论过个性化。这是一个重要主题,不仅限于金融服务,还有零售和许多其他场景。但这也是一个已经存在一段时间的想法。那么,请多告诉我们一下如何个性化产品本身。
这是一个非常好的问题。个性化已经存在很长时间了。因此,信息传递的个性化也已经存在一段时间,在电子邮件方面比较长,但电子邮件的目标定位,使用正确的语言,这正是目标定位。但在过去几年发生了什么?在过去的几个季度中,产品的创造越来越多。一个例子是主题投资组合。因此,你可以拥有一个基于你兴趣的非常独特的创意投资组合。嘿,我想投资于可持续发展的公司。我想投资于针对特定地区的公司。那么,如何在不实际挖掘他们的SEC数据和文件的情况下做到这一点?他们的投资关系,然后提出一个特定主题。这就是一个AI用于创建主题投资组合的例子。
后台应用:运营效率提升
了解了前台互动后,我们转向后台运营。人工智能在金融后台,如风险控制和运营自动化方面,同样发挥着关键作用。
再次说明。AI在金融领域已经使用很长时间了。传统上,后台处理如欺诈和反洗钱。因此,发生了什么变化?新深度学习技术正在转变。技术正在被用来创建非常复杂的欺诈检测模型。这就是你可以在某种程度上操纵数据的规模,利用数据和新数据源。这就是正在发生的巨大转变。反洗钱也是一样。现在例如,摩根大通处理大约三分之一的所有交易,在世界上发生的事情通过某种方式与摩根大通相关。我们正在使用实时极其复杂的知识图谱来创建见解和反欺诈警报。这就是一个例子。其他领域,呼叫中心的传统领域。与其说你的IVR体验是完全的,我们通过对话体验来转变客户体验。你甚至可以与银行账户进行体验对话,谈论如何。银行的支票账户里有多少余额,你可以做什么。你现在可以完全通过对话方式进行简单的电汇,而无需与人类交谈。这就是传统上存在的后台操作类型,现在通过AI正在进行转型。另一个我应该提到的例子是合同。因此,银行。银行的许多后台操作与合同相关,谈判和维护合同。因此,在这一方面有很多令人兴奋的新事物发生。机器理解合同并识别差异,在合同中提醒相关方采取行动。因此,在这一领域也有很多出色的工作。
成功实施人工智能的策略
我们已经看到了人工智能在前台和后台的具体应用。那么,公司如何确保其人工智能投资能获得回报呢?以下是成功实施人工智能项目的关键策略。
所以作为全球AI负责人,显然,无论是你个人还是整个组织,正在大量投资于AI。当公司在AI上进行大量投资时,问题是需要具备哪些条件。你想从中获得回报?因为正如我们所见,有很多公司正在投资AI,但尚未看到回报。那么告诉我们你对此的看法。你认为哪个AI策略效果很好?长期来看,这可能会产生回报?
这是一个非常好的观点。我认为需要注意的一点是,开始使用AI非常简单。我认为实际上可以雇佣几位数据科学家,给他们一台笔记本电脑,他们应该能够迅速开始进行AI,从事机器学习或数据科学。我认为你需要关注的是如何产生巨大影响,AI的变革性影响?我认为我们看到的工作有三种方式。
以下是实现人工智能变革性影响的三个关键支柱:
- 建设大规模AI基础设施:这意味着要确保数据就位,数据易于发现和注释,并具备训练大型模型的能力。这可以表示为:
强大的AI基础设施 = 高质量数据 + 高效计算平台。 - 采用端到端的业务流程视角:不要只关注单个接触点,而应审视从头到尾的整个流程,看看人工智能如何能改变整个链条。
- 创造全新的数字体验:利用人工智能的能力,创造过去无法实现的新颖客户体验,这往往是产生最大长期影响的地方。
有什么新的数字体验可以通过AI创造的例子?
我认为AI无法做到的,已经能够做得很惊人。通过对话创造新体验。语音转文本的准确性大大提高。创建新文本的能力,完全由AI生成的文本大大增加。现在你可以想到两三年前根本不可能的体验。就在两三年前。所以正确的例子是。如果你在私人领域讨论,实际上有很多低接触。你通常作为银行想要自动化的高频交易。例如嗨。你早上醒来,想检查你的投资组合。它怎么样,为什么会下降?所以,嗨,你醒来,跟Alexa对话,数字体验助手之一,并且说,为什么我的投资组合下降了两个百分点?然后人工智能助手分析你的投资组合。它给出了非常好的理由说明为什么会下降,并给你这个交易。当然。在所有这些体验中,如果你想深入挖掘,可以深入研究。你实际上拨打了你的财富顾问的电话。但这就是我们所谈论的体验。
所以很清楚你可以如何应用人工智能来改善现有体验。但当你谈论创造新体验时,你到底是什么意思?
所以人工智能实现了完全变革的体验。你与机器的对话方式,以及你如何生成新的、机器生成的文本。所以这两个进展可以用来改变你与银行的互动。举个例子。通常是低接触、高频率的互动。你的私人财富顾问通常是银行想要自动化的内容。这方面的一个例子是你早上醒来,通过Alexa与银行对话,并说。嗨,我的投资组合今天怎么样?实际上,昨天表现如何?而且它说,嗨。它下降了两个百分点,然后你开始深入挖掘,嘿,为什么会下降两个百分点?它说这是你的投资组合是如何构建的。这就是它出现问题的原因等等。所以这种互动非常低接触,非常高频率。但今天你可以轻松自动化的事情。这就是我所说的体验。
总结
本节课中我们一起学习了人工智能在金融领域的广泛应用。我们了解到:
- 在前台,人工智能通过对话式交互、精准定位和个性化产品创造,正在彻底改变客户体验。
- 在后台,人工智能提升了欺诈检测、反洗钱、客户服务和合同管理的效率与复杂性。
- 要确保人工智能投资获得回报,公司需要聚焦三大策略:建设强大的AI基础设施、从端到端流程视角应用AI,以及利用AI创造全新的、颠覆性的数字体验。
Apoorv,再次感谢你加入我们。

感谢你的邀请。

课程 P6:数据管理基础设施 🗄️
在本节课中,我们将要学习数据管理基础设施的核心概念、演变历程以及企业如何构建和利用它来支持业务决策与人工智能转型。
概述
数据基础设施是企业进行大规模数据分析和AI驱动业务转型的基石。它涉及数据的存储、处理、转换和查询等一系列系统与工具。理解不同类型数据库的作用以及基础设施的演变,对于构建高效的数据平台至关重要。
数据库的类型:事务型与分析型
上一节我们概述了数据基础设施的重要性,本节中我们来看看企业中最常见的两种数据库类型。
大多数公司最终需要两种主要类型的数据库。
-
事务型数据库:这是一个记录关键业务信息、支持日常运营的系统。它需要非常快速,但往往成本较高。
- 示例:银行使用事务型数据库来实时记录和更新客户的账户余额。
-
分析型数据库:这是一个用于处理大规模、长时间跨度历史数据的系统。它擅长回答复杂的商业智能问题。
- 示例:银行将历史交易数据转移到分析型数据库中,以便查询“过去五年中有四年余额增长超过10%的客户名单”。
核心区别:事务型数据库处理“当下”的业务操作(如 UPDATE balance SET amount = amount - 100 WHERE account_id = 123),而分析型数据库分析“过去”以洞察未来。
数据基础设施的演变
了解了基本数据库类型后,我们来看看支撑这些数据库的基础设施是如何随着数据量的爆炸式增长而演变的。
最初,企业需要购买昂贵的专用硬件和软件来搭建分析数据库(数据仓库)。随着数据来源(如移动应用、网站、供应链)的激增,这种方案变得成本高昂且性能不足。
于是,第一次重大演变发生了:
- Hadoop的兴起:为了解决海量数据处理问题,出现了基于廉价硬件集群的分布式系统,如 Hadoop。它提供了一种更具成本效益的方式来存储和处理庞大数据集。
- 数据湖的概念:“数据湖”成为一个术语,指代存储原始、海量数据的存储库。企业使用 Hadoop 或其后继者 Spark 这样的计算引擎,从湖中提取、转换数据。
- 核心概念:
数据湖 -> (Spark/Hadoop 处理) -> 数据仓库/数据集市
- 核心概念:
- 数据集市的形成:处理后的数据常被导入更小、更专注的数据集市或传统数据仓库中,以供业务用户快速查询。
Spark 是更现代的分布式处理框架,它比 Hadoop MapReduce 速度更快,功能更丰富,常用于数据湖上的计算任务。
现代解决方案:云数据仓库
上一节我们介绍了基于数据湖的架构,本节中我们来看看当前的主流趋势——云数据仓库如何简化了这一过程。
人们发现,管理分散在数据湖和多个数据集市中的数据非常困难,且常常需要专门的工程团队编写代码。大约十年前,云数据仓库 应运而生。
云数据仓库(如 Snowflake, Amazon Redshift, Google BigQuery)重新构想了传统数据仓库。它们结合了 Hadoop 体系的可扩展性(运行在租用的廉价云硬件上)和传统数据仓库的易用性。
其关键优势包括:
- 使用标准的 SQL 语言进行交互。
- 能够与 Tableau、Looker 等主流商业智能工具无缝集成。
- 无需管理底层硬件,按需伸缩。
理想数据平台的组成部分
现在我们已经了解了核心存储与计算系统,一个完整的数据平台还需要哪些关键部件呢?
一个理想的数据平台需要具备以下三个核心组成部分:
以下是构建一个完整数据工作流所需的工具链:
- 数据摄取工具:负责将来自各种来源的数据导入数据平台。
- 数据转换与处理工具:用于将原始数据清洗、聚合、转换为有用的信息。这既包括简单的汇总(如按月度聚合用户行为),也包括复杂的机器学习模型训练与预测。
- 查询与可视化引擎:例如 Tableau 或 Looker,允许分析团队基于处理后的数据构建仪表盘和报告,回答商业问题。
使用云数据仓库的一个主要好处是,它能让你轻松接入这个标准化的工具生态系统,而无需为特定技术栈(如Hadoop)定制所有工具。
给管理者的建议:如何开始
在投入大量资源建设基础设施之前,管理者必须明确目标。本节将提供关键的启动建议。
建立数据基础设施是一项重大投资,不应盲目进行。在开始之前,管理者应思考以下问题:
以下是启动数据基础设施项目前必须厘清的三个关键点:
- 以问题为导向,而非以技术为导向:不要为了建平台而建平台。首先思考你希望解决哪些具体的商业问题。
- 识别高价值问题:关注那些当前需要人工花费数天时间在Excel中处理的分析任务。这些往往是数据基础设施能带来最大效率提升的“合适候选者”。
- 聚焦关键数据:并非所有数据都有用。只收集那些对回答核心商业问题、驱动业务高效运营真正重要的数据。
总结

本节课中,我们一起学习了数据管理基础设施的完整图景。我们从事务型和分析型数据库的区别出发,回顾了基础设施从昂贵专有系统到Hadoop/Spark数据湖架构,再到现代云数据仓库的演变历程。我们拆解了一个理想数据平台所需的摄取、转换、查询三大部件,并最终强调了以业务问题为核心的构建思路。记住,强大的数据基础设施是释放数据价值、实现AI与业务智能化的先决条件。

课程 P60:金融欺诈检测中的机器学习 💳
在本节课中,我们将探讨机器学习在金融领域,特别是欺诈检测中的应用。我们将了解其工作原理、价值以及面临的挑战。

概述


过去,信用卡欺诈检测通常在交易发生很久之后才被发现,往往由客户在账单上发现异常并报告。这种方式导致客户体验不佳,且金融机构已蒙受损失。如今,机器学习算法能够在交易发生时进行实时评估,从而在欺诈发生前进行预警和阻止。
欺诈检测的演变

上一节我们提到了传统欺诈检测的滞后性。本节中,我们来看看机器学习如何改变这一局面。
如今,当客户使用信用卡进行交易时,机器学习算法会实时评估该交易。如果算法判断交易存在欺诈风险,系统会立即提醒客户,并可能阻止交易。这实现了在客户感到不满或焦虑之前就检测到欺诈,同时避免了首次欺诈交易的发生,为商家和发卡行节省了资金。


准确性的重要性

机器学习在欺诈检测中的应用价值巨大,但算法的准确性至关重要。不准确的预测会导致假阴性和假阳性,两者代价都很高昂。
以下是两种主要的错误类型及其影响:

- 假阴性:算法未能识别出欺诈交易,让欺诈者完成购买。后果是持卡人后续提出争议,银行或商家需承担退款和商品损失。
- 假阳性:算法将一笔合法交易错误地标记为欺诈并予以阻止。这会损害客户体验,可能导致客户流失。
因此,公司必须确保其用于欺诈检测的机器学习算法具有高准确度,并尽可能降低假阳性和假阴性率。


核心算法原理

如果我们深入探究,会发现公司同时使用监督学习和无监督学习算法。
监督学习算法
监督学习算法基于历史数据进行训练,这些数据包含了已被明确标记为“欺诈”或“非欺诈”的交易记录。

算法通过分析这些数据,学习区分欺诈交易与合法交易的特征模式。它依赖于大量、高质量的训练数据。
公式/概念表示:
模型 = 训练(历史交易数据[特征, 标签])

其中,“特征”可能包括:
- 交易金额
- 交易发生国家 vs. 发卡国家
- 交易IP地址
- 短时间内交易频次
- 历史交易地点分布

一个简单的决策树模型可能如下所示(伪代码逻辑):
if 交易金额 > 20:
if 交易国家 != 发卡国家:
标记为“可疑”
else:
标记为“正常”
else:
if 过去一小时交易次数 > 5:
标记为“可疑”
else:
标记为“正常”
无监督学习算法
无监督学习算法不依赖于预先标记的数据,而是进行异常检测。
算法会分析一笔新交易与客户历史交易模式、或整体交易数据库模式的差异。任何显著偏离正常模式的交易都会被标记为异常,可能意味着欺诈。
核心思想:识别与常规行为不符的“离群点”。

机器学习的优势

结合使用监督和无监督学习,机器学习为欺诈检测带来了显著优势:

- 速度:算法能比人类更快地检测欺诈,有助于预防而非事后处理。
- 规模:算法检测可以轻松扩展到处理海量交易,而人工审查难以实现。
- 效率与准确性:在大量数据支持下,算法可以达到比人工更高的检测准确率。考虑到全球每年因欺诈损失巨大,其应用价值显著。

面临的挑战与局限
尽管优势明显,但将机器学习应用于欺诈检测也存在一些局限:
- 可解释性:一些先进的算法(如深度学习、梯度提升)如同“黑箱”,其决策过程难以解释。这可能导致难以排查算法错误或偏见。
- 算法偏见:算法可能无意中学习到训练数据中的偏见,例如对某些地区或群体的交易进行不公平的拒绝。这催生了“可解释人工智能”领域的发展。
- 数据依赖性:机器学习在大量数据下效果最佳。对于数据有限的小型机构,可能难以发挥其最大效能。


总结

本节课中,我们一起学习了机器学习在金融欺诈检测中的应用。我们回顾了从被动检测到实时预防的演变,理解了监督学习和无监督学习(异常检测)的核心原理,认识了高准确性的重要性以及假阳性/假阴性的代价。同时,我们也看到了机器学习带来的速度、规模和效率优势,并了解了其在可解释性、偏见和数据依赖方面的挑战。欺诈检测是机器学习在金融领域一个非常成功且持续发展的应用方向。

课程 P61:机器学习在金融中的其他应用 🏦
在本节课中,我们将探讨机器学习在金融领域除欺诈检测之外的其他重要应用。我们将了解这些技术如何提升金融服务的安全性、效率和决策质量。

概述

金融服务中存在多种需求,机器学习技术正被应用于满足这些需求。本节我们将重点讨论两个关键应用:身份验证与身份确认,以及贷款与保险的承保。
身份验证与身份确认 🔐

上一节我们介绍了课程的整体框架,本节中我们来看看身份验证与身份确认。这在金融服务中极其重要。当允许消费者进行交易或转账时,必须确保实际操作的人是他或她声称的那个人。因此,需要进行身份验证。

传统的身份验证方法是使用密码或PIN码。而在数字领域,机器学习的应用体现在生物识别技术上。
以下是生物识别技术的几个例子:
- 进行人脸识别。
- 进行指纹识别。
- 进行语音识别。

这些技术用于确定谁实际上在与公司的网站或移动应用程序互动。例如,顾客在登录银行账户时,可能会被要求拍摄照片、朗读一段话或使用指纹。
事实上,在中国的银行中,ATM使用人脸识别并不少见。当顾客走到ATM前时,摄像头可以识别客户并完成身份验证,从而允许其使用ATM。这项技术目前正在中国的多家银行中使用。
生物识别识别不必仅仅关注指纹或声音。企业和研究人员也在测试其他客户识别方法。
以下是其他可能的生物识别方式:
- 观察用户握持手机的独特方式。
- 分析用户轻触手机屏幕的独特模式。
不过,这类技术尚不够成熟,目前尚不清楚是否会在实践中被广泛使用。如今,生物识别在身份识别方面有多种用途,所有这些用途都倾向于依赖机器学习算法进行模式识别。
这些技术的优势在于,生物识别提供了相对于密码等传统方式更高的安全性。当然,其限制在于它们并非万无一失,不能保证完全杜绝欺诈,但可以显著减少欺诈的发生。

贷款与保险的承保 📊
上一节我们讨论了身份验证,本节中我们来看看机器学习在贷款和保险承保中的应用。在传统的贷款审批决策中,今天是由贷款官员根据一些客户信息做出判断。
但是,越来越多的人对应用机器学习算法来指导或自主做出贷款决策表示出兴趣。这些算法通常是监督式机器学习算法。
监督式机器学习算法需要一个训练数据集。该数据集将包含多个特征(或称协变量、X变量)以及一个干净的标记结果变量(Y变量)。

以下是训练数据集通常包含的内容:
- 特征(X变量):包括客户数据,如年龄、收入、就业状况、信用历史等。
- 结果变量(Y变量):例如客户过去的信用评分、按时还款的历史记录,或是否发生过违约。
用一个简单的公式表示,模型的目标是学习一个函数 f,使得:
Y ≈ f(X1, X2, ..., Xn)
其中,Y 是预测目标(如违约概率),X1 到 Xn 是客户特征。
模型在历史数据上训练完成后,就可以用于对新客户的贷款申请进行风险评估,预测其违约的可能性,从而辅助或自动化承保决策。
总结
本节课中,我们一起学习了机器学习在金融领域的两个重要扩展应用。
首先,我们探讨了身份验证与身份确认,了解了如何利用人脸识别、指纹识别等生物识别技术,结合机器学习,提升金融交易的安全性。

接着,我们分析了贷款与保险的承保,看到了监督式机器学习如何利用客户的历史数据特征来预测信用风险,从而优化承保决策流程。

这些应用展示了机器学习技术正在深刻改变金融服务的运作方式,使其变得更智能、更高效。

课程P62:Visa与CyberSource中的AI应用 🏦🤖

在本节课中,我们将通过Visa战略与企业发展和CyberSource总经理Carli Jake的访谈,了解人工智能和机器学习在支付与反欺诈领域的实际应用。我们将探讨AI如何解决复杂的商业问题,以及数据、模型和商业背景在其中的关键作用。
背景介绍:Carli Jake与CyberSource
Carli Jake在硅谷担任了20年的科技投资银行家,之后加入了Visa,负责战略和企业发展。四年前,她开始担任CyberSource的总经理。CyberSource是Visa旗下的全球商户和收单平台,本质上是一个数字支付管理平台。
上一节我们介绍了Carli的背景,本节中我们来看看她所负责的业务。
CyberSource是传统实体店支付体验的数字版本。无论是购买咖啡、交通票、停车费、毛衣,还是从自动售货机购买零食,这些数字交易很可能都由CyberSource提供支持。2020年,该平台处理了约210亿笔交易,总价值约6000亿美元。
AI在支付领域的核心应用:反欺诈
考虑到如此庞大的交易量,Visa及其业务单元(如CyberSource)的核心价值驱动因素之一,就是利用AI和机器学习来解决问题,特别是欺诈问题。
在数字支付世界中,商家需要为不良交易(欺诈交易)承担责任,因此他们对反欺诈工具极为关注。CyberSource积极开发欺诈检测工具来支持商家。去年,该平台在反欺诈方面处理了约2000亿美元的支付金额,涉及约二十亿笔交易。
以下是CyberSource反欺诈工作的几个关键点:
- 数据整合:系统会审视全球范围内的交易,并考虑来自超过250个不同来源的欺诈信号。
- 应对挑战:在COVID-19疫情期间,电子商务流量激增,欺诈活动也大幅增加。
- 灵活应用:商家不仅以传统方式部署反欺诈能力,还与CyberSource合作创造新的用例。
一个具体的例子是,在疫情初期出现了囤积行为。某客户利用CyberSource的技术,在商品层面进行精细调整,通过观察购买模式来限制个人可购买的消毒剂数量,从而保障更广泛社区的供应。这展示了技术如何被灵活地适应于特定场景。
工作方法的演变:从“由内而外”到“以客户为中心”
COVID-19的例子表明,Visa和CyberSource接触AI的方式与五年前相比已经加速并发生变化。这种变化的核心在于工作方法变得更加迭代和灵活。
过去,在技术复杂、生态系统错综的支付行业,构建解决方案通常采用“由内而外”的视角,即从内部技术流程出发。而现在,团队更侧重于思考客户体验和“客户旅程”,专注于解决具体的商业问题。
这种转变彻底改变了产品体验。以下是实现这种转变的关键实践:
- 联合应用开发会议:与客户、技术团队、产品团队和数据科学家一起协作。
- 数据科学家的关键角色:数据科学家是这些会议中不可或缺的一部分,因为欺诈模式具有高度的行业特异性。
- 理解商业背景:除非深刻理解客户的商业环境,否则即使拥有卓越的技术,也可能无法优化出期望的结果。
理解商业背景:模型成功的基石
当我们谈论商业背景时,其重要性怎么强调都不为过。框定正确的商业问题是构建有效AI解决方案的第一步。
欺诈检测的商业背景因行业而异。例如,数字商品利润率极高,单笔欺诈交易对业务影响不大;而利润微薄的行业,每一笔欺诈交易都会对底线产生巨大冲击。因此,模型需要根据不同的商业成本进行优化。
商业背景还是动态变化的。以航空业为例,疫情期间出现了大量国际单程机票。通常这可能是欺诈信号,但当时很多人只是为了回家。模型必须根据变化的商业环境进行调整,才能避免误判合法的交易。
数据的核心地位:模型的“秘密配方”
构建良好模型的关键要素之一就是数据。模型的质量完全取决于其训练数据的质量。
在支付行业,数据有其特殊性。例如,一笔信用卡不良交易需要由消费者或商家向银行报告,裁决过程可能长达90天。这意味着有90天的时间无法确认某笔交易的真实性质。
以下是关于数据质量的几个关键考量:
- 渠道差异:移动支付、电子商务和面对面交易可能有不同的欺诈模式,需要分别理解。
- 模型成熟度:需要持续监控模型表现,理解其成熟度,并评估新数据或新洞察带来的提升。
- 数据标准化与治理:Visa和CyberSource非常重视数据治理、隐私和标准化。支付交易有至少20种不同的影响方式,各有不同属性。如果不同数据源之间的映射不正确,或者吸收新数据源时基准不统一,就会扭曲分析结果。
- 数据增强:可以通过引入设备属性、IP地址、用户行为模式(区分真人与机器人)等数据来增强模型。但这一切都建立在清晰、一致的数据定义之上。
总结
本节课中,我们一起学习了AI和机器学习在Visa及CyberSource支付生态系统中的实际应用。我们了解到:
- 反欺诈是AI在支付领域的核心应用场景,需要处理海量交易和复杂的欺诈信号。
- 工作方法已从技术导向转变为以客户旅程和商业问题为中心,强调迭代和协作。
- 商业背景是框定问题和优化模型的关键,不同行业、不同时期的需求差异巨大。
- 数据质量是模型的基石,需要严格的数据治理、标准化以及对数据特殊性的深刻理解(如90天的裁决周期)。

通过这次学习,我们看到了在看似简单的信用卡交易背后,一个由AI驱动的复杂、动态且高度依赖数据的智能系统在持续工作,以保障交易的安全与效率。

课程 P63:人工智能在人员管理中的应用介绍 🧠
在本节课中,我们将探讨人工智能和数据科学如何应用于人员管理领域。我们将了解其带来的巨大机遇,以及将原本用于优化机器和流程的工具应用于管理“人”时所面临的独特挑战。
课程概述
我是彼得·卡佩利,在沃顿商学院担任教授已有35年,并负责运营人力资源中心。长期以来,我一直在关注工作场所的变化,特别是薪酬、绩效管理方式的转变,以及劳动力市场日益开放、员工流动性增强的趋势。在本课程中,我和我的同事们将共同探讨人工智能在人员管理中的角色。
我的同事马修·比德威尔和索尼·坦比(一位转行研究工作场所问题的计算机科学家)也将参与讲解。我们将用大约四个小时的时间,深入讨论这些重要议题。
人员管理的重要性
首先,让我们从管理人员的一般视角开始。对于管理经验不多或从数据科学角度切入的观众,需要理解:管理是一项巨大的任务。
从成本角度看,在一个典型组织中,约三分之二的成本来自员工或各类劳动。仅在美国,每年就有约6600万人更换工作,这还不包括庞大的在职劳动力。因此,如何管理员工绩效、支付薪酬、规划职业道路并帮助他们转型,都是核心问题。
这个行业的规模极其庞大。仅在美国,由人员管理(包括外包、薪酬、绩效、招聘等)驱动的行业规模就达到约五千亿美元,几乎与整个美国建筑行业相当。这说明了人员管理对组织、社会和企业财务的重大影响。
此外,人员管理直接影响公司品牌。当前,性骚扰、多样性与包容性等问题受到高度关注,公司需要证明其遵守相关政策。在商业战略中,企业的核心竞争力往往归结为“人”以及管理他们的方式。
最终,人员管理之所以至关重要,是因为它直接影响人们的生活。管理不善可能导致健康问题、压力,甚至让员工感到痛苦。良好的管理则能让生活变得更美好。
什么是人工智能与数据科学?
上一节我们介绍了人员管理的宏观背景,本节中我们来看看我们将要使用的主要工具:人工智能与数据科学。
“人工智能”是一个动态发展的目标,其理念是让机器能够做出通常只有人类才能做出的决策。目前,当我们谈论人工智能时,主要指的就是数据科学。
数据科学的核心是对数据进行工程化处理,其基础学科是统计学。数据科学特别应用统计学和数据分析工具来解决优化问题。
以下是优化问题的两个例子:
- 供应链管理:确保在正确的时间将适量的货物送达商店。
- 车队调度:优化卡车车队的调度,以确保拥有恰好数量的车辆。
其通用目标可以表述为:在给定约束条件下,找到使某个目标函数(如成本最低、效率最高)最优的解决方案。
管理“人”与管理“物”的根本区别
然而,将数据科学应用于“人”时,问题变得截然不同。与卡车不同,人会生病、会愤怒,并在愤怒时做出反抗行为。他们可能会离职,如果对工作不投入,可能会怠工甚至进行破坏。
这在工会运动中有一项旧技术,称为 “按规章工作” 。如果员工对管理层不满,他们可以严格地、逐字逐句地遵循工作手册上的每一条规则,这足以让组织陷入停滞。
因此,管理“人”带来了许多与单纯优化机器设备完全不同的后果。自管理学科诞生以来,其根本性辩论之一就是“管理”观点与“领导”观点之间的划分。
这项研究在20世纪30年代开始,50年代后受心理学影响更大。道格拉斯·麦格雷戈著名的X-Y理论区分了这两种观点:
- 理论X:认为人是理性的,本质上不愿工作,除非给予报酬和严密监督。
- 理论Y:认为如果管理得当,人们可能会主动去做你希望他们做的事。
测试你自己立场的一个方法是思考:是告诉员工该做什么更好,还是询问他们该做什么更好?前者更接近理论X,后者更接近理论Y。理论X的观点与工程原则及数据科学的管理方式更为一致。
公平性与法律:不可忽视的维度
当我们从预测设备故障转向预测员工行为时,一个关键区别出现了:我们不仅关心预测结果的准确性,更关心得出预测结果的方式。
例如,如果我们能100%准确地预测谁将辞职,但方法是通过窃听员工的电话记录或监控其社交媒体,那么即使预测完美,也会引发严重的道德和法律问题。
因此,在人员管理中,像公平性这样的议题至关重要。公平性问题体现在法律和政府对所有就业方面的规章中。当我们开始处理就业决策时,就不可避免地会遇到这些公平性问题,并经常与法律发生冲突。这是数据科学在其他领域(如设备管理)中较少遇到的挑战。

变革管理:实施新工具的挑战
将数据科学引入人员管理面临的另一个重大问题是变革管理。这是一种非常重要的通用管理能力。
在数据科学出现之前,我们已经有一套非常复杂、甚至有些混乱的员工管理系统。人力资源部门有大量的文件和手册来描述员工应如何被管理,并且投入了大量资源培训管理者。

现在,我们要求他们采用一种基于数据科学的、截然不同的决策方式。这就产生了变革的阻力。即使我们拥有出色的数据科学工具,如何让人们放弃现有的决策方式,转而采纳这些算法,是一个需要仔细思考和管理的过程。
简单来说,如果你将数据科学用于优化酒店房间定价,房间不会起诉你。但如果你用于分配工作任务,而这些分配影响了公平性,员工可能会起诉你。相同的算法,在不同环境下会导致截然不同的结果。
因此,我们需要考虑的不仅仅是人力资源界或基层管理者的阻力,更要仔细管理变革过程,以抓住做得更好的机会。
巨大的机遇与总结
回顾我一生中所见的商业变革,人工智能在人员管理中的应用可能是其中最大的变化之一。它通过改变决策方式、数据收集方式和资源分配方式,产生了深远的连锁反应,并影响着公平性等核心问题。
这里存在着巨大的机遇,因为当前许多人员管理决策的执行效果并不理想。例如在招聘中,我们不仅常常未能将合适的人放在合适的岗位上,还存在着大量的偏见和歧视。因此,我们并非在微调一个已经完美的模型,而是有很大的提升空间。
如果我们能做得更好,就能改善组织的运营,也能让员工的生活变得更好。这正是我们面临的现状:一个真正的提升机会,同时也是一个真正的挑战——如何将那些为制造业等领域开发的工具,成功地应用于截然不同的人类管理背景中。

在本课程后续的章节中,我和我的同事们将与大家继续深入探讨这些话题。
本节课总结

在本节课中,我们一起学习了:
- 人员管理的巨大规模与重要性。
- 人工智能与数据科学的基本概念及其优化本质。
- 管理“人”与管理“物”的根本区别,特别是人的情感与反应。
- 在人员管理中引入数据科学时必须考虑的公平性与法律维度。
- 实施新工具时面临的变革管理挑战。
- 尽管挑战重重,但将数据科学应用于人员管理领域存在着巨大的机遇,能够显著改善决策质量和员工体验。

📚 课程 P64:人力资源管理的独特挑战与数据科学应用
在本节课中,我们将探讨人力资源管理领域面临的一些独特挑战,并了解数据科学如何介入这一复杂领域。我们将从历史视角出发,回顾管理思想的演变,并分析在现代组织中引入数据科学工具时需要考虑的关键问题。
🏭 历史背景:从混乱到科学管理
上一节我们概述了课程主题,本节中我们来看看人力资源管理的起源。大约100年前,现代工厂时代初期,工作组织方式与今天截然不同。
以1900年左右的费城工厂为例,你会惊讶地发现,许多在建筑内工作的人并非员工,而是独立承包商。据估计,到1910年,美国工厂中高达40% 的工人属于此类。组织内部通常非常混乱,员工流动率极高,大约为300%,管理实践也极为随意。
例如,当时世界上最大的制造企业——鲍德温机车工厂,其工头每天早晨会清点工人人数。如果有人缺席,他们便走到工厂门口,向聚集的求职人群扔苹果。接住苹果的人即获得当天的工作。这种方法简单直接,但也导致了极度的混乱和不稳定。
🔄 管理实践的演变:稳定与赋能
随着生产复杂度的提升,企业开始意识到高流动率和随意管理的问题。福特汽车公司是早期的改革者。
福特发现,在装配线上,一个工人的错误会停止整条生产线,造成巨大损失。因此,他推行了“每天5美元计划”,大幅提高工资。其核心目的并非让员工买得起车,而是为了降低员工流失率。结果,流动率从300%骤降至约50%,汽车质量也显著提升。这揭示了稳定员工队伍和进行人才管理的重要性。
大约十年后,西方电气公司的“霍桑实验”带来了另一项洞见。研究人员本想研究照明对生产力的影响,却发现无论灯光变亮还是变暗,生产力都会提高。最终他们意识到,关键因素在于对员工的关注和沟通。这种关注本身就能提升绩效。
由此,管理思想开始分化:
- 弗雷德里克·泰勒倡导科学管理,其核心公式可概括为:
工作分解 -> 任务计时 -> 设定标准 -> 按绩效付酬。他将工人视为机器的一部分。 - 埃尔顿·梅奥则发起了人际关系运动,认为工人有心理需求,关注这些需求能显著提高生产力。
📈 质量革命与员工赋权
到了20世纪中叶,管理焦点转向质量。二战后,美国多采用泰勒的科学管理法,而日本企业则吸收了爱德华·戴明的质量管理理念。

日本企业推广的“质量圈”模式,赋予一线员工发现和解决质量问题的权力。随后,丰田的“精益生产”系统更进一步,让工人团队不仅负责质量,还主动寻找提升生产效率和降低成本的方法。
进入21世纪10年代,源自软件行业的“敏捷项目管理”将赋权理念推向新高度。它让团队在支持性环境下,自主决定如何最好地满足客户需求,涉及设计、生产等几乎所有环节。
这一系列演变的核心,正如道格拉斯·麦格雷戈的理论Y所描述,就是持续的赋权:让员工在质量、生产力乃至整体运营中承担更多责任。
⚖️ 现代人力资源的复杂维度
为了使赋权体系有效运作,组织必须构建全面的支持系统。在现代语境下,人力资源管理远不止优化绩效,还需考虑多重复杂因素。
以下是管理者必须关注的几个关键领域:
- 激励与公平:员工在意自己的贡献是否得到公平的认可和报酬。感知到的不公平是离职的主要原因之一。
- 多样性与包容性:组织不仅追求最佳绩效者,也追求能代表社会构成的多元化团队,并营造包容的环境。
- 雇主品牌与公众形象:组织希望被视为优秀雇主,其管理实践需要获得内外部认可。
- 合规性:必须遵守反歧视、残疾人保障、工资工时等一系列法律法规,这常常限制了纯粹基于绩效的“最优”决策。
🤖 数据科学带来的机遇与挑战
在上述复杂背景下,数据科学开始介入人力资源决策。其起点通常是优化某一特定结果(如预测最佳绩效者)。但这立刻带来了问题。
数据科学在人力资源领域应用时,面临几个独特挑战:
- 多目标冲突:我们无法用单一模型同时优化“绩效”、“留任率”、“团队合作”等多个目标。选择优化哪一个本身就是难题。
- 数据量要求:机器学习模型需要大量数据。对于中小型企业,可能没有足够的员工变动数据来构建可靠模型。
- 历史数据与隐私:使用多久以前的数据?这涉及严重的员工隐私问题。
- 规模化错误的风险:一旦算法出错,其影响会因大规模应用而被迅速放大,且更容易被发现,包括被原告律师发现。
- “算法黑箱”与公正性:当决策权从主管移交给算法时,可能引发新的公平性问题。
例如,用排班软件替代人工排班后,员工对班次不满时,主管可能只能回答“这是软件决定的”,导致员工投诉无门,损害了程序公正感。
因此,引入数据科学的关键决策在于:判断在哪些领域它能真正改善现状,而在哪些领域它可能使事情变得更糟。
🎯 总结与核心判断
本节课中,我们一起学习了人力资源管理从混乱、标准化到赋权的发展历程,并探讨了现代人力资源在激励、多样性、合规等多维度的复杂性。

数据科学为人力资源决策提供了强大的新工具,但其应用必须建立在对劳动力复杂性的深刻理解之上。我们最终需要做出的核心判断是:在理解数据科学能力边界的前提下,精准识别那些它能带来切实帮助、而非制造新问题的应用场景。

这要求我们始终在技术效能与人的需求、组织公平之间寻求审慎的平衡。

课程 P65:人工智能时代前的人力资源管理 👥
在本节课中,我们将学习在人工智能技术广泛应用之前,组织是如何应对招聘、员工敬业度和员工流失这三大核心人力资源管理挑战的。我们将了解传统方法的运作逻辑及其固有的局限性。
概述:传统人力资源管理的三大支柱
管理人是复杂的,因为员工拥有自由意志。组织不仅需要雇佣员工,还需要激励他们,并说服他们完成工作。恰当的人员管理是组织成功的关键。在深入探讨人工智能带来的新机会之前,我们先回顾组织在没有这些先进技术时,是如何思考和解决人员管理问题的。本节将重点介绍三个核心领域:招聘、员工敬业度管理和员工流失控制。
第一节:传统招聘——结构化流程与管理自主权的拉锯战 🎯
招聘是人员管理的基础流程。雇佣合适的人能减少后续培训的担忧,并提高工作绩效和敬业度;雇佣错误的人则可能导致糟糕的工作环境或人员快速离职,迫使组织重新招聘。因此,成功的招聘方式对组织至关重要。
在人工智能介入之前,传统的招聘方式可以被描述为一场“拉锯战”,即在采用高度结构化的流程以识别高潜力候选人,与赋予管理层招聘自主权以控制成本之间寻求平衡。以下是这一过程的三个关键方面:
1. 结构化流程:测量候选人的潜力
招聘的核心是一个测量问题:我们如何评估申请者,并预测他们成为员工后的表现?过去一个世纪,心理学家对此进行了大量研究,催生了一系列最佳实践。以下三种方法被证明在预测工作表现方面相当有效:
- 结构化面试:组织首先明确完成工作所需的关键属性,然后设计一系列标准化问题来评估候选人是否具备这些属性,并预先定义好每个问题的评分标准(如差、中、好)。
- 认知能力与知识测试:针对广泛职位进行的认知能力测试和专业知识测试,能有效评估候选人是否具备完成工作的必要能力。
- 个性测试:有证据表明,某些个性测试也能有效预测工作表现。
人力资源部门会尝试利用这些方法进行结构化评估,以找出最具潜力的候选人。同时,他们会尽量避免已知效果不佳的方法,例如非结构化面试(即仅凭面试官个人喜好进行自由提问和互动)。
2. 管理层的自主权:流程落地的挑战
尽管人力资源部门可以建立完善的结构化流程,但在大多数组织中,实际的招聘决策往往由一线经理(即“招聘经理”)做出。这意味着,结构化流程能否被应用,取决于经理们是否愿意使用它们。然而,经理们常常抵制这些流程,原因包括:
- 认为流程过于僵化和正式,更喜欢与人进行顺畅、自然的互动。
- 过度相信自己对人的判断力,倾向于迅速形成对候选人的看法,并在后续面试中寻找证据来支持这一判断。
因此,许多经理可能更倾向于绕过结构化流程,采用自己习惯的、非正式的方式(例如询问“你的精神动物是什么?”)来评估候选人。
3. 成本控制:效率与质量的权衡
在结构化流程与管理自主权之外,招聘还涉及成本控制。组织需要平衡“雇佣合适的人”与“高效地完成雇佣”。他们关注:
- 雇佣成本:包括外部广告、招聘费用以及内部在招聘上花费的时间和资源。
- 岗位填补时间:职位空缺时间越长,对业务造成的干扰越大。
- 招聘质量:一些组织会尝试在员工入职3到6个月后,通过询问主管“你是否会再次雇佣此人?”或追踪早期离职率等方式,来评估招聘流程的整体效果。
通过操控这些杠杆,组织努力确保自己既能雇佣到合适的人,又能控制成本。

第二节:衡量员工敬业度——年度调查的得与失 📊
上一节我们介绍了组织如何通过招聘引入人才。本节中,我们来看看组织如何激励和管理已入职的员工。由于员工拥有自由意志,激励他们为组织成功而努力至关重要。影响动机的杠杆很多,包括工作设计、组织文化和领导方式。
理解员工敬业度的关键在于首先了解员工的真实感受。因此,组织会投入时间和精力来测量员工的敬业度。传统上,标准方法是进行员工敬业度调查。
员工敬业度调查的运作与价值
许多公司每年会向全体员工发送一份冗长的问卷,询问他们对工作、经理、薪酬、福利和公司文化等方面的感受。这些问题集通常由心理学家开发,旨在精确获取员工在特定维度的意见。
- 价值:这种方法能帮助组织了解整体敬业度水平,通过逐年对比观察趋势(是在进步还是退步)。更重要的是,它可以识别出组织中敬业度较高或较低的特定群体或部门,从而为针对性改进提供方向。
员工敬业度调查的局限性
尽管相对有效,但员工敬业度调查也存在明显问题:
- 回答的真实性:员工的回答可能与真实想法存在差距。他们可能出于策略性目的(如希望改善现状)而给出不乐观的答案,也可能因担心报复(如批评经理)而不愿说实话。
- 成本与频率:让公司全员填写问卷需要投入大量人力资源和协调努力。为了避免高昂成本,许多组织选择每年只进行一次调查。然而,如果组织希望获得问题的早期预警信号,一年的等待时间可能过长,尤其是在环境快速变化时(例如疫情期间)。
因此,在获取员工敬业度洞察时,传统方法在时效性和成本之间存在显著的权衡。
第三节:应对员工流失——追踪率与离职面谈 🔄
我们讨论了如何引入人才(招聘)和激励现有员工(敬业度)。本节我们将关注人员管理的另一个核心挑战:员工流失。员工离职率对组织而言是一项主要成本,不仅涉及重新招聘的费用,还包括知识流失、团队关系中断和新员工适应期带来的效率损失。
组织有多种杠杆可以尝试降低流失率,例如调整招聘标准、薪酬方案或改善驱动敬业度的因素。但首先,他们需要弄清楚“应该操控哪一个杠杆?”以及“人们为什么离开?”。传统上,组织主要采用两种方法来理解流失问题。
1. 追踪流失率
组织会计算并跟踪流失率,其基本公式为:
流失率 = (给定时期内离职人数) / (时期开始时在职人数)
通过观察流失率随时间的变化趋势,以及比较不同部门或职位的流失率,组织可以识别问题区域并推测可能的原因。
2. 进行离职面谈
更直接的方法是进行离职面谈,即与即将离职的员工交谈,询问其离职原因。通过系统分析这些原因(例如,更多人提到高薪、职业发展或通勤时间),组织可以了解需要改进的方面。

传统方法的局限性
然而,这两种方法都有其缺陷:
- 流失率:只是一个结果指标,无法直接揭示深层原因。
- 离职面谈:
- 覆盖不全:并非所有离职者都会接受面谈(例如突然离职者)。
- 信息失真:离职者可能不愿透露真实原因(如糟糕的管理),而倾向于提供更安全、更表面的理由(如薪酬),因为他们可能考虑未来重返公司或避免冲突。
因此,尽管离职面谈能提供一些见解,但对其答案的可靠性和深度需要保持审慎态度。
总结与展望:传统方法的局限与新技术的契机
本节课我们一起学习了在人工智能时代之前,组织在招聘、员工敬业度管理和员工流失控制这三个核心领域所采用的传统方法及其面临的挑战。

总结来说,传统人力资源管理方法存在几个普遍局限:
- 人的复杂性:每个员工都是独特的,其态度和动机难以精确衡量。
- 数据获取的成本与时效性:如年度敬业度调查,成本高昂且频率低,难以及时反映问题。
- 对人的判断的依赖与偏差:在招聘和离职面谈等环节,过度依赖管理者或员工的主观判断,这些判断可能不可靠、带有偏见或受个人议程影响。

认识到这些局限后,我们希望指出,人工智能和机器学习的进步并不能解决人员管理中的所有固有难题。然而,这些新技术确实创造了新的可能性。它们提供了不同的做事方法和新的机会,例如以新的方式评估候选人潜力,或寻找更实时、更客观的途径来洞察员工敬业度。

在接下来的课程中,我们将开始解释这些新工具(如机器学习)如何运作,并探索它们如何应用于人员管理领域,为我们今天所讨论的诸多挑战开发更有效的解决方案。

课程P66:决策过程与机器学习简介 🧠
在本节课中,我们将学习决策过程如何从人类判断演变为机器学习。我们将探讨人类决策的启发式方法、其局限性,并初步了解基于规则的系统如何作为迈向机器学习的桥梁。
人类决策:启发式与决策树 🌳

上一节我们介绍了课程的整体目标,本节中我们来看看人类是如何做决策的。
当我们做决定时,会运用自己的知识和经验来制定启发式方法。这在信息不完善、需要快速决策的环境中尤为常见。例如,人力资源筛选员面对大量求职申请时,无法了解候选人的全部信息,因此会依赖过去积累的经验和知识来制定筛选标准。
一种常见的思考决策过程的方式是将其视为一棵决策树。在评估是否推进某个候选人时,我们可能会权衡多个因素。

以下是决策时可能考虑的一些因素:
- 这可能与候选人毕业的学校有关。
- 这可能与候选人之前的工作经历或雇主有关。
- 这可能与候选人具备的特定技能或文化契合度有关。
通过这些不同的信息分支,可以构建一棵决策树。例如,如果候选人毕业于某个特定学校的特定项目,我们可能推断他们受过良好训练,从而判断其适合某个组织角色。
然而,这种依赖个人经验的决策方法存在一些缺点。它非常耗时,且具有噪声和不完美性。个人的经验无法捕捉整体市场状态和所有申请者的信息。此外,申请者市场和有价值的信号会随时间变化,很难将所有新信息整合到决策中。同时,人类的决策总是存在潜在的偏见。
迈向自动化:基于规则的系统 ⚙️
上一节我们探讨了人类决策的优缺点,本节中我们来看看如何通过基于规则的系统开始解决其中一些问题。
基于规则的系统旨在将人类的启发式方法形式化和自动化,至少可以解决效率问题,并开始触及一致性和可扩展性的挑战。
感谢观看。


本节课总结:本节课我们一起学习了决策过程的演变。我们从依赖个人经验和启发式方法的人类决策开始,分析了其耗时、有噪声且可能存在偏见的局限性。接着,我们引出了基于规则的系统作为迈向更自动化、更一致决策的第一步。在接下来的课程中,我们将继续深入探讨机器学习的原理与应用。
课程 P67:基于规则的系统 🧠

在本节课中,我们将学习人工智能在人力资源流程中的一个早期重要应用——基于规则的系统。我们将了解其工作原理、应用示例以及它的主要优缺点。
概述
基于规则的系统,也称为专家系统,是将人类专家的知识和决策过程编码成一系列软件可执行的规则。在人力资源领域,这通常意味着将招聘专家的经验转化为自动化的候选人筛选工具。
什么是基于规则的系统?
在我们探讨机器学习和人工智能如何在HR流程中使用的旅程中,停留在基于规则的系统或专家系统是很有用的。

这种方法的核心是利用人类对这个过程的了解。所有关于招聘和选拔的专业知识,都可以被转化为软件。
所以,基于规则的系统基本上是将专家的知识和技能编码到一个基于软件的模型中。这些系统所做的就是将招聘条件转换成一系列规则。
对于那些可能熟悉编程的人,你可以将这些看作是 if-then 规则。这很像是一个专家(在这种情况下是领域专家、HR或招聘者)把他们关于如何招聘、以及关于什么类型候选人适合该组织的所有知识都写下来。然后,开发者可能会将这些规则转换为软件。从那时起,包含招聘者知识的软件就诞生了。
基于规则系统的工作原理
上一节我们介绍了基于规则系统的核心概念,本节中我们来看看它在招聘中的具体应用。
想象一下你有一组用于评估候选人的条件。当我提到条件时,我指的是用来评估候选人以适应你们组织的因素。
以下是可能被编码的条件示例:
- 这可能包括毕业院校。
- 这可能包括GPA(平均绩点)。
- 这可能包括之前的雇主。
- 或者在面试中捕捉到的信号、他们回答问题的方式等。
这些内容中的一些可以被编码。你可以从简历开始,并且可以创建相应的度量。面试数据也是如此。例如,之前雇主的经验可以被编码为“该雇主是他们曾为之工作的公司”。
一旦你掌握了这些信息,软件开发人员就可以使用这些数据或其基于规则的系统来评估或推荐候选人是否应该被公司面试。
这里需要知道的关键是:你不需要大量的历史数据来构建这个系统。这将使它与后来的机器学习有所区别。在这种情况下,我们使用的是人类的专业知识。一名开发者与招聘人员合作,将招聘人员的知识和专业技能进行了编码。我们现在还不需要数据来构建这种类型的系统。
基于规则系统的局限性
像这样的、通过与专家交谈而创建的决策树系统有一些局限性。
以下是其主要缺点:
-
需要接触到专家:获取专家的帮助可能很困难。例如在一些非常专业的领域(如专业外科手术),可能难以接触到专家。即使你能接触到,要求人们解释他们所知道的某个领域的所有内容也非常困难。人们有时凭直觉工作,拥有大量的隐性知识,但让他们将其变成明确的规则有时比听起来要困难得多。
-
难以适应环境变化:如果你基于这些规则构建一个系统,然后申请者群体的性质开始发生变化,你必须回去手动更新系统或建立一个新系统。它无法自动适应这些变化。
-
无法发现新关系:我们的决策完全基于一位专家的现有知识。我们需要预先了解所有决策所基于的关系,并从这里开始构建系统。我们无法在这个自动化过程中发现新的、未知的关系。
-
创建和维护工作量大:创建一个全面的知识规则库需要大量的工作。我们讨论的是一个非常深奥的知识体系。考虑请专家告诉开发者他们所知道的一切,然后要求开发人员将所有这些知识纳入基于规则的系统中,所有这些加在一起是相当庞大的工作量。

总结
本节课中,我们一起学习了基于规则的系统(专家系统)。我们了解到,这种系统通过将人类专家的知识编码成 if-then 规则来实现自动化决策,例如在招聘中筛选简历。它的优点在于无需大量数据即可构建,并且能直接应用专家经验。然而,它也存在依赖专家、难以更新、无法发现新知识以及构建工作量大的显著局限性。

我们将在下一个视频中讨论,机器学习如何避开了许多这些问题。
课程 P68:机器学习的工作原理 🧠

在本节课中,我们将要学习机器学习的基本工作原理,了解它与传统基于规则的系统有何不同,并探讨其变革性的优势。
从规则到模式:范式的转变
上一节我们讨论了人类决策和基于规则的系统,在这些系统中,软件开发者可以将某人的专业知识直接编码到软件里。


机器学习在一定程度上改变了这一范式。它的本质是模式识别。机器学习的作用在于它使用示例,我们称这些示例为训练数据,来生成决策框架。关键在于,机器学习实际上是关于“展示”而不是“讲述”。与其让一个人解释他们是如何做某件事,不如提供大量大量的例子,让机器自己学习如何构建决策框架。这完全改变了工作流程:它从数据开始,而不是从对专业知识的编码开始。
核心机制:用数据代替规则
机器学习的关键在于,它不依赖于基于专业知识提供的一套规则。你只需提供大量数据,这些数据作为机器学习算法的示例。

计算机通过分析这些数据,最终会达到一个最优的映射。例如,假设我们有很多关于申请某公司的候选人的信息。传统方法需要专家解释该组织重视候选人的哪些方面,以及如何权衡不同因素。
以下是机器学习方法的步骤:
- 提供大量关于申请者的历史数据。
- 这些数据包含申请者资料的不同部分(即变量或特征)。
- 数据中也包含了关于候选人的最终决定(例如,是否被邀请面试)。
当我们拥有这些数据时,机器学习算法可以仅通过观察数据来学习应该如何思考,或者应该如何考虑申请人作品集中的不同部分。它自己会判断是否应该优先考虑以往雇主的经验、特定技能等。你从来不需要明确告诉它。人类专家也无需准确告知它对特定组织来说什么是重要的。从展示的示例数据中,算法可以自己学习该做什么。
这就是机器学习与之前基于规则的系统之间的核心区别。
为何具有变革性?🚀
为什么我们认为这种使用示例的方式以及机器学习系统本身是具有变革性的呢?
首先,它改变了工作流程。基于规则的系统需要接触专家,获取人类专业知识。这可能非常昂贵,尤其是涉及高技能专家时。获得并编码这样的专业知识也很困难。
在机器学习的案例中,我不再需要专家本人,我需要的是专家生成的数据。例如,我可以去医院获取从业者之前做出的医疗决策数据。拥有这些数据后,我就不再需要实际专家的持续帮助。
其次,在某些情况下,数据量如此庞大,变量如此之多,人类专家根本无法有效地综合所有信息。在许多机器学习应用场景中,你可能面临成千上万个影响预测的变量。
以下是机器学习在此类场景中的优势:
- 处理海量变量:在金融、广告或环境领域,常有成千上万的变量。期望人类专家一次性考虑所有信息来做出预测是不现实的,但机器学习算法可以做得很好。
- 超越人类极限:如果提供两千个变量和相应的结果示例,算法通常能比人类做得更好,因为人类可能觉得一次性综合所有这些信息极其困难甚至不可能。
第三,一旦算法建立,它可以大规模运行。无论是查看十份简历还是一千万份简历,其扩展性非常好,边际成本很低。
第四,它非常一致。作为一个算法,在给定相同信息的情况下,它倾向于做出相同的决策。它不会疲倦,也不会在特定日子犯错,这保证了决策的稳定性。

在某些对一致性要求高的场景中,这一点至关重要。

总结与核心
本节课中,我们一起学习了机器学习的工作原理。其核心在于,它通过分析大量的训练数据(示例)来自动学习决策模式,而非依赖人工编写的明确规则。
所有这一切的关键在于训练数据。你输入系统的这些示例,是构建强大机器学习系统并实现其诸多好处的基石。这也正是我们将在下一个视频中深入讨论的内容。


机器学习基础课程 P69:训练数据在机器学习中的角色 📚

在本节课中,我们将要学习训练数据在机器学习系统中的核心作用。我们将了解什么是训练数据,它从何而来,以及它如何使算法学会做出预测或决策。
什么是训练数据?🤔
开发机器学习系统的关键在于能够为算法提供示例,算法可以从这些示例中学习。这些示例被称为训练数据。
一个算法利用这些训练数据来学习你所需的正确映射函数。这个映射函数可以理解为在输入的信息与最终预测之间建立联系。我们称之为标记数据的这些示例,就是可以用来“教授”机器的示例。你可以把它们看作是为不同案例条件提供正确答案的示例。

训练数据的来源 📂
上一节我们介绍了训练数据的概念,本节中我们来看看训练数据通常从哪里获得。机器学习近年的成功,很大程度上得益于大量、多样化的训练数据变得更容易获取。
以下是训练数据的主要来源:
- 档案数据:这是最常见的数据来源,指的是企业拥有的历史数据库。例如,公司内部关于价格、市场营销、会计、人力资源等的大量历史信息,都可以用来训练机器学习系统。
- 人工生成数据:即使没有现成的历史数据,你也可以生成训练数据。例如,你可以让公司内部人员根据一组申请者数据集,人工做出决策,目的就是为了创造那些用于指导机器学习算法的标记示例。
- 外包标注平台:你也可以将这些数据标注工作外包给专门的平台。这些平台可以接受你的信息,并为你进行数据标注或做出决策,从而生成可用的训练数据。
训练数据的工作流程示例:医疗影像诊断 🏥
为了将训练数据的作用放入具体的工作流程中,让我们以医疗影像诊断为例。这是人工智能和机器学习取得重大突破的领域之一。
一些现代机器学习系统可以查看医疗图像(如X光片),并预测患者是否患有某种疾病。这对医生和患者都具有巨大的潜在价值。
在这个机器学习工作流中,你需要大量的数据和许多图像,以及医生历史上根据这些图像对患者做出的诊断决策记录。
如果你将这些数据(图像本身以及放射科医生对应的诊断决策)输入到机器学习系统中,这就是算法模仿决策所需的一切。算法不需要学习任何医学知识,也不需要理解医生在图像中寻找什么。它只需要一个包含成千上万张图像及其对应诊断结果的数据集。
机器学习算法可以完成其余的工作,学习图像数据与应做出何种决策之间的正确映射。公式上,这可以表示为学习一个函数 f(图像) -> 诊断。
训练数据与专家系统的对比 ⚖️
简单总结一下最后几点,我们可以对比机器学习与传统专家系统对数据的需求:
- 专家系统(基于规则的系统)不需要大量数据。它们需要人类专家来指定人们应该如何思考并做出决策,然后由开发者将这些规则转化为代码。
- 机器学习系统不需要预先定义的专家规则,但确实需要由专家生成的示例数据。它需要算法可以用来找到正确映射的数据。
正是训练数据的可获取性,推动了机器学习能够被应用到如此多的场景中,这也是当前人工智能经济如此重视数据的原因。


本节课中我们一起学习了训练数据的核心角色。我们明白了训练数据是机器学习算法的“教材”,它来源于历史档案、人工生成或专业标注。通过医疗影像诊断的例子,我们看到了数据如何让算法学会复杂的映射关系。最后,我们对比了依赖数据的机器学习系统与依赖规则的专家系统的根本区别。理解训练数据,是理解机器学习如何工作的第一步。
课程P7:数据分析入门 🧠

在本节课中,我们将学习数据分析的核心概念,特别是数据挖掘和预测分析。我们将了解如何从海量数据中发现模式,并利用这些模式进行预测和决策。
从假设检验到数据驱动
上一节我们介绍了数据分析的总体目标。本节中,我们来看看数据分析的两种主要思路:传统的假设检验与数据驱动的探索。
传统的数据分析,如回归分析,通常从一个明确的假设开始。
例如,我们试图预测客户是否会信用卡违约。我们可能提出以下假设:
- 违约风险取决于客户过去是否有违约记录。
- 违约风险与客户持有的信用卡数量有关。
- 违约风险与客户是否有工作有关。
回归分析的目标就是检验这些假设。我们基于历史数据运行回归模型,来测试一个人的违约风险是否真的取决于这些因素。回归结果不仅能告诉我们这些因素是否重要,还能通过回归系数(例如 0.93)告诉我们它们的影响程度有多大。
请注意,所有这些重要的变量都来源于分析师的先验假设。这就是传统数据分析的核心。
相比之下,数据挖掘更侧重于数据驱动的探索。它可能不会以明确的假设开始,而是让数据自己“说话”,从中发现意想不到的模式和关系。

数据挖掘技术示例
数据挖掘涵盖多种技术。以下是几种常见且有用的技术:
1. 聚类分析 👥
聚类是一种用于对数据进行自动分组的数据挖掘技术。
聚类算法本质上会将我们的数据集分割成多个更小的组或“簇”,使得同一个簇内的数据点彼此相似,而不同簇之间的数据点彼此不同。
聚类的一个经典应用是确定顾客细分。
- 传统方法:市场经理可能凭经验直觉地说“我们有三种顾客细分”,并用人口统计数据描述,例如“四口之家的足球妈妈,住在郊区”。
- 聚类方法:我们试图以数据驱动的方式,不依赖先验假设,从顾客行为数据中自动发现细分群体。聚类结果可能验证经理的直觉,也可能揭示出全新的、更有效的细分方式。

2. 关联规则挖掘 🔗
关联规则挖掘是一种用于发现数据中常见共现模式的数据挖掘技术。
例如,我们分析超市的购物篮数据。关联规则挖掘软件可能会发现如下模式:
如果 {面包, 黄油} 则 {牛奶}
这意味着购买面包和黄油的顾客,在同一笔交易中也倾向于购买牛奶。
发现这种模式后,我们可以采取相应行动:
- 实体超市可以将面包、黄油和牛奶陈列在相近位置。
- 在线超市可以在顾客将面包和黄油加入购物车时,系统自动推荐牛奶。
关联规则挖掘技术有广泛的应用。一个著名的例子是在医疗领域。信息科学家唐·斯旺森通过分析大量医学文献,发现“雷诺氏病”、“血液粘稠度”和“二十碳五烯酸(EPA,鱼油主要成分)”这些概念经常共同出现。基于此,他提出了“鱼油可能有助于治疗雷诺氏病”的假设,后来的临床试验证实了这一点。虽然斯旺森当时是手动分析,但其核心思想与关联规则挖掘完全一致。
从发现模式到预测未来
上一节我们介绍了如何通过数据挖掘发现数据中隐藏的模式。本节中我们来看看如何利用这些模式预测未来并采取行动。
数据挖掘技术(如聚类和关联规则挖掘)的最终目的是在数据中寻找模式。而更进一步的目标是利用这些模式预测未来。例如:
- 我们能否预测未来产品的需求,从而优化生产计划?
- 我们能否实时判断一笔刚发生的交易是否为欺诈?
这就进入了预测分析的领域。
预测分析的应用

让我们看一些预测分析的具体示例:
1. 个性化推荐 🛍️
以亚马逊这样的大型零售商为例。客户访问网站,浏览商品,最终下单购买。
零售商的目标是说服客户购买更多商品。为此,像亚马逊这样的平台会向消费者展示个性化推荐,例如“购买此商品的顾客也购买了…”或“浏览此产品的顾客也查看了…”。

这些推荐的核心,就是预测分析模型在尝试找出客户可能对哪些产品感兴趣,从而提升购买转化率。
2. 欺诈检测 🛡️
当客户准备结账时,他们会输入信用卡信息并点击“购买”。此时,零售商网站的算法需要实时判断这是否为一笔合法交易,信用卡是否被盗用。

在这里,预测分析技术通过分析历史交易数据,构建模型来实时预测当前交易是否存在欺诈风险。这是预测分析在金融风控领域的典型应用。
实际上,预测分析的应用非常广泛。在下一个模块中,我们将深入探讨实现这些预测的核心工具——机器学习,学习如何利用它来构建可操作的预测模型。
总结

本节课中,我们一起学习了:
- 传统数据分析(如回归分析)通常始于明确的假设,并进行检验。
- 数据挖掘侧重于数据驱动的探索,让数据揭示模式,主要技术包括:
- 聚类分析:用于自动分组相似的数据点。
- 关联规则挖掘:用于发现数据项之间的频繁共现关系。
- 预测分析是在发现模式的基础上,构建模型以预测未来结果,其应用包括个性化推荐和欺诈检测等。
通过理解这些概念,我们掌握了从大数据中提取有价值情报的基本思路和方法。
课程 P70:结构化数据之外的特征工程 🧠

在本节课中,我们将要学习机器学习中一个至关重要的概念——特征工程,尤其是在处理非结构化数据时的应用。我们将探讨如何将原始、非结构化的信息(如文本、图像或音频)转化为机器学习算法能够理解的格式。

我们之前讨论的机器学习示例,通常假设数据格式清晰明确。


这种格式使我们能够轻松评估不同的数据条件。因此,我们之前讨论或隐含地假设,您遇到的数据是以电子表格的形式组织的。您可以考虑多个列,每一列都包含关于申请者的特定信息。然后,您将利用这些信息来做出决策。

正如我们之前讨论的,如果您以这种方式组织信息,并且拥有关于决策结果的数据,机器学习算法就可以学习如何在不同的条件下做出决定。

然而,数据并不总是如此结构化。机器学习中一个重要的领域,就是研究如何在非结构化数据上应用机器学习。这些数据不容易放入电子表格的列中。
例如,您可能需要:
- 使用在线评价来预测餐厅的某些情况。
- 使用诊断图像来预测患者的健康状况。
- 在人力资源场景中,使用原始简历文本来预测申请者的信息。

在这些情况下,数据需要经历一个特征工程的过程。这是从原始非结构化数据中提取特征,并将其转换为可用于机器学习算法的格式的过程。
本质上,这就是将原始数据提取并转换成一种可以看作带有列的电子表格的格式。例如,如果您有原始简历数据,您需要决定将简历中的哪些部分提取出来,作为机器学习预测算法的输入特征。
这是一个耗时且具有挑战性的过程,通常还需要相当多的领域专业知识。例如,在处理诊断图像时,您需要专业知识来思考图像中的哪些内容需要被提取出来,以用于预测。

了解特征工程是连接非结构化数据集与机器学习过程的关键。这个概念意味着,您可以处理未经整理的原始非结构化数据(这些数据不容易被组织到列中),并利用它们来进行预测。
在人力资源领域,这一点变得越来越重要。越来越多的公司,尤其是科技公司,正在探索使用其他信号进行预测,例如从面试中获取的音频或视频,来预测员工的未来表现。
您可能听说过一些工具,它们允许您录制申请人的面试,分析申请人对问题的声音回应,并从中获取关于申请者的信息。为了成功实现这一点,这些音频或视频信号必须经过特征工程过程,从中提取出可用于预测的信息。
我之前提到,这个概念听起来可能不像一个大问题。其中一个重要原因是深度学习的出现。

深度学习在这里开始展现其优势。它能够帮助绕过繁琐的手工特征工程过程。深度学习的一个真正优势在于,它能够直接处理这种原始的非结构化数据并进行预测。
这样,我们就不必再费心猜测:对于一段视频,到底是人的手势、面部表情还是声音语调最重要?深度学习让我们能够利用所有原始信息进行预测,而不必经过人工特征提取的“弯路”。


在本节课中,我们一起学习了特征工程在处理非结构化数据中的核心作用。我们了解到,传统方法需要人工从原始数据(如文本、图像、音频)中提取特征,这是一个需要专业知识的复杂过程。而深度学习的出现,提供了直接处理原始数据并自动学习有效特征的能力,从而简化了这一流程。理解这两条路径,对于在实际项目中应用机器学习至关重要。
机器学习性能评估入门 📊

在本节课中,我们将学习如何评估机器学习模型的性能。理解不同的性能指标至关重要,因为预测模型总是服务于具体的商业目标,而不同的错误类型(例如,错误地推荐一个候选人,或错误地拒绝一个候选人)会带来不同的成本和后果。我们将介绍几个核心指标,并解释为何需要根据具体场景选择合适的评估标准。
为何需要多种性能指标?🤔
上一节我们提到了评估性能的重要性,本节中我们来看看为什么会有这么多不同的指标。根本原因在于,机器学习预测总是嵌入在特定的商业背景中。不同的错误类型(例如“假阳性”或“假阴性”)具有不同的成本和收益。因此,我们不仅仅是在优化单一的“正确率”,而是需要根据业务需求,权衡并优先考虑避免某些特定类型的错误。
以下是两个具体的商业场景示例,用以说明为何评估标准需要调整:
-
场景一:争夺稀缺人才:假设我们有一个算法,用于筛选简历并推荐候选人进入面试。在人才紧缺的市场中,我们的首要目标是绝不漏掉任何一个潜在的优秀候选人。即使这意味着需要多面试一些最终并不合适的候选人(即容忍一些“假阳性”),我们也要确保抓住所有机会(即尽量减少“假阴性”)。
-
场景二:节约高成本面试:相反,如果该职位申请者众多,但公司内部面试官的时间成本极高。此时,我们的目标就变成了绝不浪费面试官的时间在明显不合适的候选人身上。我们希望确保算法不会错误地将一个平庸的候选人标记为强力候选人(即尽量减少“假阳性”),即使这可能意味着偶尔会错过一个合适的人选(即容忍一些“假阴性”)。
由此可见,在不同的业务目标下,我们需要优化和权衡的方向是不同的。这直接引出了我们对不同性能指标的定义和关注。
核心性能指标解析 🎯
理解了业务背景的重要性后,我们来具体看看几个常用的性能指标。它们都是从混淆矩阵(Confusion Matrix)这一基本概念衍生出来的。混淆矩阵是一个2x2的表格,总结了模型预测结果与实际结果的四种情况:
- 真正例:实际为真,预测也为真。
- 假正例:实际为假,预测为真。
- 假反例:实际为真,预测为假。
- 真反例:实际为假,预测也为假。
基于这四种情况,我们可以定义多个指标:
-
准确率:模型预测正确的总体比例。
准确率 = (真正例 + 真反例) / 总样本数 -
精确度:在所有被模型预测为“真”的样本中,实际为“真”的比例。它关注的是预测结果的准确性。在场景二中,我们希望精确度越高越好,以减少浪费。
精确度 = 真正例 / (真正例 + 假正例) -
召回率:在所有实际为“真”的样本中,被模型成功预测出来的比例。它关注的是找出所有正例的能力。在场景一中,我们希望召回率越高越好,以避免遗漏。
召回率 = 真正例 / (真正例 + 假反例) -
特异性:在所有实际为“假”的样本中,被模型正确预测为“假”的比例。它和召回率是互补的。
特异性 = 真反例 / (真反例 + 假正例)
权衡的艺术:精确度 vs. 召回率 ⚖️
精确度和召回率通常是一对需要权衡的指标。提高精确度(更严格,减少误报)往往会降低召回率(可能漏掉一些正例);反之,提高召回率(更宽松,减少漏报)则往往会降低精确度(引入更多误报)。
这种权衡关系被称为 精确度-召回率权衡。在构建和调整模型时,我们需要根据业务背景中“假阳性”和“假阴性”错误的相对成本,来决定是偏向高精确度还是高召回率。
- 在医疗诊断(如癌症筛查)中,漏诊(假阴性)的成本极高,因此我们会优先保证高召回率,即使这会增加一些误诊(假阳性)的代价。
- 在垃圾邮件过滤中,将正常邮件误判为垃圾邮件(假阳性)的代价很大,因此我们会优先保证高精确度,即使可能让少量垃圾邮件进入收件箱(假阴性)。
总结与展望 📝

本节课中我们一起学习了机器学习性能评估的基础知识。我们明白了不能只依赖单一的准确率指标,因为不同的业务场景对错误的容忍度不同。我们介绍了准确率、精确度、召回率和特异性这几个核心指标,并重点探讨了精确度与召回率之间的权衡关系,这是在实际应用中调整模型的关键。
记住,选择哪个指标作为优化目标,取决于你的业务需求:避免漏掉重要项目(高召回率)还是避免误判(高精确度)?在接下来的课程中,我们将通过一个端到端的示例,来具体演示如何应用这些概念来评估和选择一个合适的模型。

感谢学习,我们下节课再见。

机器学习课程 P72:端到端机器学习工作流示例 🚀
在本节课中,我们将通过一个“申请人筛选”的实例,完整地梳理机器学习项目从数据到部署的端到端工作流程。我们将重点关注每个核心步骤及其背后的逻辑。
上一节我们提到了机器学习的一些基本概念,本节中我们来看看这些概念如何在一个具体项目中结合与应用。
整个工作流程始于数据的收集。我们需要获取由领域专家做出的、可靠的历史决策数据。

以下是数据收集阶段的关键点:
- 数据来源可以是历史档案,也可以是为任务专门生成的数据。
- 在申请人筛选举例中,数据可能包括简历、测试分数、面试视频或音频转录文本等。
- 数据必须带有“强标签”,即明确的、由专家给出的最终决策结果(如“录用”或“不录用”)。
- 我们无需事先理解数据中每个特征(如音频语调)与结果的具体关系,机器学习算法会自行学习这些关联。
- 通常,数据集的规模越大、质量越高,机器学习模型的潜在表现就越好。

在获得数据之后,下一步是构建和优化模型。我们将指定模型类型,并定义我们所要优化的目标(即最小化的错误类型)。

模型训练完成后,评估其泛化能力至关重要。我们不能只满足于模型在训练数据上表现良好。
以下是模型训练与评估的核心步骤:
- 训练模型:使用收集到的历史数据(训练集)来构建模型。
- 评估性能:在一个独立的、未参与模型训练的保留样本(或称为测试集)上测试模型。
- 目的:确保模型在面对新数据时依然表现稳健,而不仅仅是“记住”了训练数据。
- 达到标准:经过多次测试和调整,当模型在关心的错误指标上达到最佳性能后,方可进入下一阶段。
当我们对模型的性能感到满意后,工作流程就进入了部署阶段。此时,模型将开始处理真实的、我们不知道答案的新数据。

简而言之,端到端流程可以概括为:
- 以高质量的历史数据为起点。
- 使用数据训练机器学习算法。
- 在测试集上验证算法性能,并确保其可靠性。
- 将训练好的算法部署到现实世界中进行预测。


本节课中,我们一起学习了机器学习项目的完整生命周期。我们从收集带标签的历史数据开始,经历了模型训练、在独立数据集上的性能验证,最终将可靠的模型部署到实际应用中。这个“数据 -> 模型 -> 评估 -> 部署”的框架是绝大多数机器学习项目的核心路径。
课程P73:人力资源中的AI应用 👥🤖

在本节课中,我们将学习如何将机器学习算法应用于人力资源管理中的具体挑战。我们将探讨如何利用数据预测员工行为,并基于这些预测采取行动,从而改善员工参与度、降低流失率并规划职业发展路径。
到目前为止,我们已经讨论了两方面的内容。

首先,我们讨论了在独特挑战中管理人员的问题,包括这些挑战的成因以及组织通常的应对方式。其次,我们介绍了机器学习的强大能力,这些新技术和工具能够赋能组织,构建更强大的算法,对我们过去广泛关注的事物做出更好的预测。
现在,我们迎来了一个绝佳的时机,可以将这些算法真正应用到之前提到的人员管理问题中。我们需要思考机器学习有哪些不同的方法可以用来改善我们管理人的方式。
在这样做的时候,我想强调一个关键点:索尼描述的这些算法是通用目的技术。它们是一套可以应用于任何问题的技巧,无论是模式识别(如训练计算机识别图片中的猫),还是解决生产流程中的问题。
那么,当我们将这些技术应用于员工管理时,不同之处在哪里呢?主要有两点需要考虑。
第一点是弄清楚我们将使用什么样的数据。这些算法真正擅长的是处理大量的输入数据和对应的输出结果,并找出输入数据中的哪些信号最能预测我们关心的结果。例如,在预测员工流失时,我们需要找出哪些与员工行为相关的信号最能预测谁会离职。因此,关键在于识别出哪种数据对预测工作最有效。
我们常常思考可以使用哪些数据来进行预测。数据越丰富、越智能,预测结果就越好。
我们在应用这些算法时,另一个必须认真考虑的事情是:我们该如何实际使用这些算法得出的预测?算法本身只提供预测,但预测本身如果没有后续行动是毫无用处的。那么,基于预测应该采取什么行动呢?
接下来,我将讨论这些算法在人员管理三个不同领域的应用。
首先,关注员工参与度,追踪员工的积极性和满意度。其次,关注员工流失率,预测谁会留下、谁会离开,以及我们可以为此做些什么。第三,在组织内部建立职业发展路径。


这并不是机器学习在人员管理方面应用方式的详尽列表。实际上,要建立一个详尽的列表非常困难。特别值得一提的是,机器学习正在显著影响的另一个巨大领域是招聘。不过,我将略过这一点,因为彼得会在后续课程中花大量时间讨论它。
本节课,我们将集中讨论参与度、流失率和职业发展路径这三个主题。现在,让我们从员工参与度开始。
在本节课中,我们一起学习了如何将机器学习作为通用工具应用于人力资源管理的核心领域。我们明确了应用的关键在于选择合适的预测数据,并将算法预测转化为有效的管理行动。通过关注员工参与度、流失率预测和职业发展路径规划,组织可以更科学、更前瞻性地进行人员管理。记住,技术是手段,改善人的体验和组织的效能才是最终目的。
课程 P74:AI与员工参与度 📊

在本节课中,我们将学习如何利用人工智能,特别是机器学习的两种方法——情感分析与主题建模,来系统性地衡量和提升员工的参与度。我们将探讨其工作原理、应用场景以及相关的权衡考量。
概述
公司非常关注员工的参与度,因为他们认为参与度更高的员工更有可能更有动力、努力工作、表现更好,也更有可能留在公司。因此,测量员工参与度一直是管理中的一个重要方面。传统上,组织通过年度调查等方式来实现这一目标。如今,机器学习提供了新的可能性。
上一节我们介绍了测量员工参与度的传统方式,本节中我们来看看机器学习如何介入这一领域。
机器学习如何评估参与度?
为了理解这些算法如何运作,假设你是一名经理,想要评估每位下属的参与度,但不使用调查。你会怎么做?
最明显的方法是倾听他们说话。他们是否抱怨很多?他们是否说工作有趣并对此感到满意?还是他们谈论的大部分内容是关于工作的缺点?仅仅通过追踪这些,你就能初步了解员工的参与情况。
事实证明,这些事情是机器学习非常擅长的。我们将讨论使用机器学习,以系统的方式研究员工所说的内容。具体将探讨两种方法:第一个是情感分析,第二个是主题建模。
方法一:情感分析 😊😞
情感分析的基本原理是处理任何文本,并尝试分析该文本的情感内容。它判断文字是在表达快乐、多愁善感还是其他情绪。

在考虑计算机如何做之前,假设你需要训练一个朋友去做这件事。你收集了一大堆员工对他们工作的描述,希望朋友告诉你有多少人对工作满意,以及多少人感到疏离。但假设你的朋友完全没有情商,在没有明确指导的情况下,他们会觉得很难做到。
你最终可能会告诉他们这样做:查看描述情感的所有词汇。一些词汇与积极情绪有关(如“快乐”、“兴奋”),另一些则是负面的(如“沮丧”、“失望”)。我们可以直接统计这些词语的数量,然后比较它们的频率。如果人们使用了更多快乐的词汇(如“兴奋”、“投入”或“非常激动”),那么我们可以推断他们感到参与其中。
这就是情感分析的基础。它的工作原理是从一个预定义的词汇表开始。算法有一长串与积极情绪关联的词汇,以及另一长串与负面情绪关联的词汇。对于任何一段文本,它只会统计积极情绪词汇和负面情绪词汇的数量,并计算它们之间的差异。
用公式化的方式描述,可以简化为:
情感得分 = (积极词汇数量) - (负面词汇数量)
然而,这种做法存在一些明显的问题。例如,如何处理否定句(如“不快乐”)?通常,这些算法会足够复杂,在否定词(如“不”)出现时,要么忽略后续词汇,要么反转其意义。但这并不完美,可能会出现误判。
此外,人们的表达方式存在差异。例如,英国人说“工作很好”可能表示非常兴奋,而美国人说同样的话可能只是表示“还不错”。人与人之间的表达习惯也不同,有些人总是充满活力,这会导致分析不准确。

第三,结合调查来看,我们可以想象人们可能会采取策略性表达。特别是如果他们知道我们将会分析他们的话来推断其参与度,问题可能就变成了“我希望人们认为我有多投入”,而不是“我实际有多投入”。
尽管存在这些问题,人们已经尝试验证这些类型的分析。使用算法对文本情感进行编码,然后与人类评估者的判断进行比较。结果显示,计算机的分析与人类的判断之间存在相当不错的相关性。对于单段较短的文本,可能会有各种错误,但当你查看大量文本时,通过这些方法获得的准确性通常相当不错。
情感分析的明显优势是,管理者不需要阅读所有内容并自行整理判断,可以直接从计算机的分析中获取数据。
情感分析的应用与权衡

情感分析只是一种对文本进行情感编码的工具。一个显而易见的问题是:我们计划用什么文本来理解员工的参与度?
这可能是他们写的任何东西,但我们该去哪里找呢?在考虑应用场景时,存在一种权衡:在全面性和侵入感之间。
如果我想知道人们是否兴奋,最好的办法可能是查看他们的电子邮件和即时消息。在组织内部,我们通过电子方式进行大量交流,所有数据都在这里。我们可以轻松地对人们所写的所有内容进行情感分析,以理解他们的兴奋程度、日常变化、哪些群体参与度更高等。
市面上已有一些工具用于分析Slack消息等。但我们应该这样做吗?从法律角度看,在美国,对工作邮件没有隐私期望,所以可能没问题。但从伦理角度看,在某些组织中,这可能被视为对隐私的重大侵犯。一旦你开始深入了解人们在这个层面上所写的内容,确保人们理解你对他们数据的处理方式并感到舒适,对于保持信任至关重要。因此,是否这样做可能因组织而异。
我们还可以用情感分析做其他事情。例如,分析人们在社交媒体上发布的关于公司的内容。如果内容在社交媒体上,从定义上来说就是公开的。因此,查看人们对公司的帖子可以让你对整体士气有一个不错的感觉。显然,这样获得的信息变少了,没有那种跨群体和时间的细粒度数据,但这是一件值得关注的事情。
另一个常见的应用场景是直接询问人们的感受。与其进行长期的参与度调查,我们可以每隔几周或每个月请人们写下几句关于对工作和公司感受的开放文本。这段开放文本对他们来说更简单,也为我们提供了更丰富的信息。我们可以做的第一件事就是对所有回复进行快速的情感编码,以了解整体满意度。
这段文字还有一个好处:它不仅适用于情感分析,询问人们的感受也给了我们更多杠杆去尝试弄清楚他们为什么会有这样的感觉。这其中有哪些主题?缺点是现在我们可能会有成千上万条这样的句子,需要从中提取主题。因此,这引出了我想讨论的第二个工具。
方法二:主题建模 🗂️
主题建模是一种机器学习技术,用于从大量文本集合中发现抽象“主题”。它可以帮助我们从成千上万的员工反馈中,自动识别出大家频繁讨论的核心议题,例如“薪酬福利”、“工作压力”、“团队合作”或“职业发展”。
通过主题建模,管理者可以超越简单的情感正负,深入理解影响员工参与度的具体驱动因素和痛点,从而采取更有针对性的改进措施。

总结
本节课中,我们一起学习了如何利用人工智能评估员工参与度。我们探讨了两种核心的机器学习方法:
- 情感分析:通过分析文本中的情感词汇来量化情绪倾向,其核心是计算
积极词汇数量 - 负面词汇数量。这种方法高效,但需注意表达差异和隐私伦理的权衡。 - 主题建模:用于从大量文本中自动提取和归纳核心讨论主题,帮助深入理解影响参与度的具体原因。

这两种工具可以单独或结合使用,为管理者提供从宏观情绪把握到微观原因洞察的全方位视角,从而更科学、更高效地提升组织的人才管理效能。

课程 P75:主题建模 📚
在本节课中,我们将要学习一种名为“主题建模”的文本分析技术。主题建模能够帮助我们从大量文本数据中自动识别和提取出核心主题,从而理解文本集合中讨论的主要内容。

什么是主题建模?🤔
上一节我们介绍了情感分析,它主要判断文本的积极或消极倾向。主题建模是另一种从文本中提取意义的技术。它的目标是识别文本中正在讨论的不同主题。
情感分析仅提供一种价值判断(积极或消极)。主题建模则试图弄清楚文本中讨论的不同主题。对于大量文本,它能对每个文本片段进行编码,并告诉你其中存在哪些主题。
主题建模的基本思想 💡

为了更好地理解,我们可以设想一个场景:你正在向一位情商为零的学者朋友解释,如何从一堆文本中提取关键主题。你会怎么做?
实际上,我们可以通过一个例子来理解。假设我们收集了学生们对其所在组织文化的简短描述。我们的任务是找出人们描述组织文化时的主要维度,即经常出现的主题。
我们可以通读这些描述,观察是否有共同的主题浮现。例如:
- 有几个描述明确提到了“努力工作,尽情玩乐”。
- 另一个经常被提及的主题是“同事关系”,比如团队合作、协作等。
- 还有人谈论重大的社会挑战,这可以归为“影响力导向”。
通过这种方式,我们开始看到一些主题浮现出来。

如何让计算机识别主题?💻
上一节我们通过人工阅读识别了主题。但对于成百上千份文本,我们需要一种自动化的方法。我们可以这样告诉计算机:
对于每一个我们识别出的主题,我们可以建立一个与之相关的小型词汇字典。
- 对于 “努力工作,尽情玩乐” 主题,相关的词汇可能包括:
工作、努力、玩乐、游戏。 - 对于 “合作” 主题,相关的词汇可能包括:
协作、合作、团队、同事关系。
这就是主题建模的基本思想。它假设:
- 每个文档(如一段文化描述)只包含有限数量的主题。
- 整个文本集合中,存在的主题总数是较少的。
- 每个主题都与一组特定的词汇相关联。
计算机看到的是所有文本和词汇。它的任务是推断出:
- 文档与主题之间的关联(每篇文档涉及哪些主题)。
- 主题与词汇之间的关联(每个主题包含哪些词汇)。
它通过分析词汇在文档中的分布,找出最有可能产生这种分布的潜在主题结构。这个过程可以用以下公式化的思想来描述:
主题建模的核心是发现文档-主题分布和主题-词汇分布,使得观察到的文档-词汇矩阵最有可能出现。
主题建模的局限性 ⚠️
上一节我们介绍了主题建模的工作原理,但它存在一些重要的局限性。
首先,计算机本身并不知道主题是什么,它只是进行推断。更重要的是,它无法自动确定文本集合中到底存在多少个主题。因此,我们通常需要预先告诉算法要寻找的主题数量(例如,假设有15种描述文化的方式)。

其次,算法输出的是与每个主题相关联的词汇列表,但不会直接告诉我们这个主题“关于什么”。我们需要人工查看这些词汇,然后推断出该主题的实际含义(例如,看到团队、协作等词,我们推断主题是“合作”)。
尽管有这些局限,主题建模在处理大型文档集时通常效果良好。它是一种从海量文本中提取关键主题,并对文档进行自动编码的有效方法。
实际应用案例 🌟
以下是一个来自斯坦福和伯克利研究的优秀案例。研究人员利用Glassdoor网站(员工可匿名评价雇主文化的平台)上的海量评论,提取了所有包含“文化”一词的句子,并运行主题建模来理解人们谈论文化的具体维度。
他们设定了大约100个主题,并得到了每个主题的相关词汇。例如:
- 主题示例1:敌对管理
- 相关词汇:
管理层、员工、敌对、不专业、恶劣、偏袒、欺凌、糟糕、可怕、粗鲁、不尊重
- 相关词汇:
- 主题示例2:工作与生活平衡
- 相关词汇:
工作与生活平衡、良好、健康、灵活、个人
- 相关词汇:
通过这种方式,研究者能够从不同文本中系统地提取出一系列明确的主题。

在员工参与度调查中的应用 📊
我们可以在员工脉搏调查或其他简短问答中应用主题建模。例如,询问员工:“你喜欢和不喜欢什么?你希望我们知道什么?”
从一个组织收集到成千上万条简短回答后,通过运行主题建模,我们可以:
- 快速识别这成千上万条回答中主要讨论哪些主题。
- 量化分析每个主题出现的频率。
- 追踪变化观察不同时期主题流行度的变化趋势。
- 对比分析研究哪些主题在不同部门中更为常见。
这样,我们不仅能分析整体情感倾向,还能深入、可扩展地了解员工具体关注和担忧的事项,其效率远高于人工逐一阅读。

总结与展望 🚀
本节课中我们一起学习了主题建模技术。
当涉及跟踪员工参与度时,机器学习开辟了有趣的可能性。通过情感分析,我们可以快速评估文本的整体积极性。而通过主题建模,我们可以更进一步,在员工提供开放文本反馈时,高效地分析文本、提取关键主题、量化常见内容并追踪其变化。
虽然这些应用仍处于早期阶段,但已有许多公司开始采用主题建模等技术分析文本。它是对传统繁琐的年度调查的一个有力补充,未来有望在跟踪和提升组织参与度方面成为非常有价值的工具。


课程 P76:AI与员工流失分析 🧠
在本节课中,我们将探讨人工智能,特别是机器学习,如何应用于分析和管理员工流失。我们将了解其核心原理、优势以及实际应用方式。
上一节我们介绍了AI在人力资源领域的应用背景,本节中我们来看看它在员工流失分析中的具体作用。
组织通常非常关注员工流失率,因为人员流失的成本很高。为了理解员工为何离开并采取应对措施,许多组织已经开始使用机器学习工具。这些工具本质上是在系统化地完成人类管理者也会做的分析工作,但效率和准确性更高。
核心分析逻辑
机器学习模型预测员工流失的逻辑,与一位经验丰富的管理者思考“谁可能会离职”的过程相似。以下是模型通常会考虑的几个关键特征:
以下是模型在预测时可能参考的一些个人信息维度:
- 年龄:年轻员工可能因探索职业方向或继续深造而更频繁地换工作。
- 工作历史:过去频繁更换公司的员工,未来再次离职的可能性更高。
- 当前职位:某些角色(如枯燥的或技能需求旺盛的岗位)本身就有更高的流失率。
- 工作投入度:任何显示员工不投入或不满意的信号都是重要指标。
- 绩效与社交:工作表现是否顺利、性格内向程度等因素也可能被纳入考量。
机器学习的优势
当我们使用机器学习时,核心工作就是将上述所有特征系统化地结合起来,并利用历史数据(包含这些特征以及员工最终是去是留的结果)进行训练。相较于依赖主管的主观猜测,机器学习模型带来了两大优势:
以下是机器学习在流失预测中的两个主要优势:
- 更高的准确性:人类不擅长同时有效权衡多种复杂标准,而机器学习模型在此方面的表现通常远超人类。
- 持续性与自动化:管理者可能会分心或只能定期(如每半年)评估一次。机器学习模型则可以持续运行,不断扫描数据,实时标记出有离职风险的员工。
模型的输出与应用
模型在分析后,会为每位员工计算一个离职风险概率。这个概率可以用以下公式化的方式理解:
离职风险 = f(年龄, 工作历史, 职位, 投入度, 绩效, ...)
其中,函数 f 是通过历史数据训练得到的机器学习模型。
基于这个风险评分,组织便可以主动采取干预措施,例如与高风险员工进行沟通、了解其需求或改善其工作条件,从而提前降低流失可能。


本节课中我们一起学习了机器学习如何应用于员工流失分析。我们了解到,其核心是系统化地分析多种个人与工作特征,并利用历史数据进行预测。相比传统方法,机器学习在预测准确性和持续监控方面具有显著优势,最终通过输出风险概率帮助组织实现更主动的人才保留管理。

课程 P77:构建流失机器学习模型 📊
在本节课中,我们将学习如何构建一个预测员工流失的机器学习模型。我们将探讨哪些类型的数据对预测至关重要,并理解员工决定离开背后的关键因素。
概述

构建流失预测模型的核心,并非模型算法本身有多么复杂,而在于弄清楚应该放入什么类型的数据。随着在线工作方式的普及,我们拥有越来越多的数据来帮助我们更准确地估计谁将离开。本节将介绍可用于构建模型的关键数据维度。
数据维度一:人口统计与事务数据
上一节我们提到了数据的重要性,本节中我们来看看具体有哪些数据可以放入模型。
首先,人口统计信息(如职位类型)对于理解谁可能离开非常有用。其次,事务级数据(记录特定事件的数据)也至关重要,因为人员流失往往与变化相关。
以下是可能影响流失的关键事务信号:
- 绩效评估变化:如果员工的绩效评估结果下降,这可能表明他们意识到自己与岗位不匹配,从而增加离职倾向。
- 薪酬与奖励:未能获得预期的加薪或奖金,对员工而言是一个负面信号,暗示其在组织内的表现未达预期,这通常是一个离职预警。
- 晋升申请结果:员工申请晋升或组织内部的其他职位但被拒绝,会显著增加其离职的可能性。这既是一种明确的拒绝,也可能表明他们已开始寻求外部机会。
数据维度二:环境与关系变化
除了个人事务,周围环境的变化也是预测流失的重要指标。员工的工作环境,特别是人际关系网络的变化,会深刻影响其去留决定。

以下是环境变化带来的风险因素:
- 同事或经理离职:当关系密切的同事或优秀的经理离开时,会造成工作乐趣减少、团队动荡,并可能让员工意识到外部机会的存在,从而增加其离职风险。这种现象常被称为“人员流动传染”。
- 组织重组:频繁或重大的组织重组会给员工带来不安全感与压力,增加其离开的倾向。

通过分析人力资源系统中的这些变化数据,我们可以为流失模型获取有价值的输入,以更好地预测员工可能离开的时机。
数据维度三:行为与互动数据
接下来,我们看看如何利用员工的行为数据来理解其离职倾向。随着工作日益在线化,我们能够获取更多此类数据。
员工考虑离职时,其行为模式常会发生改变。例如,工作效率可能下降。更重要的是,他们在组织内的社交互动模式能提供关键洞察。

- 社交嵌入度:通常,在组织内拥有更多联系、花更多时间与他人互动的员工,能获得更多支持并享受工作关系,因而更可能留下。反之,处于社交网络边缘的员工则离职风险更高。
- 联系质量:不仅联系人数量重要,与更高职位或影响力人物的联系质量也同样关键。
研究甚至发现,通过分析工作邮件,可以测量语言风格适配度。当员工邮件语言与同事的相似度降低时,表明其可能正在心理上疏离组织文化,这也是一个有效的预测指标。
数据维度四:外部信号与社交媒体

最后,我们探讨来自外部的吸引因素。离职决策是“推力”(内部不满)和“拉力”(外部机会)共同作用的结果。社交媒体活动能有效反映员工对外部机会的探索程度。
通过观察员工的社交媒体行为,可以追踪其求职活跃度。例如:
- 更新个人资料:在LinkedIn等平台频繁更新简历或个人资料。
- 拓展人脉:积极与公司外部或行业内的新联系人建立连接。
这些行为都是强烈的求职信号,表明该员工在模型中的“潜逃风险”应该被调高。一些初创公司已专门利用此类数据来构建离职风险模型。
总结


本节课我们一起学习了构建员工流失预测机器学习模型所需的多维度数据。我们从内部事务数据(如绩效、薪酬变化)和环境变化数据(如同事离职、重组)入手,分析了内部的“推力”因素。接着,我们探讨了行为与互动数据(如社交网络、沟通语言),这些能揭示员工的心理状态。最后,我们引入了外部信号数据(如社交媒体活动),以捕捉外部的“拉力”因素。有效整合这些数据,是构建一个精准、有洞察力的流失预测模型的关键。
📊 课程 P78:员工流失模型的价值

在本节课中,我们将探讨构建员工流失模型的实际价值。我们将了解组织如何利用这些模型获得洞察、采取行动并进行规划,从而有效管理人才流失。
🔍 洞察流失驱动因素
上一节我们提到了构建流失模型的可能性。本节中,我们来看看模型如何帮助我们更深入地理解影响员工流失的因素。通过分析哪些因素能真正预测离职,我们可以识别出组织可以改进的领域。
以下是模型可能揭示的一些具体洞察示例:
- 一个组织发现,经理是否在新员工入职第一周安排一对一会议,是预测该员工是否会长期留任的重要指标。未安排此类会议的经理,其下属的离职率更高。
- 另一个组织发现,当新员工入职时,如果有团队成员主动迎接并引导他们,其留任率会更高。相比之下,需要新员工自行寻找团队的,其离职风险更大。
这些发现促使组织更加重视新员工的入职引导体验,认识到早期阶段的举措对员工留存至关重要。
🎯 针对高风险员工采取行动
了解了流失的驱动因素后,我们来看看如何应用这些知识。如果我们能通过模型识别出有高离职风险的员工,就能更精准地投入资源,努力留住他们。
模型可以标记出离职概率高于平均水平的员工。针对这些高风险员工,管理者可以采取以下主动措施:
- 进行留任面谈:不同于离职后的面谈,留任面谈旨在提前了解员工的需求、顾虑以及对组织的看法,从而采取行动提升其留任意愿。
- 实施干预计划:例如,IBM公司结合流失模型,推行了让管理者主动与高风险员工协作以保留人才的项目。该公司声称,此类主动干预措施帮助他们节省了超过 3亿美元 的成本。
📈 为人员更替进行规划
尽管我们可以努力留住员工,但并非所有流失都能或都应该被阻止。有些员工的离开对组织而言是可以接受的。本节中,我们看看模型如何帮助组织为不可避免的人员变动做好准备。
如果我们能更准确地预测员工可能离职的时间,就可以提前进行规划,从而减少业务中断。
流失模型在规划方面的价值主要体现在:
- 制定人员编制计划:通过预测不同群体或部门的潜在离职人数,人力资源团队可以更精确地规划需要招聘多少新人。
- 管理内部继任:了解关键岗位员工的流失风险,有助于提前培养内部接班人,确保业务连续性。
- 减少岗位空缺期:提前预知离职,可以为招聘和交接争取更多时间,缩短职位空缺期。
💎 课程总结
本节课中,我们一起学习了员工流失模型的三大核心价值:

- 提供深度洞察:揭示影响员工去留的关键因素,特别是入职初期体验的重要性。
- 支持主动干预:通过识别高风险员工,使管理者能够采取针对性的留任措施,如留任面谈,从而直接创造商业价值(例如节省成本)。
- 赋能前瞻规划:帮助组织预测离职规模,更好地进行人员编制、招聘和继任规划,以平稳应对人员流动。

许多组织发现,构建和应用员工流失模型是机器学习在人力资源领域最具价值的应用之一。

课程P79:AI与职业生涯 🧭
在本节课中,我们将探讨机器学习在组织内部管理,特别是员工职业生涯发展中的应用。我们将了解为什么公司越来越关注内部职业路径,以及机器学习如何帮助重建这些路径,从而降低员工流失率并提升组织效率。

上一节我们介绍了机器学习在职业生涯管理中的重要性。本节中,我们来看看为什么组织开始重新关注员工的内部职业发展。
传统上,组织拥有明确的职业阶梯。员工以特定级别入职,并沿着预设的层级晋升。这是一种预期的契约。
然而,在过去20到30年间,情况发生了变化。
以下是两个主要变化:

- 组织结构扁平化:组织从层级官僚制转向更扁平、灵活、基于网络和项目的结构。这提升了组织的灵活性、创新性和协作性,但同时也使得清晰的职业晋升路径变得模糊。
- 责任转移:组织一度将职业发展的责任完全推给员工,明确表示“你的职业是你自己的问题”。这种策略的局限性逐渐显现,因为它可能导致员工为寻求发展而离职。
组织逐渐认识到,用内部员工填补职位比外部招聘更经济、更可靠。因此,帮助员工在内部建立清晰的职业路径,对于留住人才至关重要。

上一节我们讨论了组织为何需要重建职业路径。本节中,我们来看看机器学习如何具体帮助员工规划内部职业发展。

机器学习的主要作用是帮助员工理解潜在的发展路径,从而增强内部流动性。这不仅能帮助员工找到下一个合适的职位,也能让招聘人员更容易地发现内部候选人。
更广泛地说,清晰的职业路径能:
- 为员工的长期发展提供指引。
- 帮助员工有针对性地进行社交和寻找机会。
- 向员工传递“可以在本公司内成长”的积极信号。
- 指导员工的技能发展,让他们了解目标职位所需的技能,从而规划培训与项目经验。
上一节我们了解了机器学习在职业规划中的目标。本节中,我们来看看实现这些目标的具体技术方法。
以下是两种常见的利用机器学习绘制职业路径的方法:
-
基于历史职业轨迹的分析:这是最简单的方法。通过分析拥有相似职位员工的过往晋升或转岗数据,来预测可能的下一步。例如,分析“市场分析师”通常转岗到哪些职位。
- 公式/逻辑:
推荐职位 = 历史数据中,从当前职位A转移到其他职位B的频率排名 - 局限性:适用于常见职位;对于新兴或罕见职位数据不足;反映的是过去,可能不适用于快速变化的未来。
- 公式/逻辑:
-
基于技能匹配的分析:这是一种更稳健但更复杂的方法。核心思想是:员工能否胜任一份工作,取决于其技能与职位要求的匹配度。
- 公式/逻辑:
职位匹配度 = f(员工技能集合 ∩ 职位要求技能集合) - 优势:能发现前所未有的、基于技能相似性的新职业道路,不依赖于历史转换数据。
- 核心挑战:需要高质量的技能数据。组织往往缺乏对“员工拥有什么技能”和“职位需要什么技能”的系统化记录。
- 公式/逻辑:
早期的一个著名应用是IBM Watson的职业教练工具。员工输入职业偏好,系统会结合对组织内职位的认知,提供个性化的职业发展建议。


本节课中,我们一起学习了机器学习在职业生涯管理中的应用。我们了解到,由于组织结构的演变,清晰的内部职业路径被破坏,导致员工流失风险增加。机器学习提供了两种主要方法来重建这些路径:分析历史职业轨迹和进行技能匹配。虽然技能匹配法更具前瞻性,但其成功依赖于组织对技能数据的有效管理。通过应用这些技术,组织可以更好地帮助员工规划发展,从而提升留任率与内部流动性。

课程 P8:人工智能简介 🧠
在本节课中,我们将学习人工智能的基本概念。我们将从人工智能的概述开始,然后探讨其核心子领域——机器学习,并了解构建人工智能的不同方法。

什么是人工智能?
人工智能,通常简称为 AI,是一个广义术语,指代那些能够执行通常需要人类智能才能完成的任务的计算机系统。这些任务包括理解语言、逻辑推理、语音识别、决策制定、视觉感知以及操控物理对象等。
人工智能的类型
上一节我们介绍了人工智能的定义,本节中我们来看看人工智能的不同类型。

以下是三种主要的人工智能分类:
- 弱人工智能:也称为人工狭义智能。这类 AI 擅长执行非常特定的单一任务。例如,一个下棋的 AI 可能能击败世界冠军,但它无法与我们对话或识别图像。我们周围的大多数 AI 都属于弱人工智能。
- 强人工智能:也称为人工通用智能。这是指一个计算机程序能够完成所有人类能做的智能工作,其能力范围接近人类。
- 人工超智能:这是一个强人工智能系统,它不仅在许多任务上能与人类匹敌,还能利用其强大的计算能力存储更多数据、更快地分析并做出决策,从而在大多数任务上超越人类。
人工智能简史
了解了人工智能的类型后,我们来看看这个领域的起源与发展。
人工智能的历史相对短暂。其起源可以追溯到数学家艾伦·图灵的一篇论文,他在文中提出了“机器能否思考?”的问题。他提出了一个著名的测试——图灵测试,用于判断机器是否具有智能。

在测试中,一名人类评审通过终端与两个对象(一个由计算机控制,另一个由人类控制)进行对话。如果评审无法区分哪一个是计算机,那么该计算机系统就被认为通过了图灵测试。

图灵的工作激发了该领域的兴趣,并促成了1956年达特茅斯会议的召开。正是在这次会议上,科学家们为这个新领域奠定了基础,并正式创造了“人工智能”这个术语。

人工智能的里程碑
人工智能领域早期的一个关注点是 AI 能否在游戏中击败人类。以下是几个关键里程碑:
- 1997年,IBM“深蓝”:这台国际象棋计算机击败了世界冠军加里·卡斯帕罗夫。它主要依靠强大的计算能力(每秒分析超过20万步棋)来寻找最佳走法,本身不具备学习能力。
- 2011年,IBM“沃森”:这个系统在智力竞赛节目《危险边缘》中击败了两位人类冠军。沃森内置了机器学习能力,能够理解语言、分析问题并从海量数据库中检索信息并作答。
- 2016年,谷歌“AlphaGo”:这个软件在围棋比赛中击败了世界冠军。围棋比国际象棋复杂得多,仅靠计算力无法取胜。AlphaGo 的成功得益于其先进的机器学习技术,使其具备了学习和进化的能力。
构建人工智能的方法
我们已经看到 AI 在游戏中的成就,那么 AI 是如何被构建出来的呢?主要有两种方法。

方法一:知识工程(专家系统)

这是一种传统方法,其核心思想是:将人类专家的知识和规则编程到计算机系统中。
例如,要构建一个疾病诊断系统,开发者会采访医生,将他们诊断疾病的规则(如“如果患者发烧超过一周并伴有身体疼痛和寒战,则考虑使用抗生素”)整理并编写成程序。
同样,要构建自动驾驶系统,开发者会收集成千上万名司机的驾驶规则(如“当前车减速时踩刹车”)。
虽然专家系统可以表现得相当不错,但它们往往难以在复杂的智力任务上超越人类专家。

方法二:机器学习
专家系统的局限性催生了一种替代方法——机器学习。
波兰尼悖论指出,人类拥有大量自己并未意识到的“隐性知识”。例如,司机无法完全说清自己驾驶时所运用的所有规则和判断。因此,通过采访专家来穷尽所有知识是困难的。
机器学习的核心理念是:不再显式地为计算机编程所有规则,而是赋予它从数据中学习的能力。计算机通过观察专家的行为数据(例如,司机的驾驶录像和操作记录),在一段时间内模仿并学习其中的模式,从而掌握完成任务的能力。

总结

本节课中,我们一起学习了人工智能的基础知识。我们了解了 AI 是能够执行人类智能任务的计算机系统,并区分了弱 AI、强 AI 和超 AI 的概念。我们回顾了从图灵测试到 AlphaGo 的 AI 发展简史。最后,我们探讨了构建 AI 的两种主要方法:传统的知识工程(专家系统)和更现代的机器学习,并理解了后者通过让机器从数据中学习,有望克服隐性知识带来的挑战。在接下来的课程中,我们将深入探讨机器学习的具体内容。

课程 P80:技能分析 🧠
在本节课中,我们将学习组织如何衡量和分析员工的技能。我们将探讨几种主要的方法,包括员工自报、基于职位分析以及利用人工智能技术,并分析每种方法的优缺点。
概述
许多组织正致力于建立能够真正理解员工技能的应用程序。这些系统的核心目标是准确衡量员工的技能,并将此作为员工转岗或职业发展的输入数据。总体而言,衡量技能有几种主要途径。
方法一:员工自我报告 📝
上一节我们介绍了技能分析的整体目标,本节中我们来看看第一种方法:直接询问员工。
确定员工技能的一种直接方法是让他们自己报告。组织希望员工列出所拥有的所有技能,并在学习新技能时持续更新这份档案。
这种方法面临的主要挑战是,如何确保员工认真填写并长期维护档案的时效性。
以下是组织为维护这些技能档案所采取的几种策略:

- 创造激励:一些组织尝试创造强烈激励,促使员工报告技能。例如,他们观察到外部平台(如领英)拥有更优质的员工技能数据,因此考虑建立内部的“领英”式档案系统,尤其在内部求职时要求填写。
- 纳入绩效评估:另一种方法是将技能识别作为正式绩效评估流程的一部分。员工在设定年度目标或总结时,需要报告已掌握和新增的技能。
然而,这些努力的效果参差不齐。内部系统可能面临“鸡与蛋”的问题:员工愿意填写是因为招聘者会看,招聘者愿意看是因为员工填好了,但如果双方都不先行动,系统就难以启动。在绩效评估中,也可能流于形式。
人工智能在这里可以发挥作用。一些组织尝试用AI来建议员工可能拥有的技能,例如:
- 基于他们参与过的项目。
- 基于他们担任过的职位及该职位通常所需的技能。
- 甚至分析他们多年来撰写的文档和资料,从中推断可能使用的技能。
其核心逻辑是:AI建议技能 -> 员工确认或忽略。这能否提高准确性和参与度,仍是一个开放的问题。虽然员工自报有其价值,但它确实依赖于员工群体持续、认真的投入。
方法二:基于职位分析 🏢
如果我们无法有效依赖员工自我报告,还有什么方法呢?接下来,我们看看第二种思路:通过分析员工担任过的职位来推断其技能。

一个有效的简化策略是:技能不仅决定人们现在能做什么工作,也决定了他们过去能做什么工作。因此,可以假设,任何人从事过某个职位,就意味着他/她大概率具备该职位所需的技能。通过分析一个人的工作经历序列,就能对其技能有一个不错的了解。
显然,这需要我们知道每个职位具体需要哪些技能。以下是几种弄清职位技能要求的方法:
- 使用外部数据库:最常见的是 O*NET 数据库。这是一个政府数据库,涵盖了约900种职业,并为每种职业编制了预期的技能和能力代码。通过将组织内的职位与O*NET职业对应,就能推断员工技能。这种方法的好处是简单、数据现成。挑战在于它假设同一职业内所有工作的技能完全相同,这会导致较大的测量误差。
- 分析职位描述:更准确的方法是分析组织内部的职位描述。有些组织会进行正式的职位分析,但这通常是一个官僚且可能很快过时的过程。
- 分析招聘启事:一个更可靠的实时数据来源是发布的招聘要求。公司在招聘时,会明确规范该职位需要做什么、需要什么技能。因此,职位发布是理解技能需求的优质数据源。
有许多公司(如 Burning Glass)开发了复杂算法来分析职位发布,并识别其中所需的所有技能。公式可以简化为:职位技能要求 = 算法分析(职位描述文本)。这种方法不仅用于分析外部劳动力市场,同样可以应用于组织内部。通过分析内部所有职位发布,我们可以了解:
- 各个角色的技能要求。
- 对在职人员的技能期望。
- 从而推断曾担任该角色的人员应具备的技能。
总结与展望

本节课中我们一起学习了衡量员工技能的两种核心方法:员工自我报告和基于职位分析。自我报告直接但依赖员工参与;职位分析间接但能利用现有数据。随着组织变得日益复杂,帮助员工理解职业可能性和发展路径变得更加困难。
这正是人工智能工具大显身手的地方。AI可以帮助组织:
- 理解不同职位之间的关系。
- 洞察组织内部的技能分布状况。
- 为员工构建清晰、可行的职业发展路径。

通过结合多种数据源和分析方法,组织可以更全面、动态地理解并管理其人才技能,为员工的成长和组织的成功提供支持。

课程P81:招聘中的数据科学应用 🎯
在本节课中,我们将探讨数据科学如何应用于一个非常实际且重要的人力资源管理问题——招聘。我们将了解传统招聘流程的演变,以及数据科学和机器学习如何改变我们筛选和选择候选人的方式。
概述:招聘的现实与挑战
招聘是人力资源管理中最重要且成本最高的环节之一。更换一名员工的行政成本很高,即使是基层员工也可能花费约4000美元。如果考虑到人员流动的总体成本,例如因招聘失误导致员工离职,其代价可能高达该职位两年的薪水。整个招聘行业规模庞大,旨在帮助企业填补职位空缺。
然而,传统的招聘教科书流程与现实操作存在巨大差异。此外,大多数公司在评估招聘效果时,往往只关注填补职位的“速度”和“成本”,而忽略了“招聘质量”这一核心指标。接下来,我们将深入探讨这些现实情况。
传统招聘流程与现实差距 📖
教科书中的招聘流程通常始于职位描述,随后发布广告、收集申请、筛选简历形成短名单,最后通过面试和测试做出决策。
但现实情况截然不同。数据显示,大多数更换雇主的人并非主动求职者,而是被“挖角”或说服后转换工作的。如今,创建短名单的过程已高度自动化,普遍采用申请人跟踪系统(ATS)进行基于关键词的初步筛选,这甚至算不上真正的数据科学应用。
许多公司将招聘流程外包。例如,一家名为PeopleScout的招聘流程外包公司,每年为其他公司招募约30万人,其规模甚至超过了美国军队的年招募人数。
目前,招聘工作的重点之一是寻找“被动候选人”,即吸引那些并未主动申请职位的人才。大多数组织的策略是吸引海量申请者,然后通过层层筛选漏斗进行淘汰。数据显示,通过在线渠道提交申请的候选人,最终获得录用的概率仅为2%左右。
招聘效果的衡量偏差 📊
当公司评估其招聘工作时,他们通常追踪以下指标:
- 填补一个职位所需的时间。
- 填补一个职位所花费的成本。
然而,只有约四分之一的公司会尝试评估招聘的质量。这就好比只用“快速”和“便宜”来评价餐厅,而完全忽略了食物的美味程度。在招聘中,我们常常测量了错误的指标。
数据科学如何改进招聘 🔍

认识到传统流程的局限后,我们来看看如何利用数据科学做得更好。数据科学主要应用于招聘的两个环节:
- 寻找候选人:投入精力识别那些可能适合但未主动申请的“被动候选人”。
- 筛选候选人:这是更受关注的领域,即预测哪些申请人应该获得工作机会。
从定义“优秀”开始
应用数据科学的第一步与传统方法类似:我们需要定义什么是“优秀的员工”。我们可以使用一个指标,例如绩效评估分数,来区分优秀与不优秀的员工。
构建预测模型
与传统方法依赖心理学家或专家选定的几个测试分数(如性格测试、智商测试)不同,数据科学方法会收集员工的所有可用信息作为“特征”。
公式/概念:
- 特征:员工的各项属性,如毕业院校、培训经历、测试分数、过往工作经历等。
- 目标变量:员工是否“优秀”(基于绩效评估等)。
我们利用这些数据构建一个机器学习模型。具体步骤如下:
- 分割数据:将现有员工数据分为两部分:训练集和测试集。
- 训练模型:使用训练集让机器学习算法找出哪些特征组合最能预测“优秀”员工。
- 测试模型:使用测试集验证模型的预测效果。
- 应用模型:对新的申请人收集相同的特征数据,输入模型,从而为每位候选人生成一个单一的预测分数。这个分数反映了该候选人与公司现有优秀员工的匹配程度。
代码/流程示意:
# 伪代码示意
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
# 1. 准备数据
X = employee_data[['school', 'test_score', 'past_jobs', ...]] # 特征
y = employee_data['is_top_performer'] # 目标变量(是否优秀)
# 2. 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5)
# 3. 训练模型
model = RandomForestClassifier()
model.fit(X_train, y_train)
# 4. 评估模型
accuracy = model.score(X_test, y_test)
# 5. 应用于新候选人
candidate_score = model.predict_proba(new_candidate_data)[:, 1] # 获得预测分数
机器学习招聘的优势与挑战 ⚖️
优势:一致性与潜在的高效
- 一致性:算法对每位候选人都使用同一套标准,避免了人类招聘官可能存在的无意识偏见。
- 高效:模型可以快速处理大量申请,并输出一个易于比较的单一分数。
挑战:偏见与“黑箱”
- 偏见继承:如果用于训练模型的历史数据本身存在偏见(例如,过去男性员工普遍获得更高的绩效评分),那么算法也会学会并延续这种偏见。亚马逊的招聘算法案例就是一个著名例子,该算法因为历史数据中男性占主导且评分更高,导致对女性候选人系统性打分偏低。
- 可解释性:复杂的机器学习模型有时是“黑箱”,难以解释为什么某个候选人得分高或低。例如,如果模型发现“居住地邮政编码”是预测客服岗位稳定性的重要因素(实际反映通勤距离),这虽然有效但可能不直观。更极端的例子是基于“面部表情”匹配的招聘工具,即使其预测可能有效,也引发了巨大的伦理和法律争议。
- 数据需求:构建有效的模型需要大量的数据(成千上万的样本),这对中小型企业来说是个挑战。
- 验证困难:企业不能完全依赖供应商的承诺。必须使用自己的数据来验证任何采购的招聘算法是否真的有效,并且不会对受保护群体(如女性、少数族裔)产生不公正的不利影响。在法律诉讼中,企业需要为自己使用的工具负责。

总结与核心要点 🎓
本节课我们一起学习了数据科学在招聘领域的应用:
- 现实洞察:传统招聘流程已高度自动化但未必智能,且公司常错误地衡量招聘效果。
- 方法革新:数据科学通过定义“优秀”、收集多维特征、构建预测模型的方式,将招聘筛选从依赖多重主观判断,转变为基于单一预测分数的客观决策。
- 优势:这种方法具有一致性和高效性的潜力。
- 核心挑战:我们必须警惕算法对历史数据中偏见的继承问题,并关注模型的可解释性。企业有责任验证所用工具的有效性和公平性。

将数据科学应用于招聘,其目标不是用机器完全取代人类,而是提供一个更强大、更一致的工具来辅助决策,同时我们必须以审慎和负责任的态度来使用它。

课程 P82:数据科学与人工智能中的隐私与伦理问题 🛡️
在本节课中,我们将探讨数据科学与人工智能在职场应用时引发的更广泛的隐私和伦理问题。我们将通过具体例子,了解算法决策如何影响招聘、晋升等环节,并讨论隐私保护与法律合规性带来的挑战。
算法决策与职场人际关系
上一节我们介绍了数据科学的基本应用,本节中我们来看看算法如何介入传统的人际决策过程,以及由此引发的矛盾。
假设你在组织内负责招聘决策。你有一位熟悉的内部候选人,你对他有较好的印象。同时,人力资源部门推荐了另一位你不熟悉、但经验相似的候选人。此时,人力资源部门提供了一个算法预测结果:你熟悉的候选人匹配度为82%,而另一位候选人的匹配度为92%。
核心问题:你会选择哪位候选人?

在多次询问中,绝大多数人倾向于选择自己熟悉的候选人,即使算法显示另一位候选人更匹配。即使将算法匹配度调整为80%对95%,甚至100%对某个较低值,人们的决定依然不变。这个例子揭示了人们倾向于信任自己的人际判断,即使存在看似更“客观”的数据。
核心概念:这种偏好反映了 人际偏见 与 算法建议 之间的冲突。

算法对管理关系的侵蚀

在传统的职场管理中,主管与下属的关系常建立在某种互惠交换基础上。例如,主管可能会说:“如果你帮我解决这个问题,我会在晋升或加薪时考虑你。”
然而,如果将晋升、排班等决策完全交由算法,算法可能会在某些维度上优化结果,但同时可能侵蚀主管与下属之间的人际关系。这种做法可能削弱原有的管理体系,至少在传统工作方式下是如此。
核心概念:算法决策可能破坏 管理交换关系,其公式可表示为:
主管支持 = f(下属绩效, 人际互动)
当算法介入,人际互动变量可能被削弱。

算法公平性与法律挑战
算法决策可能引发公平性问题。例如,假释决策算法在分析再犯率时,可能对不同种族群体给出系统性的不同分数。
核心问题:能否为不同群体建立独立的模型以修正这种偏差?
答案通常是否定的。因为法律禁止基于种族等因素区别对待个人。法律在实践上常常滞后于技术发展,导致许多算法应用处于法律灰色地带。
以下是算法公平性面临的主要挑战:
- 群体偏差:算法训练数据可能包含历史偏见,导致结果不公。
- 法律滞后:现有法律体系可能尚未对新型算法决策做出明确规定。
- 合规风险:企业应用算法时,可能面临违反公平就业等法规的风险。
隐私问题:数据收集与员工监控
为了应用数据科学,我们需要大量数据,这直接引发了隐私问题。例如,“离职风险”模型可以通过分析员工的社交媒体动态、电子邮件内容甚至情绪来预测其离职可能性。
核心概念:离职风险模型可能利用多种数据源,其预测逻辑可以用以下伪代码表示:
def predict_turnover_risk(employee_data):
risk_score = 0
if linkedin_profile_updated(employee_data):
risk_score += 20
if negative_sentiment_in_email(employee_data):
risk_score += 30
if social_media_posts_about_job_search(employee_data):
risk_score += 50
return risk_score
许多员工认为这类监控令人不安。因此,雇主与员工之间常围绕隐私展开“博弈”:
- 雇主可能使用“监控软件”追踪员工活动(如击键次数、摄像头画面)。
- 员工则可能采取反制措施,如遮挡摄像头、使用私人手机沟通。
法律与法规:GDPR 与“被遗忘权”

隐私问题已催生相关法律法规,其中最著名的是欧盟的《通用数据保护条例》(GDPR)。GDPR 赋予员工一系列权利,对跨国企业处理员工数据提出了严格要求。
核心概念:被遗忘权 是 GDPR 中的一项重要权利,它要求组织不应无限期保留个人数据,特别是旧数据。这对需要大量历史数据训练机器学习模型的企业构成了挑战。
美国各州也陆续推出类似法规,例如加利福尼亚州的《消费者隐私法案》(CCPA)。这些法规使得数据科学在劳动力领域的应用变得更加复杂。

总结

本节课中我们一起学习了数据科学与人工智能在职场中引发的关键伦理与隐私问题。我们探讨了算法决策如何与人类判断产生冲突,可能侵蚀管理关系,并面临公平性质疑。同时,我们深入分析了大规模数据收集引发的隐私担忧,以及GDPR等法律法规带来的合规挑战。理解这些问题对于负责任地开发和应用数据科学至关重要。
课程 P83:数据局限性 🎯

在本节课中,我们将要学习人工智能与机器学习在管理应用中的真实潜力及其面临的重要技术限制。我们将重点探讨模型预测准确性的实际边界,理解数据不准确性和未测量因素如何影响模型性能,并思考这些算法在实际管理场景中能做什么、不能做什么。
预测准确性的现实边界 📊
上一节我们介绍了AI在管理中的潜力,本节中我们来看看对模型预测准确性的合理期望。当人们谈论机器学习时,常会留下一种印象:只要使用正确的模型,就能近乎完美地预测人类行为。然而,这种印象并不完全正确。

这种印象主要源于两个方面:
- 对数据表现方式的最终颇具误导性的描述。
- 人工智能在其他领域(如图像识别)的成功,可能并不直接等同于其在预测人类行为方面的成功。
具有误导性的准确性指标 ⚠️
当我们描述算法准确性时,有多种方式,其中一些方式可能极具误导性。
以下是一个常见的误导性案例:
你常会听说某个员工流失预测模型的准确率达到了90%或95%。这听起来非常了不起,仿佛拥有了预知能力。但实际情况可能并非如此。

现在,我将展示一个预测模型,它能以至少95%的准确率预测你的组织中谁将在下个月离职。对于大多数组织,这项服务目前免费提供。
以下是你可以使用的预测模型:
- 创建一个Excel表格。
- 在第一列列出所有员工姓名。
- 在第二列,对每个员工的下个月离职预测进行估计。
- 在每个预测单元格中填入数字“0”,即预测所有员工都不会离职。
只要你的组织下个月的员工流失率低于5%(这对大多数组织是常见情况),这个模型的预测准确率就会至少达到95%。因为我们正确预测了所有“未离职”的员工(占大多数)。
这个模型有用吗?没有。它只是简单地将平均流失率应用到每个人身上,并没有识别出“会离职”和“不会离职”的员工之间的差异。
我们真正需要的是一个能够解释个体差异的模型。我们能否建立一个模型,能解释95%的个体差异(即准确区分离职者与留任者)?坦白说,不能。
如果我们能解释30%的个体差异,表现就已经相当不错。招聘预测也是如此,大多数证据表明,招聘测试能解释的未来工作表现差异通常在30%到50%之间,更复杂的算法也难有大幅提升。
因此,我们需要理解,算法在解释“谁会离职”或“谁会表现良好”方面的能力是有限的。我们无法达到95%的个体差异解释率。
限制准确性的核心因素 🔍
那么,为什么这些预测系统无法达到更高的准确性?主要有两个核心限制因素。
1. 数据不准确性问题

首先,数据本身可能不准确。我们记录的数据可能存在错误。
例如,在员工数据中:
- 员工的薪资数据可能记录错误。
- 员工的入职日期可能录入不准确。
- 用于衡量表现的绩效评分可能带有偏见或不一致。
- 甚至员工的年龄也可能记录错误。
如果基础数据存在错误,那么无论算法多么精妙,基于这些数据做出的预测也必然存在问题。这可以用一个简单的公式表示:
有问题的输入数据 → 有问题的模型输出
2. 未测量因素问题
其次,也是更关键的一点,是我们根本没有测量许多重要的影响因素。
以员工流失为例,我们通常记录薪资、职级、任期等数据。但许多真正驱动离职决策的因素并未被记录:
- 员工的配偶是否找到了新工作,需要搬家。
- 员工是否与上司关系不和。
- 员工是否收到了更有吸引力的外部工作机会。
- 员工的通勤时间是否变得难以忍受。
这些因素通常不会被系统性地记录在HR数据库中。然而,它们往往是决定员工去留的关键。我们的模型无法使用从未被测量过的数据。
这种情况可以概括为:
模型预测能力 ≤ 已测量数据的预测能力
如果关键影响因素未被测量,那么模型的预测天花板从一开始就被限制了。
总结与启示 💡

本节课中,我们一起学习了人工智能在管理预测中的应用与局限。

我们认识到:
- 对模型准确性的期望应保持现实,个体差异的解释率能达到30%-50%已属良好。
- 数据质量是根本,不准确的输入会导致有问题的输出。
- 未测量因素是主要瓶颈,模型无法预测未被记录的关键驱动因素。
因此,在应用AI模型辅助管理决策时,我们必须理解其能力边界。这些工具是强大的辅助,能帮助我们发现模式、评估风险,但它们并非能完美预测人类复杂行为的“水晶球”。有效的管理依然需要结合数据洞察与人类判断。

课程 P84:21_为何我们的系统不够准确 🎯
在本节课中,我们将探讨机器学习系统在预测复杂问题(如员工流失)时,为何难以达到像语音识别那样的高准确率。我们将通过对比不同任务的性质,分析数据完备性与预测准确性之间的关系。
上一节我们介绍了机器学习在语音识别等任务上的卓越表现,本节中我们来看看它在预测员工流失这类问题上为何面临挑战。
语音识别之所以能达到99%以上的准确率,是因为它处理的是一个封闭系统。当我说出一个词(例如“海龟”),计算机进行分类所需的所有信息——音频数据和语言上下文——在那一刻是完备的。
# 语音识别任务可以简化为一个分类问题
输入:音频信号波形数据
输出:对应的文字类别(如“海龟”)
然而,预测员工是否会离职则是一个开放系统问题。要做出完全准确的预测,理论上我们需要掌握所有可能影响员工决策的内外部因素。
以下是影响员工流失的部分关键数据维度列表:
- 人口统计信息:年龄、性别等。
- 职业信息:在职时长、岗位、绩效评估。
- 申请与社交数据:申请的职位、社交媒体动态。
但是,即便我们收集了以上所有数据,这仍然不足以做出完美预测。因为还有许多我们无法测量或永远无法得知的关键因素在起作用。
以下是模型无法涵盖的部分关键变量列表:
- 未来突发事件:下个月是否会与经理争执?是否会收到更好的外部工作机会?
- 个人计划与变故:是否有未告知的深造计划?是否会因健康或家庭原因离职?
- 个性与偶然因素:个人是否喜新厌旧、厌恶风险?是否有隐秘的人际关系(如暗恋同事)影响去留?

人类行为极其复杂,受到无数个性层面和外部环境互动的影响。我们不仅需要理解个体,还需要理解个体与组织内其他人、以及外部所有机会的复杂互动网络。
流失风险 = f(已知因素) + g(未知个性因素) + h(不可测外部事件) + ε

这种信息的不完备性和系统的开放性,使得在员工流失或招聘表现预测等复杂问题上,机器学习模型很难达到接近百分之百的准确率。

本节课中我们一起学习了机器学习在不同任务上准确性差异的原因。核心在于,语音识别等任务拥有分类所需的完备信息,而员工流失预测则是一个受无数未知和不可测变量影响的开放系统问题,这从根本上限制了预测模型能达到的最高准确度。理解这种局限性,对于合理设定预期和正确应用机器学习至关重要。
课程P85:机器学习中的测量问题 📏
在本节课中,我们将要学习将机器学习应用于人类行为研究时,一个核心且普遍存在的挑战:测量问题。我们将探讨为什么我们难以获得理想的数据指标,以及即使获得了数据,这些指标为何常常不准确。理解这些局限性对于正确解读模型结果和保持谦逊的态度至关重要。

核心挑战:指标的缺失与不准确性
上一节我们介绍了课程的主题。本节中,我们来看看测量问题具体包含哪两个核心挑战。
在将机器学习应用于人类行为时,一个真正的核心问题是我们从来没有所有我们想要的指标。
但即便如此,我们还有第二个问题。这就是我们所拥有的指标往往可能是不准确的。
理解人类行为与心理状态的困难
当我们试图理解人们的表现、他们将如何行为、他们会做什么、他们在想什么、他们的态度时,他们的心理状态非常重要。我在评估参与感时谈了很多这个。
我试图强调的事情之一是,有很多有用的事情我们可以做,来真正开始理解他们的参与感。但所有这些方法都有缺陷。
以下是我们在测量时面临的一些具体问题:
- 回答的策略性:人们真的想告诉我们他们的感受吗?因此,人们可能非常有策略性。
- 调查的误解:如果你考虑调查,当我们调查人们时,他们可能会误解问题。
- 文本分析的偏差:如果你谈论分析文本,人们可能会回答稍微不同的问题。这可能会影响他们所描述的情感。
态度测量的不稳定性问题
当我们试图研究人们的态度时还有其他问题。我们真正想知道的是相对稳定的态度,例如当他们在普通日子里进来时,他们对工作的感受如何。
但每当我们衡量它时,我们都是在某一时刻进行测量。这可能无法反映他们明天的感受。
每当你做调查时也会有问题,有些人会以不同的方式填写。以下是两种常见的回答模式:
- 极端化回答:有些人喜欢填写极端值。一切都是一(这是糟糕的)或七(这是伟大的)。
- 中庸化回答:会有更多的人衡量一切都是三或四。

对机器学习模型的影响与启示
我们想要衡量的一些核心内容,我们总是用有误差的方式测量它。我们在调查中遇到这些问题,我们在情感分析上遇到了这些问题。不管怎样,我们试图了解这些态度。
所以如果我们在数据中只对人们的想法有一个非常粗略的估计,这也将使我们更难做出准确的预测。
因此使用这些模型,我们必须适度谦虚。它们可以非常有用。但我们总是必须记住两个关键事实:
- 模型基于不完整的数据:
模型 = f(不完整数据)。有很多关于人们的事情我们希望能够衡量,但我们就是无法做到。 - 模型基于不准确的数据:
模型 = f(不准确数据)。因此我们所有的衡量方式都比没有要好。但我们必须记住,它们总是嘈杂的指标。

我们从来无法真正清楚地掌握人们在想什么,他们在做什么。

总结
本节课中我们一起学习了机器学习应用于人类行为研究时的测量问题。我们认识到,由于指标的缺失和现有指标的不准确性,我们获得的数据往往是不完整和有噪声的。这源于人类回答的策略性、调查的局限性、态度的不稳定性等多种因素。因此,我们必须对基于此类数据构建的模型保持谦逊,理解其预测的局限性,并始终意识到我们无法完全清晰地掌握人类的复杂内心与行为。
课程 P86:为什么在人力资源中使用分析? 🤔

在本节课中,我们将探讨一个核心问题:既然人工智能模型在预测人力资源结果(如员工离职或绩效)时并不完美,我们为什么还要投入时间和资源去使用它们?我们将通过一个生动的比喻来理解其背后的逻辑。
你可能会觉得这部分内容有些消极。确实,我要说明的是,我们通常只能期待这些模型提供有限的准确性。

如果我们能解释30%到50%的离职率或绩效变化,就已经做得很好了。现在的问题是,我们是否在浪费时间,去思考如何应用人工智能于人力资源问题?答案是否定的。
从《点球成金》中获得的启示 🎬
上一节我们提到了模型的局限性,本节中我们来看看一个经典的例子,它改变了很多人对数据分析的看法。
我最喜欢的例子来自《点球成金》。这本书或电影是许多人人力资源分析工作的基础文本。它讲述了奥克兰运动家棒球队的故事,他们通过应用数据分析,而非传统的侦察技巧,来识别和雇佣合适的队员。
电影中有一个精彩时刻,主角(布拉德·皮特饰)说:“各位绅士,我们现在就像是在二十一点牌桌上的算牌者,我们要把赌场的赔率翻转过来。”这个比喻的核心观点非常重要。
算牌的比喻:理解“倾斜赔率” ♠️♥️♣️♦️
为了理解为什么“不完美”的模型仍有价值,让我们深入探讨算牌这个比喻。以下是算牌的基本原理:
算牌是一种在玩二十一点时获取优势的方法。玩家无法预知具体会得到什么牌,但通过追踪已发出的牌,可以估算牌堆中剩余牌的概率分布。
核心公式可以简化为:
优势 ≈ 对剩余牌堆组成的更准确估计
当牌堆中有利于玩家的牌(如10、J、Q、K、A)比例较高时,玩家获胜的概率就会增加。算牌者据此调整下注策略:在优势时下大注,在劣势时下小注或不下注。
关键在于,算牌者不需要每次都赢。他们只需要确保在长时间内,赢的次数比输的次数多,从而将整体的数学期望(赔率)向自己倾斜。
应用于人力资源决策 🧑💼
这个逻辑同样适用于人力资源中的人工智能决策。我们不需要模型完美无缺。
当我们使用模型辅助招聘或评估绩效时,会发生以下情况:
- 一些被预测为高绩效的员工可能实际表现不佳。
- 一些被模型拒绝的候选人可能原本会是优秀的员工。
我们需要问自己的核心问题不是:“AI模型完美吗?” 而是:“它是否比我们现有的其他方法(如纯人力判断)更好?”
我们知道,仅凭人类直觉做决策是存在缺陷的。

在许多应用中,我们构建的模型其预测能力优于不干预时的结果。虽然一些基于模型的决策会被证明是错误的,但错误决策的比例会比完全依赖人力判断时更低。

核心思想是:
目标 = 使做出正确决策的几率产生倾斜
如果我们能通过模型将做出正确雇佣、留任或晋升决策的几率哪怕只提高几个百分点,长期来看,组织将变得更加成功。这就是为什么投资构建并应用这些模型通常是值得的。
本节课总结:我们一起学习了为什么在人力资源中应用不完美的人工智能模型仍然具有价值。关键在于理解“倾斜赔率”的概念——我们不需要完美的预测,只需要比现有方法更好的预测。就像算牌一样,目标是在长期决策中提高整体成功率,从而为组织带来竞争优势。




课程 P87:人工智能中的偏见问题 🔍

在本节课中,我们将探讨在人力资源等系统中应用人工智能时,一个至关重要且广受关注的问题:偏见。我们将了解偏见是如何产生的,以及它可能带来的挑战。
偏见问题的根源
上一节我们提到了人工智能应用带来的挑战,本节中我们来看看其中最大的问题之一:偏见。机器学习算法的核心是学习从输入数据到输出结果的映射。这意味着,如果训练数据本身包含了人类的历史偏见,算法就会学习并模仿这些偏见。
核心概念可以表示为:
算法输出 = f(训练数据)
如果训练数据存在偏见,那么 f 函数(即算法模型)的输出也会带有偏见。



历史偏见:数据的“记忆”
机器学习算法通过分析历史数据中的模式来工作。如果这些历史数据反映了过去存在偏见的人类决策(例如在招聘或晋升中),那么算法就会将这些偏见作为“正确模式”来学习。
例如,在构建一个用于推荐晋升的模型时:

模型会学习过去“成功晋升”员工的案例。如果历史上的晋升决策本身就对某些群体(如特定性别或种族)存在不公平,那么模型就会学会歧视这些群体。因此,当前机器学习领域的一个重要焦点就是识别并消除这种由数据带来的历史偏见。
数据充分性偏见:数据量的不平等
偏见并非只源于数据内容,数据数量的差异也会导致偏见,这被称为“数据充分性偏见”。
考虑一个使用视频或音频面试数据来预测候选人适配性的系统。这类系统通常在数据越多时表现越好。然而,我们拥有的数据集往往对某些群体(如特定性别或种族)的数据量远多于其他群体。

以下是数据充分性偏见的影响:
- 如果某个群体在数据集中的代表性不足,模型在该群体上的预测准确性就会更差。
- 这会导致对该群体不利的结果,形成另一种形式的不公平。


算法优化导致的意外偏见
偏见甚至可能在人们毫无恶意的情况下意外产生。一个著名的例子是STEM(科学、技术、工程、数学)领域的职位广告。

雇主可能使用Facebook或Google等广告引擎来推送招聘信息,希望让更多潜在候选人看到。这些引擎的算法旨在优化信息投放,以最大化点击或转化。

然而,算法的优化过程可能导致招聘广告被不成比例地展示给男性,而非女性。这不是因为雇主或平台公司有意歧视,而是因为算法根据历史互动数据学习到“男性更可能点击STEM广告”的模式,从而进行了倾斜投放。
这说明了偏见问题的普遍性和复杂性:即使没有主观恶意,算法的运作方式也可能在劳动力市场等场景中,对某些群体产生系统性不利影响。

总结
本节课我们一起学习了人工智能中偏见的来源。我们了解到,偏见主要可以通过三种方式进入系统:
- 历史偏见:算法从带有偏见的历史数据中学习了不公平的模式。
- 数据充分性偏见:由于不同群体在训练数据中的数量不均衡,导致模型对某些群体的预测性能更差。
- 算法优化偏见:即使数据本身无问题,算法在优化过程中也可能无意间放大或产生对某些群体的不公平结果。

理解这些偏见的根源是解决它们的第一步。在接下来的课程中,我们将探讨如何管理和缓解这些偏见问题。
课程 P88:偏见为何难以管理? 🎯
在本节课中,我们将探讨算法系统中偏见的成因,并深入分析为何有效管理这些偏见极具挑战性。我们将通过一个著名的现实案例,揭示偏见问题背后复杂的价值判断与组织决策。

理解算法偏见为何产生相对容易。然而,管理这些系统中出现的偏见却相当困难。

管理偏见的复杂性 🤔
上一节我们提到了偏见的普遍性,本节中我们来看看管理它为何如此棘手。原因在于,当考虑如何处理偏见时,通常涉及价值判断,并且需要一个整体视角。
目前尚不清楚这纯粹是一个技术问题还是数据问题。当你思考如何在组织背景下解决这个问题时,这确实需要对组织有一个整体的视角和深入的思考,需要深入思考组织的优先事项。
当然,这可以跨越多个不同的决策者,而不仅仅是单个开发者或数据科学家。这就是为什么处理这个问题变得复杂的原因。
案例分析:ProPublica 与 Northpointe ⚖️
为了更具体地理解上述复杂性,我们来看一个相当高调的例子——ProPublica 和 Northpointe 的案例。
这是一个例子,Northpointe 开发了一个算法,被用于做出保释决定。该算法在这个案例中被用来预测某人是否可能再次犯罪。
ProPublica 是一个新闻组织。他们审查了这个算法并声称,黑人被不公平地拘留。Northpointe 则表示,在那些实际上犯罪的人中,他们被拘留的比率是相等的。
事实证明,如果你看这两个不同的陈述——“黑人被不公平地拘留”和“在犯罪者中,他们被同等拘留”——他们在陈述中都是正确的,但他们基本上在说关于价值的不同事情。


核心矛盾:价值权衡 ⚖️➡️🤔
他们所问的本质上是一个价值选择:是“让有罪的人自由”更糟糕,还是“不公平地惩罚无辜”更糟糕?这当然是一个非常古老的问题。
这被称为 黑石比率(Blackstone‘s ratio),历史悠久。其核心思想可以用一个简单的价值判断公式来描述:
“宁可错放十个有罪之人,也不冤枉一个无辜者” vs “为保护多数人,可接受对少数人的误判”


这是一个深刻的哲学问题。如果我们问一百个人他们对此的看法,我们会得到多种不同的答案。然而,它说明这并不是一个单纯的数据科学家问题或算法问题。
这实际上是一个更深层次的问题,需要在社会价值观或商业价值方面进行优先排序。
组织情境下的权衡 🏢
在人力资源的例子中,我们可能在思考机器学习算法如何评估候选人或评估组织内的人员。
以下是算法决策可能带来的多重影响:
- 对生产力的影响
- 对偏见和不平等的影响
但这需要在不同目标之间权衡成本和收益。这些不同事物具有非常深刻的组织影响,并需要进行多项权衡。这需要对组织优先事项有一个整体的视角。


总结 📝
本节课中,我们一起学习了算法偏见的复杂性。我们了解到,偏见管理之所以困难,关键在于它超越了纯粹的技术范畴,涉及深刻的价值判断和组织层面的优先权权衡。通过 ProPublica 与 Northpointe 的案例,我们看到了“公平”的不同定义如何导致对同一结果的不同解读,这凸显了在设计和部署算法系统时,进行跨领域、多利益相关方讨论与整体性思考的必要性。
课程 P89:偏见管理的挑战 🎯

在本节课中,我们将要学习为什么在机器学习系统中修复偏见是一项复杂且充满挑战的任务。我们将探讨其中的核心原因,包括需要做出的权衡、数据获取的困难以及组织内部的职责归属问题。
概述:偏见修复的复杂性
我们讨论了偏见管理的挑战性。修复这一问题可能相当复杂,原因多种多样。即使我们知道想要修复机器学习系统中的偏见,修复这种偏见相关问题可能很复杂。

上一节我们介绍了偏见修复的总体复杂性,本节中我们来看看导致这种复杂性的具体原因。
权衡的必然性
第一是存在权衡。当我们考虑解决偏见时,往往会付出其他成本。这会影响我们关心的其他绩效指标,如准确性。
以下是几个具体的权衡场景:
- 在贷款等各种上下文中,比如给人们贷款,或者医疗保健。
- 满足某些群体对公平性的认知,通常可能需要为其他群体牺牲一些利益。
我们在许多机器学习的不同应用中看到了这一点。许多人研究过这类权衡。理想情况是尽可能地最小化这种权衡,以实现构建既公平又准确的系统的双重目标。这通常是个难事,是人们在考虑如何消除系统中的偏见时,经常遇到的一种工程权衡。
数据获取的困难
另一个出现的问题是获取更好的训练数据很困难。我们之前谈到偏见往往会出现在系统中,因为训练数据本身就有偏见。
以下是数据层面常见的挑战:
- 有时候获得更好的训练数据并不是那么容易。
- 我们谈到了数据充分性偏差,意味着你实际上没有足够的数据。
- 有时候某些人口统计群体的训练数据不足。
- 解决这一问题有时并不容易。如果你在谈论某些特定类型的数据,以更好或更具代表性的方式填充数据库并不是那么容易。
组织内部的职责归属
你可能服务的不同群体之间,某些组织中会出现实际问题。这就涉及到谁应该处理偏见问题。我们之前谈到了这一点,需要对组织有一个整体的看法。

以下是关于职责归属的思考:
- 需要做出决策,基本上要考虑多个组织优先事项。
- 因此我们考虑这些决定时会涉及深刻的、哲学性的权衡,道德权衡,基于价值的权衡。
- 甚至不清楚在组织中谁应该负责做出这些决定。而这本身可能在思考偏见时成为瓶颈或障碍。
- 这对开发人员来说是个需要处理的问题吗?这对高级管理层来说是个需要处理的问题吗?其实应该由谁来考虑处理与偏见相关的问题?
我们看到了针对这一类型问题的多个回应。一些新职位,如首席数据官和人工智能委员会,这些基本上是被明确委托的职位群体,负责考虑数据的任务、它在组织中的角色以及带来的问题。但关于谁应该处理偏见的更大问题往往难以回答,这通常成为思考我们应该从哪里以及如何开始处理的主要障碍。
总结

本节课中我们一起学习了修复机器学习系统偏见的三大核心挑战:公平与准确性的权衡、高质量训练数据获取的困难以及组织内部职责归属的模糊性。理解这些挑战是有效管理和缓解偏见的第一步。

课程P9:机器学习概述 🧠

在本节课中,我们将学习机器学习的基本概念及其主要类型。机器学习是人工智能的核心分支,它使计算机能够从数据中学习并做出预测或决策,而无需进行明确的编程。


什么是机器学习?

机器学习是人工智能的一个子领域。它主要关注如何让计算机从数据中学习,而不需要明确编程。机器学习技术通常用于预测任务。

例如,我们可能有关于过去信用卡交易的数据,并希望预测一笔新交易是否是欺诈性的。或者,我们可能希望基于过去的数据判断一封电子邮件是否是垃圾邮件。在自动驾驶领域,机器学习可用于分析图像,判断汽车前方的物体是另一辆车、一个人还是一棵树。语音识别系统,如Alexa或Siri,也依赖于机器学习技术。
简而言之,机器学习在众多预测任务中都有应用,其技术已广泛应用于医疗保健、金融、制造业和人力资源等行业。


机器学习的类型
理解机器学习并非单一技术至关重要。实际上,它包含一系列技术,主要可以分为三大类:监督学习、无监督学习和强化学习。


上一节我们介绍了机器学习的基本定义和应用,本节中我们来看看这三种主要类型。
1. 监督学习 👁️
监督学习的概念是基于过去带有明确标签的数据来构建预测模型。这些数据包含明确的输入(特征)和输出(目标)。
公式表示:给定一个训练数据集 {(x₁, y₁), (x₂, y₂), ..., (xₙ, yₙ)},目标是学习一个函数 f: X → Y,使得 f(x) 能够对新的输入 x 预测其输出 y。

例如,在垃圾邮件分类中,输入 x 是电子邮件的文本内容,输出 y 是“垃圾邮件”或“非垃圾邮件”的标签。模型通过学习大量已标记的邮件数据,来学会如何对未来的邮件进行分类。
以下是监督学习的一个实际研究案例:
- 在一项关于社交媒体帖子的研究中,研究人员收集了超过10万条品牌发布的Facebook帖子。
- 目标是自动识别帖子类型(如幽默型、情感型、促销型)。
- 首先,人工标记了5000条帖子作为训练数据集,为每条帖子打上类型标签。
- 然后,监督学习算法学习哪些词汇能够预测帖子类型。
- 训练好的模型随后用于自动分类其余近10万条未标记的帖子,准确率超过90%。
关键点:监督学习的核心在于拥有一个高质量的、带有明确标签的训练数据集。

2. 无监督学习 🔍

与监督学习不同,无监督学习技术接收大量输入数据,但没有明确的输出标签。这些技术的目标是在数据内部自行发现模式或结构。
上一节我们了解了如何利用带标签的数据进行学习,本节中我们来看看当没有标签时,机器如何从数据中学习。
以下是几种常见的无监督学习技术:
- 聚类:将数据点分组,使得同一组内的数据点彼此相似,而不同组的数据点相互不同。算法并未被告知理想的分组方式。
- 异常检测:识别数据集中与其他数据点显著不同的异常值。
- 主题建模(如LDA):用于从文档集合中识别潜在主题。例如,分析大量新闻文章,算法会自动发现如“政治”、“体育”等主题,而无需事先被告知文章类别。
LDA示例:LDA(潜在狄利克雷分配)模型假设每个文档由少数几个主题混合而成,每个主题由一组经常共现的词汇定义。通过分析文档中的用词,模型可以推断出文档所涵盖的主题。

3. 强化学习 🎮
强化学习采用了一种不同的学习范式。算法通过与环境的交互来学习:它采取行动,观察结果(奖励或惩罚),并根据这些反馈来调整未来的策略,以最大化累积奖励。
上一节我们讨论了从静态数据中寻找模式的方法,本节中我们来看看通过与动态环境交互进行学习的强化学习。
强化学习通常不需要一个大型的初始训练数据集。一个著名的例子是AlphaGo和它的进阶版AlphaZero。AlphaZero没有使用任何人类棋谱进行训练,而是通过数百万次的自我对弈来学习围棋的最佳策略。

为了说明强化学习的核心思想——平衡“探索”(尝试新事物)与“利用”(使用已知最佳策略)——我们来看一个“多臂老丨虎丨机”问题的简化案例。
案例:广告优化
假设我们有两个广告文案(A和B),不知道哪个点击率更高。
- 传统A/B测试:随机将广告A和B各展示给一半用户一段时间(如一天),然后选择点击率高的那个。在学习阶段,平均点击率是两者的均值(例如7.5%),并非最优。
- 强化学习(如老丨虎丨机算法):算法开始时均衡地展示两个广告,但同时持续观察点击反馈。当它发现广告B表现更好时,会逐渐增加展示广告B的频率,但仍会以较低概率展示广告A,以持续探索和修正认知。最终,其整体点击率会远高于A/B测试的平均水平,并无限接近最佳广告的点击率(10%)。
核心思想:强化学习算法通过行动 -> 观察 -> 更新策略的循环,在不断试错中优化其长期性能。


总结
在本节课中,我们一起学习了机器学习的基本概念和三种主要类型:
- 监督学习:从带有明确输入和输出标签的数据中学习预测模型。
- 无监督学习:从无标签的数据中自行发现内在模式,如聚类或主题。
- 强化学习:通过与环境交互,根据行动产生的奖励或惩罚来学习最优策略。

每种类型适用于不同的场景和问题,共同构成了丰富多彩的机器学习世界,为解决复杂的现实问题提供了强大的工具。
课程 P90:27_机器学习偏见修复方法 🛠️

在本节课中,我们将学习多种用于识别和修复机器学习系统中偏见的方法。鉴于偏见问题的严重性,行业和组织已经提出了多种应对策略。
概述 📋
机器学习系统中的偏见可能导致不公平的决策结果。为了解决这个问题,我们可以从数据、模型、流程和组织等多个层面入手。接下来,我们将逐一探讨这些具体的方法。
1. 改善训练数据 📊
上一节我们提到了偏见的严重性,本节中我们来看看如何从源头——训练数据入手进行修复。如果训练数据本身存在偏见,那么模型的输出也必然带有偏见。改善训练数据是减轻此类问题的根本方法之一。
具体做法包括:
- 增加数据多样性:更改或操纵数据,使其能反映更广泛、更多样的现实情况。
- 满足性能与公平性指标:在优化模型性能的同时,有意识地纳入对数据多样性的考量。
2. 调整数据权重 ⚖️
除了直接修改数据,我们还可以通过调整数据中不同样本的重要性来影响模型学习。这种方法的核心思想是,让那些更能体现“公平”目标的样本在训练中发挥更大作用。
具体做法是:
- 对观察结果进行加权:为数据中那些能更好反映组织在公平性方面目标的样本分配更高的权重。
- 引导模型学习:通过权重调整,让机器学习算法更侧重于学习我们期望的、无偏的决策模式。其核心思想可以用以下伪代码表示:
# 假设我们有一个函数来计算每个样本的“公平性权重” fairness_weight = calculate_fairness_weight(data_sample) # 在训练损失函数中,使用该权重放大或缩小对应样本的影响 weighted_loss = fairness_weight * standard_loss_function(prediction, label)
3. 增强系统透明度 🔍
一个“黑箱”系统很难被审查和纠偏。因此,提高机器学习流程的透明度是识别和处理偏见的关键。这要求我们在系统构建的每个阶段都提供更多信息。
具体方法包括:
- 打开系统流程:使用工具来可视化整个机器学习管道(Pipeline),展示每个阶段的数据处理和决策过程。
- 识别潜在问题点:通过可视化,更容易发现在数据转换、特征工程或模型训练等环节可能出现的多样性或偏见问题。
4. 采用可解释模型 🧠
与增强流程透明度相辅相成的是采用可解释模型。这类模型本身的设计就旨在让人类理解其决策逻辑。
其核心优势是:
- 提供决策依据:可解释模型能够提供关于“它为何做出某个决策”的大量信息。
- 定位偏见来源:通过分析决策依据,我们可以追溯并定位偏见是在系统的哪个环节产生的。
5. 实施决策后评估 📝
即使在决策做出后,我们仍有办法进行审查和补救。这种方法侧重于对已完成的决策进行回溯分析。
一个著名的实践案例是:
- 使用“营养标签”:谷歌提出了类似食品营养标签的“模型卡片”(Model Cards),为机器学习模型的决策提供标准化的信息表。
- 评估驱动因素:通过回顾性评估,寻找可能驱动某个特定决策的关键因素,从而判断是否存在偏见。
6. 使用多样化性能指标 📈
传统的单一性能指标(如准确率)可能掩盖模型在不同子群体上的表现差异。采用多样化的评估指标能更全面地揭示问题。
这种方法要求我们:
- 在不同数据集上测试:不仅在整体数据上,还要在按性别、种族等划分的不同子数据集上评估模型性能。
- 理解偏见特征:通过对比模型在不同群体上的表现差异(例如,使用差异公平性公式:|性能_群体A - 性能_群体B|),我们可以更好地理解偏见的特征和严重程度。
7. 对开发者进行培训 👨🏫
技术最终是由人构建的。因此,对算法开发者和数据科学家进行培训,提升他们对偏见问题的意识和解决能力,至关重要。
培训内容应涵盖:
- 偏见来源识别:帮助开发者理解偏见在数据收集、算法设计等环节是如何产生的。
- 问题解决方法:提供识别、思考和解决偏见问题的框架与工具。

8. 建立组织治理结构 🏛️
修复偏见不仅仅是一个技术问题,更是一个需要组织层面承诺和协作的治理问题。这引出了一个根本性问题:管理偏见究竟是谁的职责?
一个日益常见的做法是:
- 创建AI伦理委员会:在组织内部成立一个专门的小组。
- 汇集多元视角:委员会成员应来自法律、伦理、产品、工程等不同部门,从多角度审视AI相关问题。
- 制定组织级策略:共同探讨并得出如何在组织层面系统性地思考和处置偏见的结论与政策。

总结 🎯
本节课我们一起学习了修复机器学习偏见的八种主要方法:从改善训练数据和调整数据权重入手,到增强系统透明度、采用可解释模型,再到实施决策后评估和使用多样化性能指标。此外,我们还认识到对开发者的培训和建立组织级的AI治理结构(如伦理委员会)对于系统性地应对偏见问题同样不可或缺。综合运用这些策略,可以更有效地在机器学习系统中识别、缓解和治理偏见。
课程 P91:什么是可解释的AI? 🤖
在本节课中,我们将要学习人工智能领域中的一个重要概念——可解释的AI。我们将探讨它的定义、重要性,并将其与不同类型的机器学习方法进行对比,以便初学者能够清晰地理解这一概念。

概述
在人力资源等领域应用人工智能时,一个可能出现的挑战与解决方案涉及“可解释的AI”。本节课程将解释这一概念,并说明为什么理解AI的决策过程至关重要。
什么是可解释的AI?
可解释的AI指的是一系列方法,这些方法能让人类专家理解算法是如何以及为什么做出特定决策的。
这与某些类型的机器学习形成鲜明对比,后者通常被视为一个“黑箱”。在“黑箱”模型中,系统接收输入数据并直接输出决策,但其内部的推理过程往往难以被人类所理解和追溯。
可解释AI与“黑箱”AI的对比
上一节我们介绍了可解释AI的基本定义,本节中我们来看看它与不同AI方法的对比。
易于解释的系统:基于规则的方法
我们之前讨论过基于规则的系统。在这种系统中,人类的专业知识通过开发者编写的明确规则被编码到算法或软件里。这类系统的决策过程通常相对容易解释。
例如,决策树就是一种基于规则的可视化模型。它的决策逻辑类似于一棵树的分支。
以下是决策过程的简化表示:
如果 条件A 成立:
如果 条件B 成立:
执行 决策X
否则:
执行 决策Y
否则:
执行 决策Z
要理解系统为何做出某个决策,你只需沿着树的节点路径回溯,就能清晰地追踪到决策的依据。因此,这类系统的输出往往相对容易解释。
难以解释的系统:深度学习
相比之下,一旦进入深度学习的世界,情况就复杂得多。深度学习依赖于一种称为神经网络的技术。

虽然深度学习在处理复杂数据和做出高精度预测方面非常有效,但其内部运作机制就像一个多层、高度互联的网络。数据在这些层中经过复杂的非线性变换,最终产生一个预测或推荐。
以下是一个简单的神经网络结构概念图:
输入层 -> [隐藏层1 -> 隐藏层2 -> ... -> 隐藏层N] -> 输出层
然而,如果我们想回过头来理解为什么该系统做出了某个特定的推荐,这可能是一个相当大的障碍。要厘清是输入数据中的哪些特征、以何种方式、通过网络的哪条路径最终影响了输出,通常非常困难。
为什么可解释性很重要?

我们已经了解了可解释AI与“黑箱”AI的区别。那么,理解AI的决策过程为什么在许多场景下都至关重要呢?
在医疗、金融、司法以及我们讨论的人力资源等领域,AI的决策可能会对个人的生活产生重大影响。如果无法解释决策的原因,就会引发关于公平性、责任归属和信任的问题。例如,如果一个人工智能系统拒绝了某人的贷款申请或工作面试机会,当事人和监管机构都有权知道这个决定是基于什么理由做出的。
因此,推动AI的可解释性,不仅是技术挑战,也是伦理和合规性的要求。在下一个视频中,我们将更深入地讨论可解释性在各种上下文中的具体重要性。
总结
本节课中,我们一起学习了可解释的AI这一核心概念。

我们明确了它的定义:旨在让人类理解AI决策过程的方法。我们对比了基于规则的系统(如决策树)的易解释性,以及深度学习模型因其复杂的“黑箱”特性而带来的解释挑战。最后,我们简要提及了可解释性在确保AI系统公平、可靠和可信方面的重要作用。
理解这些基础知识,是负责任地开发和应用人工智能的第一步。
课程 P92:可解释性AI的重要性与示例 🧠
在本节课中,我们将探讨“可解释性”或“解释性”在人工智能与机器学习中的重要性。我们将通过具体示例,理解为何在某些关键领域,模型的决策过程必须是透明且可理解的。

概述
可解释性,有时也被称为解释性,指的是我们理解一个模型如何以及为何做出特定决策的能力。在许多应用场景中,仅仅获得一个高精度的预测结果是不够的;理解其背后的逻辑同样至关重要。

可解释性为何重要?🤔
上一节我们介绍了可解释性的基本概念。本节中,我们来看看它在不同场景下为何如此重要。
在某些仅需做出预测的背景下,可解释性可能不那么关键。然而,在许多商业和现实环境中,理解算法为何做出某个决策变得极其重要。

关键应用领域示例
以下是可解释性至关重要的几个具体领域。
1. 医疗健康领域 🏥
考虑一个医疗场景:一个深度学习系统被用于评估患者是否应该接受某种治疗。当一位高度专业化的医生与系统的评估意见不一致时,问题就出现了。
如果系统只是给出一个不同的结果,这通常容易解决。但医生需要知道系统是如何得出该结论的,以及依据是什么。这种对决策过程的理解必须被纳入整个医疗决策流程中。因此,医疗领域是可解释性非常重要的一个例子。
2. 人力资源领域 👥
在人力资源领域,可解释性尤为重要。该领域受到许多指导方针和法律条文的严格约束,要求人力资源部门必须能够清晰、明确地记录其决策过程。
例如,美国的平等就业机会委员会(EEOC)对雇佣员工的类型有相关规定。这些规定要求企业必须能够记录其做出的各种人事决策。你不能简单地将数据输入一个深度学习系统,然后直接采用它做出的“黑箱”决策。
如果你的预测模型在这样的环境中无法提供解释,那么它将难以持续使用。你需要有非常清晰的文档来说明决策是如何得出的,以确保遵循与就业保护法相关的所有指导方针。这些法律有着悠久的历史基础,使得使用不可解释的系统变得非常困难。
如果你无法退后一步,询问“为什么会做出这个决定?”或者无法调整系统以满足合规要求,就会产生问题。满足这些指导方针的要求使得可解释性成为人力资源技术应用中的关键考量。
3. 数据隐私法规 📜
另一个在人力资源等领域产生重大影响的领域是新兴的数据隐私法律。
考虑欧盟的《通用数据保护条例》(GDPR)和美国加州的《加州消费者隐私法案》(CCPA)。这些法律对雇主如何使用潜在申请者提供的数据施加了限制。
当法律提到在自动化决策过程中,你需要能够解释决策是如何做出的,并能提供做出最终决定时所使用的逻辑。在缺乏可解释系统的情况下,遵守这些标准变得极其困难。

因此,可解释性是考虑采用人力资源技术时的一个核心问题。
行业努力与发展趋势 🚀

幸运的是,大量的资源正被投入到解决可解释性问题上。
许多公司,尤其是大型科技公司,正越来越重视这个问题。众多新工具正在涌现,旨在提供更具可解释性的人工智能支持。
同时,各国政府及其机构也在投入资源,以在各个产业中建立更多可解释的人工智能系统。


总结
本节课中,我们一起学习了可解释性AI的重要性。我们了解到,在医疗诊断、人力资源管理和遵守数据隐私法规等关键领域,模型的决策必须透明、可追溯且易于理解。这不仅关乎信任与合规,也影响着技术的可靠与广泛应用。
在下一个视频中,我们将讨论在使系统更加可解释的过程中,所面临的一些挑战和需要做出的权衡。

[BLANK_AUDIO]


📊 课程 P93:解释性与性能之间的权衡
在本节课中,我们将探讨机器学习中一个核心的权衡问题:模型的可解释性与预测性能之间的关系。理解这一权衡对于在不同应用场景中选择合适的模型至关重要。
我们已经讨论过可解释性对多种类型的重要性。在商业背景中,我们希望能够理解算法得出某个决策的原因。那么,为什么我们不总是让算法可解释呢?结果证明存在权衡。通常在可解释性和性能之间存在权衡。所以,就像公平或偏见一样,有时当你想让一个算法更可解释,会以性能为代价。实际上存在这种情况。
你几乎可以把这些视为一个光谱,具有不同的机器学习模型。越可解释的模型,预测能力越低。有些预测性较低的模型,有时反而是最容易解释的。那些非常高、非常预测性的深度学习模型,神经网络模型,通常很难解释。当然,我们希望找到实现两者的方法。我们希望找到一种方法,在可解释性和预测之间找到最佳平衡。但这当然是很难做到的。
因此在实践中,精确的预测模型通常需要平衡模型的可辩护能力。组织通常试图在拥有一个高预测性和高度可解释的模型之间找到平衡。预测模型,但也能够回过头去为其辩护,比如说贷款处理或类似的事情。或者重要的是能够回头去解释,比如说客户或其他利益相关者需要解释为什么做出这个决定。

不过,这确实提出了一个困难的问题,因为这两者都涉及很多上下文。可解释性非常重要,准确性也是如此。再次回到医疗背景。很难简单地说这两者都很重要。你希望能够向医疗保健中所有不同的利益相关者解释决策,以及患者。但是,当然也是这样。当你希望得到非常准确的预测时,你正在处理影响人们健康的事情。所以很难说。这不是一个简单的问题,关于如何使这些模型可解释。
这取决于组织背景或商业背景的权衡。一些应用程序,如果你在考虑预测用户点击或买卖金融资产,如果你能够回头去解释决策,那就没那么重要。你对人的影响并不一样,因此你是否能够解释就没那么重要。能够回过头去解释算法为何做出预测决策。在这种情况下,你可能希望使用高度预测性的模型。它不需要可解释。对于员工晋升这样的事情,准确预测确实很重要。你希望能够回过头来理解算法为何做出这样的决策。
因此,对于这种类型的应用,组织可能会努力在可解释性和其他因素之间取得平衡。模型和一个能够做出良好预测决策的模型。

🧠 总结

本节课中我们一起学习了机器学习中解释性与性能之间的权衡关系。我们了解到,模型的可解释性与其预测性能往往成反比,简单的模型易于解释但预测能力可能有限,而复杂的模型(如深度学习)预测能力强却难以解释。在实际应用中,需要根据具体场景(如医疗、金融、人力资源)来权衡并选择合适的模型,以在满足业务需求的同时,兼顾决策的透明度和可辩护性。
课程P94:可解释AI方法简介 🧠

在本节课中,我们将学习可解释人工智能的一些核心方法。可解释AI在商业场景中至关重要,尤其是在人力资源等领域。许多公司和政府都在投入资源开发更易于理解的AI方法。接下来,我们将介绍几种主流方法,帮助你了解人们如何思考并解决模型的可解释性问题。
SHAP:特征贡献度分析
上一节我们提到了可解释AI的重要性,本节中我们来看看第一种方法——SHAP。SHAP方法的核心是分析输入模型的各个特征对最终预测结果的贡献度。
该方法会观察用于预测模型的不同信息片段(即特征),并量化每个特征对最终预测结果的影响。例如,公司在对员工或申请者做决策时,模型可以告诉你每一条信息(如工作经验、学历)对最终决策的影响有多大。
核心公式/概念:SHAP值基于博弈论中的Shapley值,用于公平地分配“预测结果”这个“合作收益”给每个“参与者”(特征)。其核心思想可表示为分析每个特征在所有可能的特征组合中的边际贡献。
LIME:局部可解释模型
了解了全局特征贡献的分析方法后,我们来看看另一种思路——局部解释。LIME方法主要用于解释复杂、难以理解的“黑箱”模型在单个预测点上的行为。
LIME的基本思想是,对于一个复杂的全局模型,虽然整体上难以解释,但可以在某个特定预测点(例如某个员工)附近,构建一个简单的、局部准确的解释模型。它通过比较与目标个体相似但略有不同的“邻居”样本来生成解释。
核心概念:LIME会生成一个更简单的、局部忠实的模型(如线性模型),来解释为什么某个样本(如员工X)会得到特定的预测结果。它可能会说:“因为员工X在A特征上与相似的员工Y不同,所以导致了不同的决策。”
替代模型与决策树
除了分析现有模型,另一种思路是直接使用本质上就可解释的模型来“模拟”复杂模型的行为,这就是替代模型方法。

我们之前提到过一些模型类型,如决策树,它们本身结构清晰,易于理解。替代模型方法就是训练一个行为与复杂模型相似的简单模型(如决策树)。这个简单模型在大多数情况下能模仿复杂模型的预测,同时自身又具备良好的可解释性。
核心优势:这种方法可以同时获得复杂模型的预测性能和简单模型的解释能力,达到一种平衡。
新兴技术:自动编码器
随着技术发展,一些新兴方法也被用于提升可解释性,例如自动编码器。

自动编码器是一种神经网络,它能将高维、复杂的数据压缩(编码)为低维、核心的特征表示,然后再重建(解码)回原始数据。在可解释性方面,通过分析编码后的低维特征,我们可以更容易地理解模型在进行预测时到底关注了数据的哪些本质信息。
核心作用:它简化了数据表示,使模型的前向预测过程所使用的关键特征更易于被人理解和解释。
行业实践与总结

以上介绍了几种不同的可解释AI方法。为了在模型的高预测性能与必要的可解释性之间达到理想平衡,行业正在积极开发更好的技术和工具。

例如,IBM、微软等公司都投入了大量资源,致力于开发解决方案和平台,帮助企业以更可解释的方式使用人工智能。
本节课总结:我们一起学习了四种主要的可解释AI方法:SHAP(分析特征贡献)、LIME(构建局部解释)、替代模型/决策树(用简单模型模拟复杂模型)以及自动编码器(通过数据简化提升可解释性)。这些方法帮助我们在享受AI强大预测能力的同时,也能理解其决策背后的逻辑。
课程 P95:人力资源中的区块链 🧠

在本节课中,我们将要学习区块链技术如何与机器学习结合,解决人力资源(HR)领域中的数据所有权和隐私问题。我们将探讨区块链的基本概念、其在HR中的潜在应用,以及它如何为基于AI的决策提供可靠的数据基础。
机器学习在HR方面具有巨大潜力。这是因为它们可以综合关于候选人的多个变量,为员工做出良好决定或提出好的建议。它还可以发现我们之前可能不知道的新关系。
我们可以想象多种新应用,传统上有新的数据类型。以前未在HR流程中使用的数据,现在可以整合到基于机器学习的系统中。因此,可能是关于员工选择的非常细致的数据,或者可以整合到这个决策中的行动。
然而,出现的一个问题与数据所有权有关。
所以我们将讨论一个外围问题,它与机器学习不是直接相关的部分。机器学习的有效性与其实施的效果密切相关。这与数据存储有关。
我们将特别讨论区块链。这当然是一项受到广泛关注的技术。在其他背景下,比如比特币,区块链在HR领域也有潜力,以解决一些与数据所有权相关的问题。
因此,AI解决方案当然需要大量数据。同样,也可能出现新的商业模式。当使用非常细致的员工选择数据时,可能出现的新应用,或员工行动来预测他们是否会适合公司的候选人以及他们在公司表现如何。
同样,在公司内部为员工提供使用非常细致数据的应用,或者他们执行的行动或任务,考虑职业发展等。
与此同时,各地的担忧也在增加。关于数据所有权和数据隐私的问题,现在是一个热点问题。这不会很快消失。对谁应该拥有员工数据有很多担忧。谁应该拥有私人数据,以及你对自己数据的控制程度。
所以当我们考虑进入一个机器学习越来越多做决定的世界时,数据越来越丰富,问题出现了:我们该如何存储这些数据,谁拥有这些数据?
这就是区块链作为这一问题潜在解决方案出现的地方。它可以解决,至少,这是这个问题的一部分。

上一节我们介绍了数据所有权带来的挑战,本节中我们来看看区块链如何作为一种解决方案。
区块链是任何两方交换信息的一种方式。在没有第三方的情况下交换信息,拥有数据或持有数据。
所以每当我们谈论与HR过程相关的信息交换或提供时,我们经常谈论让第三方为我们保管信息或记录。但这是一种凭证化或基于技能的证书。如果只是大学,基本上可以保证我们拥有那所大学的学位。我们有一个第三方为我们保存数据。如果这是我们学习的平台,或者在上面学习课程,它可能是一个保存数据的平台。
所以出现了一些问题,围绕数据最佳存储的位置。这有很多原因。其中一个是存在许多监管问题。正在出现的一些问题,例如,全球数据保护条例GDPR相关的问题在欧盟。有市场失灵的潜在可能。我们可能认为有些类型的数据对于人力资源决策非常有用,但那里的商业模式并不存在。所以也许没有公司出现,愿意成为该信息仲裁者的。所以我们不能总是依赖第三方,以确保数据的安全和有效性。这将用于促进人力资源决策。
在机器学习流程中,因此,区块链可以在这里发挥作用,因为它本质上是一种不可篡改的数据存储技术。

我所说的意思是,任何输入区块链的信息交易,一旦确认,就无法更改。这是区块链设计的基础。因此,那些信息可以被视为真相。
所以这意味着使用像区块链这样的技术,它不需要任何中央权威或所有者进行验证。一般来说,当我们有一组数据时,想想银行信息,我们需要一个中央权威或所有者来验证该信息,基本上作为对该信息的信任保证。

区块链是一种旨在解决这一问题的工具或技术。这有潜力成为一个数据存储解决方案,可以将私密数据结合在一起。这对于人力资源决策是有用的,基于人工智能的预测。
在下一个视频中,我们会多谈谈关于区块链本身为何如此变革性的原因。

核心概念总结
以下是本节课的核心要点:

- 机器学习的HR应用:机器学习能综合分析多变量数据,辅助HR决策与员工发展。
- 数据所有权挑战:随着数据应用深化,数据归谁所有、如何保障隐私成为关键问题。
- 区块链的解决方案:区块链是一种去中心化、不可篡改的分布式账本技术。其核心特性可以表示为:
- 去中心化:
交易验证不依赖于单一中央机构 - 不可篡改:
一旦数据上链,极难被修改或删除
- 去中心化:
- 在HR中的潜力:区块链能安全、可信地存储员工技能证书、绩效数据等敏感信息,为AI决策提供可靠数据源,同时保障个人数据主权。

本节课中,我们一起学习了区块链技术如何为解决HR领域的数据所有权和隐私困境提供新思路。我们了解到,区块链的去中心化和不可篡改性使其成为存储敏感人力资源数据的理想选择,能够为未来的机器学习应用奠定可信的数据基础。
课程 P96:区块链为何如此颠覆性?🤔

在本节课中,我们将探讨区块链技术为何被认为具有潜在的革命性。我们将从它试图解决的核心问题出发,分析其与传统数据库的区别,并理解它如何通过算法实现信任,从而可能改变众多行业和机构的运作方式。
区块链试图解决什么问题?🔍
上一节我们提出了区块链的颠覆性问题,本节中我们来看看它究竟想解决什么。我们拥有成熟的数据存储技术,数据库已存在很长时间,并且确实是现代信息化经济中最重要的技术之一。那么,我们为什么需要一个替代方案?

数据库的工作方式存在各种限制。区块链开始解决的关键限制之一,是关于数字位的特性。数据库中的数据可以被写入和重写。当然,当我说“限制”时,这本身也是一个特性,因为数据库就是为此目的而设计的。

数据库的信任依赖问题 🤝
数据库的一个特征或功能是,这些数字位可以被写入,并且可以重写,它们可以被更改。你可以追溯并更改数据库中的信息。你在数据库中看到的任何信息的有效性,都需要交易方之间的信任。这要求你信任数据库的拥有者,它要求你有一个集中式的可信中介来存储这些信息。
例如,金融机构。你知道数据是有效的,原因之一就是机构所服务的目的之一是提供这种信任级别。这意味着我们需要依赖这些机构来持有高度个人化的数据。在某些情况下,这可能是不可接受的。我们可能希望以某种方式存储高度个人化的数据,确保能够验证其真实性。

区块链:用算法实现信任 ⛓️
但这并不一定需要依赖机构来持有这些数据。这是我们在社会上关于数据隐私讨论的中心议题,对个人和经济中的各种利益相关者意义重大。
区块链是一种软件协议,它以算法方式实现信任。它基本上试图解决上述问题。它以算法方式实现信任,因此你不需要一个集中式机构或中介介入并说:“你可以相信这些信息,因为我说你可以信任它。” 你不需要那种级别的机构来扮演那个特定的角色。
区块链可以在算法层面实现那种信任。这意味着个人可以使用区块链来存储个人数据,公司可以利用区块链进行人力资源分析,整个过程不涉及任何中央第三方,而数据仍然可以被信任。我们知道数据可以被信任,因为它在区块链中,这是基于区块链的设计方式决定的。
为何这种改变如此重要?💡
这实际上可能是一个重大的变革。从某种意义上说,我们谈论的只是数据技术或数据存储方式的变化。为什么这如此重要?再次强调,数据库在许多方面是大多数信息型企业的生产车间。数据存储方式的改变对组织可能产生非常大的影响,波及各种经济机构。
例如,作为信任中介的机构拥有巨大的经济价值。想想汽车租赁公司或酒店,很多时候,他们的核心角色之一就是成为一个你可以信任的机构,在考虑租车或寻找住宿时,你可以信任的对象。能够绕过在信任中扮演中心角色的一些机构,可以带来非常大的影响。
以下是过去与这类区块链应用相关的一个例子:
- 政府签发的身份证件:政府基本上表示“这是我们国家的公民,你可以信任我们作为政府所支持的”。这有时会带来许多问题,例如针对失败国家的公民,他们在全球范围内使用身份证明非常困难。拥有一种能够让我们信任彼此提供的数据的技术,而无需依赖基于集中机构的做法,可能产生重大影响。
在人力资源领域的潜在应用 👥
在人力资源方面,存在许多机构,它们至少部分原因是为了让你可以信任他们确实在真实维护数据。
以下是几个例子:

- 大学提供凭证:他们提供学位,并提供学位的验证。
- 学习平台:提供有关技能和证书等信息。
许多这样的机构部分存在是为了让你信任你对潜在公司员工的了解。
像区块链这样的技术,作为集中存储某些数据的地方的出现,对人力资源中的机器学习应用访问数据的方式有影响,而无需遇到我们可能担心的其他问题(如果存在一个集中提供这些数据的经纪人的话)。
这里潜在的最大好处是,我们越来越多地获取细致数据。例如,考虑可能详细记录员工个人生产力的数据,也许是日常任务或某人如何处理代码的一些细致数据。检查开源代码库,非常细致的数据可能会提供关于人们表现的丰富信息。
这种数据是我们可能不愿意交给第三方的,我们可能不信任第三方处理这种数据,但对人力资源来说可能有用。所以区块链是一个潜在的中介,可以用于保存这些数据,仍然用于机器学习应用,以一种仍然保护隐私和数据所有权权益的方式。
总结 📚

本节课中,我们一起学习了区块链技术为何具有颠覆性。我们了解到,区块链的核心在于通过算法(如共识机制) 而非中心化机构来解决数据存储中的信任问题。它使得数据不可篡改且可验证,从而可能重塑金融、身份认证、人力资源等多个依赖中心化信任的领域。这种从“信任机构”到“信任代码”的转变,是区块链带来潜在革命性影响的关键所在。

课程 P97:区块链工作原理详解 🧱
在本节课中,我们将学习区块链技术是如何工作的。我们将从高层次视角出发,了解区块链如何以一种可信的方式存储数据,而无需依赖第三方中介。通过理解其核心机制,你将明白区块链为何能提供独特的价值。

我们一直在用相当抽象的术语讨论区块链,它是一种可以让人们以受信任的方式存储数据,而无需第三方中介的技术。从高层次了解其工作原理,有助于你理解区块链上实际发生的事情以及它如何提供价值。

区块链可以被视为一个账本或电子表格。如果我们希望以这种格式存储的数据是可信的,我们需要能够完全信任这些数据。这依赖于两个基本条件:
- 最初录入数据库的信息是经过验证的。
- 信息一旦录入,就永远不会被更改、更新或删除。
如果我们确信这两点,就可以相信在区块链中看到的信息是正确的。第一点(信息验证)是我们长期以来一直在做的事情,而第二点(数据不可篡改)则是区块链技术所实现的核心目标。区块链确保我们可以相信没有人能回去伪造、更新或删除数据。
上一节我们介绍了区块链作为可信账本的基本概念,本节中我们来看看它的具体结构。

区块链虽然类似于电子表格,但与单一的电子表格不同。它本质上是将信息存储在整个网络的多个节点上。网络中的所有参与节点共同记录信息,这些信息被按顺序记录在区块中,这也是它被称为“区块链”的原因。
每个区块都记录了自上一个区块产生以来,世界上发生的变化或交易。因此,当前世界的状态是通过查看整个区块序列来计算的,而不仅仅是最后一个区块。整个区块序列共同解释了世界的状态。
简单来说,区块链系统利用网络中的许多节点(可以想象成许多电子表格)。信息以区块序列的形式记录,所有这些区块共同表达了世界的完整状态。

理解了区块链的结构后,我们来看看它是如何实现“可信”这一核心价值的。这主要依靠两个关键的设计要点。
以下是区块链实现可信度的两个核心设计机制:
- 交易验证:任何放入区块链的信息(交易)都必须经过加密形式的验证。例如,如果使用区块链记录个人获得的技能,那么我和教育提供商之间的这笔交易,会通过加密技术由双方参与验证,然后由网络确认,最终才被存储到区块链中。这意味着所有交易在首次录入时都经过了验证。
- 防篡改设计:区块链本身被设计得极难伪造或回溯更改数据。与传统数据库不同,在区块链上更改过去的数据在计算上成本极高,甚至在大多数情况下是不可能的。这个设计要点确保了数据一旦被记录,就可以被信任是真实且始终保持真实的。

正因为这两个设计要点,区块链成为一种可以防止任何条目被修改或重写的数据存储技术。如果信息在第一时间经过验证且从未被更改,那么我们就知道它必须是真实的。我们不再需要第三方来担保信息的有效性;系统的设计本身保证了呈现给我们的信息在合理范围内是正确的。

本节课中我们一起学习了区块链的工作原理。我们了解到,区块链通过分布式节点网络和按时间顺序链接的区块来存储数据。其核心价值来源于两个关键机制:交易初次录入时的加密验证和数据一旦记录就极难篡改的设计。正是这些特性使得区块链中的信息本质上是可信的,从而消除了对第三方中介的依赖。这为解决许多需要建立信任的行业问题提供了新的可能性。

课程 P99:人工智能的社会影响 🧠
在本节课中,我们将探讨人工智能对社会,特别是对就业领域的影响。我们将分析关于“AI将取代大量工作”的常见预测,并学习如何理性地评估这些预测。课程将结合历史案例和关键概念,帮助你理解技术变革与就业市场之间的复杂关系。
预测的挑战与评估方法
上一节我们介绍了课程主题,本节中我们来看看如何评估关于未来的预测。预测未来是困难的,但某些领域我们做得相对较好。
例如,在精算学或经济预测中,我们基于“未来与过去相似”的假设建立模型。其核心逻辑可以概括为:
模型预测 = 基于历史数据的函数(当前变量)
然而,当未来与过去截然不同,或者缺乏足够历史数据时(如新技术引入、政治变革),这类模型就会失效。此时,我们依赖专家判断。

我们的同事菲尔·塔特洛克的研究指出,擅长做预测的专家通常具备以下特质:
以下是优秀预测者的关键特质:
- 他们质疑假设,并考虑反对意见。
- 他们会在其他领域寻找类似情况进行类比。
- 他们能够清晰地阐述其判断所基于的假设。
因此,当你看到关于AI影响的预测时,应该审视预测者是否具备这些特质。如果他们的论证缺乏对反对意见的考量,其可靠性就值得怀疑。
为何耸人听闻的预测层出不穷
在评估了预测方法后,我们需要理解一个社会现象:为何那些极端、引人注目的预测总是更受欢迎。
当代社会,注意力是稀缺资源。能够吸引关注,往往就能获得资金和支持。因此,很少有报告会预测“未来一切照旧”或“无需担心”,因为这样的内容无法引起兴趣,即使它可能是正确的。
以下是几个历史上曾流行但未成真的预测案例:
- 劳动力短缺预言(2000年代初):基于对人口数据的误读,许多组织预测将出现严重劳动力短缺,但这并未发生。
- “千禧一代”独特论:尽管研究显示代际差异的证据很弱,但关于千禧一代与众不同的故事因其“趣味性”而长期流传。
- 无人驾驶卡车浪潮(几年前):曾预测将迅速取代卡车司机,但此后进展缓慢,相关讨论也大幅减少。
这些案例提醒我们,对流行但缺乏坚实证据的预测应保持警惕。
历史视角:信息技术对工作的真实影响
了解了预测的陷阱后,让我们退一步,从历史中寻找洞见。我们可以通过审视信息技术(IT)对工作的影响,来类比思考AI。
整体而言,IT的引入并未减少经济中的工作总量。工作数量持续增长。在具体职业层面,变化确实存在,例如打字员岗位的消失。但请注意,导致打字员消失的直接原因并非文字处理软件,而是管理层决定让所有职员自己打字。这是一个关键点:技术本身不决定就业变化,管理决策如何利用技术重组工作才是关键。
此外,IT的许多应用是为了增加新功能,而非取代人力。例如,电商的“推荐购买”功能创造了新的价值,而非消除某个岗位。
即使在机器人领域,情况也类似。机器人通常接管的是某项任务,而非整个工作。员工的工作内容因此被重塑,而非简单地被淘汰。一个经典案例是1980年代通用汽车与丰田的对比:通用投入巨资进行工厂自动化,而丰田采用“精益生产”模式,重用旧设备和美国工人,最终在效率和质量上胜出。这证明人力与组织的适应性常常能胜过单纯的自动化。
最后,经济因素至关重要。即使技术可行,如果劳动力成本相对低廉,企业也可能没有动力进行昂贵的自动化改造。市场需求和成本效益是决定技术普及速度的核心因素。
人工智能真的“这次不一样”吗?
回顾了历史经验,现在让我们直面核心问题:人工智能是否真的与众不同,会带来前所未有的就业冲击?

每当听到“这次不一样”的论断时,我们都应保持质疑。这是进行良好预测的基本原则。
以医学影像分析为例,有研究表明AI算法在筛查特定疾病(如乳腺癌)时可能比放射科医生表现稍好。但这远不能得出“放射科医生将被淘汰”的结论。
以下是需要综合考虑的几个层面:
- 人机协作:研究发现,放射科医生 + AI算法 的组合,其诊断效果优于任何一方单独工作。
- 工作复杂性:放射科医生的工作远不止读片,还包括诊断、制定治疗方案、实施介入治疗等。AI可能自动化其部分任务,但无法替代全部。
- 任务与工作的区别:正如卡车司机的工作包括驾驶、卸货、交接等,AI或机器人可能接管驾驶任务,但其他环节仍需人力完成。
因此,AI的影响路径很可能与历史上的信息技术类似:它将成为管理者用来重组工作和业务流程的工具。真正的生产力飞跃和就业结构变化,将来自于组织和管理层如何利用AI创新工作模式,而非AI简单地“取代”人力。
总结
本节课中,我们一起学习了如何理性看待人工智能对社会就业的影响。

我们首先认识到评估未来预测需要方法,应关注预测者是否考虑了反对意见和类似历史案例。接着,我们分析了耸人听闻的预测之所以流行的社会动因。然后,我们从信息技术和自动化的历史中看到,技术更常做的是重塑工作而非消除工作,管理决策和经济考量在其中扮演核心角色。最后,我们审视了“AI与众不同”的论点,指出其影响很可能延续历史模式,即通过赋能管理者重组业务流程来发挥作用。

核心结论是:对AI取代工作的担忧常常被夸大。真正的变革将体现在工作内容的重构和人机协作模式的进化上,而非工作岗位的单纯消失。保持批判性思维,依据历史和证据进行判断,是应对技术变革讨论的最佳方式。


浙公网安备 33010602011771号