Fork me on GitHub

Big Data Hubris:"大数据傲慢"问题

大数据的傲慢与偏见— 读后心得

数据模型研究者必看的书

书本简介

书名:大数据的傲慢与偏见

原书名:Weapons of Math Destruction

作者:Cathy O'Neil

译者:许瑞宋

出版社:大写出版

 

内容简介

作者自哈佛大学取得数学博士学位,曾在金融界及新创企业担任数据科学家,他以此书警告世界:「数据不缺推崇者,但我不是。甚至我称它是这个世代的『数学毁灭性武器』」。


为什么模型会是「数学毁灭性武器」?

这里的模型不仅限于由机器学习产生出来的模型,还包括各样的公式以及演算法,甚至包含一个人决定等等晚餐要吃什么的「思路模型」

在这资讯量爆炸且传递与处理皆快速的时代,各大企业及政府可以轻易地收集到关于人们的各种资料,包括学生的升学考试成绩、每个人的收支状况、棒球队球员的打击率、通讯软体用户的心情……等。模型的使用可以提高人们处理事务的效率。例如自动履历筛选系统可以为人资人员从一千份履历中剔除掉五百份不适任的履历。但自动履历筛选系统的机制往往使得穷人、被歧视的族群难以找到工作,甚至找不到工作。

并非所有的模型都是「数学毁灭性武器」,例如以机器学习的方式判断恶性肿瘤,或是依场合决定穿着的思路,都不是「数学毁灭性武器」。作者认为模型要成为「数学毁灭性武器」有三个要素:

  1. 不透明
  2. 大规模应用
  3. 会造成伤害

接下来是作者举出的实例,穿插我个人的看法,没有特别说明的话,例子即是发生在美国。


模型中的偏见产生不公平

模型的产生大多数皆由大量的资料,或是现有的公式组成。资料与公式的正确性就相当重要,如果资料或是公式不正确,模型也必定不正确。在注意资料正确性的同时,常常忽略资料中往往含有历史性的偏见。

作者提到了几个例子,例如上段提到的自动履历筛选系统。这类系统通常以现在正在任职的员工表现,或是过去面试官筛选的结果作为数据来源,但现在的社会状态往往是歧视与偏见的结果,造成某些性别或种族有更高的机率被系统剔除。

犯罪预测模型的重要数据来源之一,是过去发生犯罪资料,此类模型的预测结果常落在过去常发生犯罪事件的地区,因此警方也会针对该地区加强执法。乍看之下没什么问题,但过去常犯罪的地区通常是较贫困的地区(金融型犯罪并非通过一般训练的警察有办法执法的,也较容易被忽略),一但加强执法,会多发现一些携带毒品的毒品使用者,或是非法拥有枪枝的人,此结果会回馈到系统中,让警方觉得此系统有效,又更加强针对贫困地区执法。

美国司法有使用再犯预测模型,来评估罪犯的再犯机率,有些州的法官会参考模型提供的机率来决定罪犯的刑期。但有力的研究指出,在狱中的时间越久,再犯的机率越高。因此模型产生了恶性的回馈,让原先被歧视或是犯罪率较高的族群,面临更高的惩罚,这样的惩罚是瞄准了整个族群,而不是单一个人。

有些人会疑问,即便不依赖模型,人类本来就有偏见。作者表示,人类的偏见不是稳定的,同时影响的范围也小,今天一位受试者被面试官歧视,而不录取,他依然有机会在别的企业遇到不歧视的面试官。模型的大规模应用与此不同,被模型歧视的面试者到了下一间企业,依然会被歧视。


提高效率与准确性,却失去正义

在这资本主义当道的世界,一些大型的服务业企业开始使用人潮预测系统,以天气、车流量、行人数量等等预测未来的顾客数,以避免服务人员上班空闲没事做,或是客人太多,服务员却不够的情况,进而减少人事支出。为了准确性与效率,不可以让模型预测过长时间以后的顾客状况,导致服务员常常在数天前被告知班表变动,而必须仓促的安排托儿、交通工具,或是调整个人规划,而这些人大多都是只能领基本时薪的低受薪阶级。

在保险的制度上,为了营利目的,保险业者会收集各式各样的数据,将原先由族群划分保费的方式(例如年轻男性的汽车保险费比其他族群高),进一步推进到个人,由一个人各式各样的资料,如由记录器收集的驾驶状态,甚至是一些替代指标,如财务状况、消费状况等,来决定一个人的保费。如此一来就完全失去包险原先由群体为群体中个体分担风险的目的,变成每个投保人,只是单纯为自己未来可能发生的灾难支付「预付款」。

随着模型可以处理更精准的预测,从预测某班次的顾客人数,到预测某小时的顾客人数;从预测群体的风险,到预测个人的风险,正义被侵害的程度就越大。这类侵害中大多数的受害者都是社会底层的人,但也有群不人都受害的状况,像是保险制度,所有人都是受害者。与这一节相比,下一节所提的影响更广泛。


大规模的模型应用影响民主

随着网路的普及,以及网路中心化,各大资料收集企业,例如Google、Facebook,大规模地使用模型,为使用者筛去其不感兴趣的资讯,也为使用者筛选出其有兴趣的广告。看似产生了双赢的局面,但实际上有很大的隐忧。

Google和Facebook皆做过操作选情的实验。Facebook曾在某个选举日提供使用者在板上表示自己已经完成投票,并将使用者分成两群,一群会看到朋友发文表示已投票,另一群则不会看到。结果显示看得到朋友的已投票讯息的那群使用者,有较高的投票率。Google则是在选举前,筛选网页搜寻的结果,让使用者只看到某个政治倾向的文章,结果影响了约20%的选票。

藉由拥有庞大的使用者资料,上面的操作可以做到相当「客制化」。例如我在乎机车路权的议题,有心者就可以针对我在乎的议题进行操作,来改变我的政治偏好。当然Google和Facebook并不会做这样的事,但其他人或企业依然可以透过精准投放广告,来达到操作民意的目标,且精准度远超过传统媒体播送。

结语

除了我上述提到的例子,书中还有非常多模型成为「数学毁灭性武器」的案例。依照现在资讯科技的发展,似乎这一切都无法避免,人类终将被自己产生的模型毁灭。作者认为还不到这么悲观,人类还是可以藉由社会的力量阻止灾难继续扩大。首先透过政府立法,严格限制模型的运作方式,再来要求模型创造者自我约束,将道德意识放入模型中。甚至应该要像面对复制人议题一样,建立国际皆应遵守的伦理,确保数学模型不会成为毁灭性武器。

最后,我认为所有运用数据、数学建立模型的人,包括资料探勘领域、机器学习领域,甚至是社交软体业、金融业,都应该阅读这本书。这本书有如当头棒喝,让我们意识到模型可能带来灾难,而唯有意识到自己正在产生的模型可能成为武器,才能着手去避免

posted @ 2019-12-06 14:53  stardsd  阅读(796)  评论(0编辑  收藏  举报