数据隐私和GDPR
近十几年来,随着大数据给各行各业带来的变化,以及数据时代不断强调的数据就是燃料,谁掌握数据谁就掌握未来的各种论调,大家纷纷开始收集数据,挖掘数据,转卖数据。而个人,作为数据真正拥有者的利益早就在商业利益之争中弃于角落。各种有关数据的丑闻新闻也屡见不鲜。最著名的脸书数据丑闻,Facebook的数据泄漏给”剑桥分析”,后者据说用来政治意图,比如说分析选民。
个人数据包含些什么内容呢。看看谷歌都收集了些什么。
谷歌收集了用户的每一次搜素,每一次YouTube观看记录。谷歌地图收集了你的所有位置信息,你的路线,你在某个地方的逗留时间。据说你要是从谷歌下载你的个人数据的话,上百g是个常态。类似应用都差不多。
在这些数据里,个人根本没有任何隐私可言。再想想利用这些数据可以做什么,回忆一下那些烦人的推送广告,那都是小case。还记得我在<人工智能中的哲学问题>一文中提到的Winston,策划几个谋杀dacase那是相当轻松啊。警察要有这些数据,还需要破案吗,直接一个算法算出某人是不是凶手。
一个很有名的段子,讲一个女学生的搜索记录,这里截取一段。
还有隐私吗,嘿嘿。
Steven Pink的<Enlightment Now>中提到,Terrorist现在已经没有那么活跃了,数据支撑就是Google的researcher提供的。
如何保护个人数据。欧盟在2018年5月25号的时候开始实行GDPR(global data protection regulation),规范了企业对于个人收据的收集和使用。其实GDPR早在2012年就被提出,之后n次讨论修正,2016年通过,然后让企业们有两年的时间来执行。虽然,GDPR在2018年的时候给人的感觉是一夜之间吹遍各个角落。还记得,每次进商店购物,出示会员卡后,都会被提醒确认一下,同意我们的个人数据被登记在他们的系统当中。邮箱里也是塞满了各个网站的确认同意书,就连幼儿园,小区物业也一样。公司也火速的催促大家完成培训,保证大家明白GDPR, 严格执行。我们这些一线数据工程师,当然是火速上报手头那些有个人数据的数据该怎么办。各个conference, meetup大家也是火热的讨论该咋办。
那GDPR到底是什么呢?
任何的法律条款都是晦涩难懂的,需要深刻全面了解的需咨询律师。
作为数据工程师,我们应该也需要有基本的了解。
首先,最重要的是,不管应用来自哪里,欧盟之外的也一样,是脸书还是微信,如果要收集居住在欧盟的用户的数据,都得遵循GDPR. 作为数据收集的大户们,为了提升自己形象或改变形象或是让用户放心,各个表态,对全球用户的个人数据都一样对待。
企业必须有显式的条款告诉用户个人数据将怎么被使用,并得到用户的同意。
用户随时可以取消同意书,随时要求review自己被存储的数据,随时要求更改数据,企业必须在规定时间内回复实施。大家有兴趣的话拉一下谷歌的数据吧,不过先得清一下存储空间。
企业必须文档化其怎么收集数据,怎么使用数据。对于较大型公司,需要有专门职责的部门来规范数据使用。
如果企业把个人数据用来做预测,必须能够解释预测是怎么做的。想起几年前,申请房贷,银行说这个数目不行,问为什么,业务人员说不知道,说输入我的数据,结果就是这个数目不行。放在现在,可以直接告他们违反GDPR了。
GDPR把数据分成普通个人数据和敏感数据,比如说肤色,宗教,性取向,政治倾向等都属于敏感数据,企业没有特殊情况是不得收集的。
如果违反了怎么半,据说是可能遭受到最高可达企业年收入百分之四的罚款。
想想对个人隐私的保护,必须点赞GDPR。
更多文章,关注作者微信公众号: 一起learn大数据和机器学习
作者简介:
Dagis: 现居住在瑞典,某AI公司的Data Scientist, 学习通信出身,喜欢数学,更喜欢把数学用于实际。

浙公网安备 33010602011771号