代码改变世界

某连锁酒店泄露数据的分析

2013-10-27 14:18  灵感之源  阅读(9864)  评论(17编辑  收藏  举报

声明

不提供任何下载,不提供任何指引,无需问我怎么得到,我不会回答。

 

前言

这个分析纯粹是我喜欢数据挖掘,周末闲来无事练一下手。

 

源文件

源文件是一个SQL Server数据库备份文件,从数据库“shifenzheng”完整备份,从服务器GHOSTSLC-6BBFCB备份,备份日期是2013/5/27 0:45:49  备份用户名叫anyi,备份数据库大小8030071808 (约7.5GB)。

 

基本信息

1. 字段

数据库只有一个表,叫cdsgus。里面有姓名、身份证号码、性别、地址、国家、手机号码、电子邮件等数据,其它的如卡号、固话、传真、公司、教育、兴趣等基本上是残缺甚至没有的,甚至部分人的身份证号码也是错乱的,估计导入的时候没有处理好。

而每个字段都设为长度2000的nvarchar,相当蛋痛,相信这不是原始设计,而单纯是泄露后自行快速导入的产物。

 

2. 记录

里面有20050144条记录(2005万)。

3. 姓

取姓名的第一个字符做姓(不考虑复姓),有4644个性,最多是王,其次是张、李、刘、陈,似乎和中国的大姓吻合。有趣的是有人姓“色”、“糊”、“痕”、“&”、“@”、“π”(数学里面的pi)。。。相信是乱写的。

10大姓里面已经占了821万用户。

 

 

4. 性别

男性比女性多一倍。

 

5. 年龄段

剔除那些无效或不靠谱年龄,80后是主力,70后次之。90后只有60后的一半,貌似不科学。。。

 

5. 省份

省份数据基于身份证号码,部分用户使用的不是身份证号号码,部分用户提供了的数据不合法,我都一并剔除了。江苏、山东和浙江用户最多,相信是某某连锁酒店在这些地区网点最多。

 

 

6. 更多

其实我还可以分析一下如手机提供商(移动/电信/联通等)、登记时间的分布等,甚至多维如不同省份里的不同年龄段里的不同手机用户之类,不过颈椎病发作,强忍疼痛写了这篇博客,就此打住了,休息去。

 

后言

互联网时代,每天产生的数据越来越多,数据安全问题日益严重,譬如之前的CSDN个人信息泄露,还有几个大游戏网站的数据泄露,当然还有诸多没有公开,只是在某些组织内部流转的。

我的建议,保护好自己的个人信息,不要在网上随意填写敏感数据,譬如身份证等,尽可能不同服务使用不同密码并经常修改。电话号码等,如果非得要填写,填写一个备用号码(专门用来填写申请/注册用,可随便丢弃,不怕别人骚扰)。