数据仓库 - 安然电子邮件数据

在邮件(文本处理)领域,有一个比较经典的数据挖掘问题:根据邮件的内容来判断谁是发件人?更进一步的问题是,这封邮件发给了谁?你可以试着在安然邮件数据中解决这个问题。这个数据集对于想通过数据挖掘的方法提供更好的邮件服务的研究人员来说,是非常好的真实的数据。

 

    著名的安然丑闻,让一个美国最大的能源企业瞬间破产。美国司法部对安然公司高层做了深入的调查,包括他们的来往邮件。这个数据集就包含了安然公司最高级的150个管理层人员的邮件,共619446封邮件。邮件数据不包括附件,为了隐私,极少邮件中的信息被删除。如果收件人地址非法(如收件人直接用人的名字),则收件人地址是类似‘名字@enron.com’的形式;如果没有收件人,收件人地址是‘no_address@enron.com’。

 

    关于这个数据集,我每周都会收到问题,所以我又想办法找到了技术文档,如何理解数据、如何预处理、其他专家学者研究的方法和结果。具体信息都列举在下面:

  1. 一个关于描述预处理邮件数据的文章 http://www.kuaipan.cn/file/id_53313476289890558.htm
  2. Ron Bekkerman所做的一些数据分析 http://people.cs.umass.edu/~ronb/enron_dataset.html
  3. Jitesh Shetty所做的一些数据分析 http://www.isi.edu/~adibi/Enron/Enron.htm
  4. University of Pennsylvania所做的一些数据分析 https://dbappserv.cis.upenn.edu/spell/
  5. 邮件数据中的附件下载  http://www.edrm.net/resources/data-sets/edrm-enron-email-data-set-v2

posted on 2013-01-15 20:33  Jessie~Alexandery  阅读(1158)  评论(0)    收藏  举报

导航