数据挖掘与知识发现(转发)
日前做了一个对新用户最可能购买的宝贝的挖掘,结果很有意思,我们发现这些宝贝有如下特征:
宝贝价格低(低廉价格驱动型)、先行赔付(网购信心不足型)、宝贝好看(情感驱动型)、宝贝卖得好、宝贝好评多、店铺好评多、高级店铺、大店铺等。
好吧,也许这次挖掘并没有挖出什么亮点,也许你觉得这些——都是我以前就知道的啊!
恩,请往下看
以上所说的全部是错误的!这些“我以前就知道的”因素没有一条是真正重要的(从绝对诚实的角度讲,或许值得客观地看待其局部的贡献)。是的,我毫不 掩饰这一点:挖掘的结果也许同样是“我以前就知道的”——当然,这都是在我公布那些真正重要的因素“之后”。——据说FBI每年有1万件毫无头绪的反恐怖 情报,但谁知道9.11之前的才是极其重要而有效的呢——当然,现在FBI一定知道了。
所以,数据挖掘并不刻意发现新知识(尤其在我们得知结果以后),而是在正反两方面都很有道理的一堆先验知识中进行(在机器看来不引入人的偏执的)过滤。
身未动,心已远;有多远,走多远


浙公网安备 33010602011771号