Data mining 和 Robust Design??哪儿跟哪儿啊！

半夜无聊，起来谈谈这几天写论文的感想。

今天算是完成了那个鸡肋论文的草稿。从头说起这个论文也不是我有意为之，只不过上学期选了Data mining 这门课，为了对付该科任课老师布置的project应急而已。此君对Data mining一无所知，不知道为什么偏偏是他来讲这门课。此君专攻的是Robust Design，初次听这个名词的时候我混淆了Robust和Robot,以为此君是专门修理机器人的，后来金山词霸验证了此君原来是研究乐百氏(Robust)的。此君是一个写作狂人，在仅仅认为Data mining不过是从一大堆数据中找有用的东西这样一个认知水平下，居然有一天从自家浴缸中光着屁股拍脑门想出了要将DM和RD这两个有机联合到一起这样一个光怪流离的想法。此君就此在第一堂课上就非常自豪地宣布了他这个理论，及其煽动性地描绘了我们跟他写论文的美好前景，说他这个思路足够能SCI索引个几十篇没问题。

此君大致思路是这样的简单：先用DM 从众多因子中找到关键因子，然后用RD技术去控制这些关键因子。那具体DM用到什么技术他则根本不考虑。。。我曾相当茫然地寻找答案。聚集、关联规则、粗糙集都不可能解决。最后找到了建决策树或者预测分类用到的关键技术--属性选择勉强应对了他的要求。但还是觉得算法要解决的问题跟他的需求相差太远，拖拖拉拉地不愿继续卖力，导致刚刚才将论文写完。

        在这个过程中，我一直在怀疑他拍脑门想出来的思路的可行性和合理性。虽然这个论文勉强完成了，但我不得不说他的思路的幼稚。初听起来很唬人，其实不过如此。
        第一，两个领域都是建立在现代统计学的基础上的，DM偏重于对已有知识的预测和分析，而RD的目标则是控制可控制属性消除噪音属性对目标值的影响。根本谈不上谁用到谁的理论的问题，说RD用到了某某算法，这个算法也是DM的某某算法的基础，这么说还沾点边。
        第二，DM的属性选择并非是RD所要求的关键属性选择，此属性选择非彼属性选择。前者要求完全依赖Class标签，而后者则是纯粹依靠与响应值的相关关系，这就决定了一个是针对少数离散的目标标签，而另一个则是要对应连续的目标值。我的算法从头至尾也没有提出一个对应的解决办法，虽然在DM软件上测试通过，而我一直在质疑是否该软件先对目标连续的Class进行了离散化，否则直接从算法得到是非常困难的。
        明明有那么多的缺陷和不合理的地方，好几个老师审阅过后竟然没有发现，我真是很意外。只是觉得教授们实在是太希望能发表一篇论文了。以至于到了对内容忽略，对格式挑剔的地步。。。。

posted on 2005-10-07 03:49 郭奕阅读(370) 评论(0) 收藏举报

刷新页面返回顶部

导航

Data mining 和 Robust Design??哪儿跟哪儿啊！