半夜无聊,起来谈谈这几天写论文的感想。
今天算是完成了那个鸡肋论文的草稿。从头说起这个论文也不是我有意为之,只不过上学期选了Data mining 这门课,为了对付该科任课老师布置的project应急而已。此君对Data mining一无所知,不知道为什么偏偏是他来讲这门课。此君专攻的是Robust Design,初次听这个名词的时候我混淆了Robust和Robot,以为此君是专门修理机器人的,后来金山词霸验证了此君原来是研究乐百氏(Robust)的。此君是一个写作狂人,在仅仅认为Data mining不过是从一大堆数据中找有用的东西这样一个认知水平下,居然有一天从自家浴缸中光着屁股拍脑门想出了要将DM和RD这两个有机联合到一起这样一个光怪流离的想法。此君就此在第一堂课上就非常自豪地宣布了他这个理论,及其煽动性地描绘了我们跟他写论文的美好前景,说他这个思路足够能SCI索引个几十篇没问题。
此君大致思路是这样的简单:先用DM 从众多因子中找到关键因子,然后用RD技术去控制这些关键因子。那具体DM用到什么技术他则根本不考虑。。。我曾相当茫然地寻找答案。聚集、关联规则、粗糙集都不可能解决。最后找到了建决策树或者预测分类用到的关键技术--属性选择勉强应对了他的要求。但还是觉得算法要解决的问题跟他的需求相差太远,拖拖拉拉地不愿继续卖力,导致刚刚才将论文写完。
在这个过程中,我一直在怀疑他拍脑门想出来的思路的可行性和合理性。虽然这个论文勉强完成了,但我不得不说他的思路的幼稚。初听起来很唬人,其实不过如此。
第一,两个领域都是建立在现代统计学的基础上的,DM偏重于对已有知识的预测和分析,而RD的目标则是控制可控制属性消除噪音属性对目标值的影响。根本谈不上谁用到谁的理论的问题,说RD用到了某某算法,这个算法也是DM的某某算法的基础,这么说还沾点边。
第二,DM的属性选择并非是RD所要求的关键属性选择,此属性选择非彼属性选择。前者要求完全依赖Class标签,而后者则是纯粹依靠与响应值的相关关系,这就决定了一个是针对少数离散的目标标签,而另一个则是要对应连续的目标值。我的算法从头至尾也没有提出一个对应的解决办法,虽然在DM软件上测试通过,而我一直在质疑是否该软件先对目标连续的Class进行了离散化,否则直接从算法得到是非常困难的。
明明有那么多的缺陷和不合理的地方,好几个老师审阅过后竟然没有发现,我真是很意外。只是觉得教授们实在是太希望能发表一篇论文了。以至于到了对内容忽略,对格式挑剔的地步。。。。
第一,两个领域都是建立在现代统计学的基础上的,DM偏重于对已有知识的预测和分析,而RD的目标则是控制可控制属性消除噪音属性对目标值的影响。根本谈不上谁用到谁的理论的问题,说RD用到了某某算法,这个算法也是DM的某某算法的基础,这么说还沾点边。
第二,DM的属性选择并非是RD所要求的关键属性选择,此属性选择非彼属性选择。前者要求完全依赖Class标签,而后者则是纯粹依靠与响应值的相关关系,这就决定了一个是针对少数离散的目标标签,而另一个则是要对应连续的目标值。我的算法从头至尾也没有提出一个对应的解决办法,虽然在DM软件上测试通过,而我一直在质疑是否该软件先对目标连续的Class进行了离散化,否则直接从算法得到是非常困难的。
明明有那么多的缺陷和不合理的地方,好几个老师审阅过后竟然没有发现,我真是很意外。只是觉得教授们实在是太希望能发表一篇论文了。以至于到了对内容忽略,对格式挑剔的地步。。。。
浙公网安备 33010602011771号