Arndata
数据质量依赖数据清洗的工作,数据结果依赖数据算法的效能。

导航

 

当你遇到感兴趣的问题的时候,你会找人来讨论这个问题的普通答案,文艺答案,2B答案。

普通答案仅仅是这个特殊情形的答案;

文艺答案可以是上升到更一般化,拓展范围更大的规律性总结;

2B答案是没有得到问题解决的答案或让人更加迷惑的答案。

 

有人说,当在实际中遇到一个问题,我们第一步是把这个实际问题用理论来描述成研究课题。

然后下一步是什么呢?

 

常见的做法是

1. 考虑与这个研究课题(会被具体化到研究问题)相关的指标;

2. 然后收集这些指标的数据,整理成变量和个案集;(前两个steps可能是需要跟甲方一起来做的环节)

3. 再是数据预处理,

这是很重要的一步,不经过预处理(清洗异常极端值,无量纲标准化等)的数据会让结果很难看,

也会让想要数据结果的人死的很难看。

 

4. 然后才是数据挖掘,挑选出最适合这份数据的算法来推断出数据结论。

 

5. 结论描述的第一步,用统计的标准来看待和描述结果;

6. 把统计描述的结果给实际问题专家提供参考,数据结果再描述成实际问题的描述;

7. 找出可用的解决方案,

可以用统计模拟的方法再尝试结果是否可以因为这个方案而得到问题的解决或缓解。

8. 报告整理和写作。

从上面的7个步骤,可以看到文章输出的部分有:

实际问题描述:问题所在的背景,导致的损失和意义;

研究问题描述:把实际问题提升为理论问题描述;

研究方法:已有的研究成果,理论和方法的数学教程;

研究方案:通过已有的研究方法设置解决思路和实施方案,收集数据;

数据挖掘:数据预处理,数据的识别推断和结果分析;

结论描述:把数据结果给实际问题专家来描述解读;

总结:算法存在的问题,可以继续进行的研究展望。

 

我觉得WANG老大给我看的《市场营销研究:应用导向》这本书让我学会了做研究设计,

http://book.douban.com/subject/3757557/

这篇文章要感谢他给我的做研究的指导。

文章里提到的写作策略部分源自《研究是一门艺术》这本书,

http://book.douban.com/subject/4035330/

给朋友们推荐有空可以一些阅读。

 

后面我会在这里介绍一些统计方法,包括各种线性模型和分类算法。

更多的是模型下用到的一套相应诊断统计量(检验统计量),

然后会有SPSS, SAS, R, MATLAB, Stata 等软件或语言的规范表达说明。

这会引用到一些已有研究的中英文成果,

我想这将是一个快乐思考和轻松学习的写作整理时间。

 

posted on 2012-05-12 09:38  Arndata  阅读(391)  评论(0)    收藏  举报