数据分析、数据挖掘、数据统计、OLAP 之间的差异
作者:孙文亮
链接:https://www.zhihu.com/question/19653226/answer/12592187
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
代表人物Justin Cutroni,网站分析领军人物,精通GA/GWO,作有博客Analytics Talk:http://cutroni.com/blog/
国内代表人物宋星,经营网站分析在中国:http://www.chinawebanalytics.cn/,蓝鲸,经营蓝鲸的网站分析笔记:http://bluewhale.cc/,Joegh,经营网站数据分析:http://webdataanalysis.net/
2、数据挖掘。
数据挖掘主要是面向决策,从海量数据中挖掘不为人知、无法直观得出的结论。例如内容推荐、相关度计算等。此工作更注重数据内在联系,数据仓库组建,分析系统开发,挖掘算法设计,甚至很多时候要亲力而为的从ETL开始处理原始数据,因此对计算机水平有较高要求。一般广度上不及数据分析,但深度上更为深入。使用工具除海量数据库如Oracle,分布式计算Hadoop,C++,Java,Python等编程语言外,也有可能会用到第三方挖掘工具如Weka。此方向更偏技术一些,代表人物Jeff Hammerbacher,曾经的 Facebook首席科学家,曾参与编写《数据之美》,部分内容如下:
http://www.360doc.com/content/11/0222/10/2459_95014883.shtml
延伸阅读《探索推荐引擎内部的秘密》,可以体验一下数据挖掘的魅力:
http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html
http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.html
http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy3/index.html
3、数据统计。
专注于建模及统计分析,通过概率、统计、离散等数学知识建立合理模型,充分发掘数据内容。数据统计更多的偏向于数据的处理和计算
此方向更偏重数学,尤其是统计学。像哈佛数学毕业的Hammerbacher在这方面也很强。数据统计不局限于互联网,像传统行业尤其是医疗、金融等领域中,用处也是极大。
4、OLAP
但由于互联网的数据量较大、维度众多,会导致数据爆炸。因此一般会灵活变通,综合使用。严格使用OLAP的一般都是些制造业、零售业等相对传统的行业,作为BI的延伸,对公司决策提供有力支撑。
浙公网安备 33010602011771号