关于小数据博客

   作为博客的第一篇博文,一直在考虑应该写点什么?思考了很久,最终还是决定聊一聊为什么要写博客以及为什么博客名叫小数据?

为什么要写博客?

   做数据挖掘纯属兴趣,从大二参加数学建模开始,就深深的被数据这一块吸引了,那个时候还没有听说过数据挖掘和大数据的概念,只是觉得这一块很有意思,它让我意识到“原来我也可以做点东西,我也可以通过努力来解决一点现实生活中的问题”,而不是一无是处,什么也做不了,我很喜欢这种感觉。于是就这样一路玩过来。

   做数模的时候很崇拜技术,一直觉得我们要用很NB别人都不会用的算法,那样才叫厉害(PS:现在回头看以前写的论文,才发现那时候是多么的幼稚)。由于专业的关系首先接触到的是神经网络,拿去做模型果然吸引了大家的眼球,屡试不爽;之后顺便把所有的智能算法都学了一番,包括模糊算法、遗传算法、粒子群、蚁群...;后来又用到了元胞自动机,排队论等等,越学越觉得自己懂得越少,还会有很多自己不知道的很厉害的算法。于是很脑残的花了很长的一段时间(一直到毕业)专攻算法:回归(OLS,GLM,GAM,MARS,Lasso,Ridge...),时间序列(AR,MA,ARMA,ARIMA,Holt-Winter),分类(Decision Trees,SVM,Bayesian,KNN,...),聚类(K-means,Hierarchical-based,Density-based,GMM,...),Ensemble methods(bagging,boosting,RandomForest),推荐(Collaborative Filtering,Association Rule,Content-based,...)...

   学算法的同时慢慢意识到,用什么算法不是最重要的,模型背后的逻辑才重要,说清楚为什么这么做才重要。于是又回头恶补这一部分,找了美赛最近10年的所有Outstanding论文,大概100多篇。看了三个多月,一篇一篇的解剖,找出论文的框架(这篇论文做了哪几个模块?研究思路是什么?为什么要做这几个模块?每个模块又做了哪些子模块?怎么做的?...),收获颇丰,心得写了整整两本(PS:后来送人了,心痛啊。。。)。效果很明显,后来看数模题目的时候,论文应该分哪几个模块,每个模块写些什么,甚至某一个段落应该写些什么都可以想象的到(就这种很奇怪的感觉)。

   现在回归头来看虽然学了很多东西,但是一味追求数量,忽略了“质”,所有的东西都只了解了个大概,没有一个算得上精通,越来越感觉到有点纸上谈兵,很多事情无能为力。是时候静下心来,好好沉淀沉淀了。所以,回头梳理一下“学过”的算法,把基础打得牢一点,把一直缺失的“质”找回来,而写博客是一种很好的方式,这就是写博客的原因。

为什么博客名叫小数据?

   现在大数据被炒得很火,所有的人都在谈大数据。在进入公司之前,我也一直幻想着公司有很多数据,我可以用很多高级的算法构建一个很复杂的模型产生很好很好的效果;但是到公司之后才发现,做数据没有那么高大上,你需要的数据要么没有,即使有也非常的少、残缺不全;在这里你可能用不上任何的算法模型,绝大部分工作就是做描述性的统计。

   我接到第一个关于数据的任务就是分析公司一款产品的运营数据并给出改进意见,数据只有7条(1-7月份运营数据,11个指标+2个目标变量),连个多元回归模型都做不了。但是做过分析之后让我很震撼,这么少的数据放在商业背景里去理解也能产生价值,也能帮助改进优化业务;在以前看来这是多么不可思议的一件事情。这件事对我有非常大的触动,深深的意识到数据多少不重要,算法高级与否不重要,数据思维才重要,得到的结果有价值才重要!所以把博客取名为小数据,寓意小数据也会有价值,也值得分析。

posted @ 2014-08-18 23:32  小数据SmallData  阅读(340)  评论(0)    收藏  举报