随想数据的统计与分析
最近拿到一大堆数据,在对其做完MapReduce统计后,需要提炼一些有价值的数据出来使用。
1. 同一数据重复出现,是否大堆一定概率或者重现数量达到某个范围,就能确定该数据是有效的呢?
2. 数据的时间有效性。若这组数据是跟时间相关的,时间这个参数是否需要考虑进去,具体的时间参考值又需要如何定义呢?
3. 随机出现的干扰数据,是否也有一些规律性呢?一旦这些干扰数据消失,是好事还是坏事呢?
4. 海量数据统计出来的结果是否具有一般性?能否从结果中预测出一些未来数据的走向?
最后,这堆数据跟股票无关。