理解大数据

起因:

从上大学至今,对大数据日常接触,在校期间伴随着大数据这个名词也走过了三年,碰巧在今天看到了一篇文章(文章大致内容是描述某某高校的今年入学新生的数据,但是文章标题上的“大数据”三个字引起了我的注意,并有所感想),对于现在许多自媒体在写文章时硬是要冠上“大数据”这个词,对于就读数据科学与大数据技术专业的我来说,感到一种烦躁,所以写下本文章。

 

大数据:

一个近年来比较火的词,其主要特征就是“大”,何谓大?或许有人认为大这个概念是相对的,但这种想法是在没有标准定义的情况下适用的,“大数据”在中国发展了十年的时间,业界也有个大概的标准了。“大数据”的“大”所指向的数据是海量的数据,海量就比较好理解了,所以对于上述文章使用了“大数据”一词,我就想问一下,它所使用的数据是否是海量的?在网络上可以查询到的中国的大学学生人数最多的是吉林大学,但是其在校学生人数也不足8w,新入学的大一新生人数也应该在2.5w左右,这个数据量无论如何也称不上海量,顶多就是个大一点的数据集。况且,文章所做到的,充其量就是传统的数据统计分析,难道在“大数据”还没有火起来的时候没有这种报表处理吗?何必要在一篇普普通通的文章上强加“大数据”呢,这无非就是为了吸引眼球、流量,但是这却干扰了大众对这一名词的理解,有意或无意中贬低了相关从业人员的技术价值。

 

大数据的特点:4V

第一个V是多样性(Variety),指大数据包含不同格式的数据,既包括我们常见的结构化数据,还包括半结构化网页数据,以及非结构化的视频、音频数据等。多样性同时也表现在数据来源上,大数据的来源包括社交网络、搜索引擎、通话记录、传感器等多种渠道。

第二个是海量(Volume),指大数据的数据量很大,PB级的数据增长将是比较常见的情况,而且非结构化数据的规模占总数据量的80%-90%,且增长速度比结构化数据快10-50倍。

第三个是快速化(Velocity),主要包括两层意思,一是数据的存在具有时效性,需要快速处理,否则会造成数据丢失或者失去意义,二是处理速度的快速化,一些应用需要实时的处理结果,用以辅助决策等。

第四个V是价值(Value),指大数据中蕴含一些有价值的信息,因此需要对大数据进行有效的分析处理。

 

更多关于“大数据”的详细内容在网络上都可以搜索得到,不再过多解释,本文仅为批评那些不知所谓的自媒体,文毕。

 

posted @ 2022-03-10 19:40  Theext  阅读(137)  评论(0)    收藏  举报