09 2020 档案
摘要:1.Spark,是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎 Hadoop,是分布式管理、存储、计算的生态系统;包括HDFS(存储)、MapReduce(计算)、Yarn(资源调度) 2. 目前,hadoop社区有几个不同的分支版本,各个版本之
阅读全文
摘要:微信、微博、小视频每天产生的数据量与数据类型 答:微信目前的产生的数据量为大于11亿,数据类型为String、Number、Object、Date、Geo 微博目前产生的数据量为4.86亿,数据类型为web、type 小视频每天产生的数据量超过四亿 选择一个你感兴趣的领域应用数据思维进行分析决策的案
阅读全文