09 2020 档案

摘要:1.Spark,是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎 Hadoop,是分布式管理、存储、计算的生态系统;包括HDFS(存储)、MapReduce(计算)、Yarn(资源调度) 2. 目前,hadoop社区有几个不同的分支版本,各个版本之 阅读全文
posted @ 2020-09-19 21:54 GWDW 阅读(60) 评论(0) 推荐(0) 编辑
摘要:微信、微博、小视频每天产生的数据量与数据类型 答:微信目前的产生的数据量为大于11亿,数据类型为String、Number、Object、Date、Geo 微博目前产生的数据量为4.86亿,数据类型为web、type 小视频每天产生的数据量超过四亿 选择一个你感兴趣的领域应用数据思维进行分析决策的案 阅读全文
posted @ 2020-09-12 18:57 GWDW 阅读(101) 评论(0) 推荐(0) 编辑