案例描述:
某网作为某电视台在互联网上的大型门户入口,某一年成为某奥运会中国大陆地区的特权转播商,独家全程直播了某奥运会全部的赛事,积累了庞大稳定的用户群,这些用户在启用各类服务过程中产生了大量数据,对这些海量数据进行分析与挖掘,将会对节目的传播及商业模式变现起到重要的作用。该奥运期间需要对增量数据在当日概览和赛事回顾两个层面上进行分析。
其中,当日概览模块需要秒级刷新直播在线人数、网站的综合浏览量、页面停留时间、视频的播放次数和平均播放时间等千万级数据量的实时信息,而传统的分布式架构采用重新计算的方式分析实时数据在不扩充以往集群规模的情况下,无法在几秒内分析出重要的信息。
赛事回顾模块需要展现自定义时间段内的历史最高在线人数、逐日播放走势、直播最高在线人数和点播视频排行等海量数据的统计信息,由于该奥运期间产生的资料通常不需要被经常索引、更新,因此要求采用不可变方式存储所有的历史数据,以保证历史数据的准确性。
问题一:8分
请根据Lambda架构和Kappa架构特点,填写以下表格。
参考答案:
此题为教材第19章原文:
问题二:9分
下图给出了某网奥运的大数据架构图,请根据下面的 (a)~ (n) 的相关技术,判断这些技术属于架构图的哪个部分,补充完善下图1的 (1) - (9) 的空白处。
(a) Nginx;(b) Hbase;(c) Spark Streaming(d) Spark;(e) MapReduce;(f) ETL;(g) MemSQL; (h) HDFS; (i)Sqoop; (j) Flume ; (k)数据存储层; (I) kafka;(m)业务逻辑层;(n)素材采集层
参考答案:
难题三:8分
大资料的架构包括了Lambda架构和Kappa架构,Lambda架构分解为三层,Kappa架构不同于Lambda同时计算流计算和批计算并合并视图,Kappa只会通过流计算一条的数据链路计算并产生视图。请问该系统的大数据架构是基于哪种架构搭建的大数据平台处理奥运会大规模视频网络观看数据。
参考答案:
该系统的大数据架构是基于Lambda架构搭建的大数据平台处理电运会大规模视频网络观看。
分析:
Lambda架构是一种用于处理大数据的架构设计模式,将数据处理流程分为批处理层、速度层和服务层三个部分。具体来说,Lambda架构包括以下三层:批处理层(Batch Layer):负责处理大规模资料的批量处理任务,通常使用分布式计算框架(如Hadoop)进行批处理操控,生成批处理视图。速度层(Speed Layer):负责处理实时数据流,通常使用流处理引擎(如Storm、Spark Streaming)进行实时计算,生成实时视图。服务层(Serving Layer):负责将批处理层和速度层生成的视图合并,提供统一的查询接口给用户,使用户可以查询批处理和实时处理的结果。
Kappa架构是一种简化的大数据架构设计模式,与Lambda架构不同,Kappa架构只使用流处理引擎来处理数据流,而不区分批处理和实时处理。Kappa架构通过流处理一条数据链路计算并产生视图,简化了架构设计和维护,但也可能在处理大规模数据时性能不如Lambda架构。