淘宝数据魔方技术架构解析读后感

本次阅读文章为:淘宝数据魔方技术架构解析

文章地址:https://mp.weixin.qq.com/s?__biz=MzAxNjAzMTQyMA==&mid=2648476063&idx=1&sn=882fb8584b82107d5af191af5b805d0e&chksm=83d3224cb4a4ab5a72e04dbaa6c6621cc866ab913bb7abb1aa8e6f7860e128501ca1a3c26d4a&scene=21#wechat_redirect

淘宝网拥有国内最具商业价值的海量数据。

按照数据的流向来划分,可以把淘宝数据产品的技术架构分为五层,分别是数据源、计算层、存储层、查询层和产品层。位于架构顶端的是我们的数据来源层,这里有淘宝主站的用户、店铺、商品和交易等数据库,还有用户的浏览、搜索等行为日志等。这一系列的数据是数据产品最原始的生命力所在。

“云梯”或者“银河”并不适合直接向产品提供实时的数据查询服务。这是因为,对于“云梯”来说,它的定位只是做离线计算的,无法支持较高的性能和并发需求;而对于“银河”而言,尽管所有的代码都掌握在我们手中,但要完整地将数据接收、实时计算、存储和查询等功能集成在一个分布式系统中,避免不了分层,最终仍然落到了目前的架构上。

数据魔方设计上的特点:

(1)关系型数据库仍然是王道。关系型数据库在分区容忍性方面存在劣势,但由于它强大的语义表达能力以及数据之间的关系表达能力,在数据产品中仍然占据着不可替代的作用。

(2)NoSQL是SQL的有益补充。

(3)用中间层隔离前后端。

(4)缓存是系统化的工程。缓存系统不得不考虑的一个问题是缓存穿透与失效时的雪崩效应。最常见的解决方法是采用布隆过滤器,将所有可能存在的数据哈希到一个足够大的birmap中,一个一定不存在的数据会被这个bitmap拦截掉,从而避免了对底层存储系统的查询压力。

数据魔方目前已经能够提供压缩前80TB的数据存储空间,数据中间层gilder支持每天4000万的查询请求,平均响应时间在28毫秒,足以满足未来一段时间内的业务增长需求。

 

posted @ 2019-03-27 21:33  冰柠檬❤  阅读(185)  评论(0编辑  收藏  举报