淘宝数据魔方技术架构解析读后感

本次阅读文章为：淘宝数据魔方技术架构解析

文章地址：https://mp.weixin.qq.com/s?__biz=MzAxNjAzMTQyMA==&mid=2648476063&idx=1&sn=882fb8584b82107d5af191af5b805d0e&chksm=83d3224cb4a4ab5a72e04dbaa6c6621cc866ab913bb7abb1aa8e6f7860e128501ca1a3c26d4a&scene=21#wechat_redirect

淘宝网拥有国内最具商业价值的海量数据。

按照数据的流向来划分，可以把淘宝数据产品的技术架构分为五层，分别是数据源、计算层、存储层、查询层和产品层。位于架构顶端的是我们的数据来源层，这里有淘宝主站的用户、店铺、商品和交易等数据库，还有用户的浏览、搜索等行为日志等。这一系列的数据是数据产品最原始的生命力所在。

“云梯”或者“银河”并不适合直接向产品提供实时的数据查询服务。这是因为，对于“云梯”来说，它的定位只是做离线计算的，无法支持较高的性能和并发需求；而对于“银河”而言，尽管所有的代码都掌握在我们手中，但要完整地将数据接收、实时计算、存储和查询等功能集成在一个分布式系统中，避免不了分层，最终仍然落到了目前的架构上。

数据魔方设计上的特点：

（1）关系型数据库仍然是王道。关系型数据库在分区容忍性方面存在劣势，但由于它强大的语义表达能力以及数据之间的关系表达能力，在数据产品中仍然占据着不可替代的作用。

（2）NoSQL是SQL的有益补充。

（3）用中间层隔离前后端。

（4）缓存是系统化的工程。缓存系统不得不考虑的一个问题是缓存穿透与失效时的雪崩效应。最常见的解决方法是采用布隆过滤器，将所有可能存在的数据哈希到一个足够大的birmap中，一个一定不存在的数据会被这个bitmap拦截掉，从而避免了对底层存储系统的查询压力。

数据魔方目前已经能够提供压缩前80TB的数据存储空间，数据中间层gilder支持每天4000万的查询请求，平均响应时间在28毫秒，足以满足未来一段时间内的业务增长需求。

posted @ 2019-03-27 21:33 冰柠檬❤ 阅读(215) 评论(0) 收藏举报

刷新页面返回顶部

淘宝数据魔方技术架构解析读后感

公告