zourui4271

博客园 首页 新随笔 联系 订阅 管理

2017年4月10日 #

摘要: 最近看到一篇很好资料,里面三言两语配上几个图就把列式存储(Column-based Storage)讲明白了,牛啊!最喜欢的就是这种浅显易懂就把背景知识讲得明明白白,而不是长篇大论的讲概念。 1 为什么要按列存储 列式存储(Columnar or column-based)是相对于传统关系型数据库的 阅读全文
posted @ 2017-04-10 14:44 zourui4271 阅读(324) 评论(0) 推荐(0)

摘要: 线上运行的服务会产生大量的运行及访问日志,日志里会包含一些错误、警告、及用户行为等信息,通常服务会以文本的形式记录日志信息,这样可读性强,方便于日常定位问题,但当产生大量的日志之后,要想从大量日志里挖掘出有价值的内容,则需要对数据进行进一步的存储和分析。 本文以存储 web 服务的访问日志为例,介绍 阅读全文
posted @ 2017-04-10 13:49 zourui4271 阅读(2055) 评论(0) 推荐(0)

摘要: 线上运行的服务会产生大量的运行及访问日志,日志里会包含一些错误、警告、及用户行为等信息,通常服务会以文本的形式记录日志信息,这样可读性强,方便于日常定位问题,但当产生大量的日志之后,要想从大量日志里挖掘出有价值的内容,则需要对数据进行进一步的存储和分析。 本文以存储 web 服务的访问日志为例,介绍 阅读全文
posted @ 2017-04-10 13:45 zourui4271 阅读(348) 评论(0) 推荐(0)

摘要: spark集群由两类集群构成:一个驱动程序,多个执行程序。 1、广播变量 broadcast 广播变量为只读变量,它由运行sparkContext的驱动程序创建后发送给会参与计算 的节点。也可被非驱动程序所在节点(即工作节点)访问,访问是调用该变量的value方法。 广播变量是存储在内存中。 sc. 阅读全文
posted @ 2017-04-10 10:25 zourui4271 阅读(508) 评论(0) 推荐(0)