zourui4271

博客园 首页 新随笔 联系 订阅 管理

2018年12月26日 #

摘要: 阿里云数据事业部强琦为大家带来题为“流式计算的系统设计与实现”的演讲,本文主要从增量计算和流式计算开始谈起,然后讲解了与批量计算的区别,重点对典型系统技术概要进行了分析,包括Storm、Kinesis、MillWheel,接着介绍了核心技术、消息机制以及StreamSQL等,一起来了解下吧。 增量计 阅读全文
posted @ 2018-12-26 16:52 zourui4271 阅读(2738) 评论(1) 推荐(1)

摘要: 刚刚说的:收集数据 - 放到DB中 - 取出来分析 的传统的流程,叫做批量计算,顾名思义,将数据存起来,批量进行计算。 而流式计算,也跟名字一样,是对数据流进行实时计算,它不是更快的批计算,可以说,是完全不同的处理思路。 通过与批量计算进行对比的方式,介绍下其原理: (1) 与批量计算那样慢慢积累数 阅读全文
posted @ 2018-12-26 16:09 zourui4271 阅读(860) 评论(0) 推荐(0)

摘要: 王璞,数人云CEO及创始人,为美国George Mason大学计算机博士,擅长分布式计算、大规模机器学习、海量数据处理。曾担任 Google 广告部门数据平台构架师,负责管理每秒访问量全球最高的架构平台。数人云技术团队具备丰富的互联网应用架构经验,大型分布式系统经验,特别是 PaaS 领域的经验。 阅读全文
posted @ 2018-12-26 16:02 zourui4271 阅读(186) 评论(0) 推荐(0)

摘要: 当时刚入职时,三个人做一个电路板。虽然电路复杂一些,还是有一些人力过剩的,所以我就被安排去写一个PCI转UART的逻辑。 我当时是新员工,也急于表现自己,利用周末的时间,估计用了一周的时间,就写完代码,开始仿真了。我以为我的导师兼主管会表扬一下,结果没有,他说:“你为什么没有召集大家讨论?然后再写方 阅读全文
posted @ 2018-12-26 13:32 zourui4271 阅读(295) 评论(0) 推荐(0)

摘要: 对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。 把表(或者分区)组织成桶(Bucket)有两个理由: (1)获得更高的查询处理 阅读全文
posted @ 2018-12-26 13:24 zourui4271 阅读(3048) 评论(0) 推荐(0)