Fork me on GitHub

随笔分类 -  ●实时计算

摘要:大赛简介 目前互联网领域有很多公司都在做APP领域的“用户行为分析”产品,与Web时代的行为分析相类似,其目的都是帮助公司的运营、产品等部门更好地优化自家产品,比如查看日活和月活,查看渠道来源,提高留存、转化、活跃度等等。 在这个研发过程中,有个比较核心的需求,叫做“有序漏斗”。“有序漏斗”问题定义 阅读全文
posted @ 2017-08-09 15:27 程序优化 阅读(539) 评论(0) 推荐(0)
摘要:Apache Spark 内存管理详解Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,... 阅读全文
posted @ 2017-04-05 10:00 程序优化 阅读(231) 评论(0) 推荐(0)
摘要:比如RDD里的计算调用了别的组件类里的方法(比如hbase里的put方法),那么序列化时,会将该方法所属的对象的所有变量都序列化的,可能有些根本没有实现序列化导致直接报错。也就是spark的api没有做到用户无感知,在使用一些全局方法时还需自己控制。简单点的... 阅读全文
posted @ 2016-03-19 22:33 程序优化 阅读(1000) 评论(0) 推荐(0)
摘要:Spark Streaming 实现思路与模块概述[酷玩 Spark] Spark Streaming 源码解析系列 ,返回目录请 猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围:2016.01.04 update, Spark 1.6 全系列 √ (1.6... 阅读全文
posted @ 2016-02-05 16:19 程序优化 阅读(296) 评论(0) 推荐(0)
摘要:Spark Streaming 的一些问题,做选型前关注这些问题可以有效的降低使用风险。checkpointcheckpoint 是个很好的恢复机制。但是方案比较粗暴,直接通过序列化的机制写入到文件系统,导致代码变更和配置变更无法生效。实际场景是升级往往比系统崩溃的频... 阅读全文
posted @ 2016-01-18 01:19 程序优化 阅读(583) 评论(0) 推荐(0)
摘要:1.Spark简介什么是Spark? Spark是UC BerkeleyAmp实验室开源的类Hadoop M... 阅读全文
posted @ 2015-06-24 16:07 程序优化 阅读(253) 评论(0) 推荐(0)