2019年11月1日

摘要:概述 StreamingListener 是针对spark streaming的各个阶段的事件监听机制。 StreamingListener接口 自定义StreamingListener 功能:监控批次处理时间,若超过阈值则告警,每次告警间隔2分钟 应用 订阅关注微信公众号《大数据技术进阶》,及时获 阅读全文
posted @ 2019-11-01 14:42 XIAO的博客 阅读 (50) 评论 (0) 编辑

2019年10月29日

摘要:在本文中,我们将从零开始,教您如何构建第一个Apache Flink (以下简称Flink)应用程序。 开发环境准备 Flink 可以运行在 Linux, Max OS X, 或者是 Windows 上。为了开发 Flink 应用程序,在本地机器上需要有 Java 8.x 和 maven 环境。 如 阅读全文
posted @ 2019-10-29 10:49 XIAO的博客 阅读 (353) 评论 (0) 编辑

2019年10月28日

摘要:本文整理自云栖社区之前对阿里搜索事业部资深搜索专家蒋晓伟老师的一次采访,蒋晓伟老师,认真而严谨。在加入阿里之前,他曾就职于西雅图的脸书,负责过调度系统,Timeline Infra和Messenger的项目。而后在微软的SQL Server引擎担任过Principal Engineer,负责关系数据 阅读全文
posted @ 2019-10-28 11:12 XIAO的博客 阅读 (114) 评论 (0) 编辑

2019年10月25日

摘要:随着人口红利的慢慢削减,互联网产品的厮杀愈加激烈,大家开始看好下沉市场的潜力,拼多多,趣头条等厂商通过拉新奖励,购物优惠等政策率先抢占用户,壮大起来。其他各厂商也紧随其后,纷纷推出自己产品的极速版,如今日头条极速版,腾讯新闻极速版等,也通过拉新奖励,阅读奖励等政策来吸引用户。 对于这类APP,实时风 阅读全文
posted @ 2019-10-25 13:04 XIAO的博客 阅读 (335) 评论 (0) 编辑

2019年10月19日

摘要:作为一名应用系统开发人员,为什么要关注数据内部的存储和检索呢?首先,你不太可能从头开始实现一套自己的存储引擎,往往需要从众多现有的存储引擎中选择一个适合自己应用的存储引擎。因此,为了针对你特定的工作负载而对数据库调优时,最好对存储引擎的底层机制有一个大概的了解。 今天我们就先来了解下关系型数据库My 阅读全文
posted @ 2019-10-19 16:33 XIAO的博客 阅读 (185) 评论 (0) 编辑

2019年10月16日

摘要:1 前言 在使用Kylin的时候,最重要的一步就是创建cube的模型定义,即指定度量和维度以及一些附加信息,然后对cube进行build,当然我们也可以根据原始表中的某一个string字段(这个字段的格式必须是日期格式,表示日期的含义)设定分区字段,这样一个cube就可以进行多次build,每一次的 阅读全文
posted @ 2019-10-16 13:36 XIAO的博客 阅读 (141) 评论 (0) 编辑

2019年10月14日

摘要:1 Kylin是什么 今天,随着移动互联网、物联网、AI等技术的快速兴起,数据成为了所有这些技术背后最重要,也是最有价值的“资产”。如何从数据中获得有价值的信息?这个问题驱动了相关技术的发展,从最初的基于文件的检索、分析程序,到数据仓库理念的诞生,再到基于数据库的商业智能分析。而现在,这一问题已经变 阅读全文
posted @ 2019-10-14 13:47 XIAO的博客 阅读 (330) 评论 (0) 编辑

2019年10月12日

摘要:前面的文章中我们讲道,像趣头条类的APP对于收徒和阅读行为给予用户现金奖励的方式势必会受到大量羊毛党黑产的注意,其实单个用户能薅到的钱是没有多少的,为了达到利益最大化,黑产肯定会利用各种手段构建大量账号来薅APP运营企业的羊毛,因为收徒的奖励远高于阅读,所以赚取收徒奖励就成了最严重的薅羊毛手段。前文 阅读全文
posted @ 2019-10-12 10:19 XIAO的博客 阅读 (308) 评论 (0) 编辑

2019年10月10日

摘要:随着移动互联网的发展,万物互联成为了可能,这种互联所产生的数据也在爆发式地增长,而这些数据恰好可以作为分析关系的有效原料。如果说以往的智能分析专注在每一个个体上,在移动互联网时代则除了个体,这种个体之间的关系也必然成为我们需要深入分析的很重要一部分。在一项任务中,只要有关系分析的需求,知识图谱就“有 阅读全文
posted @ 2019-10-10 14:17 XIAO的博客 阅读 (394) 评论 (0) 编辑

2019年10月9日

摘要:首先我们来看一个典型的互联网大数据平台的架构,如下图所示: 在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使用开源大数据产品或者自己开发相关大数据组件。 你可以看到,大数据平台由上到下,可分为三个部分:数据采 阅读全文
posted @ 2019-10-09 16:22 XIAO的博客 阅读 (402) 评论 (0) 编辑

导航

统计