摘要: 调优概述# 几乎在很多场景,MapRdeuce或者说分布式架构,都会在IO受限,硬盘或者网络读取数据遇到瓶颈.处理数据瓶颈CPU受限.大量的硬盘读写数据是海量数据分析常见情况. IO受限例子: 索引 分组 数据倒入导出 数据移动和转换 CPU受限例子: 聚类/分类 复杂的文本挖掘 特征提取 用户画像 阅读全文
posted @ 2019-09-15 23:40 老白条 阅读(4131) 评论(0) 推荐(0) 编辑
摘要: 本篇核心目标是让大家概要了解一个完整的 Apache Flink SQL Job 的组成部分,以及 Apache Flink SQL 所提供的核心算子的语义,最后会应用 TumbleWindow 编写一个 End-to-End 的页面访问的统计示例。 1.Apache Flink SQL Job 的 阅读全文
posted @ 2019-09-15 23:40 老白条 阅读(8987) 评论(0) 推荐(1) 编辑
摘要: 本文主要内容如下: 有状态的流数据处理; Flink中的状态接口; 状态管理和容错机制实现; 阿里相关工作介绍; 一.有状态的流数据处理# 1.1.什么是有状态的计算# 计算任务的结果不仅仅依赖于输入,还依赖于它的当前状态,其实大多数的计算都是有状态的计算。 比如wordcount,给一些word, 阅读全文
posted @ 2019-09-15 23:38 老白条 阅读(1067) 评论(0) 推荐(0) 编辑
摘要: 前言 Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性,希望能够帮助读者对Flink有更加深入的了解,对其他大数据系统开发者也能有所裨益。本文假设读者已对Map 阅读全文
posted @ 2019-09-15 23:37 老白条 阅读(6202) 评论(0) 推荐(2) 编辑
摘要: Flink跟其他的流计算引擎相比,最突出或者做的最好的就是状态的管理.什么是状态呢?比如我们在平时的开发中,需要对数据进行count,sum,max等操作,这些中间的结果(即是状态)是需要保存的,因为要不断的更新,这些值或者变量就可以理解为是一种状态,拿读取kafka为例,我们需要记录数据读取的位置 阅读全文
posted @ 2019-09-15 23:24 老白条 阅读(765) 评论(0) 推荐(1) 编辑
摘要: 因为平常只会使用kylin而不知其原理,故写下此篇文章。文章不是自己原创,是看过很多资料,查过很多博客,有自己的理解,觉得精华的部分的一个集合。算是自己对Kylin学习完的一个总结和概括吧。文章最后有链接,需要请自取。 前言 企业中的查询大致可分为即席查询和定制查询两种。很多的OLAP引擎包括Hiv 阅读全文
posted @ 2019-09-15 23:07 老白条 阅读(1411) 评论(0) 推荐(1) 编辑
摘要: kylin从入门到实战:实际案例 版权申明:转载请注明出处。文章来源:http://bigdataer.net/?p=308 排版乱?请移步原文获得更好的阅读体验 前面两篇文章已经介绍了kylin的相关概念以及cube的一些原理,这篇文章将从一个实际的案例入手,介绍如何在kylin平台上创建一个多维 阅读全文
posted @ 2019-09-15 23:04 老白条 阅读(1773) 评论(0) 推荐(0) 编辑