3. 图算法

摘要:3.1 PageRank排名算法 3.1.1 算法概述 PageRank,即网页排名,又称网页级别、Google 左侧排名或佩奇排名 是Google 创始人拉里·佩奇和谢尔盖·布林于1997 年构建早期的搜索系统原型时提出的链 接分析算法,在揉合了诸如Title 标识和Keywords 标识等所有其 阅读全文
posted @ 2020-01-19 20:40 铖歌 阅读 (10) 评论 (0) 编辑

2. Spark GraphX解析

摘要:2.1 存储模式 2.1.1 图存储模式 巨型图的存储总体上有边分割和点分割两种存储方式 1)边分割(Edge-Cut):每个顶点都存储一次,但有的边会被打断分到两台机器上。这样做的好处是节省存储空间;坏处是对图进行基于边的计算时,对于一条两个顶点被分到不同机器上的边来说,要跨机器通信传输数据,内网 阅读全文
posted @ 2019-12-16 05:23 铖歌 阅读 (34) 评论 (0) 编辑

1. Spark GraphX概述

摘要:1.1 什么是Spark GraphX Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。那么什么是图,都计算些什么?众所周知社交网络中人与人之间有很多关系链,例如Twitter、Facebook、微博 阅读全文
posted @ 2019-11-20 22:27 铖歌 阅读 (61) 评论 (0) 编辑

5. Spark Streaming高级解析

摘要:5.1 DStreamGraph对象分析 在Spark Streaming中,DStreamGraph是一个非常重要的组件,主要用来: 1. 通过成员inputStreams持有Spark Streaming输入源及接收数据的方式 2. 通过成员outputStreams持有Streaming ap 阅读全文
posted @ 2019-10-28 02:11 铖歌 阅读 (37) 评论 (0) 编辑

4. Spark Streaming解析

摘要:4.1 初始化StreamingContext 初始化完Context之后: 1) 定义消息输入源来创建DStreams 2) 定义DStreams的转化操作和输出操作 3) 通过streamingContext.start()来启动消息采集和处理 4) 等待程序终止,可以通过streamingCo 阅读全文
posted @ 2019-10-02 05:34 铖歌 阅读 (47) 评论 (0) 编辑

3. 架构与抽象

摘要:Spark Streaming使用“微批次”的架构,把流式计算当作一系列连续的小规模批处理来对待。Spark Streaming从各种输入源中读取数据,并把数据分组为小的批次新的批次按均匀的时间间隔创建出来。在每个时间区间开始的时候,一个新的批次就创建出来,在该区间内收到的数据都会被添加到这个批次中 阅读全文
posted @ 2019-09-21 05:38 铖歌 阅读 (23) 评论 (0) 编辑

2. 运行Spark Streaming

摘要:2.1 IDEA编写程序 Pom.xml加入以下依赖: 案例如下: 按照Spark Core中的方式进行打包,并将程序上传到Spark机器。并运行: 通过Netcat发送数据: 如果程序运行时,log日志太多,可以将spark conf目录下的log4j文件里面的日志级别改成WARN 阅读全文
posted @ 2019-09-14 22:25 铖歌 阅读 (23) 评论 (0) 编辑

1. Spark Streaming概述

摘要:1.1 什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitt 阅读全文
posted @ 2019-09-04 04:03 铖歌 阅读 (25) 评论 (0) 编辑

8. 数据仓库的建设

摘要:8.1 什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业级所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制 数据仓库能干什么 阅读全文
posted @ 2019-08-20 23:46 铖歌 阅读 (31) 评论 (0) 编辑

7. Spark SQL的运行原理

摘要:7.1 Spark SQL运行架构 Spark SQL对SQL语句的处理和关系型数据库类似,即词法/语法解析、绑定、优化、执行。Spark SQL会先将SQL语句解析成一棵树,然后使用规则(Rule)对Tree进行绑定、优化等处理过程。Spark SQL由Core、Catalyst、Hive、Hiv 阅读全文
posted @ 2019-08-01 17:00 铖歌 阅读 (39) 评论 (0) 编辑

统计