铖歌 - 博客园

3. 图算法

摘要： 3.1 PageRank排名算法 3.1.1 算法概述 PageRank,即网页排名，又称网页级别、Google 左侧排名或佩奇排名是Google 创始人拉里·佩奇和谢尔盖·布林于1997 年构建早期的搜索系统原型时提出的链接分析算法，在揉合了诸如Title 标识和Keywords 标识等所有其阅读全文

posted @ 2020-01-19 20:40 铖歌阅读(309) 评论(0) 推荐(0) 编辑

2. Spark GraphX解析

摘要： 2.1 存储模式 2.1.1 图存储模式巨型图的存储总体上有边分割和点分割两种存储方式 1）边分割(Edge-Cut)：每个顶点都存储一次，但有的边会被打断分到两台机器上。这样做的好处是节省存储空间；坏处是对图进行基于边的计算时，对于一条两个顶点被分到不同机器上的边来说，要跨机器通信传输数据，内网阅读全文

posted @ 2019-12-16 05:23 铖歌阅读(1197) 评论(0) 推荐(0) 编辑

1. Spark GraphX概述

摘要： 1.1 什么是Spark GraphX Spark GraphX是一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求。那么什么是图，都计算些什么?众所周知社交网络中人与人之间有很多关系链，例如Twitter、Facebook、微博阅读全文

posted @ 2019-11-20 22:27 铖歌阅读(717) 评论(0) 推荐(0) 编辑

5. Spark Streaming高级解析

摘要： 5.1 DStreamGraph对象分析在Spark Streaming中，DStreamGraph是一个非常重要的组件，主要用来： 1. 通过成员inputStreams持有Spark Streaming输入源及接收数据的方式 2. 通过成员outputStreams持有Streaming ap 阅读全文

posted @ 2019-10-28 02:11 铖歌阅读(259) 评论(0) 推荐(0) 编辑

4. Spark Streaming解析

摘要： 4.1 初始化StreamingContext 初始化完Context之后： 1) 定义消息输入源来创建DStreams 2) 定义DStreams的转化操作和输出操作 3) 通过streamingContext.start()来启动消息采集和处理 4) 等待程序终止，可以通过streamingCo 阅读全文

posted @ 2019-10-02 05:34 铖歌阅读(263) 评论(0) 推荐(0) 编辑

3. 架构与抽象

摘要： Spark Streaming使用“微批次”的架构，把流式计算当作一系列连续的小规模批处理来对待。Spark Streaming从各种输入源中读取数据，并把数据分组为小的批次新的批次按均匀的时间间隔创建出来。在每个时间区间开始的时候，一个新的批次就创建出来，在该区间内收到的数据都会被添加到这个批次中阅读全文

posted @ 2019-09-21 05:38 铖歌阅读(216) 评论(0) 推荐(0) 编辑

2. 运行Spark Streaming

摘要： 2.1 IDEA编写程序 Pom.xml加入以下依赖：案例如下：按照Spark Core中的方式进行打包，并将程序上传到Spark机器。并运行：通过Netcat发送数据：如果程序运行时，log日志太多，可以将spark conf目录下的log4j文件里面的日志级别改成WARN 阅读全文

posted @ 2019-09-14 22:25 铖歌阅读(141) 评论(0) 推荐(0) 编辑

1. Spark Streaming概述

摘要： 1.1 什么是Spark Streaming Spark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitt 阅读全文

posted @ 2019-09-04 04:03 铖歌阅读(157) 评论(0) 推荐(0) 编辑

8. 数据仓库的建设

摘要： 8.1 什么是数据仓库数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业级所有级别的决策制定过程，提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制数据仓库能干什么阅读全文

posted @ 2019-08-20 23:46 铖歌阅读(249) 评论(0) 推荐(0) 编辑

7. Spark SQL的运行原理

摘要： 7.1 Spark SQL运行架构 Spark SQL对SQL语句的处理和关系型数据库类似，即词法/语法解析、绑定、优化、执行。Spark SQL会先将SQL语句解析成一棵树，然后使用规则(Rule)对Tree进行绑定、优化等处理过程。Spark SQL由Core、Catalyst、Hive、Hiv 阅读全文

posted @ 2019-08-01 17:00 铖歌阅读(268) 评论(0) 推荐(0) 编辑

铖歌