会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
数据驱动
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
10
···
14
下一页
2020年6月28日
大数据基础---Flink_Data_Transformation
摘要: 一、Transformations 分类 Flink 的 Transformations 操作主要用于将一个和多个 DataStream 按需转换成新的 DataStream。它主要分为以下三类: DataStream Transformations:进行数据流相关转换操作; Physical pa
阅读全文
posted @ 2020-06-28 07:44 数据驱动
阅读(305)
评论(0)
推荐(0)
2020年6月27日
大数据基础---Flink_Data_Source
摘要: 一、内置 Data Source Flink Data Source 用于定义 Flink 程序的数据来源,Flink 官方提供了多种数据获取方法,用于帮助开发者简单快速地构建输入流,具体如下: 1.1 基于文件构建 1. readTextFile(path):按照 TextInputFormat
阅读全文
posted @ 2020-06-27 21:49 数据驱动
阅读(621)
评论(0)
推荐(1)
大数据基础---Flink开发环境搭建
摘要: 一、安装 Scala 插件 Flink 分别提供了基于 Java 语言和 Scala 语言的 API ,如果想要使用 Scala 语言来开发 Flink 程序,可以通过在 IDEA 中安装 Scala 插件来提供语法提示,代码高亮等功能。打开 IDEA , 依次点击 File => settings
阅读全文
posted @ 2020-06-27 19:39 数据驱动
阅读(2355)
评论(0)
推荐(0)
大数据基础---Flink核心概念综述
摘要: 一、Flink 简介 Apache Flink 诞生于柏林工业大学的一个研究性项目,原名 StratoSphere 。2014 年,由 StratoSphere 项目孵化出 Flink,并于同年捐赠 Apache,之后成为 Apache 的顶级项目。2019 年 1 年,阿里巴巴收购了 Flink
阅读全文
posted @ 2020-06-27 17:09 数据驱动
阅读(723)
评论(0)
推荐(0)
大数据基础---Spark_Streaming整合Kafka
摘要: 一、版本说明 Spark 针对 Kafka 的不同版本,提供了两套整合方案:spark-streaming-kafka-0-8 和 spark-streaming-kafka-0-10,其主要区别如下: spark-streaming-kafka-0-8 spark-streaming-kafka-
阅读全文
posted @ 2020-06-27 00:30 数据驱动
阅读(267)
评论(0)
推荐(0)
2020年6月26日
大数据基础---Spark_Streaming整合Flume
摘要: 一、简介 Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。 二、推送式方法 在推送式方法 (Flume-style Push-based
阅读全文
posted @ 2020-06-26 23:39 数据驱动
阅读(334)
评论(0)
推荐(0)
大数据基础---Spark_Streaming基本操作
摘要: 一、案例引入 这里先引入一个基本的案例来演示流的创建:获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactI
阅读全文
posted @ 2020-06-26 22:34 数据驱动
阅读(450)
评论(0)
推荐(0)
大数据基础---Spark_Streaming与流处理
摘要: 一、流处理 1.1 静态数据处理 在流处理之前,数据通常存储在数据库,文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop 采用 HDFS 进行数据存储,采用 MapReduce 进行数据查询或分析,这就是典型的静态数据处理架构。 1.2 流
阅读全文
posted @ 2020-06-26 18:02 数据驱动
阅读(516)
评论(0)
推荐(0)
大数据基础---SparkSQL联结操作
摘要: 一、 数据准备 本文主要介绍 Spark SQL 的多表连接,需要预先准备测试数据。分别创建员工和部门的 Datafame,并注册为临时视图,代码如下: val spark = SparkSession.builder().appName("aggregations").master("local[
阅读全文
posted @ 2020-06-26 17:44 数据驱动
阅读(520)
评论(0)
推荐(0)
大数据基础---SparkSQL常用聚合函数
摘要: 一、简单聚合 1.1 数据准备 // 需要导入 spark sql 内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSession.builder().appName("aggregations").master("lo
阅读全文
posted @ 2020-06-26 17:22 数据驱动
阅读(2664)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
10
···
14
下一页
公告