随笔列表第6页 - 数据驱动

2020年6月27日

摘要：一、安装 Scala 插件 Flink 分别提供了基于 Java 语言和 Scala 语言的 API ，如果想要使用 Scala 语言来开发 Flink 程序，可以通过在 IDEA 中安装 Scala 插件来提供语法提示，代码高亮等功能。打开 IDEA , 依次点击 File => settings 阅读全文

posted @ 2020-06-27 19:39 数据驱动阅读(2268) 评论(0) 推荐(0) 编辑

大数据基础---Flink核心概念综述

摘要：一、Flink 简介 Apache Flink 诞生于柏林工业大学的一个研究性项目，原名 StratoSphere 。2014 年，由 StratoSphere 项目孵化出 Flink，并于同年捐赠 Apache，之后成为 Apache 的顶级项目。2019 年 1 年，阿里巴巴收购了 Flink 阅读全文

posted @ 2020-06-27 17:09 数据驱动阅读(626) 评论(0) 推荐(0) 编辑

大数据基础---Spark_Streaming整合Kafka

摘要：一、版本说明 Spark 针对 Kafka 的不同版本，提供了两套整合方案：spark-streaming-kafka-0-8 和 spark-streaming-kafka-0-10，其主要区别如下： spark-streaming-kafka-0-8 spark-streaming-kafka- 阅读全文

posted @ 2020-06-27 00:30 数据驱动阅读(233) 评论(0) 推荐(0) 编辑

2020年6月26日

大数据基础---Spark_Streaming整合Flume

摘要：一、简介 Apache Flume 是一个分布式，高可用的数据收集系统，可以从不同的数据源收集数据，经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。二、推送式方法在推送式方法 (Flume-style Push-based 阅读全文

posted @ 2020-06-26 23:39 数据驱动阅读(296) 评论(0) 推荐(0) 编辑

大数据基础---Spark_Streaming基本操作

摘要：一、案例引入这里先引入一个基本的案例来演示流的创建：获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactI 阅读全文

posted @ 2020-06-26 22:34 数据驱动阅读(419) 评论(0) 推荐(0) 编辑

大数据基础---Spark_Streaming与流处理

摘要：一、流处理 1.1 静态数据处理在流处理之前，数据通常存储在数据库，文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop 采用 HDFS 进行数据存储，采用 MapReduce 进行数据查询或分析，这就是典型的静态数据处理架构。 1.2 流阅读全文

posted @ 2020-06-26 18:02 数据驱动阅读(487) 评论(0) 推荐(0) 编辑

大数据基础---SparkSQL联结操作

摘要：一、数据准备本文主要介绍 Spark SQL 的多表连接，需要预先准备测试数据。分别创建员工和部门的 Datafame，并注册为临时视图，代码如下： val spark = SparkSession.builder().appName("aggregations").master("local[ 阅读全文

posted @ 2020-06-26 17:44 数据驱动阅读(484) 评论(0) 推荐(0) 编辑

大数据基础---SparkSQL常用聚合函数

摘要：一、简单聚合 1.1 数据准备 // 需要导入 spark sql 内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSession.builder().appName("aggregations").master("lo 阅读全文

posted @ 2020-06-26 17:22 数据驱动阅读(2577) 评论(0) 推荐(0) 编辑

大数据基础---SparkSQL外部数据源

摘要：一、简介 1.1 多数据源支持 Spark 支持以下六个核心数据源，同时 Spark 社区还提供了多达上百种数据源的读取方式，能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections Plain-text files 注：以下所有测试文件均可从阅读全文

posted @ 2020-06-26 16:52 数据驱动阅读(1006) 评论(0) 推荐(0) 编辑

大数据基础---Spark_Structured API的基本使用

摘要：一、创建DataFrame和Dataset 1.1 创建DataFrame Spark 中所有功能的入口点是 SparkSession，可以使用 SparkSession.builder() 创建。创建后应用程序就可以从现有 RDD，Hive 表或 Spark 数据源创建 DataFrame。示例如阅读全文

posted @ 2020-06-26 15:43 数据驱动阅读(293) 评论(0) 推荐(0) 编辑

数据驱动

公告