数据驱动

2020年6月26日

摘要：一、简介 1.1 多数据源支持 Spark 支持以下六个核心数据源，同时 Spark 社区还提供了多达上百种数据源的读取方式，能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections Plain-text files 注：以下所有测试文件均可从阅读全文

posted @ 2020-06-26 16:52 数据驱动阅读(1097) 评论(0) 推荐(0)

大数据基础---Spark_Structured API的基本使用

摘要：一、创建DataFrame和Dataset 1.1 创建DataFrame Spark 中所有功能的入口点是 SparkSession，可以使用 SparkSession.builder() 创建。创建后应用程序就可以从现有 RDD，Hive 表或 Spark 数据源创建 DataFrame。示例如阅读全文

posted @ 2020-06-26 15:43 数据驱动阅读(324) 评论(0) 推荐(0)

大数据基础---SparkSQL_Dataset和DataFrame简介

摘要：一、Spark SQL简介 Spark SQL 是 Spark 中的一个子模块，主要用于操作结构化数据。它具有以下特点：能够将 SQL 查询与 Spark 程序无缝混合，允许您使用 SQL 或 DataFrame API 对结构化数据进行查询；支持多种开发语言；支持多达上百种的外部数据源，包括阅读全文

posted @ 2020-06-26 10:54 数据驱动阅读(924) 评论(0) 推荐(0)

大数据基础---基于Zookeeper搭建Spark高可用集群

摘要：一、集群规划这里搭建一个 3 节点的 Spark 集群，其中三台主机上均部署 Worker 服务。同时为了保证高可用，除了在 hadoop001 上部署主 Master 服务外，还在 hadoop002 和 hadoop003 上分别部署备用的 Master 服务，Master 服务由 Zooke 阅读全文

posted @ 2020-06-26 10:20 数据驱动阅读(357) 评论(0) 推荐(0)

大数据基础---Spark累加器与广播变量

摘要：一、简介在 Spark 中，提供了两种类型的共享变量：累加器 (accumulator) 与广播变量 (broadcast variable)：累加器：用来对信息进行聚合，主要用于累计计数等场景；广播变量：主要用于在节点间高效分发大对象。二、累加器这里先看一个具体的场景，对于正常的累计求和阅读全文

posted @ 2020-06-26 09:56 数据驱动阅读(266) 评论(0) 推荐(0)

大数据基础---Spark部署模式与作业提交

摘要：一、作业提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业，其格式如下： ./bin/spark-submit \ --class <main-class> \ # 应用程序主入口类 --master <master-url> \ # 集群的阅读全文

posted @ 2020-06-26 09:10 数据驱动阅读(487) 评论(0) 推荐(0)

大数据基础---Spark_Transformation和Action算子

摘要：一、Transformation spark 常用的 Transformation 算子如下表： Transformation 算子 Meaning（含义） map(func) 对原 RDD 中每个元素运用 func 函数，并生成新的 RDD filter(func) 对原 RDD 中每个元素使用f 阅读全文

posted @ 2020-06-26 00:00 数据驱动阅读(350) 评论(0) 推荐(0)

2020年6月25日

大数据基础---Spark_RDD

摘要：一、RDD简介 RDD 全称为 Resilient Distributed Datasets，是 Spark 最基本的数据抽象，它是只读的、分区记录的集合，支持并行操作，可以由外部数据集或其他 RDD 转换而来，它具有以下特性：一个 RDD 由一个或者多个分区（Partitions）组成。对于 R 阅读全文

posted @ 2020-06-25 20:52 数据驱动阅读(301) 评论(0) 推荐(0)

大数据基础---Spark开发环境搭建

摘要：一、安装Spark 1.1 下载并解压官方下载地址：http://spark.apache.org/downloads.html ，选择 Spark 版本和对应的 Hadoop 版本后再下载：解压安装包： # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 阅读全文

posted @ 2020-06-25 19:57 数据驱动阅读(442) 评论(0) 推荐(0)

大数据基础---Spark简介

摘要：一、简介 Spark 于 2009 年诞生于加州大学伯克利分校 AMPLab，2013 年被捐赠给 Apache 软件基金会，2014 年 2 月成为 Apache 的顶级项目。相对于 MapReduce 的批处理计算，Spark 可以带来上百倍的性能提升，因此它成为继 MapReduce 之后，最阅读全文

posted @ 2020-06-25 19:21 数据驱动阅读(754) 评论(0) 推荐(0)

公告