spark - 随笔分类 - zhou_jun

spark SQL（六）性能调整

摘要：spark SQL 性能调整对于某些工作负载，可以通过在内存中缓存数据或打开一些实验选项来提高性能。1，在内存中缓存数据 Spark SQL可以通过调用spark.catalog.cacheTable("tableName")或使用内存中的列格式缓存表da... 阅读全文

posted @ 2017-12-30 14:41 zhou_jun 阅读(719) 评论(0) 推荐(0)

spark SQL （五）数据源 Data Source----json hive jdbc等数据的的读取与加载

摘要：1，JSON数据集 Spark SQL可以自动推断JSON数据集的模式，并将其作为一个Dataset[Row]。这个转换可以SparkSession.read.json()在一个Dataset[String]或者一个JSON文件上完成。请注意，作为json文件提供的文件不是典型的JSON文件。每行阅读全文

posted @ 2017-12-30 13:50 zhou_jun 阅读(1078) 评论(0) 推荐(0)

spark SQL （四）数据源 Data Source----Parquet 文件的读取与加载

摘要：spark SQL Parquet 文件的读取与加载是由许多其他数据处理系统支持的柱状格式。Spark SQL支持阅读和编写自动保留原始数据模式的Parquet文件。在编写Parquet文件时，出于兼容性原因，所有列都会自动转换为空。1，以编程方式加载数据... 阅读全文

posted @ 2017-12-30 12:59 zhou_jun 阅读(2414) 评论(0) 推荐(0)

spark SQL（三）数据源 Data Source----通用的数据加载/保存功能

摘要：Spark SQL 的数据源------通用的数据加载/保存功能 Spark SQL支持通过DataFrame接口在各种数据源上进行操作。DataFrame可以使用关系变换进行操作，也可以用来创建临时视图。将DataFrame 注册为... 阅读全文

posted @ 2017-12-30 11:25 zhou_jun 阅读(961) 评论(0) 推荐(0)

spark SQL （二）聚合

摘要：聚合内置功能DataFrames提供共同聚合，例如count()，countDistinct()，avg()，max()，min()，等。虽然这些功能是专为DataFrames，spark SQL还拥有类型安全的版本，在其中的一些 scala 和 Java... 阅读全文

posted @ 2017-12-23 16:48 zhou_jun 阅读(826) 评论(0) 推荐(0)

spark SQL （一）初识，简介

摘要：一，简介 Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同，Spark SQL提供的接口为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部，Spark SQL使用这些额外的信息来执行额外的优化。有几... 阅读全文

posted @ 2017-12-23 15:31 zhou_jun 阅读(278) 评论(0) 推荐(0)

Spark-1.6.1 Hadoop-2.6.4 VMware Ubuntu 分布式集群搭建全过程

摘要：本文从头开始零基础完全配置，适合小白。本文在vmware中配置三台虚拟机，一台做Master，两台Worker，hadoop 和spark只需要在Master上配置，然后cp到worker上，包括配置文件。Ubuntu基本环境配置创建hadoop用户在终端中输入su... 阅读全文

posted @ 2017-09-24 13:32 zhou_jun 阅读(226) 评论(0) 推荐(0)

Spark运行程序异常信息： org.apache.spark.SparkException: Task not serializable 解决办法

摘要：错误信息：17/05/20 18:51:39 ERROR JobScheduler: Error running job streaming job 1495277499000 ms.0org.apache.spark.SparkException: Task not... 阅读全文

posted @ 2017-05-20 18:53 zhou_jun 阅读(4919) 评论(0) 推荐(0)

Zookeeper+Kafka+Spark streaming单机整合开发

摘要：环境准备： ubuntu 开发环境： jdk 1.8 scala：2.11.0 spark 2.0 zookeeper 3.4.6 kafka 2.12-0.10.2.0 开始整合： 1 zookeeper的安装，这里我使用的zookeeper版本为3.4.6 a，下载zookeeper安装包zo 阅读全文

posted @ 2017-05-14 16:44 zhou_jun 阅读(876) 评论(0) 推荐(0)

zhou_jun

纵有疾风起，人生不言弃！没有做不到的事情，只有逃避的自己！fighting！

随笔分类 - spark

公告

zhou_jun

纵有疾风起，人生不言弃！ 没有做不到的事情，只有逃避的自己！fighting！

随笔分类 - spark

公告

纵有疾风起，人生不言弃！没有做不到的事情，只有逃避的自己！fighting！