随笔分类 -  spark

摘要:spark SQL 性能调整对于某些工作负载,可以通过在内存中缓存数据或打开一些实验选项来提高性能。1,在内存中缓存数据 Spark SQL可以通过调用spark.catalog.cacheTable("tableName")或使用内存中的列格式缓存表da... 阅读全文
posted @ 2017-12-30 14:41 zhou_jun 阅读(719) 评论(0) 推荐(0)
摘要:1,JSON数据集 Spark SQL可以自动推断JSON数据集的模式,并将其作为一个Dataset[Row]。这个转换可以SparkSession.read.json()在一个Dataset[String]或者一个JSON文件上完成。 请注意,作为json文件提供的文件不是典型的JSON文件。每行 阅读全文
posted @ 2017-12-30 13:50 zhou_jun 阅读(1078) 评论(0) 推荐(0)
摘要:spark SQL Parquet 文件的读取与加载 是由许多其他数据处理系统支持的柱状格式。Spark SQL支持阅读和编写自动保留原始数据模式的Parquet文件。在编写Parquet文件时,出于兼容性原因,所有列都会自动转换为空。1, 以编程方式加载数据... 阅读全文
posted @ 2017-12-30 12:59 zhou_jun 阅读(2414) 评论(0) 推荐(0)
摘要:Spark SQL 的数据源------通用的数据 加载/保存功能 Spark SQL支持通过DataFrame接口在各种数据源上进行操作。DataFrame可以使用关系变换进行操作,也可以用来创建临时视图。将DataFrame 注册为... 阅读全文
posted @ 2017-12-30 11:25 zhou_jun 阅读(961) 评论(0) 推荐(0)
摘要:聚合内置功能DataFrames提供共同聚合,例如count(),countDistinct(),avg(),max(),min(),等。虽然这些功能是专为DataFrames,spark SQL还拥有类型安全的版本,在其中的一些 scala 和 Java... 阅读全文
posted @ 2017-12-23 16:48 zhou_jun 阅读(826) 评论(0) 推荐(0)
摘要:一, 简介 Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息来执行额外的优化。有几... 阅读全文
posted @ 2017-12-23 15:31 zhou_jun 阅读(278) 评论(0) 推荐(0)
摘要:本文从头开始零基础完全配置,适合小白。 本文在vmware中配置三台虚拟机,一台做Master,两台Worker,hadoop 和spark只需要在Master上配置,然后cp到worker上,包括配置文件。Ubuntu基本环境配置创建hadoop用户在终端中输入su... 阅读全文
posted @ 2017-09-24 13:32 zhou_jun 阅读(226) 评论(0) 推荐(0)
摘要:错误信息:17/05/20 18:51:39 ERROR JobScheduler: Error running job streaming job 1495277499000 ms.0org.apache.spark.SparkException: Task not... 阅读全文
posted @ 2017-05-20 18:53 zhou_jun 阅读(4919) 评论(0) 推荐(0)
摘要:环境准备: ubuntu 开发环境: jdk 1.8 scala:2.11.0 spark 2.0 zookeeper 3.4.6 kafka 2.12-0.10.2.0 开始整合: 1 zookeeper的安装,这里我使用的zookeeper版本为3.4.6 a, 下载zookeeper安装包zo 阅读全文
posted @ 2017-05-14 16:44 zhou_jun 阅读(876) 评论(0) 推荐(0)