随笔分类 - spark
摘要:spark SQL 性能调整对于某些工作负载,可以通过在内存中缓存数据或打开一些实验选项来提高性能。1,在内存中缓存数据 Spark SQL可以通过调用spark.catalog.cacheTable("tableName")或使用内存中的列格式缓存表da...
阅读全文
摘要:1,JSON数据集 Spark SQL可以自动推断JSON数据集的模式,并将其作为一个Dataset[Row]。这个转换可以SparkSession.read.json()在一个Dataset[String]或者一个JSON文件上完成。 请注意,作为json文件提供的文件不是典型的JSON文件。每行
阅读全文
摘要:spark SQL Parquet 文件的读取与加载 是由许多其他数据处理系统支持的柱状格式。Spark SQL支持阅读和编写自动保留原始数据模式的Parquet文件。在编写Parquet文件时,出于兼容性原因,所有列都会自动转换为空。1, 以编程方式加载数据...
阅读全文
摘要:Spark SQL 的数据源------通用的数据 加载/保存功能 Spark SQL支持通过DataFrame接口在各种数据源上进行操作。DataFrame可以使用关系变换进行操作,也可以用来创建临时视图。将DataFrame 注册为...
阅读全文
摘要:聚合内置功能DataFrames提供共同聚合,例如count(),countDistinct(),avg(),max(),min(),等。虽然这些功能是专为DataFrames,spark SQL还拥有类型安全的版本,在其中的一些 scala 和 Java...
阅读全文
摘要:一, 简介 Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息来执行额外的优化。有几...
阅读全文
摘要:本文从头开始零基础完全配置,适合小白。 本文在vmware中配置三台虚拟机,一台做Master,两台Worker,hadoop 和spark只需要在Master上配置,然后cp到worker上,包括配置文件。Ubuntu基本环境配置创建hadoop用户在终端中输入su...
阅读全文
摘要:错误信息:17/05/20 18:51:39 ERROR JobScheduler: Error running job streaming job 1495277499000 ms.0org.apache.spark.SparkException: Task not...
阅读全文
摘要:环境准备: ubuntu 开发环境: jdk 1.8 scala:2.11.0 spark 2.0 zookeeper 3.4.6 kafka 2.12-0.10.2.0 开始整合: 1 zookeeper的安装,这里我使用的zookeeper版本为3.4.6 a, 下载zookeeper安装包zo
阅读全文

浙公网安备 33010602011771号