从外部存储的结构化文件创建DataFrame(options的多种模式)---常用的一种方式
options的多种模式
Option可选操作项
.option("mode", "FAILFAST") // 读取模式
读取模式的常用值有
permissive:当遇到损坏的记录时,将其所有字段设置为 null,
dropMalformed:删除格式不正确的行
failFast:遇到格式不正确的数据时立即失败
.option("inferSchema", "true") // 是否自动推断 schema
.option("path", "path/to/file(s)") // 文件路径
.option("header", "false") // 文件中的第一行是否为列的名称 CSV文件使用
1. 从txt文件中创建DataFrame
从txt文件中创建DataFrame
如果是从普通的文本文件创建DataFrame 文件中的列和列的分隔符不清楚
所以创建的DataFrame只有一列,一列就是一行数据
val sc = new SparkConf().setMaster("local[2]").setAppName("demo")
val session = SparkSession.builder().config(sc).getOrCreate()
val map = Map[String, String]("mode" -> "FAILFAST", "inferSchema" -> "true")
val frame = session.read.options(map).text("hdfs://node1:9000/student.txt")
frame.show()
2. 从json文件中创建DataFrame -- 常用
从json文件中创建DataFrame -- 常用 -- 列名就是json对象的key值
{"name": "zs","age": 20,"sex":"男"}
json文件只能存在json对象,每一个json对象之间以换行符分隔
val map1 = Map[String, String]("mode" -> "FAILFAST", "inferSchema" -> "true")
val dataFrame = session.read.options(map1).json("hdfs://node1:9000/student.json")
dataFrame.show()
3. 从csv文件中创建DataFrame -- 最常用
从csv文件中创建DataFrame -- 最常用 -- 大数据中的很多数据都是以csv文件格式存储的
csv文件--是以,分割的一种文件格式,可以使用execel或者记事本打开的一种特殊的结构化数据我呢见
"header"->"true"把第一列当作表格的列名来处理
val map2 = Map[String, String]("mode" -> "FAILFAST", "inferSchema" -> "true", "header" -> "true")
val dataFrame2 = session.read.options(map2).csv("hdfs://node1:9000/student.csv")
dataFrame2.show()
val dataFrame4 = session.read.options(map2).format("json").load("hdfs://node1:9000/student.json")
dataFrame4.show()
// sparksql将结果输出方式写出
// dataFrame2.write.mode("append").parquet("hdfs://node1:9000/parquet")
4. 从parquet格式创建DataFrame--常用
从parquet格式创建DataFrame--常用
parquet格式文件Hive、SparkSQL、Flink都支持。列式存储文件格式
val dataFrame3 = session.read.options(map2).parquet("hdfs://node1:9000/parquet")
dataFrame3.show()
本文来自博客园,作者:jsqup,转载请注明原文链接:https://www.cnblogs.com/jsqup/p/16630333.html

浙公网安备 33010602011771号