1.27总结
第十一天
今天开始学习spark sql
第二章:SparkSQL概述
SparkSQL和Hive的异同

SparkSQL的数据抽象

SparkSQL数据抽象的发展

DataFrame数据抽象


SparkSession对象

SparkSQL HelloWorld
# coding:utf8 # SparkSession对象的导包, 对象是来自于 pyspark.sql包中 from pyspark.sql import SparkSession if __name__ == '__main__': # 构建SparkSession执行环境入口对象 spark = SparkSession.builder.\ appName("test").\ master("local[*]").\ getOrCreate() # 通过SparkSession对象 获取 SparkContext对象 sc = spark.sparkContext # SparkSQL的HelloWorld df = spark.read.csv("../data/input/stu_score.txt", sep=',', header=False) df2 = df.toDF("id", "name", "score") df2.printSchema() df2.show() df2.createTempView("score") # SQL 风格 spark.sql(""" SELECT * FROM score WHERE name='语文' LIMIT 5 """).show() # DSL 风格 df2.where("name='语文'").limit(5).show()

浙公网安备 33010602011771号