1.27总结

第十一天

今天开始学习spark sql

 

第二章:SparkSQL概述

 SparkSQL和Hive的异同

 

 SparkSQL的数据抽象

 

SparkSQL数据抽象的发展

 

DataFrame数据抽象

 

 

SparkSession对象

 

 

SparkSQL HelloWorld

# coding:utf8

# SparkSession对象的导包, 对象是来自于 pyspark.sql包中
from pyspark.sql import SparkSession

if __name__ == '__main__':
    # 构建SparkSession执行环境入口对象
    spark = SparkSession.builder.\
        appName("test").\
        master("local[*]").\
        getOrCreate()

    # 通过SparkSession对象 获取 SparkContext对象
    sc = spark.sparkContext

    # SparkSQL的HelloWorld
    df = spark.read.csv("../data/input/stu_score.txt", sep=',', header=False)
    df2 = df.toDF("id", "name", "score")
    df2.printSchema()
    df2.show()

    df2.createTempView("score")

    # SQL 风格
    spark.sql("""
        SELECT * FROM score WHERE name='语文' LIMIT 5
    """).show()

    # DSL 风格
    df2.where("name='语文'").limit(5).show()

 

posted @ 2024-01-27 22:08  花伤错零  阅读(14)  评论(0)    收藏  举报