pyspark类库总结

书籍<<Python在大数据平台的应用>>

更多信息请关注本书附书代码:[附书代码Github工程:https://github.com/Shadow-Hunter-X/python_practice_stepbystep

Pyspark是Apache Spark的Python应用程序编程接口(API)。Pyspark包括一组公共类、2个模块SQL模块和流数据模块；2个包Mllib和ML用于机器学习，如下图所示。pyspark核心类库](pyspark类库总结

PySpark核心类说明

Pyspark核心类由公共类、SQL模块和流模块的6个子集类组成。这些类表示核心的Pyspark功能，如下表所示。

在Pyspark中有8个公共类，分别是SparkContext、RDD、Broadcast、Accumulator、 SparkConf、SparkFiles、StorageLevel和TaskContext，说明如下表所示。

SQL模块包含了10个类，提供了类型、配置、DataFrames和许多其他功能的SQL函数和方法，具体如下表所示。

流数据模块包含3个主要的类StreamingContext、Dstream、StreamingListener。也特别提供针对了Flume、Kafka、Kinesis流数据处理的类，但这里只对前3个类说明,如下表所示。

类名	说明
StreamingContext	用于处理Spark Streaming应用的入口
DStream	Spark Streaming的基本抽象，DStream是一个连续的数据流
StreamingListener	对Streaming数据流事件监控和处理

posted @ 2020-06-21 16:55 blue-shadow 阅读(663) 评论(0) 收藏举报

刷新页面返回顶部