123学习总结

1.框架 vs 类库

类库:一堆别人写好的代码,你可以导入进使用。pandas就是python的类库

框架:可以独立运行,并提供变成结构的一种软件产品 。spark就是一个独立的框架

pandas:用于小规模数据集的处理

spark:用于大规模数据集的处理

2.pyspark:spark官方提供的一个python类库,内置了完全的spark api,可以通过pyspark应用程序,并将其提交到saprk集群中运行

3.bin/pyspark是一个交互式程序,可以提供交互式编程并执行spark计算

posted @ 2024-01-23 14:32  代不动码  阅读(15)  评论(0)    收藏  举报