2020年10月27日

pyspark 针对mongodb的读写

摘要: 1.创建pyspark与mongodb的连接,首先加载依赖包,其有三种方式: 1)直接将其放在在安装spark的jars目录下; 2)在spark_submit中,添加依赖包信息; 3)在创建spark的对象的时候添加依赖信息,具体案例如下图所示 spark = SparkSession \ .bu 阅读全文

posted @ 2020-10-27 17:20 random_boy 阅读(1404) 评论(0) 推荐(0)

pyspark 针对Elasticsearch的读写操作

摘要: 1.创建spark与Elasticsearch的连接 为了对Elasticsearch进行读写操作,需要添加Elasticsearch的依赖包,其中,添加依赖包(org.elasticsearch_elasticsearch-spark-20_2.11-6.8.7.jar)有下面的三种方式: 1)将 阅读全文

posted @ 2020-10-27 17:10 random_boy 阅读(2232) 评论(4) 推荐(1)

pyspark 基本api使用说明(一)

摘要: 1.Array Schema转换到Sting Schema ——array_join()方法 使用案例: 原始数据如下图所示: df.show() df1 = df.select(array_join(df3.user_array, ",").alias("joined"), 'umid', 'us 阅读全文

posted @ 2020-10-27 16:09 random_boy 阅读(722) 评论(0) 推荐(0)

导航