2020 年 10月 27 日随笔档案 - random_boy

pyspark 针对mongodb的读写

摘要： 1.创建pyspark与mongodb的连接，首先加载依赖包，其有三种方式： 1）直接将其放在在安装spark的jars目录下； 2）在spark_submit中，添加依赖包信息； 3）在创建spark的对象的时候添加依赖信息，具体案例如下图所示 spark = SparkSession \ .bu 阅读全文

posted @ 2020-10-27 17:20 random_boy 阅读(1404) 评论(0) 推荐(0)

pyspark 针对Elasticsearch的读写操作

摘要： 1.创建spark与Elasticsearch的连接为了对Elasticsearch进行读写操作，需要添加Elasticsearch的依赖包，其中，添加依赖包（org.elasticsearch_elasticsearch-spark-20_2.11-6.8.7.jar）有下面的三种方式： 1）将阅读全文

posted @ 2020-10-27 17:10 random_boy 阅读(2232) 评论(4) 推荐(1)

pyspark 基本api使用说明（一）

摘要： 1.Array Schema转换到Sting Schema ——array_join()方法使用案例：原始数据如下图所示： df.show() df1 = df.select(array_join(df3.user_array, ",").alias("joined"), 'umid', 'us 阅读全文

posted @ 2020-10-27 16:09 random_boy 阅读(722) 评论(0) 推荐(0)

pyspark 针对mongodb的读写

pyspark 针对Elasticsearch的读写操作

pyspark 基本api使用说明（一）

导航

公告