spark - 随笔分类 - 钱塘江畔

202110201026 - pyspark设置参数

摘要：使用pyspark提交spark任务时，为提高单个任务使用的CPU核数（默认是1），需对参数进行设置。spark-submit --help中可以指定的参数有限，需要在代码中指定参数值。如下： conf = SparkConf() conf.setAppName('test_mean_shift') 阅读全文

posted @ 2025-03-20 19:36 钱塘江畔阅读(89) 评论(0) 推荐(0)

202109101338 - spark调优

摘要：对于聚类算法，计算密集型的任务，如何调优 # 以下各角色的作用？ MemoryStore BlockManager BlockManagerMaster spark-submit调优并行度的关键点：并行运行的task数量 = min(partitions, executors x executor 阅读全文

posted @ 2025-03-20 19:18 钱塘江畔阅读(36) 评论(0) 推荐(0)

202109091412 - spark集群测试使用

摘要：Spark Thrift Servers 提供JDBC/ODBC连接的服务服务运行方式是一个Spark的应用程序，只是这个应用程序支持JDBC/ODBC的连接，所以：可以通过应用的4040页面来进行查看操作 beeline连接 !connect jdbc:hive2://ser-01:10015 阅读全文

posted @ 2025-03-20 19:17 钱塘江畔阅读(20) 评论(0) 推荐(0)

202108051212 - spark两阶段聚合

摘要：这个方案的核心实现思路就是进行两阶段聚合。第一次是局部聚合，先给每个key都打上一个随机数，比如10以内的随机数，此时原先一样的key就变成不一样的了，比如(hello, 1) (hello, 1) (hello, 1) (hello, 1)，就会变成(1_hello, 1) (1_hello, 阅读全文

posted @ 2025-03-19 22:21 钱塘江畔阅读(44) 评论(0) 推荐(0)

202107302320 - spark将文件夹下所有文件读取到一个RDD

摘要：# 路径 + 通配符* 只读一层子文件夹 val lines: RDD[String] = sc.textFile("file:///E:/tmp/data/*") # 直接路径报错, 无法识别子文件夹 val lines: RDD[String] = sc.textFile("file:///E 阅读全文

posted @ 2025-03-19 22:08 钱塘江畔阅读(29) 评论(0) 推荐(0)

钱塘江畔

小树不修不直溜

随笔分类 - 大数据 / spark

公告