随笔分类 -  大数据 / spark

摘要:使用pyspark提交spark任务时,为提高单个任务使用的CPU核数(默认是1),需对参数进行设置。spark-submit --help中可以指定的参数有限,需要在代码中指定参数值。如下: conf = SparkConf() conf.setAppName('test_mean_shift') 阅读全文
posted @ 2025-03-20 19:36 钱塘江畔 阅读(86) 评论(0) 推荐(0)
摘要:对于聚类算法,计算密集型的任务,如何调优 # 以下各角色的作用? MemoryStore BlockManager BlockManagerMaster spark-submit调优并行度的关键点: 并行运行的task数量 = min(partitions, executors x executor 阅读全文
posted @ 2025-03-20 19:18 钱塘江畔 阅读(35) 评论(0) 推荐(0)
摘要:Spark Thrift Servers 提供JDBC/ODBC连接的服务 服务运行方式是一个Spark的应用程序,只是这个应用程序支持JDBC/ODBC的连接, 所以:可以通过应用的4040页面来进行查看操作 beeline连接 !connect jdbc:hive2://ser-01:10015 阅读全文
posted @ 2025-03-20 19:17 钱塘江畔 阅读(19) 评论(0) 推荐(0)
摘要:这个方案的核心实现思路就是进行两阶段聚合。 第一次是局部聚合,先给每个key都打上一个随机数,比如10以内的随机数,此时原先一样的key就变成不一样的了,比如(hello, 1) (hello, 1) (hello, 1) (hello, 1),就会变成(1_hello, 1) (1_hello, 阅读全文
posted @ 2025-03-19 22:21 钱塘江畔 阅读(43) 评论(0) 推荐(0)
摘要:# 路径 + 通配符* 只读一层子文件夹 val lines: RDD[String] = sc.textFile("file:///E:/tmp/data/*") # 直接路径 报错, 无法识别子文件夹 val lines: RDD[String] = sc.textFile("file:///E 阅读全文
posted @ 2025-03-19 22:08 钱塘江畔 阅读(28) 评论(0) 推荐(0)