随笔分类 - 大数据 / spark
摘要:使用pyspark提交spark任务时,为提高单个任务使用的CPU核数(默认是1),需对参数进行设置。spark-submit --help中可以指定的参数有限,需要在代码中指定参数值。如下: conf = SparkConf() conf.setAppName('test_mean_shift')
阅读全文
摘要:对于聚类算法,计算密集型的任务,如何调优 # 以下各角色的作用? MemoryStore BlockManager BlockManagerMaster spark-submit调优并行度的关键点: 并行运行的task数量 = min(partitions, executors x executor
阅读全文
摘要:Spark Thrift Servers 提供JDBC/ODBC连接的服务 服务运行方式是一个Spark的应用程序,只是这个应用程序支持JDBC/ODBC的连接, 所以:可以通过应用的4040页面来进行查看操作 beeline连接 !connect jdbc:hive2://ser-01:10015
阅读全文
摘要:这个方案的核心实现思路就是进行两阶段聚合。 第一次是局部聚合,先给每个key都打上一个随机数,比如10以内的随机数,此时原先一样的key就变成不一样的了,比如(hello, 1) (hello, 1) (hello, 1) (hello, 1),就会变成(1_hello, 1) (1_hello,
阅读全文
摘要:# 路径 + 通配符* 只读一层子文件夹 val lines: RDD[String] = sc.textFile("file:///E:/tmp/data/*") # 直接路径 报错, 无法识别子文件夹 val lines: RDD[String] = sc.textFile("file:///E
阅读全文

浙公网安备 33010602011771号