摘要:
hadoop api提供了一些遍历文件的api,通过该api可以实现遍历文件目录: 并行执行sh的线程: 执行sh的java代码: submitsparkjob.sh 执行BatchSubmit.jar的命令: 阅读全文
posted @ 2017-11-10 23:32
cctext
阅读(2135)
评论(0)
推荐(0)
摘要:
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义 阅读全文
posted @ 2017-11-10 00:48
cctext
阅读(1018)
评论(0)
推荐(0)

浙公网安备 33010602011771号