随笔分类 -  BigData_笔记

摘要:一、控制hive任务中的map数: 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改) 阅读全文
posted @ 2022-02-22 16:28 yanzu 阅读(531) 评论(0) 推荐(1)
摘要:1、spark-shell 启动设置动态分区 --executor-memory 16G \ --total-executor-cores 10 \ --executor-cores 10 \ --conf "spark.hadoop.hive.exec.dynamic.partition=true 阅读全文
posted @ 2021-07-08 09:18 yanzu 阅读(1067) 评论(0) 推荐(0)
摘要:#! /usr/bin/expect -f #源路径 set srcdir [lindex $argv 0] #目标IP地址 set remoteip [lindex $argv 1] #目标ip的系统用户 set remoteuser [lindex $argv 2] #目标ip的系统密码 set 阅读全文
posted @ 2021-06-16 17:49 yanzu 阅读(36) 评论(0) 推荐(0)
摘要:Hbase、Kudu和ClickHouse全视角对比 Hbase、Kudu和ClickHouse横向对比V2.0 前言 Hadoop生态圈的技术繁多。HDFS一直用来保存底层数据,地位牢固。Hbase作为一款Nosql也是Hadoop生态圈的核心组件,它海量的存储能力,优秀的随机读写能力,能够处理一 阅读全文
posted @ 2021-02-20 09:58 yanzu 阅读(473) 评论(0) 推荐(0)
摘要:后台运行脚本 执行脚本test.sh:./test.sh 中断脚本test.sh:ctrl+c 在1的基础上将运行中的test.sh,切换到后台并暂停:ctrl+z 执行ctrl+z后,test.sh在后台是暂停状态(stopped),使用命令:bg number让其在后台开始运行(“number” 阅读全文
posted @ 2021-01-27 11:44 yanzu 阅读(266) 评论(0) 推荐(0)
摘要:1,-mkdir 创建目录 Usage:hdfs dfs -mkdir [-p] < paths> 选项:-p 很像Unix mkdir -p,沿路径创建父目录。 2,-ls 查看目录下内容,包括文件名,权限,所有者,大小和修改时间 Usage:hdfs dfs -ls [-R] < args> 选 阅读全文
posted @ 2021-01-27 11:40 yanzu 阅读(308) 评论(0) 推荐(0)
摘要:查看所有分区 show partitions 表名; 删除一般会有两种方案 1、直接删除hdfs文件 亲测删除hdfs路径后 查看分区还是能看到此分区 可能会引起其他问题 此方法不建议 2、 使用删除分区命令(推荐) alter table 表名 drop partition (date=20200 阅读全文
posted @ 2021-01-27 11:35 yanzu 阅读(713) 评论(0) 推荐(1)
摘要:1.查看分区 hive> show partitions table_name; 2.查看分区更新时间 获取hdfs路径 hive> desc formatted table_name; 通过dfs -ls < hdfs path>命令查看数据文件最新更新时间 hive> dfs -ls /user 阅读全文
posted @ 2021-01-27 11:34 yanzu 阅读(1374) 评论(0) 推荐(0)