BigData_笔记 - 随笔分类 - yanzu

Hive设置map和reduce数量

摘要：一、控制hive任务中的map数: 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改) 阅读全文

posted @ 2022-02-22 16:28 yanzu 阅读(531) 评论(0) 推荐(1)

spark-shell 启动设置动态分区，snappy压缩、parquet存储以及备份

摘要：1、spark-shell 启动设置动态分区 --executor-memory 16G \ --total-executor-cores 10 \ --executor-cores 10 \ --conf "spark.hadoop.hive.exec.dynamic.partition=true 阅读全文

posted @ 2021-07-08 09:18 yanzu 阅读(1067) 评论(0) 推荐(0)

expect远程scp

摘要：#! /usr/bin/expect -f #源路径 set srcdir [lindex $argv 0] #目标IP地址 set remoteip [lindex $argv 1] #目标ip的系统用户 set remoteuser [lindex $argv 2] #目标ip的系统密码 set 阅读全文

posted @ 2021-06-16 17:49 yanzu 阅读(36) 评论(0) 推荐(0)

20210220 Hbase、Kudu和ClickHouse全视角对比

摘要：Hbase、Kudu和ClickHouse全视角对比 Hbase、Kudu和ClickHouse横向对比V2.0 前言 Hadoop生态圈的技术繁多。HDFS一直用来保存底层数据，地位牢固。Hbase作为一款Nosql也是Hadoop生态圈的核心组件，它海量的存储能力，优秀的随机读写能力，能够处理一阅读全文

posted @ 2021-02-20 09:58 yanzu 阅读(473) 评论(0) 推荐(0)

在linux后台运行脚本的方法和命令

摘要：后台运行脚本执行脚本test.sh:./test.sh 中断脚本test.sh：ctrl+c 在1的基础上将运行中的test.sh，切换到后台并暂停：ctrl+z 执行ctrl+z后，test.sh在后台是暂停状态（stopped）,使用命令：bg number让其在后台开始运行（“number” 阅读全文

posted @ 2021-01-27 11:44 yanzu 阅读(266) 评论(0) 推荐(0)

Hadoop hdfs dfs常用命令的使用

摘要：1，-mkdir 创建目录 Usage：hdfs dfs -mkdir [-p] < paths> 选项：-p 很像Unix mkdir -p，沿路径创建父目录。 2，-ls 查看目录下内容，包括文件名，权限，所有者，大小和修改时间 Usage：hdfs dfs -ls [-R] < args> 选阅读全文

posted @ 2021-01-27 11:40 yanzu 阅读(308) 评论(0) 推荐(0)

Hive 查看，删除分区

摘要：查看所有分区 show partitions 表名; 删除一般会有两种方案 1、直接删除hdfs文件亲测删除hdfs路径后查看分区还是能看到此分区可能会引起其他问题此方法不建议 2、使用删除分区命令（推荐） alter table 表名 drop partition (date=20200 阅读全文

posted @ 2021-01-27 11:35 yanzu 阅读(713) 评论(0) 推荐(1)

Hive 查看表/分区更新时间

摘要：1.查看分区 hive> show partitions table_name; 2.查看分区更新时间获取hdfs路径 hive> desc formatted table_name; 通过dfs -ls < hdfs path>命令查看数据文件最新更新时间 hive> dfs -ls /user 阅读全文

posted @ 2021-01-27 11:34 yanzu 阅读(1374) 评论(0) 推荐(0)

yanzu

随笔分类 - BigData_笔记

公告