摘要: distcp 是一个用于数据复制的工具,它可以将数据从一个 Hadoop 集群复制到另一个 Hadoop 集群。 Usage: hadoop distcp [OPTIONS] <srcurl> <desturl> OPTIONS: -p[rbugpcax] Preserve status (rbug 阅读全文
posted @ 2023-05-17 10:13 家有花猪 阅读(2145) 评论(0) 推荐(0)
摘要: Markdown是一种轻量级标记语言,它使用简单的语法来格式化文本。下面是几种基本的Markdown语法: 标题 在行首添加1~6个#符,表示1~6级标题。 # 一级标题 ## 二级标题 ### 三级标题 #### 四级标题 ##### 五级标题 ###### 六级标题 段落 换行即可;如果需要插入 阅读全文
posted @ 2023-05-04 10:57 家有花猪 阅读(50) 评论(0) 推荐(0)
摘要: 所遇问题如标题 原因: 同步的目的集群IP处于standby状态。同步给到的目的集群在命令中填的是集群IP,由于配置了高可用,namenode出于其他原因切换到了另一台机器,所以该IP处于standby的状态,此时namenodeIP不是当前同步命令中的IP,更改使用中的namenode IP(ac 阅读全文
posted @ 2023-05-04 10:51 家有花猪 阅读(278) 评论(0) 推荐(0)
摘要: 在protobuf中,如果一个字段的值为默认值(例如数字类型为0、字符串类型为""、枚举类型为第一个枚举值),并且该字段未被设置,那么默认值将不会被序列化成对应的二进制数据,也就是不会被显示。这是因为protobuf默认会优化掉这些默认字段,从而减小序列化后数据的大小。 如果需要显示这些默认值,可以 阅读全文
posted @ 2023-04-24 09:10 家有花猪 阅读(1718) 评论(0) 推荐(0)
摘要: set hive.merge.mapredfiles=true; --在Map-Reduce的任务结束时合并小文件 set mapred.max.split.size=30000000; -- 决定每个map处理的最大的文件大小,单位为B --set mapred.min.split.size=10 阅读全文
posted @ 2023-04-21 13:35 家有花猪 阅读(51) 评论(0) 推荐(0)
摘要: 窗口函数加functions.lag 阅读全文
posted @ 2023-01-04 16:11 家有花猪 阅读(50) 评论(0) 推荐(0)
摘要: pd.set_option('display.max_columns', None) # 列全部显示 pd.set_option('display.max_rows', None) # 行全部显示 pd.set_option('max_colwidth',1000) # 值显示长度 阅读全文
posted @ 2022-12-05 15:24 家有花猪 阅读(58) 评论(0) 推荐(0)
摘要: 生成快照目录 hadoop dfsadmin -allowSnapshot hdfs_dir 创建快照 hadoop dfs -createSnapshot hdfs_dir snapshot_name source_hdfs与target_hdfs 都要建快照 对比两端快照后将源端同步给目的端 h 阅读全文
posted @ 2022-11-17 10:27 家有花猪 阅读(111) 评论(0) 推荐(0)