随笔分类 -  hadoop

摘要:coalesce(1) 的主要作用是将数据合并到尽可能少的分区中,而 repartition(1) 则是将数据随机重分区为一个分区。这使得 coalesce(1) 相对而言更加高效,因为它减少了数据移动的次数,只需要在当前 Executor 上将所有分区的数据都收集到当前应用程序的单个 Execut 阅读全文
posted @ 2023-12-13 10:03 家有花猪 阅读(393) 评论(0) 推荐(0)
摘要:​``` scan '数据库名:表名', {'LIMIT' => 10,REVERSED=>true} ​``` 阅读全文
posted @ 2023-08-23 10:52 家有花猪 阅读(35) 评论(0) 推荐(0)
摘要:##常用的Spark任务参数及其作用: 1. `spark.driver.memory`:设置driver进程使用的内存大小,默认为1g。 2. `spark.executor.memory`:设置每个executor进程使用的内存大小,默认为1g。 3. `spark.executor.cores 阅读全文
posted @ 2023-06-01 13:26 家有花猪 阅读(767) 评论(0) 推荐(0)
摘要:distcp使用MapReduce执行数据复制操作时也可能会出现超时的情况,其可能的原因与普通MapReduce任务相似,包括以下几点: 数据量过大:如果您的复制任务的数据量非常大,MapReduce任务可能需要更多时间来处理,从而导致超时。 硬件不足:如果您的硬件资源不足以支持MapReduce任 阅读全文
posted @ 2023-05-19 10:24 家有花猪 阅读(461) 评论(0) 推荐(0)
摘要:一、task0详解 distcp 是 Hadoop 中一个用于数据复制的工具,可用于大规模数据复制场景。在 distcp 执行过程中,会运行多个 MapReduce 任务,其中第一个任务通常被称为 "task0" 或 "main task"。 task0 主要负责以下操作: 1. 解析命令行参数并生 阅读全文
posted @ 2023-05-17 10:16 家有花猪 阅读(367) 评论(0) 推荐(0)
摘要:distcp 是一个用于数据复制的工具,它可以将数据从一个 Hadoop 集群复制到另一个 Hadoop 集群。 Usage: hadoop distcp [OPTIONS] <srcurl> <desturl> OPTIONS: -p[rbugpcax] Preserve status (rbug 阅读全文
posted @ 2023-05-17 10:13 家有花猪 阅读(2173) 评论(0) 推荐(0)
摘要:所遇问题如标题 原因: 同步的目的集群IP处于standby状态。同步给到的目的集群在命令中填的是集群IP,由于配置了高可用,namenode出于其他原因切换到了另一台机器,所以该IP处于standby的状态,此时namenodeIP不是当前同步命令中的IP,更改使用中的namenode IP(ac 阅读全文
posted @ 2023-05-04 10:51 家有花猪 阅读(284) 评论(0) 推荐(0)
摘要:set hive.merge.mapredfiles=true; --在Map-Reduce的任务结束时合并小文件 set mapred.max.split.size=30000000; -- 决定每个map处理的最大的文件大小,单位为B --set mapred.min.split.size=10 阅读全文
posted @ 2023-04-21 13:35 家有花猪 阅读(55) 评论(0) 推荐(0)
摘要:窗口函数加functions.lag 阅读全文
posted @ 2023-01-04 16:11 家有花猪 阅读(52) 评论(0) 推荐(0)
摘要:生成快照目录 hadoop dfsadmin -allowSnapshot hdfs_dir 创建快照 hadoop dfs -createSnapshot hdfs_dir snapshot_name source_hdfs与target_hdfs 都要建快照 对比两端快照后将源端同步给目的端 h 阅读全文
posted @ 2022-11-17 10:27 家有花猪 阅读(119) 评论(0) 推荐(0)