hadoop - 随笔分类 - 家有花猪

[spark] coalesce() 和 repartition()的区别

摘要：coalesce(1) 的主要作用是将数据合并到尽可能少的分区中，而 repartition(1) 则是将数据随机重分区为一个分区。这使得 coalesce(1) 相对而言更加高效，因为它减少了数据移动的次数，只需要在当前 Executor 上将所有分区的数据都收集到当前应用程序的单个 Execut 阅读全文

posted @ 2023-12-13 10:03 家有花猪阅读(418) 评论(0) 推荐(0)

[hbase] scan命令查看前几行

摘要：``` scan '数据库名:表名', {'LIMIT' => 10，REVERSED=>true} ``` 阅读全文

posted @ 2023-08-23 10:52 家有花猪阅读(40) 评论(0) 推荐(0)

[spark] 常用参数和默认配置

摘要：##常用的Spark任务参数及其作用： 1. `spark.driver.memory`：设置driver进程使用的内存大小，默认为1g。 2. `spark.executor.memory`：设置每个executor进程使用的内存大小，默认为1g。 3. `spark.executor.cores 阅读全文

posted @ 2023-06-01 13:26 家有花猪阅读(810) 评论(0) 推荐(0)

distcp任务超时(Time out after 300 secs)的原因及优化方案

摘要：distcp使用MapReduce执行数据复制操作时也可能会出现超时的情况，其可能的原因与普通MapReduce任务相似，包括以下几点：数据量过大：如果您的复制任务的数据量非常大，MapReduce任务可能需要更多时间来处理，从而导致超时。硬件不足：如果您的硬件资源不足以支持MapReduce任阅读全文

posted @ 2023-05-19 10:24 家有花猪阅读(494) 评论(0) 推荐(0)

hadoop中distcp的mapreduce任务中的task0详解及优化

摘要：一、task0详解 distcp 是 Hadoop 中一个用于数据复制的工具，可用于大规模数据复制场景。在 distcp 执行过程中，会运行多个 MapReduce 任务，其中第一个任务通常被称为 "task0" 或 "main task"。 task0 主要负责以下操作： 1. 解析命令行参数并生阅读全文

posted @ 2023-05-17 10:16 家有花猪阅读(386) 评论(0) 推荐(0)

hadoop distcp 参数详解

摘要：distcp 是一个用于数据复制的工具，它可以将数据从一个 Hadoop 集群复制到另一个 Hadoop 集群。 Usage: hadoop distcp [OPTIONS] <srcurl> <desturl> OPTIONS: -p[rbugpcax] Preserve status (rbug 阅读全文

posted @ 2023-05-17 10:13 家有花猪阅读(2301) 评论(0) 推荐(0)

distcp同步数据时遇到 Operation category READ is not supported in state standby

摘要：所遇问题如标题原因：同步的目的集群IP处于standby状态。同步给到的目的集群在命令中填的是集群IP，由于配置了高可用，namenode出于其他原因切换到了另一台机器，所以该IP处于standby的状态，此时namenodeIP不是当前同步命令中的IP，更改使用中的namenode IP（ac 阅读全文

posted @ 2023-05-04 10:51 家有花猪阅读(310) 评论(0) 推荐(0)

hiveSQL mapreduce任务调优

摘要：set hive.merge.mapredfiles=true; --在Map-Reduce的任务结束时合并小文件 set mapred.max.split.size=30000000; -- 决定每个map处理的最大的文件大小，单位为B --set mapred.min.split.size=10 阅读全文

posted @ 2023-04-21 13:35 家有花猪阅读(68) 评论(0) 推荐(0)

[spark] 获取上一条记录的某列值

摘要：窗口函数加functions.lag 阅读全文

posted @ 2023-01-04 16:11 家有花猪阅读(61) 评论(0) 推荐(0)

hdfs distcp 快照同步

摘要：生成快照目录 hadoop dfsadmin -allowSnapshot hdfs_dir 创建快照 hadoop dfs -createSnapshot hdfs_dir snapshot_name source_hdfs与target_hdfs 都要建快照对比两端快照后将源端同步给目的端 h 阅读全文

posted @ 2022-11-17 10:27 家有花猪阅读(132) 评论(0) 推荐(0)

afra17

随笔分类 - hadoop

公告