跨集群表数据迁移

1.Spark方式

从老集群写到新集群

spark.table("ods.test").write.mode("overwrite").save("hdfs://192.20.10.10/tmp/tabledata/ods_test")

从新集群生成hive表：

spark.read.parquet("hdfs://192.20.10.10/tmp/tabledata/ods_test/").write.mode("overwrite").saveAsTable("ods.test")

如果是分区表的话使用partitionBy("")来定义

（这种是针对hive表）
hive导出表：

hive -e "export table ods.ods_test to 'hdfs://192.168.20.35/tmp/hivetransfer/ods_test';"

hive导入表：

hive -e "import table ods.ods_test to 'hdfs://192.168.20.35/tmp/hivetransfer/ods_test';"

hadoop distcp -m 1000 hdfs://cdh192-57:8020/user/hive/warehouse/ods.db/ods_test/*     hdfs://192.168.20.35:8020/user/hive/warehouse/ods.db/ods_test/

posted @ 2023-02-02 10:41 硅谷工具人阅读(72) 评论(0) 收藏举报

刷新页面返回顶部