土豆啊你个马铃薯

[置顶] pyspark操作hive分区表以及.gz.parquet和part-00000文件压缩问题

摘要： @ pyspark 操作hive表 pyspark 操作hive表，hive分区表动态写入；最近发现spark动态写入hive分区，和saveAsTable存表方式相比，文件压缩比大约 4:1。针对该问题整理了 spark 操作hive表的几种方式。 1> saveAsTable写入 saveAsT 阅读全文

posted @ 2021-08-25 10:52 土豆啊你个马铃薯阅读(916) 评论(0) 推荐(0)

2021年2月28日

hive中更改表impala中不能生效

摘要： hive中的更新或者新建表impala 不能实时更新 Impala是基于Hive的大数据实时分析查询引擎，直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。最近在生产中，我发现在hive 中更改表结构，或者建表在impala中查询新建的表报阅读全文

posted @ 2021-02-28 20:34 土豆啊你个马铃薯阅读(640) 评论(0) 推荐(0)

2020年12月9日

Hive 填坑指南

摘要： 🌹 Hive 填坑指南 🍀 数据表备份方法1：create table 表名_new as select * from 原表 create table 表名_new as select * from 原表 -- 只是复制原数据，其实就是把查询的结果建一个表 -- 备份表的分区字段会变成普通列，阅读全文

posted @ 2020-12-09 17:25 土豆啊你个马铃薯阅读(482) 评论(0) 推荐(0)

2019年9月29日

pandas.read_csv参数整理

该文被密码保护。阅读全文

posted @ 2019-09-29 15:07 土豆啊你个马铃薯阅读(1) 评论(0) 推荐(0)

土豆啊你个马铃薯

公告