会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
土豆啊你个马铃薯
博客园
首页
新随笔
联系
订阅
管理
[置顶]
pyspark操作hive分区表以及.gz.parquet和part-00000文件压缩问题
摘要: @ pyspark 操作hive表 pyspark 操作hive表,hive分区表动态写入;最近发现spark动态写入hive分区,和saveAsTable存表方式相比,文件压缩比大约 4:1。针对该问题整理了 spark 操作hive表的几种方式。 1> saveAsTable写入 saveAsT
阅读全文
posted @ 2021-08-25 10:52 土豆啊你个马铃薯
阅读(896)
评论(0)
推荐(0)
2021年2月28日
hive中更改表impala中不能生效
摘要: hive中的更新或者新建表impala 不能实时更新 Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。最近在生产中,我发现在hive 中更改表结构,或者建表 在impala中查询新建的表报
阅读全文
posted @ 2021-02-28 20:34 土豆啊你个马铃薯
阅读(630)
评论(0)
推荐(0)
2020年12月9日
Hive 填坑指南
摘要: 🌹 Hive 填坑指南 🍀 数据表备份 方法1:create table 表名_new as select * from 原表 create table 表名_new as select * from 原表 -- 只是复制原数据,其实就是把查询的结果建一个表 -- 备份表的分区字段会变成普通列,
阅读全文
posted @ 2020-12-09 17:25 土豆啊你个马铃薯
阅读(468)
评论(0)
推荐(0)
2019年9月29日
pandas.read_csv参数整理
该文被密码保护。
阅读全文
posted @ 2019-09-29 15:07 土豆啊你个马铃薯
阅读(1)
评论(0)
推荐(0)
公告