会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
曲水修竹
博客园
首页
新随笔
联系
订阅
管理
1
2
3
4
下一页
2023年4月21日
hdfs认证报错处理
摘要: hdfs认证报错1 hdfs报错Failed on local exception: java.io.IOException: org.apache.hadoop.security.AccessControlException: Client cannot authenticate via:[TOK
阅读全文
posted @ 2023-04-21 16:41 曲水修竹
阅读(1998)
评论(0)
推荐(0)
2021年8月30日
hive mapjoin总结
摘要: 1.map join无reduce操作,所以没有shuffle。这样可以减少大量的网络I/O。(如:大表文件数500、文件250M,小表20M。map join的网络I/O共50020M,Common join的网络I/O共500250M+20M),同时不需要进行map sort和shuffle s
阅读全文
posted @ 2021-08-30 16:53 曲水修竹
阅读(299)
评论(0)
推荐(0)
2021年4月22日
Sqoop:SQLException in nextKeyValue
摘要: 错误详情 Error: java.io.IOException: SQLException in nextKeyValue at org.apache.sqoop.mapreduce.db.DBRecordReader.nextKeyValue(DBRecordReader.java:275) at
阅读全文
posted @ 2021-04-22 21:46 曲水修竹
阅读(1482)
评论(0)
推荐(0)
2021年3月17日
sqoop 导出MySQL到hdfs后顺序异常改变
摘要: 最近发现了sqoop的一个bug,在使用sqoop 1.4 7导出MySQL8.0以上版本的mysql表,采用整表导出时,列的顺序会...
阅读全文
posted @ 2021-03-17 17:10 曲水修竹
阅读(278)
评论(0)
推荐(0)
2021年2月8日
the result type of an implicit conversion must be more specific than Object
摘要: maven编译报错error: the result type of an implicit conversion must be ...
阅读全文
posted @ 2021-02-08 14:14 曲水修竹
阅读(821)
评论(0)
推荐(0)
2020年12月31日
Hadoop的数据压缩算法应用场景
摘要: 1)gzip压缩 优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;大部分linux系统都自带gzip命令,使用方便。 缺点:不支持split。 应用场景:当每个文件压缩之后在1...
阅读全文
posted @ 2020-12-31 23:12 曲水修竹
阅读(71)
评论(0)
推荐(0)
Hive的TextFile、SequenceFile、RCfile 、ORCfile等压缩格式的区别
摘要: TextFile: 默认格式,数据不做压缩,磁盘开销大,数据解析开销大。可结合Gzip、Bzip2使用,但使用Gzip这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作。 SequenceFile: SequenceFile是Hadoop API 提供的一种二进制文件,它将数据以<ke
阅读全文
posted @ 2020-12-31 23:09 曲水修竹
阅读(1626)
评论(0)
推荐(0)
解决Hive表关联查询数据倾斜的问题
摘要: 1) 过滤掉脏数据:如果大key是无意义的脏数据,直接过滤掉。本场景中大key无实际意义,为非常脏数据,直接过滤掉。 2)数据预处理:数据做一下预处理,尽量保证join的时候,同一个key对应的记录不要有太多。 3) 增加reduce个数:如果数据中出现了多个大key,增加reduce个数,可以让这
阅读全文
posted @ 2020-12-31 23:05 曲水修竹
阅读(809)
评论(0)
推荐(0)
Kafka参数优化
摘要: 1)Broker参数配置(server.properties) 1、网络和io操作线程配置优化 # broker处理消息的最大线程数(默认为3) num.network.threads=cpu核数+1 # broker处理磁盘IO的线程数 num.io.threads=cpu核数*2 2、log数据
阅读全文
posted @ 2020-12-31 22:58 曲水修竹
阅读(1316)
评论(0)
推荐(0)
Java HashMap和Hashtable、TreeSet和HashSet区别
摘要: HashMap和Hashtable区别 1) 线程安全性不同 HashMap是线程不安全的,HashTable是线程安全的,其中的方法是Synchronize的,在多线程并发的情况下,可以直接使用Hashtable,但是使用HashMap时必须自己增加同步处理。 2) 是否提供contains方法
阅读全文
posted @ 2020-12-31 22:54 曲水修竹
阅读(167)
评论(0)
推荐(0)
1
2
3
4
下一页
公告