摘要: hdfs认证报错1 hdfs报错Failed on local exception: java.io.IOException: org.apache.hadoop.security.AccessControlException: Client cannot authenticate via:[TOK 阅读全文
posted @ 2023-04-21 16:41 曲水修竹 阅读(1139) 评论(0) 推荐(0) 编辑
摘要: 1.map join无reduce操作,所以没有shuffle。这样可以减少大量的网络I/O。(如:大表文件数500、文件250M,小表20M。map join的网络I/O共50020M,Common join的网络I/O共500250M+20M),同时不需要进行map sort和shuffle s 阅读全文
posted @ 2021-08-30 16:53 曲水修竹 阅读(284) 评论(0) 推荐(0) 编辑
摘要: 错误详情 Error: java.io.IOException: SQLException in nextKeyValue at org.apache.sqoop.mapreduce.db.DBRecordReader.nextKeyValue(DBRecordReader.java:275) at 阅读全文
posted @ 2021-04-22 21:46 曲水修竹 阅读(1319) 评论(0) 推荐(0) 编辑
摘要: 最近发现了sqoop的一个bug,在使用sqoop 1.4 7导出MySQL8.0以上版本的mysql表,采用整表导出时,列的顺序会... 阅读全文
posted @ 2021-03-17 17:10 曲水修竹 阅读(202) 评论(0) 推荐(0) 编辑
摘要: maven编译报错error: the result type of an implicit conversion must be ... 阅读全文
posted @ 2021-02-08 14:14 曲水修竹 阅读(744) 评论(0) 推荐(0) 编辑
摘要: 1)gzip压缩 优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;大部分linux系统都自带gzip命令,使用方便。 缺点:不支持split。 应用场景:当每个文件压缩之后在1... 阅读全文
posted @ 2020-12-31 23:12 曲水修竹 阅读(37) 评论(0) 推荐(0) 编辑
摘要: TextFile: 默认格式,数据不做压缩,磁盘开销大,数据解析开销大。可结合Gzip、Bzip2使用,但使用Gzip这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作。 SequenceFile: SequenceFile是Hadoop API 提供的一种二进制文件,它将数据以<ke 阅读全文
posted @ 2020-12-31 23:09 曲水修竹 阅读(1529) 评论(0) 推荐(0) 编辑
摘要: 1) 过滤掉脏数据:如果大key是无意义的脏数据,直接过滤掉。本场景中大key无实际意义,为非常脏数据,直接过滤掉。 2)数据预处理:数据做一下预处理,尽量保证join的时候,同一个key对应的记录不要有太多。 3) 增加reduce个数:如果数据中出现了多个大key,增加reduce个数,可以让这 阅读全文
posted @ 2020-12-31 23:05 曲水修竹 阅读(747) 评论(0) 推荐(0) 编辑
摘要: 1)Broker参数配置(server.properties) 1、网络和io操作线程配置优化 # broker处理消息的最大线程数(默认为3) num.network.threads=cpu核数+1 # broker处理磁盘IO的线程数 num.io.threads=cpu核数*2 2、log数据 阅读全文
posted @ 2020-12-31 22:58 曲水修竹 阅读(1189) 评论(0) 推荐(0) 编辑
摘要: HashMap和Hashtable区别 1) 线程安全性不同 HashMap是线程不安全的,HashTable是线程安全的,其中的方法是Synchronize的,在多线程并发的情况下,可以直接使用Hashtable,但是使用HashMap时必须自己增加同步处理。 2) 是否提供contains方法 阅读全文
posted @ 2020-12-31 22:54 曲水修竹 阅读(139) 评论(0) 推荐(0) 编辑