摘要: 除了网上查找的hbase的相关错误,及得看下其他服务器配置的hive\hbase等的环境变量,我就是其他服务器的环境变量不一样导致的启动报错 阅读全文
posted @ 2021-08-19 12:25 海飏凨 阅读(64) 评论(0) 推荐(0) 编辑
摘要: public static String dealDateFormat(String oldDate) { Date date1 = null; DateFormat df2 = null; try { DateFormat df = new SimpleDateFormat("yyyy-MM-dd 阅读全文
posted @ 2021-08-18 15:53 海飏凨 阅读(782) 评论(0) 推荐(0) 编辑
摘要: Collections.sort(list<T>, Comparator.comparing(T::getTime, (t1, t2) -> t2.compareTo(t1))); 阅读全文
posted @ 2021-08-18 15:46 海飏凨 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 因为spark默认的元数据存储在derby,derby是单session的,启动多个会报错,杀掉多余进程解决。 阅读全文
posted @ 2021-08-18 15:43 海飏凨 阅读(2435) 评论(0) 推荐(2) 编辑
摘要: 1.读写流程 2.默认块大小 集群模式:128m 本地模式:32m hadoop1.x:64m 业务开发:128m 256m hive的文件块:256m 3.小文件 namenode 内存128g 一个文件块占用namenode 150字节 128*1024*1024*1024字节/150字节=9亿 阅读全文
posted @ 2021-08-18 15:32 海飏凨 阅读(116) 评论(0) 推荐(0) 编辑
摘要: ERROR hdfs.HDFSEventSink: process failed java.lang.OutOfMemoryError: GC overhead limit exceeded。 flume配置的内存不足,报了了OOM。 解决方法:在/flume/conf/flume-env.sh文件 阅读全文
posted @ 2021-08-18 15:32 海飏凨 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 使用flume将数据写到HDFS上,出现大量的不到1kb的小文件。 危害:占用NameNode内存 n*150字节 (采用har归档:hadoop archive -archiveName **.har -p /输入路径 /输出路径) 增加切片个数 n个maptask 产生原因: hdfs.roll 阅读全文
posted @ 2021-08-18 15:32 海飏凨 阅读(374) 评论(0) 推荐(0) 编辑
摘要: shuffle发生在map方法之后,reduce方法之前 优化:由环形缓冲区默认的100m调到200m,将默认的80%的反向溢出调整到90%。 这样就会减少溢写的次数 对溢写的文件提前进行combiner,保证不影响最终逻辑前提,也可以调高combiner文件个数。可求和不可求均值。 归并后存储磁盘 阅读全文
posted @ 2021-08-13 15:51 海飏凨 阅读(111) 评论(0) 推荐(0) 编辑
摘要: HDFS:分布式文件系统,适合一次写入,多次读出场景,不适合文件的修改。 HDFS由NN、DN、Secondary NameNode、Client组成。 NN(NameNode) :管理HDFS的名称空间、配置副本策略、管理数据块(Block)的映射信息、处理客户端读写请求; DN(DataNode 阅读全文
posted @ 2021-08-13 15:50 海飏凨 阅读(152) 评论(0) 推荐(1) 编辑
摘要: 使用maven-assembly-plugin打的jar包(图中第一个),放到服务器上发现无法用java -jar启动,反编译后发现META-INF下的MANIFEST.MF里无启动类信息。 解决方法:使用图中第二个jar包,内部包含启动类信息。 阅读全文
posted @ 2021-08-11 16:06 海飏凨 阅读(489) 评论(0) 推荐(0) 编辑