丹江湖畔养蜂子赵大爹

[置顶] hadoop 的HDFS 的 standby namenode无法启动事故处理

摘要： standby namenode无法启动现象：线上使用的2.5.0 cdh5.3.2版本Hadoop，开启了了NameNode HA，HA采用QJM方式。hadoop的集群的namenode的standby节点宕掉，重启无法启动成功。 1. standby namenode出现异常时的现象异常现阅读全文

posted @ 2018-01-22 11:39 丹江湖畔养蜂子赵大爹阅读(8508) 评论(0) 推荐(0) 编辑

[置顶] kafka使用getOffsetsBefore()获取获取offset异常分析

摘要：根据时间戳获取kafka的topic的偏移量，结果获取的偏移量量数据组的长度为0，就会出现如下的数组下标越界的异常，实现的原理是使用了kafka的getOffsetsBefore（）方法: Exception in thread "main" java.lang.ArrayIndexOutOfBou 阅读全文

posted @ 2016-03-07 11:09 丹江湖畔养蜂子赵大爹阅读(4397) 评论(0) 推荐(0) 编辑

2024年2月14日

每个一个明确的目标后面，加上具体的action

该文被密码保护。阅读全文

posted @ 2024-02-14 18:30 丹江湖畔养蜂子赵大爹阅读(0) 评论(0) 推荐(0) 编辑

2021年9月9日

如何高效的进行数据捉虫？

摘要：如何高效的进行数据捉虫？背景：在日常工作中，经常会接到用户反馈的问题，形形色色，各不相同，接到客户反馈的第一时，往往不知道如何查起。当这些问题都解决后，发现问题排查定位有一些共性的东西可以总结出来。一、问题接入归属分析：一个系统，产品涉及到相关方一般较多（前端，服务端，数据，上游合作方），当阅读全文

posted @ 2021-09-09 16:33 丹江湖畔养蜂子赵大爹阅读(90) 评论(0) 推荐(0) 编辑

2019年9月5日

数据驱动决策的常规流程

该文被密码保护。阅读全文

posted @ 2019-09-05 13:29 丹江湖畔养蜂子赵大爹阅读(1) 评论(0) 推荐(0) 编辑

2019年8月23日

数据仓库-命名规范

该文被密码保护。阅读全文

posted @ 2019-08-23 15:55 丹江湖畔养蜂子赵大爹阅读(3) 评论(0) 推荐(0) 编辑

2018年6月22日

Hive Bug修复:ORC表中array数据类型长度超过1024报异常

摘要：目前HVIE里查询如下语句报错： select * from dw.ticket_user_mtime limit 10; 错误如下： 17/07/06 16:45:38 [main]: DEBUG impl.RecordReaderImpl: merge = [{data range [22733 阅读全文

posted @ 2018-06-22 10:38 丹江湖畔养蜂子赵大爹阅读(2652) 评论(0) 推荐(0) 编辑

2018年5月2日

strom ui Topology 可视化视图各个指标含义说明

摘要： In the visualization, spout components are represented as blue, while bolts are colored between green and red depending on their associated capacity metric. The width of the lines between the componen... 阅读全文

posted @ 2018-05-02 18:48 丹江湖畔养蜂子赵大爹阅读(527) 评论(0) 推荐(0) 编辑

2018年4月13日

Spark技术的总结以及同storm，Flink技术的对比

摘要： spark总结 1.Spark的特点：高可伸缩性高容错基于内存计算支持多种语言：java，scala，python，R 高质量的算法，比MapReduce快100倍多种调度引擎：可以运行于YARN，Mesos，standalone 等。 2.spark的提供的功能以及应用场景 | spa 阅读全文

posted @ 2018-04-13 16:03 丹江湖畔养蜂子赵大爹阅读(784) 评论(0) 推荐(0) 编辑

kafka各个版本特点介绍和总结

摘要： kafka各个版本特点介绍和总结 1.1 kafka的功能特点：分布式消息队列线性扩展，高可用以高容错的方式存储海量数据流。高吞吐量:生成和消费速度非常快 1.2 kafka的使用场景： kafka的使用场景，即kafka的用途。数据总线（数据管道） Kafka主要用途是数据集成，或者说是阅读全文

posted @ 2018-04-13 15:58 丹江湖畔养蜂子赵大爹阅读(1203) 评论(0) 推荐(0) 编辑

2018年3月23日

spark-mllib 密集向量和稀疏向量

摘要： spark mllib 密集向量和稀疏向量 MLlib支持局部向量和矩阵存储在单台服务器，也支持存储于一个或者多个rdd的分布式矩阵。局部向量和局部矩阵是用作公共接口的最简单的数据模型。基本的线性代数运算由Breeze提供。在监督学习中使用的训练示例在MLlib中称为“标记点”。因此，向量阅读全文

posted @ 2018-03-23 11:32 丹江湖畔养蜂子赵大爹阅读(1041) 评论(0) 推荐(0) 编辑

2018年3月13日

【图数据结构的遍历】java实现广度优先和深度优先遍历

摘要：【图数据结构的遍历】java实现广度优先和深度优先遍历宽度优先搜索(BFS）遍历图需要使用队列queue数据结构；深度优先搜索(DFS, Depth First Search)的实现需要使用到栈stack数据结构。 java中虽然有Queue接口，单java并没有给出具体的队列实现类，而Jav 阅读全文

posted @ 2018-03-13 15:28 丹江湖畔养蜂子赵大爹阅读(8535) 评论(1) 推荐(0) 编辑

丹江湖畔养蜂子的赵大爹

公告