数据,日志,flume,kafka,rabbitmq - 随笔分类 - 不忘初衷,方能致远

mapreduce 中partioner 哈希算法

摘要：public int getPartition(K key, V value, int numReduceTasks) { return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks; } java String 的hashCode: 阅读全文

posted @ 2019-06-26 20:47 不忘初衷,方能致远阅读(515) 评论(0) 推荐(0)

hive vs hbase

摘要：一、区别： Hbase： Hadoop database 的简称，也就是基于Hadoop数据库，是一种NoSQL数据库，主要适用于海量明细数据（十亿、百亿）的随机实时查询，如日志明细、交易清单、轨迹行为等。 Hive：Hive是Hadoop数据仓库，严格来说，不是数据库，主要是让开发人员能够通过SQ 阅读全文

posted @ 2018-05-10 21:35 不忘初衷,方能致远阅读(188) 评论(0) 推荐(0)

抓手机包

摘要：https://www.jianshu.com/p/13f8a81d7c7c 阅读全文

posted @ 2018-03-02 16:22 不忘初衷,方能致远阅读(98) 评论(0) 推荐(0)

logstash 收集日志传到另外一台机器的logstash并落地到磁盘

摘要：收集端：input { file { path => "/home/admin/local/uae_agent/apps/InProcessorOL/log/a4_comment_processor/comment_processor.log*" start_position => "beginning" type => "processor_10.40.87.141... 阅读全文

posted @ 2017-08-17 20:04 不忘初衷,方能致远阅读(622) 评论(0) 推荐(0)

er designer

摘要：https://www.lucidchart.com/documents#docs?folder_id=home&browser=icon&sort=saved-desc 阅读全文

posted @ 2017-06-29 10:21 不忘初衷,方能致远阅读(171) 评论(0) 推荐(0)

Elasticsearch 学习笔记

摘要：最近在参与一个基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计查询的方案设计工作，花了些时间学习Elasticsearch的基础理论知识，整理了一下，希望能对Elasticsearch感兴趣/想了解的同学有所帮助。同时也希望有发现内容不正确或者有疑问的地方，望指明，一起阅读全文

posted @ 2016-05-17 10:48 不忘初衷,方能致远阅读(3434) 评论(0) 推荐(2)

Storm 笔记

摘要：1. 代码会发送到各个supervisor节点 2. submit topology前的代码在客户端执行，所以相关日志或者log会输出到屏幕 3. 构造函数里的东西必须能序列化，且构造函数是在本地执行的，要传输内容的话，可以放到conf里 4. prepare 和 execute 或者nextTup 阅读全文

posted @ 2016-03-17 17:23 不忘初衷,方能致远阅读(165) 评论(0) 推荐(0)

logstash 与 inode 以及 python 文件操作

摘要：考虑到logstash 对 file input 有inode的考虑对同名的文件名，每次用os.remove，在 open 建立文件，发现会出现inode号相同的情况。。可能跟linux系统有关，inode是全局递增的？阅读全文

posted @ 2015-09-16 18:05 不忘初衷,方能致远阅读(409) 评论(0) 推荐(0)

logstash的tcp input 和 python logging 模块

摘要：logstash的 tcp和 syslog input plugin 都是把tcp流直接当做日志数据的；而 logging模块里的SocketHandler输出的是经过pickle 序列化的，可以参考官方的接收端代码例子：import pickleimport loggingimport logg... 阅读全文

posted @ 2015-09-06 14:14 不忘初衷,方能致远阅读(1149) 评论(0) 推荐(0)

hadoop

摘要：http://docs.hortonworks.com/HDPDocuments/Ambari-2.0.0.0/Ambari_Doc_Suite/ADS_v200.html#ref-2b6244d6-8736-40fa-bcf9-e8629c3d9c9ehttp://docs.hortonworks... 阅读全文

posted @ 2015-05-17 23:33 不忘初衷,方能致远阅读(129) 评论(0) 推荐(0)

搭建hadoop2.6.0集群遇到fs.defaultFS的问题

摘要：fs.defaultFS 搞了半天，发现设置成fs.default.name 就可以了（其中还有只改了namenode 中的fs.defaultFS 为fs.default.name）。可能是因为我并不是用 namenode ha 的原因，所以得用fs.default.name 阅读全文

posted @ 2015-04-30 02:29 不忘初衷,方能致远阅读(3006) 评论(0) 推荐(0)

Spark 之旅一

摘要：一、spark是什么一个集群计算框架或者说分布式计算框架，最初目标是解决或者替代mapreduce磁盘读写开销的。是伯克利BDAS的一个基础部分。BDAS框架：特性：基于内存,而不是磁盘，性能比mapreduce有了显著提高RDD，resilient distribution datasetScal... 阅读全文

posted @ 2015-04-29 15:56 不忘初衷,方能致远阅读(306) 评论(0) 推荐(0)

数据预处理

摘要：定量属性(数值的)：区间，比率等定性属性(标识的)：标识，序号等聚集：删除数据的属性值（如一个商店的事务代替所有商店的事务）或者合并属性的值（如取值从1-365日合并为取值为1-12月）。关键是找出聚集事务，一般定性属性采用忽略或者汇总方法，定量属性采用求和或求平均方法抽样：随机抽样(返回抽... 阅读全文

posted @ 2015-03-25 17:11 不忘初衷,方能致远阅读(181) 评论(0) 推荐(0)

hbase 简介

摘要：http://blog.csdn.net/woshiwanxin102213/article/details/17584043http://www.uml.org.cn/sjjm/201212141.asp 阅读全文

posted @ 2015-03-21 22:57 不忘初衷,方能致远阅读(131) 评论(0) 推荐(0)

kafka 介绍

摘要：Kafka is a distributed, partitioned, replicated commit log service.Terms:Topic: kafka maintains message in categories called topicsProducer: processes... 阅读全文

posted @ 2015-03-16 19:14 不忘初衷,方能致远阅读(414) 评论(0) 推荐(0)

Flume hdfs sink

摘要：1. 一个callTime 线程池2. 一个roolTime 线程池3. 一个LinkHashTable 维持打开的文件.(BuckerWriter 由hdfsWriter 代表 HDFSDataStream 或者HDFSCompressedDataStream 或者HDFSSequenceFile... 阅读全文

posted @ 2015-03-09 11:20 不忘初衷,方能致远阅读(191) 评论(0) 推荐(0)

hadoop 集群复习

摘要：http://www.linuxidc.com/Linux/2014-02/97076p6.htmHAhttp://www.21ops.com/front-tech/10744.htmlHadoop中的NameNode好比是人的心脏，非常重要，绝对不可以停止工作。在hadoop1时代，只有一个Nam... 阅读全文

posted @ 2015-03-05 23:05 不忘初衷,方能致远阅读(540) 评论(0) 推荐(0)

Flume 内存channel的数据持久化

摘要：flume-ng 1.5 新增一个Spillable memory channel ：http://www.tuicool.com/articles/i2mUfqb虽然可以在sink阻塞时候，把event存入file channel，且file channel在flume 被Kill掉再启动时能恢复... 阅读全文

posted @ 2015-02-26 14:19 不忘初衷,方能致远阅读(1131) 评论(1) 推荐(0)

Flume 内置统计

摘要：prerequisite: JMX http://www.cnblogs.com/itech/archive/2010/09/16/1827999.html http://download.oracle.com/technetwork/java/javase/6/docs/zh/api/java/l... 阅读全文

posted @ 2015-02-16 16:55 不忘初衷,方能致远阅读(240) 评论(0) 推荐(0)

Flume 源码阅读

摘要：Flume架构主要由3个组件，分别是Source，Channel和Sink，3个组件组成Event在Flume中得数据流向或者说流水线，功能可以由Flume的介绍看出：When a Flume source receives an event, it stores it into one or mo... 阅读全文

posted @ 2015-02-15 19:07 不忘初衷,方能致远阅读(480) 评论(0) 推荐(0)

不忘初衷,方能致远

随笔分类 - 数据,日志,flume,kafka,rabbitmq

导航

公告