摘要:public int getPartition(K key, V value, int numReduceTasks) { return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks; } java String 的hashCode:
阅读全文
摘要:一、区别: Hbase: Hadoop database 的简称,也就是基于Hadoop数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等。 Hive:Hive是Hadoop数据仓库,严格来说,不是数据库,主要是让开发人员能够通过SQ
阅读全文
摘要:https://www.jianshu.com/p/13f8a81d7c7c
阅读全文
摘要:收集端:input { file { path => "/home/admin/local/uae_agent/apps/InProcessorOL/log/a4_comment_processor/comment_processor.log*" start_position => "beginning" type => "processor_10.40.87.141...
阅读全文
摘要:https://www.lucidchart.com/documents#docs?folder_id=home&browser=icon&sort=saved-desc
阅读全文
摘要:最近在参与一个基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计查询的方案设计工作,花了些时间学习Elasticsearch的基础理论知识,整理了一下,希望能对Elasticsearch感兴趣/想了解的同学有所帮助。 同时也希望有发现内容不正确或者有疑问的地方,望指明,一起
阅读全文
摘要:1. 代码会发送到各个supervisor节点 2. submit topology前的代码在客户端执行,所以相关日志或者log会输出到屏幕 3. 构造函数里的东西必须能序列化,且构造函数是在本地执行的,要传输内容的话,可以放到conf里 4. prepare 和 execute 或者nextTup
阅读全文
摘要:考虑到logstash 对 file input 有inode的考虑对同名的文件名,每次用os.remove,在 open 建立文件,发现会出现inode号相同的情况。。可能跟linux系统有关,inode是全局递增的?
阅读全文
摘要:logstash的 tcp和 syslog input plugin 都是把tcp流直接当做日志数据的; 而 logging模块里的SocketHandler输出的是经过pickle 序列化的,可以参考官方的接收端代码例子:import pickleimport loggingimport logg...
阅读全文
摘要:http://docs.hortonworks.com/HDPDocuments/Ambari-2.0.0.0/Ambari_Doc_Suite/ADS_v200.html#ref-2b6244d6-8736-40fa-bcf9-e8629c3d9c9ehttp://docs.hortonworks...
阅读全文
摘要:fs.defaultFS 搞了半天,发现设置成fs.default.name 就可以了(其中还有只改了namenode 中的fs.defaultFS 为fs.default.name)。可能是因为 我并不是用 namenode ha 的原因,所以得用fs.default.name
阅读全文
摘要:一、spark是什么一个集群计算框架或者说分布式计算框架,最初目标是解决或者替代mapreduce磁盘读写开销的。是伯克利BDAS的一个基础部分。BDAS框架:特性:基于内存,而不是磁盘,性能比mapreduce有了显著提高RDD,resilient distribution datasetScal...
阅读全文
摘要:定量属性(数值的):区间,比率等定性属性(标识的):标识,序号等聚集:删除数据的属性值(如一个商店的事务代替所有商店的事务)或者合并属性的值(如取值从1-365日合并为取值为1-12月)。 关键是找出聚集事务,一般定性属性采用忽略或者汇总方法,定量属性采用求和或求平均方法抽样:随机抽样(返回抽...
阅读全文
摘要:http://blog.csdn.net/woshiwanxin102213/article/details/17584043http://www.uml.org.cn/sjjm/201212141.asp
阅读全文
摘要:Kafka is a distributed, partitioned, replicated commit log service.Terms:Topic: kafka maintains message in categories called topicsProducer: processes...
阅读全文
摘要:1. 一个callTime 线程池2. 一个roolTime 线程池3. 一个LinkHashTable 维持打开的文件.(BuckerWriter 由hdfsWriter 代表 HDFSDataStream 或者HDFSCompressedDataStream 或者HDFSSequenceFile...
阅读全文
摘要:http://www.linuxidc.com/Linux/2014-02/97076p6.htmHAhttp://www.21ops.com/front-tech/10744.htmlHadoop中的NameNode好比是人的心脏,非常重要,绝对不可以停止工作。在hadoop1时代,只有一个Nam...
阅读全文
摘要:flume-ng 1.5 新增一个Spillable memory channel :http://www.tuicool.com/articles/i2mUfqb虽然可以在sink阻塞时候,把event存入file channel,且file channel在flume 被Kill掉再启动时能恢复...
阅读全文
摘要:prerequisite: JMX http://www.cnblogs.com/itech/archive/2010/09/16/1827999.html http://download.oracle.com/technetwork/java/javase/6/docs/zh/api/java/l...
阅读全文
摘要:Flume架构主要由3个组件,分别是Source,Channel和Sink,3个组件组成Event在Flume中得数据流向或者说流水线,功能可以由Flume的介绍看出:When a Flume source receives an event, it stores it into one or mo...
阅读全文