Elastic公司在收购了Prelert半年之后,终于在Elasticsearch 5中推出了Machine Learning功能。Prelert本身就擅长做时序性数据的异常检测,从这点上讲也比较契合elasticsearch的数据特征。在做了一段时间的PoC之后,发现这个功能的最大作用就是trou Read More
posted @ 2017-10-10 23:40 软件心理学工程师 Views(925) Comments(0) Diggs(0)
在logstash的jvm.options文件末尾添加: -Dcom.sun.management.jmxremote.port=9999 //指定jmx端口-Dcom.sun.management.jmxremote.ssl=false // no ssl-Dcom.sun.management. Read More
posted @ 2017-08-31 21:29 软件心理学工程师 Views(585) Comments(0) Diggs(0)
近期在做kafka metrics. 参考了几个开源的项目,诸如kafka manager, Burrow, kafkaOffsetMonitor,东西都很不错,可惜没有一个是用java编写的,最终自己去仿照kafka源码写了个java版的adminclient,拿到了自己需要的metrics数据。 Read More
posted @ 2016-12-23 22:14 软件心理学工程师 Views(3051) Comments(0) Diggs(0)
YARN:Yet Another Resource Negotiator, Hadoop集群的资源管理器,可以对运行在Hadoop上的MapReduce V2,Spark,Impala等进行内存和CPU的分配。 MapReduce过程分析 input split(输入分片)阶段:在进行Map之前,会 Read More
posted @ 2016-10-04 16:56 软件心理学工程师 Views(258) Comments(0) Diggs(0)
Linux Control Groups(cgroups):在操作系统级别进行资源分配,可通过Cloudera Static Service Pools配置。 YARN调度器配置:对运行在YARN上的应用进行资源配置,比如M/R,implala。可通过Cloudera 动态资源池进行配置。 以下资源 Read More
posted @ 2016-10-03 12:26 软件心理学工程师 Views(627) Comments(0) Diggs(0)
保证Hadoop安全的最有效方法是对cluster进行隔离(isolation,常用方法是把大集群划分若干个小集群)。 Hadoop安全措施的目的是防止好的人不小心做了坏的事,而非防止坏人坏事。 Kerberos: Hadoop采用Kerberos对所有的RPCs进行用户验证。Kerberos并不是 Read More
posted @ 2016-10-01 21:59 软件心理学工程师 Views(171) Comments(0) Diggs(0)
HDFS-NameNode Tuning: dfs.namenode.handler.count: NameNode可开启的thread number,thread为从NameNode到DataNode的RPC请求。Default值为30(CM,Non CM is 10)。推荐设置为集群node数量 Read More
posted @ 2016-09-29 22:53 软件心理学工程师 Views(625) Comments(0) Diggs(0)
涉及到一些关于硬件的东西,我也不是很懂,记录下来有待以后学习。 Hadoop集群一般都是由小到大,刚开始可能只有4到6个节点,随着存储数据的增加,计算量的增大,内存需求的增加,集群慢慢变大。 比如按照数据存储量增大集群,每个星期数据存储3TB数据,HDFS的block备份数为3,则集群就需要9TB的 Read More
posted @ 2016-09-29 21:46 软件心理学工程师 Views(438) Comments(0) Diggs(0)
Services:Haddoop cluster上可以部署的组件,比如HDFS,YARN,HBase等。 Roles:在service配置时,由Cloudera Manager创建。比如NameNode是HDFS service的一个role。 Role Group:对Role的管理,可以将相同类别 Read More
posted @ 2016-09-29 21:07 软件心理学工程师 Views(385) Comments(0) Diggs(0)
存入HDFS的文件会按块(block)划分,默认每块128MB。默认1个block还有2个备份。备份增加了数据的可靠性和提高计算效率(数据本地化)。 HDFS部署可选择不支持HA,也可选择支持HA。 NameNode内存中有metadata,metadata里主要记录的信息包括:file locat Read More
posted @ 2016-09-28 08:43 软件心理学工程师 Views(453) Comments(0) Diggs(0)