软件心理学工程师

2017年10月10日

Elastic公司在收购了Prelert半年之后，终于在Elasticsearch 5中推出了Machine Learning功能。Prelert本身就擅长做时序性数据的异常检测，从这点上讲也比较契合elasticsearch的数据特征。在做了一段时间的PoC之后，发现这个功能的最大作用就是trou Read More

posted @ 2017-10-10 23:40 软件心理学工程师 Views(925) Comments(0) Diggs(0)

2017年8月31日

jconsole远程监控logstash agent

在logstash的jvm.options文件末尾添加： -Dcom.sun.management.jmxremote.port=9999 //指定jmx端口-Dcom.sun.management.jmxremote.ssl=false // no ssl-Dcom.sun.management. Read More

posted @ 2017-08-31 21:29 软件心理学工程师 Views(585) Comments(0) Diggs(0)

2016年12月23日

kafka总结

近期在做kafka metrics. 参考了几个开源的项目，诸如kafka manager, Burrow, kafkaOffsetMonitor，东西都很不错，可惜没有一个是用java编写的，最终自己去仿照kafka源码写了个java版的adminclient，拿到了自己需要的metrics数据。 Read More

posted @ 2016-12-23 22:14 软件心理学工程师 Views(3051) Comments(0) Diggs(0)

2016年10月4日

cloudera learning8:MapReduce and Spark

YARN:Yet Another Resource Negotiator, Hadoop集群的资源管理器，可以对运行在Hadoop上的MapReduce V2，Spark，Impala等进行内存和CPU的分配。 MapReduce过程分析 input split（输入分片）阶段:在进行Map之前，会 Read More

posted @ 2016-10-04 16:56 软件心理学工程师 Views(258) Comments(0) Diggs(0)

2016年10月3日

cloudera learning7:Hadoop资源管理

Linux Control Groups(cgroups):在操作系统级别进行资源分配，可通过Cloudera Static Service Pools配置。 YARN调度器配置:对运行在YARN上的应用进行资源配置，比如M/R，implala。可通过Cloudera 动态资源池进行配置。以下资源 Read More

posted @ 2016-10-03 12:26 软件心理学工程师 Views(627) Comments(0) Diggs(0)

2016年10月1日

cloudera learning6:Hadoop Security

保证Hadoop安全的最有效方法是对cluster进行隔离（isolation，常用方法是把大集群划分若干个小集群）。 Hadoop安全措施的目的是防止好的人不小心做了坏的事，而非防止坏人坏事。 Kerberos: Hadoop采用Kerberos对所有的RPCs进行用户验证。Kerberos并不是 Read More

posted @ 2016-10-01 21:59 软件心理学工程师 Views(171) Comments(0) Diggs(0)

2016年9月29日

cloudera learning5:Hadoop集群高级配置

HDFS-NameNode Tuning: dfs.namenode.handler.count: NameNode可开启的thread number,thread为从NameNode到DataNode的RPC请求。Default值为30(CM，Non CM is 10)。推荐设置为集群node数量 Read More

posted @ 2016-09-29 22:53 软件心理学工程师 Views(625) Comments(0) Diggs(0)

cloudera learning4:Hadoop集群规划

涉及到一些关于硬件的东西，我也不是很懂，记录下来有待以后学习。 Hadoop集群一般都是由小到大，刚开始可能只有4到6个节点，随着存储数据的增加，计算量的增大，内存需求的增加，集群慢慢变大。比如按照数据存储量增大集群，每个星期数据存储3TB数据，HDFS的block备份数为3，则集群就需要9TB的 Read More

posted @ 2016-09-29 21:46 软件心理学工程师 Views(438) Comments(0) Diggs(0)

cloudera learning3:Hadoop配置和守护进程logs

Services:Haddoop cluster上可以部署的组件,比如HDFS，YARN，HBase等。 Roles:在service配置时，由Cloudera Manager创建。比如NameNode是HDFS service的一个role。 Role Group:对Role的管理，可以将相同类别 Read More

posted @ 2016-09-29 21:07 软件心理学工程师 Views(385) Comments(0) Diggs(0)

2016年9月28日

cloudera learning2:HDFS

存入HDFS的文件会按块（block）划分，默认每块128MB。默认1个block还有2个备份。备份增加了数据的可靠性和提高计算效率（数据本地化）。 HDFS部署可选择不支持HA，也可选择支持HA。 NameNode内存中有metadata，metadata里主要记录的信息包括：file locat Read More

posted @ 2016-09-28 08:43 软件心理学工程师 Views(453) Comments(0) Diggs(0)

软件心理学工程师

公告