ganglia<at>centos
http://www.verydemo.com/demo_c210_i3764.html
Ganglia与cacti的比较主要有三点:
1. 部署的方便性。相对于cacti的逐台服务器的添加方式,ganglia类似与nagios的部署方式会更简单,更方便。有利于后期的大规模扩张。
2. 两者的数据获取方式(重点)
2.1 Ganglia本身就是为集群监控进行设计的,这体现在其数据的获取方式(客户端主动推送)以及分层设计(node cluster grid)
2.2 cacti则是服务端主动去轮循(逐台服务器)这在一定程度上影响了数据的新鲜,以及所能监控节点的数量。
3. 通信方式以及冗余
3.1 cacti属于点到点通信,并且不会在本地对信息进行存储。存在单点故障的风险
3.2 Ganglia通过组播进行数据交互,配置得当,可以实现冗余避免单点故障。另外,同样由于组播,数据可以在客户机本地进行存放的(安装rrdtool)。
Ganglia体系结构:
gmetad:从监听节点轮询出数据,并对数据进行聚合、存储(ganglia组件)
gmond:组播包的发送和接受。发送本地信息,接受其他节点信息(ganglia组件)
Ganglia网页:提供ganglia的访问页面(ganglia组件)
rrdtool: 数据存储以及提供画图功能
Apache与php:网站功能,对ganglia提供的网页进行解析。
===================
http://ju.outofmemory.cn/entry/25713
对于任何一个互联网公司来说,监控系统都是不可或缺的。监控系统的完善程度,直接影响到系统的稳定程度,性能等各个方面。
关于监控系统的搭建,网上已经有了很多方案,在规划公司的监控体系的时候,我也参考了很多解决方案。比较常见的有:nagios,cacti,icinga,zabbix,ganglia,还有收费的监控服务有如newrelic等。
考察了一圈下来,发现各有所长,又各有重叠。nagios的优势是报警功能非常成熟和强大,插件体系也非常简单易扩展,但是,对性能、流量等指标的处理不给力。于是需要cacti来互补,cacti虽说不仅仅支持snmp,但是对于业务数据的监控(如页面pv量)支持仍然不是很好,icinga是nagios的兼容升级版,遗憾的是,缺点还在。zabbix貌似保护了nagios+cacti,但是对于我们来说,显得大而全,略重,于是没细看。ganglia貌似挺不错,flickr在用。
最后,我决定,使用collectd+statsd(statsite)+graphite+nagios来做我们的监控方案。
这套系统包含三个部分:
一个是指标的收集
这里使用collectd和statsite,collectd是一个非常小巧清新(我喜欢)的指标收集系统,部署在所有机器上,它会定时将机器的各种指标(通过各种插件来实现)写到rrd文件中或者发送到其他系统(如graphite或者另外一个collectd服务)。自带的几十个插件几乎覆盖了基础技术指标的所有方面,从磁盘读写到网络流量,从到load到内存再到mysql。我们在所有机器上都部了collectd,然后将指标汇总到一台collectd服务器上。这个collectd再将数据写到graphite中。于是,基础技术指标全来了。
statsite(statsd的c语言版)也是一个指标收集系统,它和collectd一样小巧清新,不同的地方在于,collectd是定时主动去获取指标,而statsite则是需要应用程序不断的将指标喂给它,这就非常适合业务数据的收集,如访问次数,响应时间等统计。来一条,往statsite记一条,statsite还会帮你算平均值,次数等基本的统计。而且,还支持写到graphite中。真是爽啊。我们的应用中包含了一些统计代码,还有一大部分指标通过订阅日志来实时统计。
然后是指标的展示(绘制曲线)
我们选用了graphite这个工具,这个工具非常棒,它只做数据指标的绘图,而且做到极致,非常符合我的口味。它可以将各种指标,经过运算得到你想要的曲线,并且支持简单的dashboard,不过,这个dashboard略简陋,可以考虑自己弄,将它生成的图嵌进去即可。另外一个非常重要的功能是,对你配置好的曲线,可以通过HTTP接口获得数据。这就为后面的工作提供了极大的方便。
最后是报警
nagios再适合不过了,简单,稳定,通过nrpe监控了机器上的基本指标后,大部分的报警都是通过自己写的check_graphite插件来读我们配置好的图来完成。这样,我们任何一个系统出了问题,立刻短信就来了。
记住,Measure everything&monitor everything!
==================================
http://blog.chinaunix.net/uid-11121450-id-3147002.html
Ganglia是一个监控服务器,集群的开源软件,能够用曲线图表现最近一个小时,最近一天,最近一周,最近一月,最近一年的服务器或者集群的cpu负载,内存,网络,硬盘等指标。
Ganglia的强大在于:ganglia服务端能够通过一台客户端收集到同一个网段的所有客户端的数据,ganglia集群服务端能够通过一台服务端收集到它下属的所有客户端数据。这个体系设计表示一台服务器能够通过不同的分层能够管理上万台机器。这个功能是其他mrtg,nagios,cacti所不能比拟。
Ganglia的扩展插件非常好写,无论用何种语言(shell,php,pyton)都可以写,只要把最终结果传给gmetric就可以,这样在web上就可以看到对应的数据。
0. 准备
最新的ganglia版本为3.2.0,但是我推荐安装ganglia3.0.3,因为这个版本安装比较简单,依赖包只有rrdtool。而新版本依赖包太多。
官方网站:http://ganglia.info
ganglia的下载地址 http://sourceforge.net/projects/ganglia
windows版windows客户端版和ganglia 源包:
:http://www.sajinet.com.pe/ganglia/
http://sourceforge.net/project/showfiles.php?group_id=43021&package_id=35280
ganglia的安装分为服务端和客户端和web端安装
文档帮助: http://ganglia.sourceforge.net/docs/
1) 服务端依赖包
Ganglia里的gmetad
Rrdtool(这个依赖很多包,ganglia对于rrdtool的版本不敏感,最好选择比较好安装的版本安装)
2) 客户端
ganglia里的gmond
3) Web端:
Apache,php,rrdtool,php-gd(可不用装,不装的话只是看不到一张饼图,不影响使用)
1.服务端安装 (gmetad)
服务端的服务为gmetad,安装前需要先安装RRDTool(数据库和绘图工具,服务端收集的客户端信息由其来保存),因为要绘制曲线图,所以安装RRDTool前,还必须安装好libpng,freetype,zlib这些库(也是php的gd库需要的),下载地址http://www.rrdtool.org/ 。
安装完了RRDTool,就可以安装gmetad了
点击(此处)折叠或打开
- tar –zxvf ganglia3.0.3.tar.gz
- cd ganglia3.0.3
- ./configure CFLAGS="-I/usr/local/rrdtool-1.0.50/include" CPPFLAGS="-I/usr/local/rrdtool-1.0.50/include" LDFLAGS="-L/usr/local/rrdtool-1.0.50/lib" --with-gmetad --enable-gexec
- make
- make install
将gmetad.init文件拷贝到 /etc/init.d/:
点击(此处)折叠或打开
- cd ganglia-3.0.3/gmetad
- cp gmetad.init /etc/init.d/gmetad #若是ganglia安装在别的目录,则修改gmetad.init里的gmetad路径
- cp gmetad.conf /etc/gmetad.conf
- chkconfig gmetad on
- chkconfig --list gmetad
- GMETAD 0:off 1:off 2:on 3:on 4:on 5:on 6:off
创建rrd数据存储的文件夹, 修改属性拥有者为: "nobody":
点击(此处)折叠或打开
- mkdir /var/lib/ganglia/rrds
- chown nobody:nobody /var/lib/ganglia/rrds
启动gmetad:
点击(此处)折叠或打开
- service gmetad start
- Starting GANGLIA gmetad: [ OK ]
修改 /etc/gmetad.conf文件:
点击(此处)折叠或打开
- data_source "taskcenter" 1.2.3.4 #所要监控的客户端 可以写多个
- setuid_username "root" #可改为其他安全用户
- # default: "/var/lib/ganglia/rrds" #定义该客户端的数据保存的路径
- # rrd_rootdir "/some/other/place"
- rrd_rootdir "/var/lib/ganglia/rrds"
重新启动gmetad:
点击(此处)折叠或打开
- service gmetad start
- Starting GANGLIA gmetad: [ OK ]
验证gmetad正常工作:
点击(此处)折叠或打开
- telnet localhost 8651
就可以得到监控的各个主机的状态。
2.安装客户端gmond2.1 linux版
在每台需要监控的机器上,安装gmond
安装ganglia:
点击(此处)折叠或打开
- tar zxvf ganglia-3.0.3.tar.gz
- cd ganglia-3.0.3
- ./configure --prefix=/usr/local/ganglia
- make;
- make install
- cd gmond
- ./gmond –t > /etc/gmond.conf
点击(此处)折叠或打开
- vi gmond.init
- 修改里面的GMOND 改为GMOND=/usr/local/ganglia/sbin/gmond
- # cp gmond.init /etc/init.d/gmond
- # chkconfig --add gmond
- # chkconfig --list gmond
- gmond 0:off 1:off 2:on 3:on 4:on 5:on 6:off
- # service gmond start
- Starting GANGLIA gmond: [ OK ] #若不成功的话,就用/usr/local/ganglia/sbin/gmond手动启动
启动失败有可能是因为多播地址没有路由
点击(此处)折叠或打开
- route add -host 239.2.11.71 dev eth0
验证gmond正常工作:
点击(此处)折叠或打开
- telnet localhost 8649
就可以获取机群内运行gmond的主机的信息
vi /etc/gmond.conf
配置gmond.conf:
点击(此处)折叠或打开
- /etc/gmond.conf:
- globals
- {
- setuid = no
- user = nobody
- cleanup_threshold = 300 /*secs */
- }
- #修改监控组名称
- cluster
- {
- name = "taskcenter"
- .......}
配置完成后重新启动gmond
2.2 window版
下载:http://www.sajinet.com.pe/ganglia/ganglia-3.1.0-bin.zip
解压后,运行gmond.bat
测试:telnet 127.0.0.1 8649
安装自启动:把gmond.bat加到启动项中
3.web端安装
web端用于通过web来查看监控状态。
因为web端程序是php写的,所以需要安装apache。同时需要编译php的gd库。web端需要和服务器端在一块。
# cp -a ganglia-3.0.3/web /var/www/html/ganglia
确定web server支持PHP4
对apache来说,php模块mod_php的状态应该是enabled,貌似默认就是的^_^
配制文件是/var/www/html/ganglia/conf.php
点击(此处)折叠或打开
- # Where gmetad stores the rrd archives.
- $gmetad_root = "/var/lib/ganglia";
- $rrds = "/usr/local/rrdtool-1.0.50/"; #数据源路径
- # Leave this alone if rrdtool is installed in $gmetad_root,
- # otherwise, change it if it is installed elsewhere (like /usr/bin)
- define("RRDTOOL", "/usr/local/rrdtool-1.0.50/bin/rrdtool"); # rrdtool执行路径
- #
- # If you want to grab data from a different ganglia source specify it here.
- # Although, it would be strange to alter the IP since the Round-Robin
- # databases need to be local to be read.
- #
- $ganglia_ip = "localhost";
- $ganglia_port = 8652;
- #$ganglia_port = 8649;
在浏览器地址栏输入http://localhost/ganglia/应该可以看到有页面显示了。
演示地址 伯克利大学的集群监控(1000多台服务器):
http://monitor.millennium.berkeley.edu/
访问web出现图片画不出来的原因:
1) rrdtool没有安装,或者conf.php里没有配置
2) gemtad没有启动
3) 没有客户端数据
4) Selinux限制apache执行rrdtool
另外ganglia还有很多插件可以监控更多的指标
其中有一个插件,安装后可以查看任意时间的曲线图
========================================
http://hao360.blog.51cto.com/5820068/1402731
简述:Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,由RRDTool工具处理数据,并生成相应的的图形显示,以Web方式直观的提供给客户端。如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。
环境:CentOS 6.5 x64
安装基础环境配置
PHP程序需要依赖Apache来运行,因此需要安装如下依赖
yum install php php-common php-cli php php-gd httpd mysql mysql-server mysql-connector-odbc pcre pcre-devel
安装依赖
rpm -ivh http://mirrors.sohu.com/centos/5/os/x86_64/CentOS/zlib-devel-1.2.3-3.x86_64.rpm rpm -ivh http://mirrors.sohu.com/centos/5/os/x86_64/CentOS/freetype-devel-2.2.1-28.el5_5.1.x86_64.rpm rpm -ivh http://mirrors.sohu.com/centos/5/os/x86_64/CentOS/libart_lgpl-devel-2.3.17-4.x86_64.rpm rpm -ivh http://mirrors.sohu.com/centos/5/os/x86_64/CentOS/libpng-devel-1.2.10-7.1.el5_5.3.x86_64.rpm
如果上述安装失败,可能需要安装以下库依赖
yum install zlib freetype libart_lgpl libpng
安装rrdtools
1
2
3
4
5
6
7
8
|
cd /usr/src/ wget http: //oss .oetiker.ch /rrdtool/pub/rrdtool-1 .4.8. tar .gz tar zxvf rrdtool-1.4.8. tar .gz cd rrdtool-1.4.8 . /configure --prefix= /usr/local/rrdtool make && make install ln -s /usr/local/rrdtool/include/rrd .h /usr/include/rrd .h ln -s /usr/local/rrdtool/lib/librrd .a /usr/lib/librrd .a |
执行下命令,看是否安装成功
/usr/local/rrdtool/bin/rrdtool
安装expat依赖
1
2
3
4
5
6
7
8
9
|
wget http: //downloads.sourceforge.net/project/expat/expat/2.0.1/expat-2.0.1.tar.gz tar zxvf expat- 2.0 . 1 .tar.gz cd expat- 2.0 . 1 ./configure --prefix=/usr/local/expat make && make install 对于 64 位操作系统,需要手动的拷贝下动态链接库到lib64下 cd /usr/local/expat/ mkdir /usr/local/expat/lib64 cp -a /usr/local/expat/lib/* /usr/local/expat/lib64/ |
安装apr以及apr-util
1
2
3
4
5
6
7
8
9
10
11
|
wget https: //archive .apache.org /dist/apr/apr-1 .5.0. tar .gz tar zxvf apr-1.5.0. tar .gz cd apr-1.5.0 . /configure --prefix= /usr/local/apr make && make install cd .. wget https: //archive .apache.org /dist/apr/apr-util-1 .5.1. tar .gz tar xf apr-util-1.5.1. tar .gz cd apr-util-1.5.1 . /configure --with-apr= /usr/local/apr --with-expat= /usr/local/expat make && make install |
同样64位机器需要拷贝动态链接库
/bin/cp -f /usr/local/apr/include/apr-1/* /usr/local/apr/include/ mkdir -p /usr/local/apr/lib64 /bin/cp -a -f /usr/local/apr/lib/* /usr/local/apr/lib64/
安装confuse
1
2
3
4
5
|
wget http: //download.savannah.gnu.org/releases/confuse/confuse-2.7.tar.gz tar xf confuse- 2.7 .tar.gz cd confuse- 2.7 ./configure CFLAGS=-fPIC --disable-nls --prefix=/usr/local/confuse make && make install |
拷贝动态链接库
mkdir -p /usr/local/confuse/lib64 /bin/cp -a -f /usr/local/confuse/lib/* /usr/local/confuse/lib64/
安装pcre
pcre是perl 兼容的正规表达式库,在使用正则匹配时会很用。不安装的话,ganglia安装时会报错:libpcre not found, specify --with-libpcre=no to build without PCRE support。
1
2
3
4
5
6
|
cd /usr/src/ wget http: //ftp.exim.llorien.org/pcre/pcre-8.34.tar.gz tar zxvf pcre- 8.34 .tar.gz cd pcre- 8.34 ./configure make && make install |
调整lib库的位置:
vim /etc/ld.so.conf.d/libpcre.conf,添加:/usr/local/lib64,然后/sbin/ldconfig -v
安装ganglia
现在才是安装ganglia的开始, 下载ganglia-3.2.0,解压,安装
1
2
3
4
|
cd ganglia-3.2.0 . /configure --prefix= /usr/local/ganglia --with-librrd= /usr/local/rrdtool --with-libapr= /usr/local/apr --with-libexpat= /usr/local/expat \ --with-libconfuse= /usr/local/confuse --with-gmetad -- enable -gexec -- enable -status --sysconfdir= /etc/ganglia make && make install |
服务端配置
创建rrdtool数据目录,看$ganglia-3.2.0/web/conf.php里面的gmetad_root变量,并根据apache的运行用户创建权限,例如apache运行于apache用户上,如果没有对apache进行权限更改,则会出现There was an error collecting ganglia data (127.0.0.1:8652): fsockopen error: Connection refused的错,只有service gmetad status显示状态正常,service gmetad start、stop正常时,ganglia才算启动成功 。
mkdir -p /var/lib/ganglia/rrds mkdir -p /var/lib/ganglia/dwoo chown -R apache:apache /var/lib/ganglia
配置一个数据源,修改/etc/ganglia/gmetad.conf文件,同时将运行用户设置为rrdtool的目录权限用户,例如apache用户
data_source "suc" 192.168.1.3 注意:这里的192.168.1.3是被监控端的iP地址。 setuid_username "apache"
其中suc是数据源的名称,客户端分组会依赖此名称,后面会提到。 添加自启动脚本
/bin/cp -f /usr/src/ganglia-3.6.0/gmetad/gmetad.init /etc/init.d/gmetad /bin/cp -f /usr/local/ganglia/sbin/gmetad /usr/sbin/gmetad chkconfig --add gmetad
启动gmetad服务
service gmetad start
报这样错误:
error
while
loading shared libraries: libpcre.so.
1
:
cannot open shared object file: No such file or directory
处理方法:ln -s /usr/local/lib/libpcre.so.1 /lib64
在启动ganglia服务
service gmetad start
看见Starting GANGLIA gmetad: [ OK ]就代表运行正常了。
服务端的WEB配置
安装web程序,这里假定apache的root路径在/var/www/html下面,具体路径可查看/etc/httpd/conf/httpd.conf文件中的DocumentRoot配置。
mkdir /var/www/html/ganglia cp -a -f /usr/src/ganglia-3.2.0/web/* /var/www/html/ganglia
禁用SELinux setenforce 0
修改rrdtool的路径,文件/var/www/html/ganglia/conf.php中的RRDTOOL,如果不对此配置进行修改,则可能导致访问ganglia时,页面没有图片出现。
define("RRDTOOL", "/usr/local/rrdtool/bin/rrdtool");
重启httpd服务器即可看到效果 service httpd restart
客户端的配置
客户端也需要安装expat依赖,apr和apr-util,confuse相关软件,和服务器端一样进行安装,这里不再进行操作。
安装ganglia客户端
现在才是安装ganglia的开始, 下载ganglia-3.2.0,解压,安装
1
2
3
4
|
cd ganglia- 3.2 . 0 ./configure --prefix=/usr/local/ganglia -- with -libapr=/usr/local/apr -- with -libexpat=/usr/local/expat \ -- with -libconfuse=/usr/local/confuse --enable-gexec --enable-status make && make install |
/bin/cp -f /usr/src/ganglia-3.2.0/gmond/gmond.init /etc/init.d/gmond /bin/cp -f /usr/local/ganglia/sbin/gmond /usr/sbin/gmond chkconfig --add gmond /usr/src/ganglia-3.2.0/gmond/gmond --default_config > /etc/ganglia/gmond.conf
报这样错误:
error
while
loading shared libraries: libpcre.so.
1
:
cannot open shared object file: No such file or directory
处理方法:ln -s /usr/local/lib/libpcre.so.1 /lib64
对于生成的默认配置文件需要做适当的修改.
cluster { name="suc" owner="apache" latlong="unspecified" url="unspecified" }
其中name是将要在服务端进行的分组,是服务端的数据源。接下来开启服务
service gmond start
看见Starting GANGLIA gmetad: [ OK ]代表启动成功。如果有失败,可以讲gmond.conf中的debug有0改为100,看更多的日志,然后进行排查。
globals { daemonize = yes setuid = yes user = nobody debug_level = 100 }
非本机客户端配置,需要和服务端一样安装进行配置,运行,非常麻烦,这里使用本机安装好的文件进行安装。 使用下面的脚本进行安装deploy-ganglia.sh
i=$1 scp /usr/sbin/gmond $i:/usr/sbin/gmond ssh $i mkdir -p /etc/ganglia/ ssh $i mkdir -p /usr/local/ganglia/lib64 ssh $i mkdir -p /usr/local/expat/lib scp /etc/ganglia/gmond.conf $i:/etc/ganglia/ scp /etc/init.d/gmond $i:/etc/init.d/ scp -r /usr/local/ganglia/lib64/* $i:/usr/local/ganglia/lib64/ scp /usr/local/expat/lib/libexpat.so.1 $i:/usr/local/expat/lib/libexpat.so.1 scp /usr/lib64/libapr-1.so.0 $i:/usr/lib64/
实际上就是将本机安装好(编译好)的动态链接库拷贝到其它机器上,使用如下命令拷贝即可
sh deploy-ganglia.sh 10.1.11.2 这里的10.1.11.2是客户端计算机ip地址
http://my.oschina.net/vieky/blog?catalog=278549
http://blog.hackroad.com/operations-engineer/运维监控/8098.html
http://ixdba.blog.51cto.com/2895551/1401556
http://my.oschina.net/emptytimespace/blog/112529
http://www.ibm.com/developerworks/cn/linux/l-ganglia-nagios-2/
http://zhou123.blog.51cto.com/4355617/1543105
本文出自 “从心开始” 博客,请务必保留此出处http://hao360.blog.51cto.com/5820068/1402731
http://www.yhz.me/blog/Install-Ganglia-Client-On-CentOS.html
在 CentOS 6.5 上安装 Ganglia 3.6.0 客户端
更新源
yum install wget gcc make rsync
wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-6.repo
rpm -Uvh http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-6-8.noarch.rpm
yum makecache
安装依赖包
yum install apr-devel zlib-devel libconfuse-devel expat-devel pcre-devel
安装Ganglia
http://ganglia.info/
wget http://sourceforge.net/projects/ganglia/files/ganglia%20monitoring%20core/3.6.0/ganglia-3.6.0.tar.gz/download -O ~/ganglia-3.6.0.tar.gz
tar zxvf ganglia-3.6.0.tar.gz
cd ganglia-3.6.0
./configure --prefix=/usr/local/ganglia-3.6.0 --enable-gexec --enable-status --with-libconfuse --with-zlib
make
make install
配置
-
设置软链接
ln -s /usr/local/ganglia-3.6.0/sbin/gmond /usr/bin/gmond
-
复制服务启动文件
cp ~/ganglia-3.6.0/gmond/gmond.init /etc/rc.d/init.d/gmond chkconfig --add gmond chkconfig gmond on
-
修改配置文件
vi /etc/init.d/gmond GMOND=/usr/local/ganglia-3.6.0/sbin/gmond daemon $GMETAD -c /etc/ganglia/gmond.conf
-
生成初始文件
mkdir -p /etc/ganglia mkdir -p /usr/local/ganglia-3.6.0/lib64/ganglia/python_modules gmond -t | tee /etc/ganglia/gmond.conf
-
修改gmond.conf
vi /etc/ganglia/gmond.conf cluster { name = "ganglia.monitor" owner = "unspecified" latlong = "unspecified" url = "unspecified" } udp_send_channel { host = ganglia.monitor port = 8649 ttl = 1 } udp_recv_channel { port = 8649 } tcp_accept_channel { port = 8649 }
启动
service gmond start
http://blog.csdn.net/cywosp/article/details/39701141
转载请说明出处:http://blog.csdn.net/cywosp/article/details/39701141
}
<Location /ganglia>#Ganglia ServerOrder deny,allowDeny from allAllow from all</Location>
二.前期工作EPEL的安装
EPEL(Extra Packages for Enterprise Linux),这是针对RHEL设计的软件仓库,在这个仓库中有很多免费的常用软件,由Fedora项目维护,如果使用的是RHEL,CentOS,Scientific等RHEL系列的linux,可以非常方便的使用EPEL的yum源。
查看本机是否安装了EPEL:
rpm -q epel-release
package epel-release is not installed
如果没有安装,可以选择下面的情况来安装:
32位系统选择:
rpm -ivh http://download.fedora.RedHat.com/pub/epel/6/i386/epel-release-6-8.noarch.rpm
64位系统选择:
rpm -ivh http://download.fedora.redhat.com/pub/epel/6/x86_64/epel-release-6-8.noarch.rpm
导入key:
rpm --import /etc/pki/rpm-gpg/RPM-GPG-KEY-EPEL-6
安装后可以查看,得到:
rpm -q epel-release
epel-release-6-8.noarch
三.ganglia的安装
目前集群有三个节点:hdp1,hdp2,hdp3,其中hdp1为主节点
1.服务端安装
在服务器中需要安装 yum -y install ganglia
2.客户端安装
在客户端中需要安装 yum -y install ganglia-gmond
四.ganglia的配置
1.服务端配置
在/etc/ganglia/gmetad.conf中进行下面的配置
data_source "ShaQi" hdp1 hdp2 hdp3
setuid_username "apache" (可以不设置)
2.客户端配置
在/etc/ganglia/gmond.conf中进行下面的配置
cluster {
name = "ShaQi"
owner = "apache"
latlong = "unspecified"
url = "unspecified"
}
其中name需要与gmetad.conf中data_source中的“ShaQi”匹配
owner需要与setuid_username中的值对应(如果没有设置,可以不用修改)
修改了setuid_username后需要对权限进行更改:
Chown -R apache:apache /var/lib/ganglia/rrds
否则使用service gmetad status时出现gmetad dead but subsys locked
3.Apache的服务端配置
/etc/httpd/conf.d/ganglia.conf
代码如下:
Alias /ganglia /usr/share/ganglia
<Location /ganglia>
Order deny,allow
Allow from all
</Location>
五.ganglia的启动
启动服务端gmetad并且设为开机启动
service gmetad start
chkconfig gmetad on
通过telnet localhost 8651进行测试
启动客户端的gmond并设为开机启动
service gmond start
chkconfig gmond on
通过telnet localhost 8649进行测试
启动apache服务端
service httpd restart
六.ganglia的测试
通过浏览器访问:http://service_ip/ganglia加载下面界面
Ganglia 3.1.x下扩展Python模块(翻译自官方wiki) http://www.linuxidc.com/Linux/2014-04/99565.htm
使用Ganglia监控Hadoop集群 http://www.linuxidc.com/Linux/2012-05/61349.htm
在VMware Workstation的Ubuntu下安装和配置Hadoop与Ganglia http://www.linuxidc.com/Linux/2013-06/85856.htm
Ganglia安装部署之一建立Grid http://www.linuxidc.com/Linux/2013-05/83673.htm
Ganglia 极其简单安装教程yum版 http://www.linuxidc.com/Linux/2012-12/76536.htm
Ganglia快速开始向导(翻译自官方wiki) http://www.linuxidc.com/Linux/2013-11/92747.htm
CentOS集群上安装Ganglia-3.6.0监控Hadoop-2.2.0和HBase-0.96.0 http://www.linuxidc.com/Linux/2014-01/95804.htm
更多CentOS相关信息见CentOS 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=14
==============
http://www.it165.net/os/html/201405/8261.html
一、ganglia基本介绍
ganglia是分布式的监控系统,有两个Daemon,分别是:客户端GangliaMonitoring Daemon (gmond)和服务端GangliaMeta Daemon (gmetad),还有GangliaPHP Web
Frontend(基于web的动态访问方式)组成是一个Linux下图形化监控系统运行性能的软件,界面美观、丰富,功能强大而ganglia又依赖于一个web服务器用来显示集群状态,用rrdtool来存储数据和生成曲线图,需要xml解析因此需要expat,配置文件解析需要libconfuse。
Ganglia是一个监控服务器,集群的开源软件,能够用曲线图表现最近一个小时,最近一天,最近一周,最近一月,最近一年的服务器或者集群的cpu负载,内存,网络,硬盘等指标。
Ganglia的强大在于:ganglia服务端能够通过一台客户端收集到同一个网段的所有客户端的数据,ganglia集群服务端能够通过一台服务端收集到它下属的所有客户端数据。这个体系设计表示一台服务器能够通过不同的分层能够管理上万台机器。这个功能是其他mrtg,nagios,cacti所不能比拟。
二、下载及安装
ganglia-3.6.0.tar.gz下载地址http://down.51cto.com/data/1112626
[root@ws ~]# cat /etc/issue
CentOS release 6.5 (Final)
Kernel on an m
[root@ws ~]# uname -a
Linux ws.zdqy.com 2.6.32-431.5.1.el6.i686 #1 SMP Tue Feb 11 21:56:33 UTC 2014 i686 i686 i386 GNU/Linux
[root@ws tmp]# tar xf ganglia-3.6.0.tar.gz
[root@ws ~]# yum -y install apr-devel apr-util check-devel cairo-develpango-devel libxml2-devel rpm-build glib2-devel dbus-develfreetype-devel fontconfig-devel gcc gcc-c++ expat-devel python-devellibXrender-devel
[root@ws ganglia-3.6.0]# rpm -ivh http://dl.fedoraproject.org/pub/epel/6/i386/epel-release-6-8.noarch.rpm
Retrieving http://dl.fedoraproject.org/pub/epel/6/i386/epel-release-6-8.noarch.rpm
warning: /var/tmp/rpm-tmp.ULcPJf: Header V3 RSA/SHA256 Signature, key ID 0608b895: NOKEY
Preparing... ########################################### [100%]
1:epel-release ########################################### [100%]
[root@ws ganglia-3.6.0]# yum clean all
[root@ws ganglia-3.6.0]# yum install libconfuse* -y
Installing:
libconfuse i686 2.7-4.el6 epel 79 k
libconfuse-devel i686 2.7-4.el6 epel 17 k
[root@ws ~]# yum install libart_lgpl-devel pcre-devel libtool -y
[root@ws softs]# rpmbuild -tb ganglia-3.6.0.tar.gz
Checking for unpackaged file(s): /usr/lib/rpm/check-files /root/rpmbuild/BUILDROOT/ganglia-3.6.0-1.i386
Wrote: /root/rpmbuild/RPMS/i386/ganglia-gmetad-3.6.0-1.i386.rpm
Wrote: /root/rpmbuild/RPMS/i386/ganglia-gmond-3.6.0-1.i386.rpm
Wrote: /root/rpmbuild/RPMS/i386/ganglia-gmond-modules-python-3.6.0-1.i386.rpm
Wrote: /root/rpmbuild/RPMS/i386/ganglia-devel-3.6.0-1.i386.rpm
Wrote: /root/rpmbuild/RPMS/i386/libganglia-3.6.0-1.i386.rpm
Executing(%clean): /bin/sh -e /var/tmp/rpm-tmp.zQCFRZ
+ umask 022
+ cd /root/rpmbuild/BUILD
+ cd ganglia-3.6.0
+ /bin/rm -rf /root/rpmbuild/BUILDROOT/ganglia-3.6.0-1.i386
+ exit 0
[root@ws softs]# cd /root/rpmbuild/RPMS/
[root@ws RPMS]# ls
i386
[root@ws RPMS]# cd i386/
[root@ws i386]# ls
ganglia-devel-3.6.0-1.i386.rpm
ganglia-gmetad-3.6.0-1.i386.rpm
ganglia-gmond-3.6.0-1.i386.rpm
ganglia-gmond-modules-python-3.6.0-1.i386.rpm
libganglia-3.6.0-1.i386.rpm
[root@ws i386]# rpm -ivh *
Preparing... ########################################### [100%]
1:libganglia ########################################### [ 20%]
2:ganglia-gmond ########################################### [ 40%]
3:ganglia-devel ########################################### [ 60%]
4:ganglia-gmond-modules-p ########################################### [ 80%]
5:ganglia-gmetad ########################################### [100%]
[root@ws ganglia]# yum install httpd -y
[root@ws conf]# /etc/init.d/gmond start
Starting GANGLIA gmond: [ OK ]
[root@ws conf]# /etc/init.d/gmetad start
Starting GANGLIA gmetad: [ OK ]
[root@ws softs]# wget http://ftp.jaist.ac.jp/pub/sourceforge/g/ga/ganglia/ganglia-web/3.5.12/ganglia-web-3.5.12.tar.gz
[root@ws softs]# tar xf ganglia-web-3.5.12.tar.gz -C /var/www/html/
[root@ws html]# mv ganglia-web-3.5.12.tar.gz /softs/
[root@ws html]# mv ganglia-web-3.5.12 ganglia
三、调试
访问页面http://192.168.0.104/ganglia/index.php
发现报错
是因为相应的目录没有建,而且权限不对
建立相应的目录,将目录权限改为777
mkdir -p /var/www/html/ganglia/dwoo/compiled
mkdir -p /var/www/html/ganglia/dwoo/cache
chmod 777 /var/www/html/ganglia/dwoo/compiled
chmod 777 /var/www/html/ganglia/dwoo/cache
[root@ws ganglia-web]# find . -type d
.
./cache
./conf
./dwoo
./dwoo/cache
./dwoo/compiled
./dwoo/compiled/templates
./dwoo/compiled/templates/default
[root@ws ganglia-web]# pwd
/var/lib/ganglia-web
然后重启httpd,重新访问
这是ganglia本机的一些监控信息
下面还需要对被监控主机进行配置。
[root@localhost yum.repos.d]# rpm -ivh http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-6-8.noarch.rpm
[root@localhost yum.repos.d]# yum install ganglia-gmond
[root@ws softs]# rpmbuild -tb ganglia-3.6.0.tar.gz
error: Failed build dependencies:
libpng-devel is needed by ganglia-3.6.0-1.i386
python-devel is needed by ganglia-3.6.0-1.i386
解决方法
[root@ws ~]# yum install libpng-devel python-devel -y
Fatal error:
Errors were detected in your configuration.
- Unable to create overlay events file: /var/lib/ganglia-web/conf/events.jsonUnable to create event color map file: /var/lib/ganglia-web/conf/event_color.jsonDWOO compiled templates directory '/var/lib/ganglia-web/dwoo/compiled' is not writeable.
Please adjust $conf['dwoo_compiled_dir'].DWOO cache directory '/var/lib/ganglia-web/dwoo/cache' is not writeable.
Please adjust $conf['dwoo_cache_dir']. in /var/www/html/ganglia/eval_conf.php on line 126
..................................
http://www.tuicool.com/articles/uqArUv
Ganglia监控本身没有提供API可供外部程序调用,不过根据ganglia监控的原理,可以通过分析gmetad的端口的xml来直接获取metrics。
Guardian已经在Github上发布了这样一套Python程序,可以直接在通过restful API来查询metric。
https://github.com/guardian/ganglia-api
安装需求:
virtualenv
tornado
python2.6以上
ganlgia API是一个独立程序,可以安装在任意位置
将ganglia-api.py文件中的import settings改成import dev_settings
启动
virtualenv ve
source ve/bin/activate
python ganglia/ganglia_api.py
注意:
1./etc/ganglia/gmetad-*-*.conf这个文件必须要有,*可以用其他字符替代
2.tornado安装需要依赖包:
backports.ssl_match_hostname
certifi
其他使用和安装说明请直接参考Github或源代码中的README.md
Ganglia 3.1.x下扩展Python模块(翻译自官方wiki)http://www.linuxidc.com/Linux/2014-04/99565.htm
使用Ganglia监控Hadoop集群 http://www.linuxidc.com/Linux/2012-05/61349.htm
在VMware Workstation的Ubuntu下安装和配置Hadoop与Gangliahttp://www.linuxidc.com/Linux/2013-06/85856.htm
Ganglia安装部署之一建立Grid http://www.linuxidc.com/Linux/2013-05/83673.htm
Ganglia 极其简单安装教程yum版 http://www.linuxidc.com/Linux/2012-12/76536.htm
Ganglia快速开始向导(翻译自官方wiki) http://www.linuxidc.com/Linux/2013-11/92747.htm
CentOS集群上安装Ganglia-3.6.0监控Hadoop-2.2.0和HBase-0.96.0http://www.linuxidc.com/Linux/2014-01/95804.htm
Ganglia在CentOS 6.5的安装 http://www.linuxidc.com/Linux/2014-05/102024.htm
本文永久更新链接地址 : http://www.linuxidc.com/Linux/2014-08/105021.htm
=======================
http://bbs.chinaunix.net/forum.php?mod=viewthread&action=printable&tid=4099010
标题: 集群监控工具十八般兵器,哪个您最拿手?(获奖名单已公布-10-24) [打印本页]
作者: send_linux 时间: 2013-09-17 16:18 标题: 集群监控工具十八般兵器,哪个您最拿手?(获奖名单已公布-10-24)
获奖名单已公布,详情请看:http://bbs.chinaunix.net/thread-4102939-1-1.html
随着大数据和其他对计算需求密集的问题来临,对大规模的计算机和网络的监控变得越来越重要,如何使得这些IT基础设施的利用率 变高,受到越来越多的企业关注,也是值得广大IT运维朋友值得思考并解决的一个问题。大部分的监控平台都能够提供了一整套的监控服务,它可以帮助您快速的了网站的可用率、服务器性能、服务状态等信息,发现故障立即通知到指定的用户,赶在用户之前发现并处理掉故障,从而提升用户体验。但是对于不同规模的IT基础设施和网络规模来说,选择不同的监控工具和监控手段则是需要运维管理工作人员认真考虑的。
有小而灵活的cacti,而功能复杂但是需要定制的Nagios,也是很多运维人员的最爱。还有以高性能计算设备监控为主的Ganglia。Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。
Ganglia引起了计算机网络监控领域的一场大型革命,它独到的设计理念、强大的功能、丰富的插件,以及它与Nagios、sFlow等工具的有机结合,成为大型计算机网络监控领域当之无愧的王者。
本期话题:
1、说说您使用哪些监控软件,各自优缺点是什么
2、您是否使用过Ganglia,说说您的部署和运营经验
本期嘉宾:
ChinaUnix集群和高可用版版主:Gray1982
活动时间:2013年9月17日-10月10日
本期奖品:
活动结束后,我们会评选出5位积极参与话题讨论的网友奖励《Ganglia系统监控》图书1本,对其他积极参与讨论的网友(回帖有参考价值)我们将奖励积分20分。
原书名:Monitoring with Ganglia
原出版社: O'Reilly Media
作者: Matt Massie Bernard Li Brad Nicholes Vladimir Vuksan
译者: 陈学鑫 张诚诚
出版社:机械工业出版社
ISBN:9787111436744
上架时间:2013-9-9
出版日期:2013 年9月
开本:16开
活动要求:
1、 要言之有物,不能低于20个字
2、 本次话题主要关IT运维监控工具的心得体会和使用技巧,其他问题可能不做重点
作者: wlforyou1 时间: 2013-09-17 21:14
先沙发。监控工具的话,一共都很少用第三方的,都是用系统自带的命令查看。然后配合日志功能。
作者: renxiao2003 时间: 2013-09-17 22:23
我都拿手。哈哈。板凳坐上。
作者: send_linux 时间: 2013-09-17 23:09
这么厉害?欢迎分享啊,呵呵
作者: missing-cn 时间: 2013-09-17 23:13
先后用过cacti、nagois、zabbix,目前在用zabbix。
zabbix的优点是很灵活、图形展现非常不错,配合自定义脚本几乎可以监控任何事情,需要自己设计模版文件、定义graph、screen等。缺点是系统级别报警设置相对比较多,如果不筛选的话报警邮件会很多;并且自定义的项目报警需要自己设置,过程比较繁琐;web监控不能使用模版,只能一个个单独设置,如果web监控较多,设置会耗费不少时间,关键是都是重复劳动!!
作者: wenhq 时间: 2013-09-17 23:15
本帖最后由 wenhq 于 2013-09-17 23:27 编辑
1.第一个问题,如果说他们的优缺点的话那跟之前那个nagios的帖子不是一样的问题么?
a.nagios 适合监视大量服务器上面的大批服务是否正常, 重点并不在图形化的监控, 其集成的很多功能例如报警;cacti 主要用途还是用来收集历史数据和画图, 所以界面相比要好看一些。
b.nagios 监控的是对服务器的关键服务及进程进行监控。cacti是对流量及主机在线状态监控。
c.ganglia 主要是利用通过XDL(xml的压缩格式)或者XML格式传递监控数据,达到监控效果。其侧重点是系统的性能。gmetad可以部署在集群内任一台节点或者通过网络连接到集群的独立主机,它通过单播路由的方式与gmond通信,收集区域内节点的状态信息,并以XML数据的形式,保存在数据库中。
Gmond监控程序(Ganglia Monitoring Daemon,Gmod)是一个组播守护进程,它运行在每一个被监控的节点上。该程序的安装并不依赖于网络文件系统(NFS文件系统)或者数据库服务器。
Gmond的功能主要以下四项:
1). 监控宿主机状态的改变
2). 报告相关的改变
3). 通过单播或组播来监控ganglia其它节点的状态
4). 对集群状态请求进行应答,该请求通过XML进行描述
集群内的节点,通过运行gmond收集发布节点状态信息,然后gmetad周期性的轮询gmond收集到的信息,然后存入rrd数据库,通过web服务器可以对其进行查询展示
d.由2部分构成,zabbix server与可选组件zabbix agent。一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。
zabbix能监视各种网络参数,保证服务器系统的安全运营;并提供柔软的通知机制以让系统管理员快速定位/解决存在的各种问题
2.ganglia部署比较简单。ganglia依赖的库太多,所以首先要准备好。即先用yum安装依赖库。这样相对简单点。
然后按照手册配置即可。这个软件可以集合nagios等来做为hadoop云平台的监控工具。
作者: zongg 时间: 2013-09-18 09:56
1、说说您使用哪些监控软件,各自优缺点是什么
答: 我使用过的监控软件有nagios,cacti,zabbix. 现在用的是zabbix+cacti。
感觉cacti安装配置和使用最简单,现在的CactiEZ安装更是简单,并安装了所有的插件,阈值,阈值,存活性。。都有。大家可以通过cactiusers.org 获得。
优点:
1)强大的图表功能。
2)树图设置自由度高,可以调节经常看的图放在前面。
3)用户权限设置细。
缺点:
1)检验的频率是默认情况下5分钟。增加频率导致缺失的数据和错误的结果。没有zabbix好。
2)web界面设置有时候需要找一会。
nagios:
优点:
1)开源
2)易用的web前端
3)调试插件是适度简单
4)适合大型网络
5)报警设置多样性
缺点:
1)配置复杂
2)插件的易用性不好,至少我感觉没有cacti的好用。
3)初学者投入的时间比较大
zabbix:
优点:
1)支持多平台的监控软件
2)功能强大,监控灵活,报警灵活
3)支持分布式
4)自带画图功能,得到的数据可以绘成图形
5)全web管理。自带key
6)同时支持调用脚本。很方便
7)zabbix 支持5000台机器的监控(官方数据)
缺点:
1)批量修改不方便
2)中文资料少
3)画图没cacti好
2、您是否使用过Ganglia,说说您的部署和运营经验
答:没用过。略。
作者: liuweni 时间: 2013-09-18 10:09
munin的默默飘过……
作者: heidern 时间: 2013-09-18 11:14
ganglia没用过
07年开始一直在用nagios+cacti,几乎满足了所有的监控需求,个人没用过zabbix,但看了好多文档都没找出有什么事情是zabbix能做但nagios做不了的
作者: yifangyou 时间: 2013-09-18 13:12
1、说说您使用哪些监控软件,各自优缺点是什么
答:1)mrtg是我第一个安装和使用的监控软件,
优点:能够监控各自设备的流量包括各种路由和交换机,很多IDC和CDN服务商使用它来统计流量和计费
缺点:只支持snmp协议,不能够自定义监控项,只能看到网路相关的数据
2)ganglia是我第二个使用的监控软件,使用了3年时间
优点:利用多播在同一个局域网内集合所有机器的监控信息,服务端只要向一台监控机请求即可,服务端压力小,能够监控大量服务器,能够监控多个ganglia集群,形成树状结构,理论上可以监控无穷台机器。可以自定义监控项,监控展示有表格和图像两种,支持手机版。
缺点: 没有报警机制,出现问题不能够及时报警
3)zabbix是我用过的定制化最高的监控软件
优点:可以自由定制监控项,报警阈值,报警方式。监控项非常全面
缺点:服务端负载很高,单台服务端支持的客户端少。
2、您是否使用过Ganglia,说说您的部署和运营经验
我用过ganglia3年了,对ganglia了解挺深,
ganglia的部署可以见我的博文:http://blog.chinaunix.net/uid-11121450-id-3147002.html
部署时在服务端最麻烦的是按照rrdtool,安装rrdtool最好使用rpm安装,客户端不依赖任何软件,编译好可以拷贝到相同系统的另外的机器上使用。
对于ganglia可以支持自己定义监控项,例如我写过监控mysql进程数,
gmetric -nmysql_process_num -v`mysql -e "show processlist"|wc -l` -tuint16 -u个
这个脚本只需要放到crontab 中1分钟执行一次,gmetric就会把数据发到gmond中加入到监控数据项中。在后台就会出现对应的监控曲线图。
ganglia有一个bug,有时会一直报错把错误信息写到/var/log/message中,而且写得很快,就会导致系统盘被写满。
作者: xw721xw 时间: 2013-09-18 15:25
回复 2# wlforyou1
必须的使用监控呀!!!
作者: niao5929 时间: 2013-09-18 23:45
只用过HEARTBEAT作了个ORACLE10G2的双机系统,结合DRBD来实现纯软件的,发现长时间运行之后需要从起HEARTBEAT进程,否则双机切换会超时,一直没有找到解决办法!!
作者: niao5929 时间: 2013-09-18 23:45
是自由开源的东东就值得关注!!!
作者: tomac_cu 时间: 2013-09-19 09:56
1、说说您使用哪些监控软件,各自优缺点是什么
到现在为止,只用MRTG,因为布署简单,功能强大,
最主要的原因是够用了。
2、您是否使用过Ganglia,说说您的部署和运营经验
没有使用过。
作者: aoma 时间: 2013-09-19 17:51
对于集群监控,现在主要集中在xcat这个开源项目上。XCAT是一个用perl写的开源项目,适合从几十台的集群系统到上万台的集群系统,从开始系统的装配到系统的管理,能够快速部署,支持linux/unix/windows和多厂商,包括IBM/HP/DELL等多系统,这个系统从xcat 2.0后系统架构进行了重构,更灵活的扩展功能,且版本更新也很快。
作者: igkimm 时间: 2013-09-19 19:55
PRTG
nagios
cacti
OTRS
MRTG
PRTG、
Solarwinds
智和SugarNMS
广通信达Broadview NCC
美信CreCloud
作者: ruochen 时间: 2013-09-19 20:58
cacti+nagios==>zabbix
作者: cgweb 时间: 2013-09-20 10:56
开源监控软件比较(cgweb)
<ignore_js_op>
图片附件: 9-20.jpg (2013-09-20 10:55, 120.24 KB) / 下载次数 11
http://bbs.chinaunix.net/forum.php?mod=attachment&aid=NjQ3NjcxfDljNzIyNzlkfDE0MTQ5NzY2ODB8MHww
作者: ccjsj1 时间: 2013-09-20 11:36
1、说说您使用哪些监控软件,各自优缺点是什么
答: 我使用过的监控软件有centreon+nagios,cacti,现在用的是centreon+nagios监控主机,cacti监控网络设备。
centreon:
有点: 1.开源
2.集成各分布的nagios,统一在页面展示;
3.比nagios界面友好,配置监控是使用模版,更方便
缺点: 1.安装有些复杂
nagios:
优点:
1.开源
2.易用的web前端
3.调试插件是适度简单
4.适合大型网络
5.报警设置多样性
缺点:
1.配置复杂
cacti:
优点: 1.开源
2.强大的图表功能。
缺点:
1.配置有些复杂
2、您是否使用过Ganglia,说说您的部署和运营经验
答:没用过。略。
作者: 305838894 时间: 2013-09-20 12:25
现在一直在用nagios
优点:配置稍微复杂点,但是应用灵活,完全可以根据自己的想法去完成任务。尤其是对于人少但是管理的机器多的情况下,更全面的了解服务器组的状态,尤其是报警系统的存在,
缺点:有的时候需要监控**器,或者自己定义的服务,对于需要写脚本来说是一大难题,
作者: zhudiqingyin 时间: 2013-09-21 15:50
ganglia 觉得不怎么好用,哈哈,不过还算可以,勉强推荐一下!
作者: cgweb 时间: 2013-09-22 00:23
ganglia在集群监控上面应用很广。
作者: gnah 时间: 2013-09-22 12:53
只用过cacti和nagios,
自己瞎捣鼓的,研究不深,可能有些功能没发现.
用cacti做统计cpu,内存,磁盘,网络都有统计,还可以把收集到的数据保存起来,便于分析. 但好像没有警报的功能.
所以加上了nagios做警报. nagios好像又不能把收集到的数据保存到数据库.
所以目前采用了cacti+nagios
Ganglia没用过, 马上装个测试一下,如果能兼有统计和警报就太好了
作者: tengh 时间: 2013-09-22 15:36
本帖最后由 tengh 于 2013-09-22 15:40 编辑
目前刚刚在实验室的服务器上把ganglia 3.5安装好,我们现在有16台机架式服务器,做量化计算的。
现在的感觉是ganglia安装好之后查看机器状态方便了,通过图形界面即可,cpu,内存、网络、磁盘等信息一目了然。
<ignore_js_op>
这个对于我们来说另一个用途就是有一个机器状态历史记录信息,知道机器的运行状态,提供更有说服力的数据。对申请项目也是有益的。
由于了解不深,所以现在基本上都是按照默认设置,等有时间了在慢慢看manual。
现在正在看ganglia、Nagios和Splunk结合使用,这套监控体系,具备错误报警、性能调优、问题追踪和自动生成运维报表的功能。图片附件: grid.png (2013-09-22 15:39, 298.85 KB) / 下载次数 4
http://bbs.chinaunix.net/forum.php?mod=attachment&aid=NjQ3NzA5fDkyMzBmODQ4fDE0MTQ5NzY2ODB8MHww
作者: chszs 时间: 2013-09-22 15:47
运维工程师很擅长这个。
作者: ding_cw 时间: 2013-09-23 09:30
服务器不多 暂时只用Cacti的路过 其余的监控软件还在学习摸索中
作者: xiaoyun222 时间: 2013-09-23 10:21
nagios +ganglia
nagios是监控服务状态的信息与报警功能。
ganglia 查看资源利用率,方便合理分配机器的资源。
正好这2个产品可以互补,各自发挥自己的特点。
怎么才能能到奖品啊,正好可以系统学习下ganglia, 看到大家写了好多啊。
作者: chenbin200818 时间: 2013-09-23 10:40
我都自己写的集群监控。。。。。。
作者: bbzsxjj 时间: 2013-09-23 12:28
nagios+cacti 这个是王道,特别是nagios+nrpe非常灵活,而且跨平台监控也很方便,写个脚本就OK了。
作者: Bentley_Z 时间: 2013-09-24 14:57
那些常用的你们都说完了,我也没啥好说的了。我就说个不常见的吧。
之前一直用cacti+nagios,但是现在换公司了。公司要求高,现在用的是HP的Arcsight产品。分ESM、Logger、SmartConnector和SupperConnector等几个组件,来采集分析各种类型的设备日志进行监控。结果可以备份到存储上或本地,方便日后调查和还原。
整个环境通过connector收取日志发送到ESM上,通过管理员定义的规则ESM自动分析出结果,然后以报表和仪表板的方式展现出来。仪表板展现时时的,报表展现周报,月报或年报。控制方式可以是console控制台或web方式,方便灵活。
这款软件可以做到,监控硬件信息,设备运行状态,各种形式的攻击,门禁,交易信息,用户登录等等所有的事情。其他监控软件能做到的,没有Arcsight做不到的。
非常可惜的是Arcsight收费的,而且不是一般的贵。这款监控软件是金融和电信行业的首选。
不足之处:收费太高,安装部署繁琐,需要HP派专业团队实施,且实施耗时较长,4人团队大概要半年时间。
心得:即使如此,用过Arcsight之后,觉得没有任何一款监控软件能和Arcsight相媲美。
作者: xiaochuanjiejie 时间: 2013-09-24 15:16
同意你的说法。。。。。
作者: msee 时间: 2013-09-24 17:16
貌似楼主主要为推广书来着,集群监控么选择是不少,但监控目的是什么?报告+CASE生成,然后是问题解决,再后面升级方案+知识库,再往后就是完整的服务管理。
监控?选择运行方式多的(主动、被动、级联...),用户数多的,一是有问题可以得到帮助,二是很多插件拿来即可用,象 hacmp,rac,websphere,weblogic,hmc,主流存储
通知?本地log是当然,但远远不够,得加上消息系统,另外自动生成case到缺陷跟踪或请求跟踪很必要啊,因为直接涉及后面责任人,即谁来负责,有的运维称之为派单,而且这个过程也得好好日志,以防抵赖,象 (2013-九月-24 14:19:56 星期二 The xx System itself - 已记录发送的邮件)结合邮件日志,可抵赖不了,然后整个解决过程log也必不可少
服务?安排计划宕机最起码的吧
报告?丰富多彩
总之 监控只能是服务平台的一部分,虽然是必不可少的
作者: 930567969 时间: 2013-09-24 18:55
本帖最后由 930567969 于 2013-09-24 19:02 编辑
1、说说您使用哪些监控软件,各自优缺点是什么
答:⑴第一次自己搭载的监控系统是nagios+cacti了,因为这个资料很多,而且推荐使用它的人蛮多的,有点就是这2者搭配使用,基本满足日常监控需求了。缺点是监控网络流量的时候感觉不准。
⑵现在公司在用的zabbix,这个中文资料虽然没上者多,但搭建方法比上者简单,全新部署一台新机的(要是本身是复制的虚机的镜像的话),3分钟上机改下配置文件重启服务即可,而且它的功能=nagios+cacti之和了,再加上第三方的监控DB插件(如mysqlbix、orabbix)满足了目前公司所有的监控需求!而且在你熟悉了zabbix的item和key之后,在前端上设立阀值、监控项目非常简单!且有自定义key功能,足矣满足一些复制的监控需求了
2、您是否使用过Ganglia,说说您的部署和运营经验
答:目前还未亲自搭建体验过,如有机会有兴趣使用下
作者: zhengsenlin888 时间: 2013-09-24 21:25
本帖最后由 zhengsenlin888 于 2013-09-24 21:26 编辑
1、说说您使用哪些监控软件,各自优缺点是什么
答: 我使用过的监控软件有mrtg,cacti,zabbix. 现在用的是zabbix。
zabbix 因为安装简单,还有代理。最喜欢的是zabbix的分布式监控。也就是不管网络怎么复杂都可以通过代理来监控到。
不过监控的软件mrtg cacti nagios zabbix, 有些需要自定义监控的项目总是实现起来很麻烦。所以有的监控项目基本都是通过编写自定义脚本来实现监控。
我用zabbix监控的就只是一些磁盘,cpu,内存,硬盘,磁盘I节点,主机是否通讯而已。
2、您是否使用过Ganglia,说说您的部署和运营经验
答:没用过。可以送本书看看吗。哈哈。
作者: jimmy-_-lixw 时间: 2013-09-25 00:29
本帖最后由 jimmy-_-lixw 于 2014-04-06 21:56 编辑
提示: 内容被隐藏或删除 内容自动屏蔽
作者: george_young 时间: 2013-09-26 17:16
回复 12# niao5929
不明白,你们的系统那么繁忙?能导致经常性切换?
我们用的MYSQ+DRBD+Heartbeat+snmp+nagios+自己写的脚本去监测服务&脑裂 ,到现在近半年都没有发生过一次迁移和脑裂。
作者: george_young 时间: 2013-09-26 17:24
基本得功cacti都有,没有得功能大部分用nagios加脚本也能实现。目前还没有发现要换其他平台得必要。
玩玩还好,上生产平台和几百台机器,这不是个简单的活
作者: royzs 时间: 2013-09-27 13:41
只用Nagios和Cacti,感觉Zabbix不太好操作,只是简单看了一下,不过很多同行喜欢zabbix
另外听说Cacti能够监控服务器的apache的连接数,统计并发变化图,不过是自己写插件,网上没有找到类似的插件,哪位大牛写过,可否共享一下
作者: ulmer 时间: 2013-09-27 21:44
回复 1# send_linux
咋沒有人用 opensource OpsView?
级好使用!!! Webfront + nagios background
特点见: http://www.opsview.com/solutions/core
作者: jimmy-_-lixw 时间: 2013-09-29 16:05
本帖最后由 jimmy-_-lixw 于 2014-04-06 21:58 编辑
提示: 内容被隐藏或删除 内容自动屏蔽
作者: jimmy-_-lixw 时间: 2013-09-29 16:06
本帖最后由 jimmy-_-lixw 于 2014-04-06 22:00 编辑
提示: 内容被隐藏或删除 内容自动屏蔽
作者: jimmy-_-lixw 时间: 2013-10-04 09:47
本帖最后由 jimmy-_-lixw 于 2014-04-06 22:01 编辑
提示: 内容被隐藏或删除 内容自动屏蔽
作者: caabcal 时间: 2013-10-04 23:29
监控MySQL数据库及其服务器,应该使用哪些软件?
作者: caabcal 时间: 2013-10-04 23:29
监控Oracle数据库及其服务器,应该使用哪些软件?
作者: cgweb 时间: 2013-10-05 14:26
MySQL Monitor和Nagios都可以
作者: hicooper 时间: 2013-10-10 08:27
我觉得一个真正完整的监控系统至少应该实现硬件、应用、业务这三个层面的监控,目前开源软件比如nagios、cacti、zabbix等等在硬件方面做的不错,应用方面就不太理想了,对中间件的监控还不错,但是对虚拟化和C/S架构的应用做的就不太好,而业务级别的监控基本上就是没有。业务方面splunk和tivoli做的不错,其实tivoli很强大,把组件买全了可以实现硬件、应用、业务三个层面的监控,但是价钱也十分强大。。。
作者: AIXORA 时间: 2013-10-10 10:58
监控工具真是五花八门,不过到底有多少公司原投入资金到安全运行方面,真是值得怀疑。也就是我们号称运维人员的关心一下。
怎么没有人有用ibm systems director来监控。
作者: Ly_stu 时间: 2013-10-10 11:01
本帖最后由 Ly_stu 于 2013-10-10 11:03 编辑
1、说说您使用哪些监控软件,各自优缺点是什么
用过cacti、nagios,zabbix只是了解还没用过,
小弟 根据个人理解简单说一下各自的优缺点:
感觉cacti安装配置和使用最简单
优点:
借助rrdtool绘制出 强大的图表信息。
缺点:
1)检验的频率是默认情况下5分钟。检测信息不够实时,增加频率导致缺失的数据和错误的结果。
2)虽然也支持告警,但各用插件的使用与调整,感觉很不顺手,web界面设置有时候需要找一会。
nagios:
优点:
存在模块概念,管理多节点 很方便;
强大的告警功能,支持多节点,信息相对实时。通过指定协议实现监控告警信息的收集,【linux nrpe ; windows nsclient snmp】
现在应用中,是nagios与cacti结合应用【nagios强大告警,cacti收集流量数据图】
缺点:
告警反馈的信息简洁,不能直接确实 问题的根本原因;
刚开始学习,架构的理清需要一段时间。
Ganglia “It has been used to link clusters across university campuses and around the world and can scale to handle clusters with 2000 nodes." 这句很喜欢,下一步会涉足她的学习……
作者: jimmy-_-lixw 时间: 2013-10-16 16:39
本帖最后由 jimmy-_-lixw 于 2014-04-06 22:01 编辑
提示: 内容被隐藏或删除 内容自动屏蔽
作者: zhengsenlin888 时间: 2013-10-19 16:19 fff
作者: send_linux 时间: 2013-10-19 18:27
这个是指?
作者: cjyfff 时间: 2013-10-21 14:28
回复 18# cgweb
这幅图给力啊,支持!!!
作者: mr1311 时间: 2013-10-26 13:23
NG配起來麻煩
仙人掌
作者: FIGHTERBEAT 时间: 2013-10-30 07:40
我还都没用过呢,不知道到底是什么,还请前辈们多多指点
作者: FIGHTERBEAT 时间: 2013-10-30 07:40
我还都没用过呢,不知道到底是什么,还请前辈们多多指点