監視ソフトNagiosをインストールする。
今回の目標
1台で各ネットワーク上のサーバを監視したい。つまり,監視側PCには,2枚のLANカードを装着し,各IPアドレスを付与。
そして,2つのネットワークとサーバの死活確認を行う。
実験内容
3台のPCを用意。(うち,1台は,Nagiosをインストール)
監視される2台のPCは,各々別IP,別ネットワークとします。
監視側PC(CentOS5,Nagiosインストール)
- Nagiosとは
- ネットワークに接続された機器を定期的にチェックし,障害発生に決められた手段で管理者に通知します(メール)。
- 加えて,Webから障害の状況や監視対象の状態変化が確認できます。
- 特徴
- 監視時刻のスケジューリングが可能(決められた時間しか監視しない)
- 監視項目には,HTTP,FTP,POP3,SMTP等デフォルトで用意されています。
- Nagiosホームページ
- http://www.nagios.org/
実験結果
- 例:Pingによる死活確認
- デフォルト仕様上,5分間隔で監視,一度,状況が変化すると,1分間隔で設定数の再試行を行う。そのあと,改善されないと管理者宛へメール(デフォルト)。
- Pingは,RTAが100ms以上,500ms未満,あるいは,20%以上60%未満のパケットロスでWarningを表示し,それ以上の時は,Critical(赤色)に変化する。
- よって,即応性は,乏しいといえる。
- (/usr/local/nagios/etc/localhost.cfgのしきい値を厳格にすれば,もう少し即応性が高まる)
- ブラウザ側は,90秒毎にアップデートされる。
- (/usr/local/nagios/etc/cgi.cfgの設定値を変えれば、10秒でも可能)
- nagios.cfgのexternal command check intervalの値を1sにすれば,1秒間隔で設定可能かも。
- 現在では,2分程度の遅れで監視されるPCの死活確認ができます。
インストール資料(OSは,CentOS5を使用。)
(0)ユーザおよびグループの作成
- Nagiosは,デーモンとして稼動します。ユーザ権限で稼動させる為,専用のユーザとインストール先ディレクトリを作成します。
- WebサーバからNagiosに対してコマンドを発行してNagiosを操作することになる為,
- WebサーバのユーザをNagiosのコマンドを処理する専用のグループのメンバーに設定します。
- httpdユーザを新しく作成したnagcmdメンバーに加えます。
# /usr/sbin/groupadd nagios # /usr/sbin/useradd -d /usr/local/nagios -g nagios -m nagios # /usr/sbin/groupadd nagcmd # /usr/sbin/usermod -G nagcmd httpd # /usr/sbin/usermod -G nagcmd nagios
(1)gccのインストール(後で必要となる為)
- # yum -y install gcc
(2)Nagiosは,PNG,JPEGライブラリ等必要な為,各種インストール。
- PNGライブラリは、http://www.libpng.org/pub/pngより取得(libpng-1.2.20.tar.gz)。
$ ./configure --prefix=/usr/local $ cd $ make $ su # make install
- JPEGライブラリは、http://www.ijg.orgより取得(jpegsrc.v6b.tar.gz)。
$ tar zvxf jpegsrc.v6b.tar.gz $ cd $ ./configure --pregix=/usr/local --enable-shared --enable-static $ make $ su # make install
- エラーがでたので,/usr/local/man/man1/cjpec.1を作成した。
(3)GDライブラリのインストール。
- GDライブラリは、画像を操作するためのライブラリ群。
- 一般に、GDライブラリ本体と、perlモジュールとしてのGD.pmをひとまとめにして言うことが多い。
- ここで必要なGDライブラリは、1.6.3以上です。
- http://www.boutell.com/だったが,http://www.libgd.org/Main_Pageに変更。
- wgetでファイルをダウンロード
- wget http://www.boutell.com/gd/http/gd-2.0.32.tar.gzからwget http://www.libgd.org/releases/gd-2.0.35.tar.gzへ変更。
$ wget http://www.libgd.org/releases/gd-2.0.35.tar.gz
- ファイルを展開します。
$ tar xvfz gd-2.0.32.tar.gz
- 展開したディレクトリに入ります。
$ cd gd-2.0.32
- make の準備をします。
$ ./configure --with-png=/usr/local/lib --with-jpeg=/usr/local/bin --prefix=/usr/local $ make $ make test $ su # make install
(4)Nagiosをインストール
- Nagiosがrpmインストールされていないかどうか確認
# rpm qa|grep nagios
- (Nagiosからのwgetは,省略)
$ tar xvzf nagios-2.9.tar.gzで展開 $ cd nagios-2.9 $ ./configure --prefix=/usr/local/nagios --with-command-group=nagcmd --with-gd-lib=/usr/local/lib $ make all # make install # make install-init # make install-commandmode # make install-config
(5)Nagios Plugin Developmentのインストール
- ダウンロードしたファイルは,nagios-plugins-1.4.9.tar.gzでした。
$ ./configure --prefix=/usr/local/nagios --with-cgiurl=/usr/local/nagios/cgi-bin $ make # make install
(6)NagiosのWebインターフェースのための設定を行う。
- http.conf(/etc/httpd/conf/http.conf)に下記の内容を追記(CGIが動作するように設定を行う)。
ScriptAlias /nagios/cgi-bin/ /usr/local/nagios/sbin/ <Directory "/usr/local/nagios/sbin/"> AllowOverride AuthConfig Options ExecCGI Order allow,denyvi / Allow from all </Directory> Alias /nagios/ /usr/local/nagios/share/ <Directory "/usr/local/nagios/share/"> AllowOverride AuthConfig Options None Order allow,deny Allow from all </Directory>
(7)管理画面用ユーザおよびパスワードの作成
- WebインターフェースにBASIC認証を使います。
- /usr/local/nagios/share/と/usr/local/nagios/sbin/ディレクトリに.htaccessを作成する。
- .htaccessの設定(chmod 604で設定)
AuthName "Nagios Access" AuthType Basic AuthUserFile /usr/local/nagios/etc/htpasswd.users require valid-user
- .htaccessの「AuthUserFile」で指定した「/usr/local/nagios/etc/htpasswd.users」にhtpasswdコマンドを利用してユーザを追加します。
- 今回は、「nagios」というユーザを追加します。
- (http://www.shtml.jp/htaccess/basic.htmlで説明がありますので、そちらを見たほうが早い)
- htpasswdでWebインターフェース用アカウント登録
# su nagios $ htpasswd -c /usr/local/nagios/etc/htpasswd.users nagios New password: Re-type new password: Adding password for user nagios
(8)Nagios基本動作設定
- 設定するファイル群
- メイン設定ファイル:nagios.cfg
- CGI設定ファイル:cgi.cfg
- リソース設定ファイル:resource.cfg
- 監視設定ファイル:localhost.cfg
- インストールされたサンプル設定をコピーして使用します。
# su nagios $ cd /usr/local/nagios/etc $ cd nagios.cfg-sample nagios.cfg $ cd cgi.cfg-sample cgi.cfg $ cd resource.cfg-sample resource.cfg
- 後,localhost.cfgとcommands.cfgをコピー
- nagios.cfgの修正箇所
37 #cfg_file=/usr/local/nagios/etc/checkcommands.cfg ←これはなかった。 40 #cfg_file=/usr/local/nagios/etc/misccommands.cfg ←これはなかった。 131 check_external_commands=1
- cgi.cfgの修正箇所
116 authorized_for_system_information=nagios 128 authorized_for_configuretion_information=nagios 141 authorized_for_system_commands=nagios 154 authorized_for_all_services=nagios 155 authorized_for_all_hosts=nagios 168 authorized_for_all_service_commands=nagios 169 authorized_for_all_host_commands=nagios
- Nagiosデーモンの状態をWebインターフェースから把握する設定(cgi.cfg)
65 nagios_check_command=/usr/local/nagios/libexec/check_nagios /usr/local/nagios/var/status.dat 5 '/usr/local/nagios/bin/nagios'
- リソース設定ファイル(resource.cfg)
特に無し
- 設定の整合性チェックとNagiosの起動
設定ファイルのチェックは、nagiosコマンドに-vの引数をつけてnagios.cfgを指定します。 # /usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg
- 上記コマンドを行うと,下の表示がされれば,OK。エラーが出た場合には,設定内容をチェックすること。
Total Warnings: 0 Total Errors: 0 Things look okay -No serious problems were detected during the pre-flight check
- 後,各*.cfgの属性(664)に設定しておくこと。
(9)Nagiosの起動
$ su - # /etc/init.d/nagios start
(10)Nagiosを自動起動にする
# cd /etc/init.d/ # chmod 755 nagios # /sbin/chkconfig --add nagios # /sbin/chkconfig --list nagios # /sbin/chkconfig --level 35 nagios on # /sbin/chkconfig --list nagios
(11)監視対象PCを追加する。
- /usr/local/nagios/etc/localhost.cfgに監視対象ホストを追加する(以下長いですが,ご勘弁を)。
############################################################################### # LOCALHOST.CFG - SAMPLE OBJECT CONFIG FILE FOR MONITORING THIS MACHINE # # Last Modified: 11-27-2006 # # NOTE: This config file is intended to servce as an *extremely* simple # example of how you can create your object configuration file(s). # ############################################################################### ############################################################################### ############################################################################### # #TIME PERIODS # ############################################################################### ############################################################################### # This defines a timeperiod where all times are valid for checks, # notifications, etc. The classic "24x7" support nightmare. :-) define timeperiod{ timeperiod_name 24x7 alias 24 Hours A Day, 7 Days A Week sunday 00:00-24:00 monday 00:00-24:00 tuesday 00:00-24:00 wednesday 00:00-24:00 thursday 00:00-24:00 friday 00:00-24:00 saturday 00:00-24:00 } # 'workhours' timeperiod definition define timeperiod{ timeperiod_name workhours alias "Normal" Working Hours monday 09:00-17:00 tuesday 09:00-17:00 wednesday 09:00-17:00 thursday 09:00-17:00 friday 09:00-17:00 } # 'nonworkhours' timeperiod definition define timeperiod{ timeperiod_name nonworkhours alias Non-Work Hours sunday 00:00-24:00 monday 00:00-09:00,17:00-24:00 tuesday 00:00-09:00,17:00-24:00 wednesday 00:00-09:00,17:00-24:00 thursday 00:00-09:00,17:00-24:00 friday 00:00-09:00,17:00-24:00 saturday 00:00-24:00 } # 'none' timeperiod definition define timeperiod{ timeperiod_name none alias No Time Is A Good Time } ############################################################################### ############################################################################### # # COMMANDS # ############################################################################### ############################################################################### # NOTE: Sample command definitions can now be found in the sample commands.cfg # file ############################################################################### ############################################################################### # # CONTACTS # ############################################################################### ############################################################################### # In this simple config file, a single contact will receive all alerts. # This assumes that you have an account (or email alias) called # "nagios-admin" on the local host. define contact{ contact_name nagios-admin alias Nagios Admin service_notification_period 24x7 host_notification_period 24x7 service_notification_options w,u,c,r host_notification_options d,r service_notification_commands notify-by-email host_notification_commands host-notify-by-email email nagios-admin@localhost } ############################################################################### ############################################################################### # # CONTACT GROUPS # ############################################################################### ############################################################################### # We only have one contact in this simple configuration file, so there is # no need to create more than one contact group. define contactgroup{ contactgroup_name admins alias Nagios Administrators members nagios-admin } ############################################################################### ############################################################################### # # HOSTS # ############################################################################### ############################################################################### # Generic host definition template - This is NOT a real host, just a template! define host{ name generic-host ; The name of this host template notifications_enabled 1 ; Host notifications are enabled event_handler_enabled 1 ; Host event handler is enabled flap_detection_enabled 1 ; Flap detection is enabled failure_prediction_enabled 1 ; Failure prediction is enabled process_perf_data 1 ; Process performance data retain_status_information 1 ; Retain status information across program restarts retain_nonstatus_information 1 ; Retain non-status information across program restarts notification_period 24x7 ; Send host notifications at any time register 0 ; DONT REGISTER THIS DEFINITION - ITS NOT A REAL HOST, JUST A TEMPLATE! } # Linux host definition template - This is NOT a real host, just a template! define host{ name linux-server ; The name of this host template use generic-host ; This template inherits other values from the generic-host template check_period 24x7 ; By default, Linux hosts are checked round the clock max_check_attempts 10 ; Check each Linux host 10 times (max) check_command check-host-alive ; Default command to check Linux hosts notification_period workhours ; Linux admins hate to be woken up, so we only notify during the day ; Note that the notification_period variable is being overridden from ; the value that is inherited from the generic-host template! notification_interval 120 ; Resend notification every 2 hours notification_options d,u,r ; Only send notifications for specific host states contact_groups admins ; Notifications get sent to the admins by default register 0 ; DONT REGISTER THIS DEFINITION - ITS NOT A REAL HOST, JUST A TEMPLATE! } # Since this is a simple configuration file, we only monitor one host - the # local host (this machine). define host{ use linux-server ; Name of host template to use ; This host definition will inherit all variables that are defined ; in (or inherited by) the linux-server host template definition. host_name localhost alias localhost address 127.0.0.1 } # # 2007.9.20 追加しました。 # ここで、監視対象ホストの名前、IPアドレス等を定義します。 # define host{ use linux-server host_name server01 alias server01 address ***.***.***.*** } define host{ use linux-server host_name server02 alias server02 address ***.***.***.*** } # ############################################################################### ############################################################################### # # HOST GROUPS # ############################################################################### ############################################################################### # We only have one host in our simple config file, so there is no need to # create more than one hostgroup. # #こちらでは,監視対象ホストのグループを設定します。 #membersは,上記で設定したhost_name,alias名で登録します。 # define hostgroup{ hostgroup_name test alias Test Servers members localhost,server01,server02 } ############################################################################### ############################################################################### # # SERVICES # ############################################################################### ############################################################################### # Generic service definition template - This is NOT a real service, just a template! define service{ name generic-service ; The 'name' of this service template active_checks_enabled 1 ; Active service checks are enabled passive_checks_enabled 1 ; Passive service checks are enabled/accepted parallelize_check 1 ; Active service checks should be parallelized (disabling this can lead to major performance problems) obsess_over_service 1 ; We should obsess over this service (if necessary) check_freshness 0 ; Default is to NOT check service 'freshness' notifications_enabled 1 ; Service notifications are enabled event_handler_enabled 1 ; Service event handler is enabled flap_detection_enabled 1 ; Flap detection is enabled failure_prediction_enabled 1 ; Failure prediction is enabled process_perf_data 1 ; Process performance data retain_status_information 1 ; Retain status information across program restarts retain_nonstatus_information 1 ; Retain non-status information across program restarts is_volatile 0 ; The service is not volatile register 0 ; DONT REGISTER THIS DEFINITION - ITS NOT A REAL SERVICE, JUST A TEMPLATE! } # Local service definition template - This is NOT a real service, just a template! define service{ name local-service ; The name of this service template use generic-service ; Inherit default values from the generic-service definition check_period 24x7 ; The service can be checked at any time of the day max_check_attempts 4 ; Re-check the service up to 4 times in order to determine its final (hard) state normal_check_interval 5 ; Check the service every 5 minutes under normal conditions # # デフォルトでは,5分ですが,今回は,1分に変更しています(上記は,5分のままです。) # retry_check_interval 1 ; Re-check the service every minute until a hard state can be determined contact_groups admins ; Notifications get sent out to everyone in the 'admins' group notification_options w,u,c,r ; Send notifications about warning, unknown, critical, and recovery events notification_interval 60 ; Re-notify about service problems every hour notification_period 24x7 ; Notifications can be sent out at any time register 0 ; DONT REGISTER THIS DEFINITION - ITS NOT A REAL SERVICE, JUST A TEMPLATE! } # # #以下より,各監視サービスの設定に,上記で定義した監視対象ホスト(host_name,alias名)を追加していきます。 # # Define a service to "ping" the local machine define service{ use local-service ; Name of service template to use host_name localhost,server01,server02 # #ここで,監視対象ホストを登録しています。 # service_description PING check_command check_ping!100.0,20%!500.0,60% # #pingコマンドの閾値を設定しています。 # } # Define a service to check the disk space of the root partition # on the local machine. Warning if < 20% free, critical if # < 10% free space on partition. define service{ use local-service ; Name of service template to use host_name localhost,server01,server02 service_description Root Partition check_command check_local_disk!20%!10%!/ } # Define a service to check the number of currently logged in # users on the local machine. Warning if > 20 users, critical # if > 50 users. define service{ use local-service ; Name of service template to use host_name localhost,server01,server02 service_description Current Users check_command check_local_users!20!50 } # Define a service to check the number of currently running procs # on the local machine. Warning if > 250 processes, critical if # > 400 users. define service{ use local-service ; Name of service template to use host_name localhost,server01,server02 service_description Total Processes check_command check_local_procs!250!400!RSZDT } # Define a service to check the load on the local machine. define service{ use local-service ; Name of service template to use host_name localhost,server01,server02 service_description Current Load check_command check_local_load!5.0,4.0,3.0!10.0,6.0,4.0 } 以上です。2007.9.21.
その他の監視ソフト
pingによるIP死活確認であれば,ExPingというソフトが簡単です。
- 監視間隔は,1分単位
http://www.woodybells.com/exping.html
by 有限会社ケイアイエム(http://www.keiaiemu.com/)