今より高度な監視にするには
以下のような工夫を検討する
- 休日、夜間のアラート通知は緊急度、重要度の高い監視のみを対象にする。例えば「死活」は対象にするが、「ログ」「キャパシティ」「リソース」は一部に限定する
- アラートが発報する前に対応する。キャパシティやリソースの増加傾向を日ごろからウォッチして、閾値超過前に対応を進める
- 他社の運用案件で無視してもよいエラー群がわかっている場合は、それらをあらかじめ監視から除外しておく。
- 性能系の問題を抱えているシステムでは性能系の監視(CPUTime、Elapsed Time、読み込み量)も仕掛ける

しーさん
監視の運用については、各現場ごとにオリジナルでいろんなナレッジをもとに運用されている。ここでは一例を紹介するね

マナブ
はい

しーさん
1つ目は、夜中や休日のアラート通知は重大障害のみとする

しーさん
24時間365日の運用だからといって、重大とはいえないアラート通知で、夜中に起こされてしまっては次の日の仕事に影響が出ちゃうし、どんどん疲弊していくことになるわ。この部分は、契約や運用設計でしっかり合意しておきたいポイントね

マナブ
はい

しーさん
2つ目は、アラート発報前にできる対応は進めておく

しーさん
事前に把握しておくことで、アラート対応を計画的に対応を進めることができるわ

マナブ
なるほど

しーさん
3つ目は、無視できるエラーは事前に監視を抑止しておく
これはナレッジがたまってこないとできないけど、運用効率化にはとても有効よ

しーさん
4つ目は、性能系の監視も設定を検討する
性能要件を満たさない処理が多々ある場合は検討したいわね。
また、クラウド環境ではコスト削減のためになるべくスペックを下げていきたいはずなので、積極的に検討したいわね。

マナブ
クラウド環境は性能悪のSQLが多いとコストが高騰してしまいますもんね
オンプレミスにはないクラウドならではの監視の考え方ですね
今日のまとめ
- 夜中や休日のアラート通知は重大障害のみとする
- アラートが発報する前に対応する
- 無視できるエラーは事前に監視を抑止しておく
- 性能系の監視も設定を検討する
コメント