アラート・障害対応を効率化するには分業化するべき
データベースでエラーが発生した時にはどうしたらよいのか
体制、フロー、役割分担を以下のようにしたらよいと考えます。
アラート・障害対応のチーム体制
- 一次対応担当(役割:手順書に従って既知事象を対応する。管理者に報告)
- 新規のアラート・障害担当(役割:新規事象の調査、対応、一次対応手順書作成。管理者に報告)
- 管理者(役割:必要に応じて業務側、上層部への報告)
フロー
一次対応 → 新規事象の場合エスカレーション → 深堀り調査&対応&一次対応手順書作成
※既知事象は、対応手順書を作成して、一次対応チームが対応できるようにしていく
事前準備作業
- チームの体制確保
- 監視ツールの導入&設定
- 監視一覧(エスカレーションルール定義付き)
- 緊急連絡先一覧
- 障害報告フォーマット
アラート対応については、現場ではどういう話になるでしょうか

アラート対応を効率的に進めるには、どうしたらよいですか?
夜中に電話が鳴るかもと思うだけで、眠れなくなり、いい運用ができない気がします。

運用は場合によっては、24-365が求められる重要な仕事なので、
少しでも効率化できる方法を考える必要があるわね
(待遇面の改善についてはここでは触れません)
-
しーさん基本的に2つの方法が考えられる
- 無視できるエラーは監視を抑止し、アラート発報しないようにする
- 役割の異なる「一次対応チーム」「エスカレーション対応チーム」に分けて対応する

なるほど
一次対応チームは既知事象しか担当しないから負荷が低くなる
エスカレーション対応チームは電話コール数が少なるので負荷が低くなりますね

そう。
あと大事なのは、監視一覧管理台帳にエスカレーションルールをしっかり定義しておくこと
監視アラートの重要度(「Warning」「Critical」)と発生時間帯(「平日日中帯」「平日夜間・休日」ごとにアクション(「電話」「メール」)を定義する
これがしっかり定義してあることで、いざってときに、間違わずにエスカレーション連絡ができるのね。

そうなるのが理想的ね。
ただ、ちゃんと準備しておいても
想定外の障害が連続して起きるリスクは0にはならない。

そうなったら、障害優先にする代わりに、
日中の作業をリスケ調整させてもらうなど管理者と相談しながら人的リソースの疲弊を避ける案を考えていくことなるわね。

普段から管理者と良好な関係が築けていると、
いざって時に、相談がしやすくなるもの。
技術者にとっても、ヒューマンスキルって大事だなって思うのよね。(余談だけど)
アラート障害対応の結論
「一次対応担当」「エスカレーション対応担当」の役割
一次対応担当(役割:手順書に従って既知事象を対応する。管理者に報告)
- 新規アラート担当(役割:新規事象の調査、対応、一次対応手順書作成。管理者に報告)
- 管理者(役割:必要に応じて業務側、上層部への報告)
コメント