誰デキ データベース運用との付き合い方9 アラート・障害対応の作業手順

アラート・障害対応の作業手順 まずは重大障害の発生確認をする

まず、重大障害がおきていないかの確認をし、管理者や業務側へ報告します。
※重大障害とは、DBサービスが停止していたり、レスポンスが悪化し性能要件に抵触するインシデントのこと

原因の切り分け、暫定対応、恒久対応を実施します

次に、原因の切り分け、暫定対応、恒久対応を実施します。
DBが原因の場合と、そうでない場合とで内容が異なります。

  • ケース1:DBが原因の場合
    →「復旧優先対応」や「DR、サーバ再構成などサービス継続対応」を実施。
    「深堀り調査」「再発防止策」は平日に対応する。
  • ケース2:DB以外が原因で、DBは影響をうけている(被害者)の場合
    →「DR、サーバ再構成などサービス継続対応」を実施。
    他チームの「復旧優先」後に、DBの正常性確認。
    「切り戻し」対応は、「深堀り調査」後に実施するのが安心。

アラート対応の手順について、詳細を見てみましょう。

マナブ
マナブ

障害を検知したら、すごくあせっちゃって、何からやればいいのかわからなくなってしまうんです

しーさん
しーさん

障害対応は、どんなベテランでもあせるものよ
私の場合は、手順を丸暗記するんじゃなくて、
チームの体制図と役割を頭の片隅においておくことで、
あせった状況でも、作業の漏れ、報告の漏れを防ぐようにしているの

マナブ
マナブ

僕の場合は、細かい手順をパターン化して覚えたほうが自分に合ってる気がします

しーさん
しーさん

もちろんそれでもいいと思う。

自分に合ったやり方が一番いいと思うわよ

しーさん
しーさん

ではさっそく
夜中にアラートの連絡で起こされた。
さて、マナブくんなら、何をする?

マナブ
マナブ

まずは、重大障害が起きていないかを確認します

しーさん
しーさん

そうね。

では、データベース運用における、「重大障害」ってどんなことだと思う?

マナブ
マナブ

データベースをシャットダウンしてしまった。とかですかね?

しーさん
しーさん

そうね、DBサービスが停止した状態ね。
その他にも性能が悪化して、
性能要件を満たさなくなった場合も「重大障害」と判断する場合があるわね

しーさん
しーさん

ただし、性能問題を夜中に即時対応するのって、非常に難易度が高いことなの。
なので、あらかじめ性能系の問題についての、対応スコープをお客様と合意しておくといいわね。

しーさん
しーさん

重大障害発生の確認をした後は、何をすればいいかな?

マナブ
マナブ

原因調査して対応をする。ですよね?

しーさん
しーさん

そうそう。
でも、マナブくんには、もうすこし詳細までイメージしてもらいたい

 

しーさん
しーさん

重大障害の原因がデータベースだった場合は、
「再起動」や、「DRへの切り替え」、「障害ノードの切り離し」などをためして、「復旧優先」対応をする。

しーさん
しーさん

復旧したら、他チームにすぐさまDBへの接続確認をしてもらって、問題なければ、とりあえず対応はここまでにする。必要に応じて障害報告書は書いてね。

この辺りは、チーム構成、役割分担をイメージしていれば問題ないわよね。

しーさん
しーさん

深堀り調査、再発防止策については、後日、平日の日中帯に実施することにする。夜中にサポート利用できないケースもあるんで、サポート問合せを起票したりログをサポートへ連携するところまでにして、あとはさっさと寝る。

(とはいえ、こういう時はなかなか寝付けないんだけどね)

 

マナブ
マナブ

DR切り替えした場合、「切り戻し」もしなくてでいいですか?

しーさん
しーさん

あたしなら「切り戻し」はしない
原因が判明したり、対応策が確定してから、計画的に「切り戻し」をする

マナブ
マナブ

なるほど

しーさん
しーさん

では、話を戻して、
重大障害の原因がデータベース以外だった場合を考えてみようか
DBより下のレイヤ(ネットワークやH/W)で障害が発生した場合は、
「障害箇所の復旧」と「DBサービス復旧」を並行に検討する。

 

しーさん
しーさん

「DBサービス復旧」とは、具体的には、「DRへの切り替え」、「障害ノードの切り離し」などの検討ね

 

しーさん
しーさん

障害箇所が復旧したら、DBの正常性確認をする
DR切り替えなどで、DBサービスが復旧したら、他チームへDBへの接続確認をしてもらう。この日の対応はここまで。あとはもう寝る。

しーさん
しーさん

運用は、各チームが自分たちの役割を果たす共同作業。障害復旧もしかり。
重大障害の原因が「DBの場合」と「DB以外の場合」とでやることは大きくかわらないことを理解してもらいたい。

結論 重大障害の有無、原因の切り分け、復旧優先、(サポート問合せによる)恒久対応の調査

アラート・障害対応の大まかな流れ

  1. 重大障害が起きていないかを確認
  2. 原因の切り分け
  3. 復旧作業(暫定対応)
  4. サポート問合せで原因特定、恒久対応の調査を依頼

 

コメント

タイトルとURLをコピーしました