誰デキ データベース運用との付き合い方3 障害発生時にやるべきことは

障害が起きたら、具体的に何を調査すればいいのか

結論からいいます。この2つを確認する

  • データベースのログの確認
  • データベースへ接続できることを確認
    (本来は監視ツールを仕掛けておくのが正しい運用になる。監視については別の会で記載することとする)

どういうことかというと

マナブ
マナブ

しーさん、前回、障害発生時は、事前に定義された「作業範囲」「役割分担」に基づいて、データベースの正常性を確認するんだよ。って話でしたよね。データベースが正常かどうかって、何をみれば、わかるんでしょうか

しーさん
しーさん

重大障害が起きているかどうかの切り分けとしては

「DBのログの確認」と「DBへ接続できることの確認」の2つね

しーさん
しーさん

障害を検知したら、この2つはなるはやで確認して、

他チームへ情報共有してほしいわね

マナブ
マナブ

この2つに問題がなければ、

データベースの問題ではないって切り分けができるわけですよね

しーさん
しーさん

そういうこと。
ただし、性能系の問題の場合は、
この2つでは切り分けできないこともあるから、注意してね

しーさん
しーさん

少し踏み込んだ話をすると。
監視が仕掛けてあるから、
わざわざ「DBのログの確認」と「DBへ接続できることの確認」を目視で確認しなくてもいいのではないのって考えもある。
これについては、念のため目視で確認するがいいと思う

マナブ
マナブ

そういわれてみれば、
「DBのログの異常」や「DBへ接続不可」状態だったら、

監視でアラートが発報されてるはずだからわざわざ見なくてもいい気がしますね。

しーさん
しーさん

でも、私は、障害の調査は目視で確認することにしているの
過去に障害の影響が大きすぎて、

監視アラートが正常に通知されなかったことがあったの
障害の影響によっては、何が起きるかわからないから、

あたしは念のため。目視で確認することにしているのよ

マナブ
マナブ

なるほど

今日のまとめ
障害の連絡を受けたら、この2つを確認する(監視ツールに頼らず、念のため、目視で確認する)

  • データベースのログの確認
  • データベースへ接続できることを確認

コメント

タイトルとURLをコピーしました