障害が起きたら、具体的に何を調査すればいいのか
結論からいいます。この2つを確認する
- データベースのログの確認
- データベースへ接続できることを確認
(本来は監視ツールを仕掛けておくのが正しい運用になる。監視については別の会で記載することとする)
どういうことかというと

マナブ
しーさん、前回、障害発生時は、事前に定義された「作業範囲」「役割分担」に基づいて、データベースの正常性を確認するんだよ。って話でしたよね。データベースが正常かどうかって、何をみれば、わかるんでしょうか

しーさん
重大障害が起きているかどうかの切り分けとしては
「DBのログの確認」と「DBへ接続できることの確認」の2つね

しーさん
障害を検知したら、この2つはなるはやで確認して、
他チームへ情報共有してほしいわね

マナブ
この2つに問題がなければ、
データベースの問題ではないって切り分けができるわけですよね

しーさん
そういうこと。
ただし、性能系の問題の場合は、
この2つでは切り分けできないこともあるから、注意してね

しーさん
少し踏み込んだ話をすると。
監視が仕掛けてあるから、
わざわざ「DBのログの確認」と「DBへ接続できることの確認」を目視で確認しなくてもいいのではないのって考えもある。
これについては、念のため目視で確認するがいいと思う

マナブ
そういわれてみれば、
「DBのログの異常」や「DBへ接続不可」状態だったら、
監視でアラートが発報されてるはずだからわざわざ見なくてもいい気がしますね。

しーさん
でも、私は、障害の調査は目視で確認することにしているの
過去に障害の影響が大きすぎて、
監視アラートが正常に通知されなかったことがあったの
障害の影響によっては、何が起きるかわからないから、
あたしは念のため。目視で確認することにしているのよ

マナブ
なるほど
今日のまとめ
障害の連絡を受けたら、この2つを確認する(監視ツールに頼らず、念のため、目視で確認する)
- データベースのログの確認
- データベースへ接続できることを確認
コメント