ポストモーテム みずほ銀行システム障害 事後検証報告
この本は、みずほ銀行の2021/2/28からの大規模なシステム障害についてまとめた書籍です。みずほ、迷走の20年があくまで俯瞰的にみずほ銀行の20年を追っているのに大して、この本はあくまで、2021/2/28からの大規模なシステム障害に割かれている。
答えられる15個の疑問
- なぜデータベースは更新不能になったのか
- なぜDBの更新不能がATMのカード取り込みにつながったのか
- なぜ「二重エラー」が発生したのか
- なぜ一度減ったATMのカード取り込みが急増したのか
- なぜ警告やエラーは見逃されたのか
- なぜ障害の規模や原因を見誤ったのか
- なぜ頭取に情報が届かなかったのか
- なぜ営業店での顧客対応が遅れたのか
- なぜe-口座への一括切り替え処理を2~3月に実施したのか
- なぜインデックスファイルをメモリーにおいたのか
- なぜインデックスファイルのリスクを見逃したのか
- なぜSOAなのに被害が拡大したのか
- 2月28日はどの不手際が致命傷となったのか
- なぜ8月20日はDBをすぐに復旧できなかったのか
- なぜハードウェア障害が頻発したのか
2021年2月28日の障害
2021年2月から2022年2月までの間に発生した11件のシステム障害のうち、7件がハードウェア障害です。特に2021年2月28日の障害が最も深刻であり、15個の疑問のうち13個がこの日に関連しています。
障害の原因特定
障害の原因が特定されたのは、障害発生から7時間が経過した17時10分でした。この障害はe-口座への一括切り替え処理を月末の繁忙期に行ったために発生しました。富士通のSymfowareの特性上、自動拡張を設定しても、インメモリの使用率が100%に達した場合、その設定は無効になり更新が不可能になりました。また、プログラムのバグも絡んで二重エラーを引き起こしました。
組織的な問題
金融庁の調査では、以下の点が真因として挙げられています:
- システムに係るリスクと専門性の軽視
- IT現場の実態軽視
- 顧客影響に対する感度の欠如、営業現場の実態軽視
- 言うべきことを言わない、言われたことだけしかしない姿勢
特に、「言うべきことを言わない、言われたことだけしかしない姿勢」が問題を拡大しました。
しかし、実のところ、このような話はアルアルとも言える。その意味で、本書は適切な警鐘となるであろう。