ファーストサーバの障害、原因は脆弱性対策の適用ミス - 過去の事故経験による運用変更が裏目に
ファーストサーバは、6月20日17時ごろより一部ホスティングサービスで発生した障害について概要や原因を取りまとめ、中間報告を行った。脆弱性対策のために実施した更新作業のミスが原因だという。
今回障害が発生したのは、「ビズ」「ビズ2」「エントリービズ」「エンタープライズ3」「EC-CUBEクラウドサーバ マネージドクラウド」の一部利用者。一部を除きデータの復旧は不可能となっている。
同社が特定のサーバに対する脆弱性対策を実施するためにプログラムを作成し、同日17時ごろ実行したところ、コマンドの記述ミスや運用方法の変更など複数の原因が重なり、大規模障害に発展した。
障害の原因(図:ファーストサーバ)
同社によれば、今回作成したプログラムにファイル削除コマンドの記述ミスが存在。さらに更新対象のサーバが指定されていなかったことから、本来アップデートの対象外で、未検証のサーバに対しても適用してしまったという。
同社では、従来より更新プログラムの適用時に検証環境で動作確認を行っているが、確認は適用対象となるサーバのみで、対象外のサーバへ与える影響をチェックしておらず、記述ミスに気が付かなかった。
またバックアップに対しても、問題の更新プログラムを適用したことからデータを消失。バックアップデータからの復旧もできなくなった。
過去に同社では、ハードウェア障害でバックアップデータを活用した際、更新プログラム適用以前の状態へ復元し、気が付かずに脆弱な状態で運用する事故を経験。そのため、バックアップに対しても更新を適用するよう運用方法を変更していたが、同対策が裏目に出た。
同社では問題を受け、暫定対策として当面のあいだメンテナンス作業を停止。サービス再開に必要な場合や緊急メンテナンスの場合は、ダブルチェックや対象外のサーバにおける影響を検証するなど体制を強化する。またバックアップに対する修正は行わないよう変更した。
同社では、損害賠償を提供する方針で提供時期を検討している。また第三者による事故調査委員会を6月30日までに立ち上げる予定で、事故原因の究明や再発防止策の策定など進める。
(Security NEXT - 2012/06/25 )
ツイート
関連リンク
PR
関連記事
CrowdStrike導入したWindows端末の97%以上がオンラインに
検証機能にバグ、ファイルの問題を検知できず展開 - CrowdStrike
障害はWindows端末の1%未満、重要サービスでの利用多く影響拡大
「CrowdStrike」装う「フィッシング」や「偽修復ツール」に警戒を
あらたな脅威へ対応する設定ファイルが原因に - CrowdStrike障害
KADOKAWA関連の複数サイトで障害 - 「ニコ動」16日まで配信中止
グリコ、6月下旬より冷蔵品の出荷を順次再開
グリコ、冷蔵食品の出荷再開を延期 - 約150億円の売上減を予想
グリコでシステム障害、冷蔵食品を出荷停止 - 再開は5月中旬予定
ITパスポート試験、システム障害で中止に - 振替受験を実施