米コンテンツ配信大手 Cloudflare(クラウドフレア) は18日、同社ネットワークの中核機能が一時停止し、顧客サイトへのアクセスが世界的に不能となる障害が発生したと明らかにした。原因は、同社内部のデータベース権限変更に端を発したBot Management(不正アクセス判定)関連ファイルの異常肥大化で、外部攻撃の痕跡は確認されていないという。
同社によると、障害は 18日11時20分(UTC) に発生。インターネット利用者にはCloudflare由来のエラー画面が表示され、HTTP 5xxエラーが急増した。クラウドフレア側では当初、超大規模DDoS攻撃の疑いも視野に入れて調査を進めていたが、後に内部システムが原因と判明した。

障害の引き金となったのは、データベース「ClickHouse」で実施したアクセス権限の改善作業だ。これにより、本来とは異なる重複データがBot Managementの「フィーチャーファイル」に書き込まれ、ファイル容量が従来の2倍に増加。ネットワーク全体へ自動配布された結果、プロキシの一部ソフトウェアが容量制限を超過し、動作不能に陥った。
同ファイルは5分ごとに生成される仕組みのため、一定周期で「正常版」「異常版」が混在して配布され、システムが回復と再故障を繰り返す異常な挙動が続いた。このため原因特定が難航し、障害初動はWorkers KVやダッシュボード機能の不調として現れた。
Cloudflareは 14時24分 に問題のファイル生成を停止し、14時30分 に「正常版フィーチャーファイル」を全世界へ再配布したことで主要サービスは復旧。残る関連サービスの再起動などを経て、17時06分に全機能が正常化した。
影響は以下の通り。
- CDN・セキュリティ:HTTP 5xxエラーが広範囲で発生
- Turnstile:認証画面が表示不能
- Workers KV:大量のエラーを返し、依存するAccessにも波及
- Dashboard:ログイン不可が発生
- Email Security:一部のスパム判定精度が低下
- Access:新規認証が広範囲で失敗
障害中には、Cloudflareとは無関係のはずのステータスページまで閲覧不能となる事象が同時発生し、社内では「攻撃とみられる」との疑念も出たが、のちに偶然であることが判明した。
同社のマシュー・プリンスCEOは「顧客とインターネット全体に重大な影響を与えた。Cloudflareほどの規模でコアトラフィックが停止したのは2019年以来であり、断じて許されない」と謝罪。「原因となった設定ファイルの扱いの厳格化、広域でのキルスイッチ導入、エラーレポートによるシステム圧迫の排除など、再発防止へ即時の改善を進める」と述べた。
同社は、世界中のWebサイトの通信を最適化・防御するインフラを提供しており、障害時の社会的影響は極めて大きい。
コメント