全日本空輸(ANA/NH)は4月7日、国内線旅客システム「エイブル」で3日午後に起きた不具合について、データベース(DB)サーバーからデータを抽出する際、偶発的な「予期せぬエラー」が発生したことが原因だったと発表した。社外からのサイバー攻撃ではないことや、データの外部への流出も起きていないことも確認したという。
—記事の概要—
・データ抽出時に発生
・抽出処理を直列化で再発防止
データ抽出時に発生
顧客情報や便情報などを扱うエイブルのシステム障害は、3日午後2時16分に発生。ANAによると、エイブルから社内のマーケティング部門が使う「予約管理支援システム」へデータを抽出する際、偶発的なエラーが発生し、エイブルの2台あるDBサーバーのうち、1台(DB1)がフリーズした。この影響を受け、残り1台(DB2)も高負荷状態になったことで2台とも停止したことから、国内線全便の予約や販売、搭乗手続きができない状態になり、利用者へのメールやSMS、ANAアプリでの案内もできなくなった。
エイブルは2015年に自社で構築。2016年にシステム障害が発生したことでバックアップ体制などの構成を見直し、2018年から現在の構成で運用しているという。現行システムは、同一構成のものを「A系」と「B系」の2系統用意し、通常は1系統を稼働させ、残り1系統を不具合などに対処するために待機させており、定期的に役割を入れ替えて運用している。
各系統のシステム内には、同じデータが入ったDBサーバーが2台あり、内容を常に同期させているが、今回は稼働していたA系内のDBサーバーが2台同時に停止したことで不具合が発生。再起動を試みたが復旧しなかったことから、待機していたB系へ切り替えた。不具合発生から55分後に切り替えを完了し、予約・販売・搭乗手続きシステムは徐々に復旧した。
ANAによると、不具合が発生したデータ抽出作業では、処理に使うプログラムに問題はなかったが、複数のデータ抽出処理を並列で同時に実行することで偶発的なエラーがデータベース上で発生したといい、特に負荷がかかる作業は行っておらず、現在の構成で稼働し始めた2018年から約5年間は、今回のような偶発的なエラーが起きたことはなかったという。
抽出処理を直列化で再発防止
今回はエイブルのA系のDB1で予期せぬエラーが発生してフリーズ後、同期しているDB2が高負荷状態になり、両DBサーバーを監視プログラムが2台をほぼ同時に停止させたという。
再発防止策として、予約管理支援システムで使うデータの抽出方法を見直し、これまでの複数のクエリ(実行命令)を同時並行で処理する「並列処理」を、1つずつ処理する「直列処理」に変更。直列にすると作業時間は長くなるが、利用者への案内やオペレーションへの影響はないという。
2台のDBサーバーを監視するプログラムを見直し、2台同時に停止しないよう監視設定を変更した。
今回のシステム障害で、4月3日と4日の2日間で国内線55便が欠航、遅延が155便発生し、約2万6700人に影響が及んだ。ANAの利用者だけでなく、同じシステムを使うエア・ドゥ(ADO/HD)、ソラシドエア(SNJ/6J)、スターフライヤー(SFJ/7G、9206)、アイベックスエアラインズ(IBEX、IBX/FW)、オリエンタルエアブリッジ(ORC/OC)の5社にも波及した。
=これまでのシステム障害=
1回目 2003年3月 欠航150便 約10万人に影響
2回目 2007年5月 欠航130便 約9.1万人に影響
3回目 2008年9月 欠航64便 約7万人に影響
4回目 2016年3月 欠航184便 約12.5万人に影響
5回目 2023年4月 欠航55便 約2万6700人に影響
*影響者数は欠航と遅延を合わせた総数
関連リンク
全日本空輸
4月3日発生
・ANAの国内線システム障害、DBサーバーが2台同時停止 2.6万人影響(23年4月4日)
・ANA、システム不具合で手続き一時不可に 国内線欠航22便、2900人影響(23年4月3日)
羽田の大型案内廃止・アプリ強化
・ANA、羽田保安検査場の大型案内板終了 12年強で幕(23年2月9日)
・ANA、羽田保安検査場の大型案内板2/9で撤去 アプリに集約(23年1月30日)
・ANA、国内線自動チェックイン機廃止へ スマホアプリ強化で新サービス(22年5月24日)
21年6月の予約サイト障害
・ANA予約サイト障害、国際線も復旧 通常通り(21年6月14日)
・ANA予約サイト障害、国内線は復旧(21年6月13日)
・ANA、予約サイト不具合続く 12日期限の航空券は延長(21年6月13日)
・ANA、予約サイトに不具合 確認や購入・払戻できず(21年6月12日)
16年3月のシステム障害
・ANAのシステム障害、イーサネットスイッチが故障 篠辺社長ら減給(16年3月30日)
・ANAのシステム障害、完全復旧 7万2000人影響(16年3月23日)
・ANAのシステム障害が復旧 顧客DBの同期トラブル 7万人影響、146便欠航(16年3月22日)
今後はアマデウス導入
・ANA、国内線旅客システムもアマデウスに 自社開発「エイブル」から、25-26年度めど(23年2月14日)