KDDIの通信障害なぜ長期化した? 過去の障害で得た知見も通用せず

66

2022年07月04日 23:52  ITmedia Mobile

  • チェックする
  • つぶやく
  • 日記を書く

ITmedia Mobile

写真通信障害の影響回線数
通信障害の影響回線数

 KDDIが7月4日20時に、2日から発生している通信障害についての説明会を開催。取締役執行役員専務 技術統括本部長の吉村和幸氏と、執行役員 技術統括本部 副統括本部長 兼 エンジニアリング推進本部長の山本和弘氏が、4日20時時点における障害の状況と復旧の見通しを説明した。



【その他の画像】



●通信障害の発端と7月2日〜3日の対処内容



 まずは通信障害の経緯を整理したい。7月2日1時35分ごろから、サーバのメンテナンス中にVoLTEの交換機にアラームが発生し、一部の音声トラフィックが不通になっていることが判明したため、通信経路を作業前の状態に戻す「切り戻し」作業を実施した。その際、スマートフォンなどの端末から通信が集中してVoLTE交換機で輻輳(ふくそう)が起きた。加入者データベースにもアクセスが集中したことで、全国的な障害へとつながった。



 KDDIが2日の3時から15時22分まで、VoLTE交換機の負荷低減の作業を行った。通信リクエストが飽和状態となっている中で処理機能を段階的に回復させるべく、データや音声接続の要求を抑える流量制限を段階的に実施していった。続いて15時22分以降、東日本と西日本に収容されているPGW(モバイル網と外部網の接続点)2台を切り離し、加入者データベースの負荷低減を、17時31分以降に加入者データベースのデータ不一致を修正する作業を行った。その結果、7月3日11時には西日本エリア、17時30分には東日本エリアの復旧作業が終了した。



●7月4日に新たな問題が判明 6台のVoLTE交換機で不具合



 一方、復旧作業終了後も、VoLTE交換機と加入者データベースの負荷が想定したほど十分に軽減されず、データ通信はおおむね回復したものの、7月4日7時時点でも音声通話は利用しにくい状況が続いていた。



 調査をしたところ、KDDIが運用しているVoLTE交換機18台のうち、6台が加入者データベースに不要な過剰信号を送信していることが判明した。加入者データベースとVoLTE交換機側に再びアクセスが集中したため、4日12時18分から13時18分に、過剰信号を出している6台の交換機を特定して切り離した。この調査に時間を要したことが通信障害を長引かせた一因となった。



 切り離しによってVoLTE交換機と加入者データベースの負荷は軽減されて障害前と同水準となり、ユーザーの発着信成功率が向上した。そこで、4日14時51分に無線設備の流量制限を解除した。現在、音声通話、SMS、データ通信ともにKDDIは「ほぼ回復」と説明しており、7月5日夕刻をめどに完全復旧しているかどうかの判断を下す。流量制限を解除したことはすなわち「(通信の)規制が一切ない状態」(吉村氏)だが、個人と法人のユーザーがしっかり使えているのかを確認した上で、5日夕刻に復旧宣言するとした。



 4日に判明したVoLTE交換機の不具合(不要な過剰信号送信)について山本氏は、「原因が見えていない。故障のタイミングがいつだったのか、ルーター障害に起因したものなのかを特定していきたい」と述べるにとどめた。「信号の中身を分析した結果、VoLTEの交換機から(加入者データベースの)統合データベース側のバランスが悪いことが気付いた。詳細を調べたところ、同じ信号が何度も出ているような動きになっていた。早く分かるように知見を高めていかないといけない」と吉村氏は振り返った。



 KDDIは4日7時から、「流量制御などの対処を講じているため、音声通話がご利用しづらい状況が継続しております」との文言をWebサイトのお知らせに追記しているが、VoLTE交換機の不具合については言及しなかった。吉村氏は「あえて出さないというわけではない。(VoLTE交換機不具合の解消は)復旧の過程の中でやっていた。お客さまへの情報提示については、分かりやすいのかも含めて考えていきたい」と述べた。



 流量制限を掛けた後、4日7時には「データ通信はおおむね回復」、4日16時に「音声通話・データ通信含め全国的にほぼ回復」とお知らせで説明しており、音声通話の回復に時間がかかった。この理由について吉村氏は「加入者データベースやVoLTE交換機など、音声通話のシーケンスがデータ通信と比べて複雑なところがあるため、時間がかかった」とも説明する。なお、音声とデータ通信は別々に制限をかけていたわけではなく、「全ての通信に対して同様の制御をかけていた」(山本氏)が、「段階的に制御をすることで、急激な(トラフィックの)流入を避けるようオペレーションしていた」とのこと。



 なお、VoLTE交換機は現在の所、18台中12台で運用しているが、「十分運用できる状況」(吉村氏)とのこと。



●過去の通信障害で得られた知見は生かされなかったのか



 2018年12月にはソフトバンクが、2021年10月にはNTTドコモが大規模な通信障害を起こしているが、ソフトバンクは約4時間半、ドコモは約12時間で復旧した。今回の通信障害は発生から既に3日近い時間が経過しており、ソフトバンクやドコモを大きく上回る。過去の通信障害で得られた知見は生かされなかったのか。



 ソフトバンクの通信障害は、コアネットワークのソフトウェア証明書の有効期限が切れていたことだったので、直接的な原因は異なる。ドコモの通信障害は、IoTサービスの加入者/位置情報サーバ(HLR/HSS)を新設備に切り替える際の不具合が発端となり、大量の位置情報が再送されて輻輳を引き起こした。



 ネットワーク側が輻輳を起こしたという点で、ドコモの障害と共通する部分が多い。吉村氏は「KDDI側として、主にIoTを多く扱う認証と電話系のシステムを分離させることを確認した。VoLTEの交換機に輻輳が起きても、復旧できるよう手順と設計を考えてきた。障害が発生した後、その手順を組んで、輻輳が起きてもすぐに復旧できるよう対応したが、想定した以上に(障害が)大きかった」と話し、ドコモの通信障害を参考にした対策でも十分ではなかったことを認めた。



 「なぜ起きたのかをしっかりと検証して、再発防止策、他のシステムへの横展開をやっていきたい」(吉村氏)



 また、端末がコンスタントに何らかのアクセスを繰り返しているスマートフォンの性質に起因する部分も大きいようだ。「例えばVoLTEは50分おきに自動的にアクセスしている。端末がシステムにアクセスしている状況になっていることも輻輳の引き金になっている」(吉村氏)



 KDDIは2012年にもLTEネットワークで通信障害を起こした。このときの原因もLTE端末からのアクセス集中と信号制御装置の設計ミスだった。



 「今回はVoLTE交換機の影響で加入者データベースが輻輳を起こした。LTEではデータと音声は別物だったが、VoLTEは音声もデータも一緒になっている。いろいろなサービスが複合的になってきているので、そういったものの手順をしっかり考えないといけない」と述べ、約10年前と同じスマートフォン時代の通信障害ではあるが、VoLTEという新たな要素が未知なる障害を引き起こしたようだ。



 再発防止策については「なるべく早く策定していきたい」と吉村氏。VoLTE交換機の不具合の原因と合わせて、障害の解明につながる情報が待たれる。


このニュースに関するつぶやき

  • 大した被害も損失も受けてない乞食どもが「誠意をみせろ!」と、auショップに怒鳴りこんだりしそう( ・ω・)
    • イイネ!9
    • コメント 1件

つぶやき一覧へ(45件)

ランキングIT・インターネット

前日のランキングへ

ニュース設定