KDDI“過去最大”の通信障害、発生の経緯は? 緊急会見で判明したこと

347

2022年07月03日 19:21  ITmedia Mobile

  • チェックする
  • つぶやく
  • 日記を書く

ITmedia Mobile

写真通信障害の概要
通信障害の概要

 KDDIが7月3日、au網で発生中の通信障害について緊急会見を実施した。通信障害は7月2日未明に発生。3日15時現在では収束しつつあるが、一部のユーザーで通話ができない状態となるなど、影響が続いている。会見ではKDDIの高橋誠社長らが登壇し、障害の影響を受けたユーザーに対して謝罪した。



【その他の画像】



 この記事では説明会での発言をもとに、障害の状況や影響範囲、発生原因についてまとめた。



●何が起きたのか



 7月2日の午前1時35分頃から、全国の携帯電話ユーザーがau網での音声通話やSMS、モバイル通信サービスを利用しづらい状況が発生した。また、一部のIoT機器で通信しづらくなる状況となった。



 通信状況はデータ通信を中心に復旧が進んでおり、ユーザーごとに徐々に利用できる状況に回復している。西日本エリアでは富山県、長野県、静岡県以西の西日本エリアでは、音声通話の復旧作業についても3日11時ごろに完了している。ただし、ネットワーク試験などを実施するため、発着信やデータ通信の総量を制御する“流量制御”を行っており、しばらく利用しづらい状況が続いている見通し。



 東日本エリアでは17時30分に復旧作業が終了した。



 通信障害の影響は、端末やOS(プラットフォーム)によっても異なる。音声通話は利用できないか、利用しづらい状況が3日17時の時点でも続いている。スマートフォンなど音声回線を利用する端末では、データ通信も利用できない、あるいは通信速度が低下する状況となっている。



 iPhoneでは、画面右上のアンテナ表示が不通になっていても、データ通信が利用できる場合もあるという。一方でAndroidスマートフォンの多くの機種では、画面右上のアンテナ表示が圏外に近い状況となると通話・データ通信ともに利用できなくなる。



 110番や119番などの緊急通報も利用しづらい状況が続いており、KDDIでは固定電話や公衆電話を利用するように案内している。緊急地震速報については、通常通り配信されている。



 なお、IoT端末も一部が今回の通信障害の影響を受けているものの、音声通話やSMSを利用しない大部分の端末については、通常通り稼働している。



●影響の範囲や規模は?



 KDDIおよび沖縄セルラーが提供する最大3950万回線に影響が及んだ。KDDIの高橋社長によると「KDDIの社史の上でも最大規模」という。



 個人向けではau、UQ mobile、povoブランドの携帯電話・データ通信サービスと「ホームプラス電話」が含まれる。au網を利用するMVNO回線でも通話や通信が遮断されたり、通信速度が低下したりする現象が生じた。



 また、楽天モバイルでは地下や建物内などを補完する「パートナーエリア」としてau網の一部を利用しているが、楽天モバイルのパートナーエリアについては通話機能は問題なく提供されている。ただし、通信障害から回復するために実施されたネットワーク制御により、データ通信速度が低下する事象が発生した。



 KDDI・沖縄セルラーが提供する法人向けサービスについても、スマートフォンを含めた音声通話サービスは、個人向けと同様に一時、通話・通信が遮断される状況となった。また、SMSを利用する一部のIoT機器向け通信サービスでは一時的に利用できない状態となった。



 KDDIの会見では具体的な法人名について開示されなかったが、一部の法人は影響について明らかにしている。ヤマト運輸では宅配ドライバーとの連絡が取りづらくなるなど、配達業務に支障が発生した。JR貨物では貨物列車の情報システムに利用している回線に支障が生じ、運航遅延につながっている。



 小田急バスなど一部のバス会社では、KDDI網を利用するバスロケーションシステムが動作しなくなり、一時的に表示を見合わせる状況となった。羽田・成田空港を発着する東京空港交通では、KDDI網の障害により、交通系ICカードの決済で不具合が発生すると報告。個室型テレワークスペースを提供するテレキューブでは、遠隔制御に利用している回線に支障が生じたため、営業を一時停止する状況となった。



 通信障害の生じた可能性のある回線数は以下の通り。なお。以下の回線数は障害が発生した機能で管理されている回線数であり、実際に影響が起こった範囲については明らかになっていない。



au通信障害の影響回線数



・合計……最大約3915万回線



・うちスマートフォンと携帯電話(個人および法人向け)……最大約3580万台



・うちMVNO向け回線……最大約140万回線



・うちIoT向け回線……最大約150万回線



・ホームプラス電話回線……最大45万回線



●大規模障害はどのようにして発生したのか――発端は1台のサーバ



 今回、通信障害がどのようにして発生し、全国規模に拡大していったのかの詳細は明らかになっていない。通信障害とKDDIによる対応の推移については、3日11時に実施された説明会の内容をもとに記述する。



 大まかに概要を説明すると、大規模障害のきっかけはKDDIの通信ネットワークを構成するサーバの交換作業だった。メンテナンス中に小規模な通信障害が発生したため、通信経路を作業前の状態に戻す「切り戻し」作業を実施した。



 その際に、一時不通となっていたスマートフォンなどの端末からの通信リクエストが一斉に発生し、音声通話機能などを制御する「VoLTE交換機」と呼ばれるサーバ群がパンクする「輻輳(ふくそう)」と呼ばれる状況となった。さらに、モバイル通信の加入状況を管理する「加入者データベース」にも輻輳が拡大。回復が難しい全国規模の通信障害へとつながった。



 輻輳が一度生じた場合、通常の通信状況へと復旧させるには困難な過程を経る必要がある。通信リクエストが飽和状態となっている中で、処理機能を段階的に回復させる必要があるためだ。そのため、発着信や通信速度を制限する措置を実施し、通信機能の回復を図っている。



 通信障害の発端となったのは、1台のサーバだった。携帯電話網を制御する「コアネットワーク」と呼ばれるサーバ群を構成するもので、所在地は東京・多摩地区。2日深夜に通常メンテナンスの一環としてサーバ交換が実施されていた。



 コアネットワークのサーバの交換作業を行う場合、交換対象のサーバを通信網から切り離すためのルート変更を実施する必要がある。ルート変更の作業中を行っていた2日午前1時35分ごろ、音声通話機能を制御するサーバ群である「VoLTE交換機」で異常を知らせるアラーム(エラー警告)が発生した。



 アラームを受けてネットワーク担当者が状況を確認したところ、一部の音声通話が不通となっていることが判明。サーバ交換を一度中止し、1時50分頃に交換前の通信ルートに戻す「切り戻し」作業を実施した。2日午前2時、この事故を受けてKDDI社内で事故対策本部が発足した。



 通常のメンテナンス作業(サーバ交換)を実施から回線の切り戻し作業を行うまでの時間は15分程度。KDDIで技術部門を担当する吉村和幸氏(取締役執行役員)は、この作業で15分かかることは「通常の作業時間よりも長いと思う」と見解を述べている。



 切り戻し作業後の2時17分、待機していたスマートフォンなどの端末の集中アクセスによってサーバがパンクする「輻輳(ふくそう)」状態が発生。この時点ではVoLTE交換機が輻輳状態となった。



 KDDIによると、VoLTE交換機は全国に6カ所あるオペレーションセンターに合計で18台が配置されており、全国の携帯電話端末からの通信に対応している。通常のサーバ交換作業では支障が起こらないようにシミュレーションで確認を行っているものの、今回は想定を超える速度で輻輳が加速してしまったという。



 2日2時52分、KDDIは自社Webサイトで通信障害の発生を告知した。このときの告知内容は「音声通話およびデータ通信がご利用しづらい状況が発生している」というものだった。



●VoLTE交換機の機能異常で連鎖的に不具合が発生



 VoLTE交換機の機能異常により、連鎖的に不具合が発生した。携帯電話の登録者情報を管理する「加入者データベース」と呼ばれるサーバが、連鎖的に輻輳状態となってしまう。加入者データベースでの輻輳状態の発生時刻については、3日の会見時点では明確に分かっていないという。



 コアネットワーク内部で、VoLTE交換機と加入者データベースという2つの機能が制御困難な状態に陥ったことで、状況はさらに悪化していく。加入者データベースの一部で「データ不一致」という状況が生じたため、通信エラーとなる端末が続出した。通信エラーが生じると、端末側では自動で通信を再試行するため、輻輳がさらに悪化する要因となった。



 2日3時以降、KDDIはVoLTE交換機の輻輳、加入者データベースの輻輳、データ不一致という3つのトラブルに対して対処を試みていく。まず、3時〜15時22分にかけて、VoLTE交換機の負荷軽減措置を実施した。この措置の一環として、ネットワーク側の信号要求を大幅に制御したため、電話がつながらなくなる、データ通信がつながりづらくなるといった状態が続くこととなった。



 15時22分以降、加入者データベースの負荷軽減措置を実施。総務省の要請を受けて、西日本エリアと東日本エリアを切り離して作業することとなった。総務省は「台風が到来する沖縄と奄美諸島を優先的に復旧してほしい」と要望しており、技術的に可能だった西日本と東日本の2エリアに分離しての復旧対応となった。



 2日17時、KDDIはWebサイトの障害情報を更新し、障害の原因として「2022年7月2日(土)未明の設備障害により。VoLTE交換機でトラヒックの輻輳が生じております」という記述を追加。影響について、「トラヒックの輻輳を軽減するため、流量制御などの対処を講じており」という文言を追加した。



 2日17時31分、加入者データベースのデータ不一致への対策を実施。データ不一致が生じていたサーバを順次再起動し、不一致の解消を試みた。



 3日11時、西日本エリアの復旧作業を完了。通信速度を制御しながらも、通常の通信環境へと順次回復しつつある。3日17時30分には東日本エリアの復旧作業が完了予定となっている。



●分かっていないこと



 3日時点では大規模障害への対応は続いており、障害発生の要因や、障害が拡大した原因について詳しく分かっていない点もある。具体的には、通常のメンテナンス作業でも生じうる輻輳への対処がなぜ遅れてしまったのか、不具合の拡大がなぜここまで早いペースで進んだのかという点は解明されていない。



 また、障害が各段階で実際に影響をもたらした範囲については、調査中とされている。影響が生じた可能性のある回線数の「約3915万回線」は、障害の発生したコアネットワークが管理する回線数を挙げたもので、実際に通信ができなくなった回線がどの程度存在するのかは判明していない。また、通信や通話が不通となっていた影響でもたらされた二次的な被害の規模についても、明らかになっていない。



 KDDIでは引き続き復旧作業に努めるとともに、原因の分析を実施。総務省に提出する調査報告書などを通して、改めて詳細を説明するとしている。



●通信障害への補償は?



 通信障害で不利益を被ったユーザーに対して、KDDIは補償を実施する方針を示している。高橋社長は「個人、法人問わずご迷惑をおかけした方に対して、何らかの補償を検討していきたい」と言及した。法人向けでは全国26万社の法人ユーザーに対して、個別に対応していく方針を示している。


このニュースに関するつぶやき

  • 最近は携帯があるからと家に固定電話を置かない家庭も多い。その状況で今回のような通信障害があると火事や家で倒れて一刻も早く119番しなきゃならない事態に出来ないと正に命に関わる。それが1日以上続いた責任は重大。
    • イイネ!81
    • コメント 2件

つぶやき一覧へ(188件)

ニュース設定