ホーム > mixiニュース > IT・インターネット > IT総合 > データリンクは生きているのにデータセンターが全断! 原因は?

データリンクは生きているのにデータセンターが全断! 原因は?

1

2019年06月24日 11:32  @IT

  • チェックする
  • つぶやく
  • 日記を書く

@IT

写真障害発生時の状況
障害発生時の状況

 2019年5月のある朝、筆者が運用する複数のネットワークを24時間365日監視している監視センターから電話がかかってきた。監視センターから私に連絡がくるのは大きな障害のときだけなので、ぼんやりしていた頭から一瞬で目覚めた。



【画像:障害の対策方法】



 ある企業のネットワークで特定のサービスのために使っているデータセンターから、「サービス不能」メッセージが大量に送られてきているという。不思議なことに監視センターが常時監視しているデータセンターのルーター、回線のどちらにも異常がない。サービス事業者がサービスの監視をしていて異常を発見したらしい。



●データリンクは正常なのに



 監視センターとの電話が終わってすぐ、企業のネットワーク責任者に電話して状況を説明した。100以上ある拠点全てで使うサービスであり、影響は大きい。ネットワーク側に異常はないので障害の原因はデータセンター内にあるのは間違いなかった。



 その後、責任分界点からサービス事業者側にあるスイッチで再起動が起こっていることが分かった。再起動後、データリンクは正常なのだがフレームの転送ができなくなっていた。



 問題のネットワークとデータセンターの接続部分は図1のようになっている。



 このネットワークで使用しているルーターには、ネットワークモニターという独自機能がある。拠点側のルーターからデータセンター側のルーターのスイッチと接続しているポートに対して周期的にpingを打って、経路の正常性を確認している。NGになると拠点側ルーターはこの経路を取り消して、拠点にある別のルーター向けのバックアップ経路に切り替える。



 データセンター側のルーターはスイッチを接続しているポートのデータリンクが正常であればpingの応答を返す。ところが、今回の障害はデータリンクが正常なのにフレームの転送が停止しているという特殊なものだった。そのため経路が切り替わらなかったのだ。



 暫定復旧策としてスイッチの該当ポートを閉塞(へいそく)した。結果、データリンクが落ちて経路が切り替わった。障害の発生から復旧まで約30分、時刻は朝9時を過ぎていた。決して速い復旧とはいえないが、データリンクが落ちていないことが障害の原因だと、短時間でよく気づいてくれたものだと思う。



 ところで「データリンクが正常」とはどういう状態を言うのだろう。改めて考えてみると何も知らない。専門家に聞くと次の通りだと教えてくれた。



【データリンクが正常(リンクアップ)】



・物理的に正しく接続されている



・物理ポートに電力が供給されている



・相手の通信モードを認識するためにFLP(Fast Link Pulse)と呼ばれるパルス信号を送信(受信)し、通信モードが選択された状態にある



 スイッチやルーターで「ポートを閉塞する」とよく言うが閉塞の意味は次の通りだ。



【閉塞】



・レイヤー2:物理ポートに電力が供給されていない状態であり、対向装置もリンクダウンする



・レイヤー3:IPインタフェースが無効の状態だが、対向装置はリンクアップのまま残る



●ルーター独自機能で職人技の対策



 オンライン業務終了後の夜間、故障したスイッチを交換して障害前の構成に戻した。しかし、障害対策はこれでは終わらない。今回と同様の「データリンクは正常だがフレームの転送ができない」障害が次に起きた際、自動でバックアップ経路に切り替わるように工夫しなければならない。この対策は障害発生当日に完了というわけには行かない。



 ネットワークとデータセンターの接続例を図2に示す。この構成ではネットワーク側のルーターとデータセンター側のL3スイッチの間でダイナミックルーティングプロトコルであるOSPF(Open Shortest Path First)を使って経路の正常性の監視や切り替えをできるようにしている。これならリンクダウンでも、パケットの転送不能でも異常を検出して経路を切り替えることができる。



 ただし、図2のような構成を今回の障害対策として採用するとかなり大きな変更になるため、設計や事前試験に工数がかかる。現地で現用の機器を利用し、短時間で確認試験と構成変更を進めることは難しい。



 そこで、このネットワークの担当SEが考え出したのが図3の方法だ。これまでネットワーク側には開示されていなかったが、データセンターのLANにはL3スイッチがある。従来の拠点側のルーターからデータセンター側のルーターへのping監視に加えて、データセンター側のルーターからL3スイッチへのpingを追加することにしたのだ。



 こうするとスイッチが「データリンク正常、フレーム転送不可」の障害を起こすとping応答がなくなり、データセンター側のルーターは拠点側ルーターからのpingに対しても応答を止める。これによって拠点ルーターは経路を切り替えることになる。



 この方法だとデータセンター側のルーターにping監視を追加するだけなので設計はシンプルで、設定変更や確認試験も簡単にできる。



 今回の障害の経験からネットワークとデータセンターの接続について学び直すことができ、ネットワークの世界には独自機能を生かした職人的な工夫の余地がまだまだあることが分かった。


あなたにおすすめ

ランキングIT・インターネット

前日のランキングへ

ニュース設定