【会見詳報】ANA障害の原因判明、「世界4例のスイッチ故障がきっかけ、対応も遅れた」
mixiの日記に先に書いたけど、技術ネタなのでこちらで改めて書くことに。
まずmixiのニュースに書かれてた内容だけじゃ情報が不足してたので、以下のようなことを書いていた。
要するに、トラブルが発生したときに、ネットワーク障害を疑う人が現場にいなかったってことなのよね。しかも、ネットワークの状態を監視するシステムが入ってなかったと。あればすぐに原因が見つかるだろうからね。または、監視するシステムがあったけどちゃんと機能してなかったのか。
でも、タイトルで紹介したITproの記事には、以下のようなことが書かれていた。
障害前日の26日午前9時。朝から2系統あるうち1系統のスイッチが障害の兆候を示し始め、通信が断続的に途絶え始めた。機器内のメモリー部分が物理的に故障したという。これは「メーカーによると同様の問題は世界で4例しかない。スイッチが完全にダウンしなかったため対処が遅れた」(佐藤執行役員)という。
これじゃ原因の発見が遅れても仕方ないよなぁ。ネットワークの状態を監視するシステムが入ってたとしても、発見しにくい。通信が断続的に途絶える状況だと、「変だ」と思っても一時的なもので、時間が経過すれば復旧することを期待するんじゃないかと。
でも、
27日未明になるとスイッチの状況が悪化し、通信がほとんどできない状態となった。
丸一日ずっと通信が断続的に途絶える状況だったってこと?だとすると、ずっと放置してた?うーん???
あともうひとつの疑問がある。
ANAは問題を受け、(略)(3)スイッチの通信経路を2重化から4重化へ強化、(略)といった対策を採る。
もともとのシステムでも通信経路を2重化してるのに、なぜ通信がほとんどできない状態になるの?謎だ。
以下、mixiの日記に書いた内容をそのままコピー。
要するに、トラブルが発生したときに、ネットワーク障害を疑う人が現場にいなかったってことなのよね。しかも、ネットワークの状態を監視するシステムが入ってなかったと。あればすぐに原因が見つかるだろうからね。または、監視するシステムがあったけどちゃんと機能してなかったのか。
IT技術者のスキルが低下してると言ってる人も多いけど、現実はそうじゃなくて、必要とされる技術や知識が急増しているのに、勉強しても勉強しても追いつかないと言った方がいいんじゃないかとも思う。
そういうのを少しでも改善するために、IT技術者の資格義務付けが必要だってことを、ずいぶん前にも書いたことがあったりする。検索してみたら、2004年に書いてた。
≫http://d.hatena.ne.jp/satoshis/20041110/p2資格義務付けと同時に、大手が元請して下請けや孫請けに丸投げするのも規制しないと、発注側はたくさんの資金をつぎ込んだとしても、安い労働力でシステムが開発されちゃうし。
なんでも国によって規制してしまえって考え方はまずいと思うけど、今のIT業界が携わってるのはライフラインまで含んでるんだから、それなりの規制があるべきではないかと。
ANAの障害、原因はメモリ故障
http://news.mixi.jp/view_news.pl?id=231152&media_id=4スイッチのメモリ故障が原因なのはわかるし、壊れることはありうるからしかたがないと思うけど、それをすぐに見つけられないことの方が深刻なんだよな。そして、深刻な問題だって気付かないことも問題。
とか。たまにはmixiのニュースにコメントしてみたり。