サーバー4号機ダウン+復活


昨日から、URL変更でいろいろと自宅のサーバーをいじっていましたが、なんとなく調子がおかしい。 これがURLの変更からくる、設定の問題なのかどうか、切り分けで大分悩みましたが、どうもURLの変更が原因ではない兆候が。 これはすでに2か月ほど前から、少しずつ表れていた現象で、RAID1で組んだHDDのミラーリングがうまくいっていない様子。 すでに、いつ壊れても大丈夫なように、交換用のHDDは仕入れてあったのですが、ついに今日、HDDの一台に障害が発生しました。

hdd_failure

写真はサーバーの起動時のもので、「動かぬ証拠」? はっきりとアラームが現れたため、あわてて写真に撮ったものですが、近くにカメラがあって助かりました。

3行目と4行目に「RAIDアレイが壊れた、sdb3(HDD-Bの第3パーティション)に障害発生」というもの。 この記録がないと、2台の同期しているHDDの、どちらが壊れたのか判らず困ってしまうことになります。 RAID1構成で組んだHDDでは、どちらか生き残っているものから、新品のHDDにデータをコピーしないといけませんので、きちんと確認しておく必要があります。 アラームを見た、その瞬間には、どちらに障害が発生したのか判っていても、HDDの交換は、大体があわててやる作業ですし、忙しさの中でどんどん記憶もあいまいになります。

今回、この判別はうまくいったものの、その後の作業でいろいろと失敗してしまい、またURLの変更作業も同時にやったので、だいぶサーバーのダウン時間が発生してしまいました。 何とか作業は完了し、現在は正しく動作しているようです。 こんなときのためにサーバー5号機を仕入れたんですが、今回はいったんダウンタイムが発生した以上、開き直ってしまいました・・・・ hi

やはりHDDは24x7で動作させた場合、2年が寿命、今回は兆候が表れたのが3月上旬ですので、時計で計ったように2年でした。 兆候が表れた時に、本当はすぐに替えればいいのですが、なかなかHDDをはっきりとした障害の起きる前に交換することは、できないんですね。 これは貧乏性の私の性格かもしれませんが、まだ大丈夫ではないかと・・・・  取り外したHDDも外見上は新品同様ですので・・・・・  でも、この話、最近、自分の健康診断でよく言われることに似ています。 体の一部は交換というわけには行きませんが、やはり、事前にできることは多くあるはず。 これを教訓に健康ライフをもう一度考えてみることにします。

hdd_failure2

左が障害発生したHDD-B、右はまだ壊れていませんが、もう壊れたものと思い込んで、未練の残るHDD-A・・・・・ :-)

 


JA1CTV
自宅サーバーの道

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です