「自宅サーバー」タグアーカイブ

自宅サーバーメンテ実施

一か月ほど前に、自宅で運用しているサーバーがダウンしてしまいました。 強制的に立ち上げ直して元に戻りましたが、原因はハードディスク上のスワップメモリーの障害のようですが、真相は依然として不明です。

立ち上げ直したあとは、特に問題なく動作しているのですが、そろそろサーバーのハードディスクが寿命なのだと思いました。 2002年から自宅サーバーを運用して今年で15年。 今まで必ずハードディスクは時計で計ったように、ちょうど2年で調子が悪くなっていたので、交換用のハードディスクを1年半前に購入しておいたのですが、そのまま何も起きずに今まで正常に動いていました。 前回のハードディスクは、4年近く動作していたことになります。 24時間、365日動作しているので不安もあります。 まだまだ行けそうな気もしましたが、やはりまだ正常なうちに交換することにしました。 ちなみに、この4年間もったハードディスクはHGST(日立)製でした。 Made in Chinaでした。

ということで、今日の午後ハードディスクの交換作業を行っていました。 これがサーバー5号機です。

RAID構成でハードディスクを2重化しているので、一台を取り外して新品のハードディスクを入れてレプリケーションを行い、これを再度繰り返してハードディスクを2台入れ替えます。

もともと、趣味でやっている自宅サーバーですので、停止しようが、中断しようが、何も問題はなかったのですが、最近はSOTA日本支部での情報共有の運営も兼ねており、ミッションクリティカルな位置づけとなってしまい、関係者にはご迷惑をおかけしましたかもしれません。

これであと少なくとも2年は持ちこたえるでしょう。

 

DKIM導入

久しぶりに自宅サーバーネタです。

我が家の自宅サーバーも世代交代をしながら、現在は5号機、そしてスタンバイで6号機で運用しています。 もうすぐ14年の運用になります。

server

サーバーは、ブログ公開のウェブサーバーだけでなく、メールサーバーそしてそれを使ったメーリングリストなども運用しています。 最近はSOTAのメーリングリストも運用しているのですが、数週間前からどうも動作が不安定な感じがしていました。 メーリングリストに参加されている方のうち、Gmailアドレス宛て、およびJARL.comアドレス宛てのメールが届かないようで、アラームが返るようになってきました。

まずは原因切り分け。 あらゆる可能性から探りを入れました。 他の方にはちゃんと届いているのですが、なぜかGmailとJARLだけ届かないのです。

ログ情報から理由をいろいろと調べてみると、DKIMで認証エラーが出ている部分を発見。

DKIMはDomain Keys Identified Mailの略で、スパム対策としてGoogleを中心としてインターネットサービスプロバイダーが推進しているようです。 詳細はDKIMでググるとごっそり出てきますが、ユーザー側で送るメールに電子署名を付けておき、送信されたメールサーバーが、その電子署名を付けたサーバーの存在や署名自体の真偽、そしてメール転送中の改ざんの有無を見極めるというもの。 署名が付いていないメールも、もちろん存在するので署名付きメールに対してだけの処理が必要です。

メーリングリストでは届いたメールに対して件名に番号を入れたり、返信先を送り主では無い、メーリングリストの宛先に変更するなどの手を加えますので、見方によってはまさにメールの改ざんになります。 このため電子署名が一致せず、転送途中で改ざんされたメールと判断されてGoogleで廃棄されるというものです。 いままではこんなに厳しくなかったと思うのですが、エラーが返るようになった数週間前からポリシーが変更になったのかもしれません。 しかし、これではGmailでメーリングリストを受けている人は、皆さん受信できないということになると思うのですが、Googleさん大丈夫でしょうか?

文句を言っても仕方ない、時代の流れです。 この対応のためにサーバーにDKIM対応のソフトおよび設定を行いました。 このサイトを参考にシステム構築。

http://kantaro-cgi.com/blog/etc-server/opendkim_setup.html

今後は間違いなく送信できるものと思います。

今まで我が家の自宅サーバーでのスパム対策はSpamassassin、ウィルス対策はClamAVを適用していましたが、また新たな技術が導入されてきたという感じです。 最近、自宅サーバーはきちんと動くことだけを目指して運用していましたので、あまり新しい技術は導入せずに来ましたが、特にITの世界は日進月歩、時代に乗り遅れないように、また新しいことも勉強しないといけないなと思っています。

 

AP出張

先週の金曜8月21日の夜23時くらいから、本日8月25日の夜22時ころまで、私の自宅サーバーのメールサーバーが正しく動作をしていませんでした。 私からメールは送れても、外部からの私宛メールが届いていませんでした。 外部からだけ動作していないところから原因を突き止めて、本日リモコンで修正しました。 現在は完全に動作しています。 私宛にメールを送っていただいた方で何も返信が無い方、エラーメッセージが届いた方には大変申し訳ございませんでした。 もし、そのような場合がありましたら、ぜひ再送をお願いします。

イスラマバードの市内の写真です。

islamabad

向こうにヒマラヤの端っこが見えています。 その前の白いビルにはHFのログペリアンテナが見えます。

のどかな光景です。 パキスタンのイスラマバードと聞くとたいていの方は、あまり良いイメージを持っていない方が多いですが、空気も乾燥し、暑くも寒くも無く、この場所ほど、イメージと実際が異なるところは少ないです。 もちろんテロなどの危険度は高いので注意が必要ですが、こんなに緑の多く、花が咲き、鳥がさえずる、まさにシャングリラです。

APでの仕事の初日は無事完了。 明日別の打ち合わせの後、夜行便で帰国します。

 

ネットワーク障害について

1月3日の22時半から4日朝にかけて、そして4日も調査と確認のために時々発生させてしまいましたが、我が家のサーバーへのアクセス障害が起きてしまいました。 インターネットでのアクセスができない、もしくは不安定だったものと思います。 申し訳ありませんでした。

3日の夜、22時半にデスクトップPCのスイッチを入れた途端、家のブレーカーが落ちてしまいました。 最初は、暖房器具の使い過ぎかと思いましたが、そんなこともなく、よく調べてみると、それ以降デスクトップPCの電源がONになりません。 どうもデスクトップPCが原因だったようです。

まずは落ちているネットワークの障害対策です。

ブレーカーを入れなおした後は、すぐにサーバーも自動で立ち上がりましたので安心していたのですが、翌朝ネットワークのトラフィック量を調べてみると全くデータのやり取りが起きていない。 このため携帯から一旦、外のネットワーク経由、自宅のサーバーにアクセスすると全くアクセスできない。 家の中からはメールもウェブも全く問題はないのですが、外からのアクセスができない状況。 これはmydns側のDNSサーバーの障害かと思いましたが、mydnsのサイトには、何も障害レポートなど上がっていない。 そんな時、mydnsサイトを見ると、自分のアクセスしているIPアドレスとmydnsで登録されているIPアドレスが違っていることを発見しました。 なぜか原因は判りませんが、PC電源のショートでブレーカーが落ちた時に自宅サーバー内のDNSのアップデートソフトの動作が停止してしまったようです。 おそらくPIDでも残っていたのでLockが発生してしまったのでしょう。 Dynamic DNSとの通信ソフトモジュールを何度か立ち上げなおすことで、解決できました。 これでネットワーク側はOKになりました。

さて、次はもともとの原因であるデスクトップPCの修理です。

電源がONにならないので、おそらく電源ユニットの障害ではないかと思いますが確証はありません。 デスクトップPCの電源部分を取り換えるだけで直ればいいのですが、マザーボードなど他の原因で電源ユニットに問題が起きたのかも知れません。 分解して見てみましたが、電解コンデンサの破裂など明確な障害原因は見つかりません。 とりあえず手元にPC用の電源ユニットもないので、近くの大型電気店の自作PCコーナーで電源を買うことにしました。 これで直れば良いのですが、もしマザーボードの障害だとCPUやらメモリーやら出費も嵩んでしまいます。

もともとのPCの電源は300Wでした。 電気店では一番小さい容量のもので400Wの電源がありましたが、もしマザーボードの問題だとすると、新しいマザーボードやCPUのためには400Wでは少し心もとないので、その場合に備えて500Wの電源を購入しました。

pc1

修理中で、ごちゃごちゃした写真ですが、右上が古い電源ユニット、右下の黒いものが新しく買った電源ユニットです。 とりあえず、組み立て前にケーブルだけ接続して、動作確認。 ファンが回り、HDDも動き出しました。 よかった! やはり電源ユニットの障害だったようです。

pc2

すべての部品を取り付けて臓物のようなケーブルをケース内に収納。

これにてネットワークも、PCも、通常動作に戻りました。

それにしても電気製品で障害時にショートになる壊れ方は恐いですね。 オープンになる壊れ方なら問題はないのですが、ショートでは火事になる可能性すらあります。

PS ところでこの電源ユニットを交換した後、しばらく使えなかったパソコンのスリープモードが復活しました。 今までスリープにすると電源が落ちてしまっていましたので、毎回立ち上げ直さなければいけなかったので、便利さが復活しました。

 

Biglobe中継サーバーサービス終了対策

これは、自宅サーバーを持っていて、サービスプロバイダーにBiglobeを使っている人への情報です。

先日、私の加入しているインターネットサービスプロバイダーのBiglobeから、次のようなメールおよび郵便での通知が届きました。

biglobe

2014年3月17日で、Biglobeの中継サーバーサービスを終了するというもの。 これは私のように自宅サーバーを持っている人以外には関係ない話なので、おそらく大半の方には届いていないと思いますが、私のように、超アレゲ系、自宅サーバーオタクにはこれはショッキングな話なのです。 通知にはメールソフトの設定方法などという、トンチンカンなことが書いてありますが、中継サーバーをいままで使っていた人が、こんなことでごまかせるわけはありません。 どういう人がこの通知文を送っているのか・・・・・ 情けなくなります。

私は2002年から自宅にサーバーを持ち、メールサーバーもこの中で運用していますが、2006年頃に世間一般に広がったスパムメールが問題視され、「アウトバウンドポート25ブロッキング(OP25B)」という対策が採られました。 この内容は、詳しくは別のサイトで見ていただきたいのですが、スパム防止のため、固定IPアドレス以外のメールサーバーからの25番ポートでの通信を遮断するというもので、スパム対策には十分な効果があったものと思います。 しかし、私のように、浮動IPアドレスでダイナミックDNSを使って自宅サーバーを運用している人には困った話で、自宅サーバーから送達すべき相手先メールサーバーにメールが送られなくなってしまうことになりました。 スパムを送っている悪いヤツと、健全な自宅サーバーオタクとの区別がつかないためです・・・・・・笑

そこでBiglobeが2006年当時考えてくれたのが、中継サーバーの設置です。 これは自宅サーバーからのメール送信は、いったんBiglobeの中継サーバーに認証を行った上で送り、そこから送達先に配信してもらうもので、超アレゲ系サーバーオタクにとっては直接、送達先のメールサーバーとの通信ではないので、ちょっとおもしろみが足りないものの、(すみません、大半の方には何言ってるのか判らないと思いますが・・・・)、Biglobeの自宅サーバーオタクへの寛大な理解と措置に感謝していました。 今回の通知は、このサービスを終了するというものです。 これは困った・・・・

今日現在、Googleで検索しても、この対策を書いているサイトが見つからないのですが、今回、この問題を解決できたので、他にも私と同じ立場で路頭に迷っている方がいると思いますので、対策を共有しておきます。

尚、私の環境はCentOS LinuxとPostfixです。

対策は、私の場合MyDNSをダイナミックDNSに使っているので簡単に出来ました。 さすがMyDNS、私が見込んだだけのことはある。 勝手に有償化したDynDNSなど比較にもならない・・・・ 怒

さて対策内容ですが、MyDNSのサービスを受けるためには絶えず、IPアドレスをMyDNSに通知しておく必要があり、この通知は認証を伴って行っています。 つまり、健全なユーザーの浮動IPアドレスを絶えずMyDNSは認識してくれていることになるわけです。 これは中継サーバー使用に対しての認証に必要な情報が自然と集まっていることになります。 MyDNSは中継サーバーを準備してくれていたのでした。 感謝! どのIPアドレスから、中継サーバーにアクセスしてくるかを見ておいて、MyDNSユーザからのアクセスであれば中継を許可するというものです。

設定は簡単

Postfixのmain.cfにて

#relayhost = msagw.biglobe.ne.jp:25   ←Biglobeの中継サーバーの指定をコメントアウト、もしくは消去

relayhost = [auth.gate-on.net]:587   ←代わりにMyDNSの中継サーバーを指定

同じく、Biglobeの中継サーバーの認証プロセスを全部コメントアウト、もしくは消去

#smtp_sasl_auth_enable = yes
#smtp_sasl_password_maps = hash:/etc/postfix/isp_passwd
#smtp_sasl_security_options = noanonymous
#smtp_sasl_mechanism_filter = cram-md5, plain, login

これだけです。 MyDNSへのIPアドレスの通知により、中継サーバー使用時の認証が不要です。 当然isp_passwdは不要となります。

この後、PostfixをreloadでOK。 MyDNSを使っていることが前提ですが、こんな簡単でいいのかというくらい簡単です。

参考サイト MyDNS

http://www.mydns.jp/info20060328.html

 

自宅サーバー5号機、6号機調整

本日は朝から、サーバーを落としておりまして、大変ご迷惑をおかけしました。 今日は、本来であれば私も参加したい、おもしろそうなコンテストがたくさんあったので、このサイトなど見ている人も少ないと思ったのですが、DIWさんには見つかってしまったようです・・・・・hi

先日、障害が発生したサーバー4号機は、ひとつ古いバージョンのCentOSで動作していましたが、そのHDDをそのまま移設したサーバー6号機も、同じバージョンのCentOSで動作することになります。 また、今までサーバーの5号機は最新のCentOSで動作させていたのですが、どうもリブートをかけたときに動作が不安定で、気に入らないので、ダウングレードではありますが安定しているバージョンのCentOSで再構築しました。 これで5号機と6号機はまったく同じ環境で動作することになりましたので、今後の不具合発生時の切り替えも簡単です。 といいながら今日一日ダウンさせていたわけですが・・・・

server

サーバーは納戸のタンスの上で動かしています。 これで結構FANの音の影響が低減できるわけです。

上が今回仕入れた6号機、下のLEDが点灯しているものが動作中の5号機です。 この5号機から、いまごらんのDataが送信されています。

 

自宅サーバー6号機

短命に終わってしまった、自宅サーバー4号機、3年もたなかったのは残念ですが、中古で仕入れたものなので仕方ありません。 しかし、その倍くらいは期待していたのですが。 PCIバスの不具合で、おそらくPCIカードのHDDへのI/Fが壊れてしまったようです。  そんなわけで現在は5号機で運用しています。

5号機は今年の1月に仕入れたばかりでHDDもRaid-1の冗長予備構成にしているのですが、サーバーの予備機がないと、今回の4号機の障害のような問題が突然発生すると少々心配です。 何かあったときのダウンタイムが長くなります。 そこで、中古サーバーの相場を調べてみると今年の1月より更に価格が下がっているようです。 4号機はDellのPowerEdge 860のDual Core Xeon 2.13GHz +2GB Memでした。 しかし、HDDは今年の5月に交換したばかりだし、あと2年はもつはずで、もったいない。 ということでHDDがそのまま使えるような、同じプラットフォームの中古を探してみました。

4号機と全く同じPowerEdge860も中古が出ていましたが、どうせなら少しは新しいものを買いたいし、現在現用の5号機と同じR200はハード構成もほぼ860と同じだし、860よりもR200のほうが少しFanも静かなようだし、何より、あまり壊れることの少ないPCIバスが壊れた860と同じものを買いたくない。 ここはR200が欲しいところ。 そう思って探すと、5号機と同じPowerEdge R200のQuad Core Xeon 2.13GHzが1万5千円で出ていました。 1月に購入した5号機は19,800円でしたので更に安くなっています。 5号機はメモリーが4GBですが、こちらは2GB。 しかし壊れた4号機からメモリーを移設すれば4GBになると思って注文しました。 本日、夕方に6号機が到着。 これで送料を入れて1万5千円は安い。

server-6

早速、2GBのメモリーと4号機で作ったRaid構成のHDD2台、バックアップ用の2.5インチHDD1台を4号機から6号機に移設しました。 そしてスイッチオン・・・・   ピー、ピッ、ピーとモールス符号のようなアラーム音。 何が悪いのか判りませんが起動しません。 アラーム音がモールスのようなので解読しようと思いましたが、短点、長点と、中くらいのものも含まれていてNG・・・・・・ 当然です。 最新ITのサーバーのアラームがモールス符号でどこが不良なのか通知しているわけがありません・・・・・ 笑

いろいろと調べて見た結果、4号機から移設したメモリーを取り外すと、難なく起動。 残念ですがDell PowerEdge860とR200は非常に似ているハードウェア構成なのですが、メモリーの仕様が異なっているようです。 残念。 まあ2GBもあればいいか・・・・

ということで、6号機は即日完成しました。 当面は5号機メインで運用します。 壊れた4号機はFANやブロアー、電源、DVDドライブなどの部品取り予備機として持っておくことにします。

 

サーバー4号機障害

本日朝、帰宅しました。 本当は会社に出社するつもりでしたが、荷物が出てこない!

3本乗り継ぎは、やはり、いやな予感がしていましたが・・・・最近荷物のデリバリーでは、ついてないことが多いです。

帰宅後、出張前に障害の発生したサーバー4号機を調べてみましたが、PCIバスのハードウェア障害のようです。 完全にいかれています。 4号機は3年弱の短命でした。 5号機は運用開始したばかりなのでしばらくは大丈夫だとは思いますが、予備機をどうするかな・・・・ また中古を仕入れようかと思っています。

 

サーバー4号機システムダウン

昨日の夜、22時ころ、現用のサーバー4号機でシステムダウンが発生してしまい、急いでバックアップ用のサーバー5号機に切り替えて、データを最終バックアップのデータにて復元しましたが、いくつかのデータが消失してしまいました。 確かskyさんとdiwさん、大熊小隊長さんの3つコメントのは拝読しましたが。 大変申し訳ありません。 データは別途発掘してみます。

原因は不明ですがどうもなんらかのハード障害ではないかと思います。

 

サーバー4号機ダウン+復活

昨日から、URL変更でいろいろと自宅のサーバーをいじっていましたが、なんとなく調子がおかしい。 これがURLの変更からくる、設定の問題なのかどうか、切り分けで大分悩みましたが、どうもURLの変更が原因ではない兆候が。 これはすでに2か月ほど前から、少しずつ表れていた現象で、RAID1で組んだHDDのミラーリングがうまくいっていない様子。 すでに、いつ壊れても大丈夫なように、交換用のHDDは仕入れてあったのですが、ついに今日、HDDの一台に障害が発生しました。

hdd_failure

写真はサーバーの起動時のもので、「動かぬ証拠」? はっきりとアラームが現れたため、あわてて写真に撮ったものですが、近くにカメラがあって助かりました。

3行目と4行目に「RAIDアレイが壊れた、sdb3(HDD-Bの第3パーティション)に障害発生」というもの。 この記録がないと、2台の同期しているHDDの、どちらが壊れたのか判らず困ってしまうことになります。 RAID1構成で組んだHDDでは、どちらか生き残っているものから、新品のHDDにデータをコピーしないといけませんので、きちんと確認しておく必要があります。 アラームを見た、その瞬間には、どちらに障害が発生したのか判っていても、HDDの交換は、大体があわててやる作業ですし、忙しさの中でどんどん記憶もあいまいになります。

今回、この判別はうまくいったものの、その後の作業でいろいろと失敗してしまい、またURLの変更作業も同時にやったので、だいぶサーバーのダウン時間が発生してしまいました。 何とか作業は完了し、現在は正しく動作しているようです。 こんなときのためにサーバー5号機を仕入れたんですが、今回はいったんダウンタイムが発生した以上、開き直ってしまいました・・・・ hi

やはりHDDは24x7で動作させた場合、2年が寿命、今回は兆候が表れたのが3月上旬ですので、時計で計ったように2年でした。 兆候が表れた時に、本当はすぐに替えればいいのですが、なかなかHDDをはっきりとした障害の起きる前に交換することは、できないんですね。 これは貧乏性の私の性格かもしれませんが、まだ大丈夫ではないかと・・・・  取り外したHDDも外見上は新品同様ですので・・・・・  でも、この話、最近、自分の健康診断でよく言われることに似ています。 体の一部は交換というわけには行きませんが、やはり、事前にできることは多くあるはず。 これを教訓に健康ライフをもう一度考えてみることにします。

hdd_failure2

左が障害発生したHDD-B、右はまだ壊れていませんが、もう壊れたものと思い込んで、未練の残るHDD-A・・・・・ :-)