SPARC/Solaris 探検隊
第16回:ファンが壊れたらSPARCサーバはどうなるの?

2017年11月21日


 

第13回では、SPARCサーバの電源の冗長化について、お話しました。
SPARCサーバのような、「信頼性」、つまり「多少の故障が発生しても、極力稼動し続けること」が求められるサーバでは、電源に限らず様々な部品・機構が冗長化されています。
今回は、「ファンの冗長化」について、お話します。
ご存知の方も多いと思いますが、ファンはサーバの内部に風を送って、CPUをはじめとした部品を冷やすためのものです。ファンの故障によって、CPUの温度が過度に高くなると、サーバの性能低下、または異常停止を引き起こすこともあるため、ファンは重要な部品の1つです。

SPARC M10のファンの様子

SPARC M10-1を使って、SPARCサーバのファンの様子を見てみましょう。

ファンはどこにあるのかな

SPARC M10-1をラックから引き出したところです。
この状態で天板の一部(図の矢印部分)を開けることができます。

パカッと開けてみましょう。



 ワンポイント

実際にファンを取り外すときには、静電気対策などが必要です。専門の保守員の方にお任せしましょう。

天板の一部が開きました。ここにSPARC M10-1のファンが搭載されています。もっと寄って見てみます。

ファンが並んでいます

SPARC M10-1には7個のファンが搭載されています。
さて、ここまでの作業(サーバを引き出して、ファンの天板を開ける)は、サーバ(OS)を起動させたままで実施しています。

SPARC M10-1では、サーバを稼動させたままファンの天板を開けることができ、さらに、そのままファンを交換することもできるのです。サーバを停止することなく部品を交換することを「活性交換」と呼びます。

冗長化を体験!

SPARC M10-1には7個のファンが搭載されていることを確認できました。このうち、1個が壊れてしまったらどうなるのでしょう?
実際に試してみましょう!・・・・と言っても、ファンを壊すわけにもいきません。そこで、「活性交換」の機能を利用してファンを取り外すことで、擬似的に体験することとします。

 ワンポイント

運用中、ほんとうにファンが壊れてしまったら、サーバの管理者にメールなどで通知するようにできます。通知があったら、必要に応じてファンを交換します。

ファンの稼動状況をチェック(取り外す前)

ファンを取り外す前に、ファンの稼動状況をチェックしておきます。
ファンの稼動状況をチェックするには、XSCFにログインして、showenvironmentコマンドを使用します。
showenvironmentコマンドは、サーバ内部の温度や消費電力など、様々な環境情報を出力してくれます。-Mオプションで「Fan」を指定すると、ファンの回転数などの情報を確認できます。

 ワンポイント

搭載されている7個のファンには、#0~#6の番号が割り振られています。
FAN#0~FAN#6の内部には、2個の小さなファン(FAN#0とFAN#1)が搭載されていて、小さなファンの回転速度が表示されます。

showenvironmentコマンドの実行結果から、7個のファンが、「Low speed」モードで、「10000 rpm(1分間に10000回転)」程度の速度で回転していることが分かります。

 ワンポイント

ファンの稼動状況は、「XSCF Web Console」というWebブラウザベースの管理画面でも確認できます。

XSCF Web Consoleの設定・操作方法については、以下のドキュメントをご参照ください。
- SPARC M10-1関連マニュアル『システム運用・管理ガイド

ファンを取り外す

ファンが壊れたことを想定して、取り外してみます。
ファンを活性交換する際には、XSCFにログインして、replacefruコマンドを実行します。
それでは進めてみましょう。

XSCF> replacefru

replacefruコマンドを実行すると、交換したい部品を選択するメニューが表示されます。
SPARC M10-1の場合、ファン(FAN)か電源ユニット(PSU)のどちらかを選択できます。
ここでは、ファンを選択するので「1」を入力します。

搭載されているファンが一覧表示されるので、取り外すファンを選択します。
ここでは、一番端に搭載されているファン(FAN#6)を選択してみましょう。「7」を入力します。

 ワンポイント

ここでは、取り外すファンは実際には壊れていないので、Statusには「Normal」と表示されています。ほんとうにファンが壊れている場合は、「Normal」の代わりに「Faulted」と表示されます。

交換作業を進めるか確認するメッセージが表示されたら、「r」(replace)を入力します。

この状態になったら、ファンを取り外すことができます。
それでは外してみましょう。



SPARC M10-1の大体のサーバメンテナンスは、特殊な工具なしで行えます。

 ワンポイント

ほんとうにファンが壊れている場合は、replacefruコマンドを実行してファンを取り外したあと、新しいファンを取り付けてコマンドを終了します。ここでは、実験的にファンを取り外しているため、まだ新しいファンは取り付けません。

ファンの稼動状況をチェック(取り外したあと)

ファンを外すことができました。
おや?ファンが回転する音が大きくなったようです。
とはいえ、音の大きさは記事ではお伝えすることができないので、ファンの稼動状況を確認してみましょう。手順は、ファンを取り外す前と同じです。

ファンを取り外す前は、7個のファンが、「Low speed」モードで、「10000 rpm(1分間に10000回転)」程度の速度で回転していました。
ファンを取り外したあとでは、取り外したFAN#6の回転数が「0 rpm」と表示されています。
そして、残りのファン(FAN#0~#5)が、「High speed」モードで、およそ「20000 rpm」で回転していることが分かります。

なんと、ファンが1個なくなると、残りのファンが回転数を上げて補ってくれるのです!

ファンをもう1個取り外す?

では、さらにもう1個のファンを取り外したらどうなるのでしょう。残りのファンの回転数が、もっと上がるのでしょうか?

…残念ながら、それはできません。

なぜでしょうか。気になりますね。
次に、ファンの冗長化の仕組みを詳しく説明します。

ファン冗長化の仕組み

ファンの冗長化の仕組みは、第13回でお話した「電源の冗長化の仕組み」と似ています。

電源の冗長化は、こんな仕組みでした。

  • 電源を供給する部品(電源ユニット)が2個備え付けられている
  • 1個の電源ユニットが壊れたら、片方の電源ユニットから2倍の電源が供給される


電源が1個こわれたら…

電源の冗長化の仕組み

ファンの冗長化も、この仕組みと似ています。

ファンの冗長化

ファンが冗長化されているサーバには、2個以上のファンが備え付けられています。ファンの数はサーバの機種によって異なります。
いつもは、すべてのファンがゆっくり回転していますが、一部のファンが故障すると、残りのファンを高速で回転させることでサーバの内部を冷却します。


ファンが1個こわれたら…

ファンの冗長化の仕組み

このようにして、冷却効果を低下させることなく、稼動し続けることができるのです。

N+1冗長

SPARC M10-1のファンは、「N+1冗長」という仕組みで冗長化されています。これは、サーバを動作させるのに必要な個数(N個)に加えて、1個多く搭載していることを意味しています。

SPARC M10-1では、6個のファンでサーバを動作させることができますが、冗長化のため+1で7個のファンが搭載されています。1個のファンが故障しても、残り6個のファンを使用してサーバを冷却し続けることができるのです。
N+1冗長では、予備は1つだけですから、2個以上が故障してしまうと、サーバを動作させることはできなくなります。



さきほどの実験で、さらにもう1個ファンを取り外すことができないのには、こんなわけがあったのですね。

冗長化を体験!…の続き

ちなみに、さきほどの実験で取り外したファンを元に戻すと、すべてのファンの回転数が「Low speed」に戻ります。
先ほどお見せしたreplacefruコマンドで、ファンの取り外しと取り付けをまとめて行います。

 ワンポイント

通常の活性交換では、replacefruコマンドを実行中にファンを交換し、交換が済んだら「f」(finish)を入力します。

今回は、SPARCサーバのファンが壊れたときのお話をしました。
SPARCサーバには、ファンが1個こわれても、残りのファンでサーバを稼動させるための冗長化の仕組みが備わっています。
ただし、冗長化は「もしものための仕組み」です。
1個壊れていてもだいじょうぶ…と安心せずに、すぐに交換してくださいね。


応援メッセージはtwitterにて、ハッシュタグ #fjsparc  までお願いします。