-- 今回の強化でテーマとなったのはどのようなことですか?
須江: CPUの変更、サイズの縮小など新たな設計条件のもとで、いかにこれまでのPRIMEQUESTの高信頼性・高可用性を継承し、同等レベル以上のものを提供していくか、というのが大きなテーマとしてありました。
具体的には、フレキシブルI/OやReserved SB機能、ハードウェアパーティション機能などPRIMEQUESTならではの機能をどう実現していくか。まず構造上の問題が立ちはだかっていました。
河野: PRIMEQUESTは、中央にミッドプレーンと呼ぶ基板を据え、そこにCPUやメモリなどを搭載したシステムボード、内蔵ハードディスクやPCIカードなどを搭載したI/Oユニット、サーバ管理専用ユニット、電源ユニットなど細かく分割された各ユニットを、ケーブルを使わずプラグインというかたちで装着されています。PRIMEQUEST 1000シリーズでも、構造的な特長は従来と変えていません。
[エンタープライズモデル、ロングライフモデル 基本構成]
西野: PRIMEQUESTの機能と構造とは密接な関係にあります。たとえば、ハードウェアパーティション機能は、システムボードやI/Oユニットなどのリソースをパーティションという単位に区分して、複数のコンピュータを構成する仕組みです。パーティション同士は電気信号的に独立しているので、システム同士の障害隔離性に優れています。
パーティションを柔軟に構成する機能がフレキシブルI/Oです。I/Oユニットはシステムボードと固定接続ではなく、マルチルート・スイッチ経由で接続されるため、システムボードとI/Oユニットを任意に組み合わせてパーティションを構成できます。
石田: ハードウェアのエラーはCPUやメモリで起きやすいため、PRIMEQUESTでは予備のシステムボードを設定しておくことが可能です。万一、CPUやメモリ、システムボード自体に障害が発生した場合、再起動時に故障したシステムボードを切り離し、予備のシステムボードにつなぎかえてそのまま業務を実行できます。これを可能にしているのがフレキシブルI/Oです。
従来、構築や運用に高度なスキルを必要とするクラスタリングのように待機系を用意して業務の継続性を高めていましたが、大がかりな装置を用意することなく予備のシステムボードを適用するだけでシステムトラブル時も復旧時間を大幅に短縮できます。
河野: ハードウェアパーティション機能、フレキシブルI/O、Reserved SB機能を実現する上でユニット単位で実装する構造がベースとなっています。
[障害隔離性の高いパーティション機能]
「ハードウェアパーティション機能、フレキシブルI/O、Reserved SB機能などを実現するためにユニット構成による構造を継承。」
-- PRIMEQUESTの機能を実現する上で、ユニット構成よる構造は重要なポイントになっているということですね。
富士通株式会社
IAサーバ事業本部 第二サーバ事業部
《実装担当》 河野 一繁
河野: ユニット構成は、1つの筐体の中に複数のOSが稼働できるようにハードウェアパーティション機能を実現するということに加え、メンテナンスがしやすいように分轄されているという側面でも重要です。
先ほどお話しましたように、各ユニットはプラグインで差し込むかたちとなっているので、簡単に筐体の前後から故障したユニットだけを抜き出すことができます。
西野: ラックマウント型のサーバの保守では、引き出して部品を取り換えないといけないケースも多く見られますが、引き出して保守する場合、ケーブルを抜いたり、ゆるめたりといった作業を伴います。保守後に設置し直す必要もあるなど非効率的です。
小泉: 迅速な復旧のためには、保守作業をより早く終わらせることが大切です。ユニットを抜き出す保守作業の容易性を考慮しなければコストダウンを図ることもできるのですが、トータルの保守性を堅持することは今回の開発当初から方針としてありました。
須江: 新たな設計条件のもと、構造的な特長を変えずにPRIMEQUESTの機能を実現していくのは、簡単なことではありません。たとえば、細かく分割したユニット間においてどう高速伝送信号を配線するかは、配線の長さに厳しい制約があるため、時間をかけて検討した課題の1つです。また、物理設計の段階で配線仕様を満足させることが非常に困難で2008年の年末年始を返上して頑張ったスタッフもいました。
「ユニット構成は引き出して保守するのに比べ、容易かつ迅速にメンテナンスができる。トータルの保守性を堅持することは今回の開発当初からの方針。しかし新たな設計条件のもと、構造的な特長を変えずにPRIMEQUESTの機能を実現していくのは簡単ではなかった。」
-- 構造上の課題以外に、ミッションクリティカルシステムとして重視したポイントはありますか?
須江: 今回の開発で特に意識したのは、一箇所の故障(シングルポイント)でシステム全体がダウンすることのないように、できるだけシングルポイントをなくすための工夫をしているということです。
富士通株式会社
IAサーバ事業本部 第二サーバ事業部
《評価担当》 樋川 浩二
小泉: たとえば、各システムボードにクロックソースを載せています。これにより、あるパーティションのクロックに問題が起きても他のパーティションに影響を及ぼすことはなくなります。
須江: シンプルなつくりにすることで、コスト面の効果はもとより故障する確率も低くなります。部品点数を20%減少させ、プリント板の種類も従来機種と比較して、半分以下にしています。
樋川: 使用している部品についても温度や電圧など負荷をかける加速試験など厳しい条件をクリアしたものが採用されています。止まらないシステムを追求する取り組みにより、メインフレーム相当の業務停止率を実現しています(当社調べ)。
「シングルポイントをなくす工夫や、部品点数の20%削減、厳しい条件のもとでの部品採用などにより、メインフレーム相当の業務停止率を実現。」