GTM-MML4VXJ
Skip to main content

コンポーネントレベルでの高信頼設計


関連製品:SPARC M10-1, M10-4, M10-4S
SPARC M12-1, M12-2, M12-2S


システムの主要コンポーネント(ディスク、電源、ファン等)は、冗長化、活性交換機能に対応しています。また、CPUは動的縮退機能をサポートしており、万が一の故障発生時にもシステムは継続して稼働します。

部品の冗長構成

メモリ注1、ディスク、電源、ファン、水冷ポンプ注2、サービスプロセッサ注3など、システム内の主要コンポーネントは冗長化されています。冗長化により、一方のコンポーネントでトラブルが発生しても、もう一方のコンポーネントで業務を継続することができます。そのため、高可用なシステムを構築できます。
システムの主要コンポーネントだけでなく、I/Oにおいても、複数論理ドメイン構成時にはI/Oドメインを複数作成することでI/Oの冗長化を行うことが可能です。Oracle Solarisのマルチパス機能を使用して冗長化を行うこともできます。

用語解説:N+1冗長

活性交換・活性増設(ホットスワップ・ホットプラグ)

24時間365日の連続稼働に対応するため、システム稼働中に業務に影響を与えずに故障部品を交換したり、システムリソースが不足したときに部品を増設できる「活性交換・活性増設」をサポートしています。本機能により、保守によるシステム停止時間の最小化を実現します。

主要コンポーネントの活性交換

システム内の主要コンポーネント(ファン、電源、ディスク等)は、活性交換をサポートしています。

CPU、メモリの活性交換・増設

2台以上の筐体で構成されている場合、パーティショニング機能やDynamic Reconfiguration機能を利用して、筐体そのものや、CPUやメモリを搭載したCPUモジュールの交換・増設を、業務を継続したまま行うことが可能です。本機能は、SPARC M12-2SおよびSPARC M10-4Sで採用しています。

PCIカードの活性交換

ファイバーチャネルカードやLANカードなどの活性交換(PCI Hot Plug)注4をサポートしています。 本機能は、SPARC M12-2、SPARC M12-2S、SPARC M10-4およびSPARC M10-4Sで採用しています。

縮退機能

CPUやメモリ、ディスク等でエラーが発生しても、OSをリブートすることなく、故障箇所を動的に切り離すことができる動的縮退機能をサポートしています。また、システム起動時にコンポーネントに異常がないか初期診断を行い、故障を見つけたらシステムが自動的に故障コンポーネントを切り離して起動します。このような縮退機能により、万が一の故障に対しても高い耐故障性を実現しています。

(注)縮退可能なコンポーネントは、モデルにより異なります。

動的縮退

SPARC64™ XII、SPARC64 X+、SPARC64 Xプロセッサでは、訂正不可能なエラー発生時にシステムを止めることなくキャッシュメモリやコア、スレッドを切り離し、業務の連続稼働を実現する動的縮退機能を実装しています。
また、CPUコア アクティベーション機能で未使用なCPUコアがある場合、動的縮退したCPU コア・スレッドの代替として、未使用のCPUコアを、OSを停止することなく追加し、システムが使用しているコア数を元の数に戻す機能も実装しています。

メモリで1bitエラーが多発した場合、8KB単位で縮退します。ディスクや電源、サービスプロセッサ注3、ファン、水冷ポンプ注2等が壊れた場合、故障コンポーネントが縮退して、残りのコンポーネントで継続稼動が可能です。いずれもOSのリブートを介さず、動的に縮退できます。
さらに、システムバスの一部を動的に縮退させることも可能です。

システム起動時に縮退

電源投入時、OSをブートする前に初期診断を行います。初期診断では、CPUモジュール/メモリやクロスバーボックスなどが正しく接続されているか、また、CPU、メモリ、ディスク等が搭載されているか確認を行います。初期診断中に故障を検出した場合、故障箇所を切り離します。
本機能により、故障を抱えたコンポーネントを切り離し、正常なコンポーネントのみで運用を行うことができます。

SPARC M12およびSPARC M10ではSystem on Chipsにより、CPU上にI/Oインタフェースを内蔵していますが、CPU上で故障が発生した場合は、その故障した一部機能(メモリコントローラやI/Oコントローラ)だけを縮退させ、CPU上の残りの機能を継続使用することができます。
検出した故障は、サービスプロセッサ(XSCF)を経由して、システム管理者に通知されます。

クロスバーの縮退運転

SPARC M12-2SおよびSPARC M10-4Sの場合、各筐体とクロスバーボックス間は2組のクロスバーで接続しています。片方のクロスバーが故障した場合、自動的に故障したクロスバーを切り離して再起動します。本機能により、クロスバー故障による業務への影響を最小限に抑えます。

システムクロックの縮退運転

SPARC M12-2SおよびSPARC M10-4Sの場合、クロックで故障が発生すると、影響を受けた筐体のみを切り離し、影響を受けたパーティションを再起動します。

二系統受電

サーバの電源を異なる二系統の電源から受電することができる機能です。データセンターなど、二系統から電源を引ける場合、異なる系統の電源から受電することが可能です。もし一方の電源系統に故障・停電が発生しても、もう一系統から受電できるので、サーバを継続して運用することができます。

(注1)メモリミラー構成時

(注2)SPARC M12-2、SPARC M12-2S、SPARC M10-4、SPARC M10-4Sの場合

(注3)SPARC M12-2S(2BB以上)、SPARC M10-4S(2BB以上)

(注4)PCIカードの種類等により、活性交換に対応していない場合があります。また、論理ドメインの構成によっては、PCIカードを交換するために、そのI/Oを使用している論理ドメインを停止する必要があります。