GTM-MML4VXJ
Skip to main content
  1. ホーム >
  2. 製品 >
  3. コンピュータプラットフォーム >
  4. サーバ >
  5. UNIXサーバ >
  6. SPARC Enterprise >
  7. SPARC Enterprise 徹底解説 >
  8. メインフレームの高信頼技術を継承した「SPARC64™ VII+/VII」

メインフレームの高信頼技術を継承した「SPARC64™ VII+/VII」

SPARC Enterpriseの本体装置は販売を終了しました。
本製品の後継機種はSPARC Serversです。


関連製品:SPARC Enterprise M3000, M4000, M5000, M8000, M9000


SPARC Enterpriseに搭載しているプロセッサ「SPARC64 VII+(セブンプラス)」「SPARC64 VII(セブン)」は、メインフレーム向けプロセッサで実装されてきたRAS(信頼性、可用性、保守性)技術をすべて採用して設計しています。プロセッサエラーによるシステム停止を回避するために、全回路にエラー検出機構とリカバリー機構を装備し、高い信頼性を実現しています。

SPARC64 VII+/VIIでは、キャッシュメモリだけではなく演算器やレジスタもデータ保護することで、確実にエラーを検出します。エラー発生時には、 ECCによるデータ訂正やハードウェア命令リトライにより、エラーの自己修復を行います。訂正できないエラーが発生した場合、コア、キャッシュメモリ単位で動的に縮退します。また、プロセッサ内部では常に動作内容を記録しているので、エラー発生原因の特定などを迅速に行えます。
メインフレームプロセッサと同じRAS機能を持つSPARC64 VII+/VIIの採用により、SPARC Enterpriseは信頼性の高いシステムをお客様に提供いたします。

表:SPARC64 VII+/VIIのRAS機能
  エラー検出 エラー訂正 縮退 記録
1次キャッシュメモリ 二重化+パリティ、ECC リトライ、ECC 動的way縮退(注2) ヒストリ
2次キャッシュメモリ ECC ECC
演算器 パリティ(注1) ハードウェア命令リトライ 動的コア縮退
レジスタ パリティ(注1)、ECC ECC、ハードウェア命令リトライ

注1:パリティエラー検出時は、ハードウェア命令リトライ機能によりエラー訂正します。

注2:wayはキャッシュメモリを構成する単位です。SPARC64 VII+/VIIの1次キャッシュメモリは2way構成、2次キャッシュメモリは12way構成(12MB/6MBの場合)です。

注4:上の図はエラー検出範囲の概略を示すものであり、実際のチップのフロアプランを正確に反映するものではありません。

徹底したデータ保護により業務継続性を向上

キャッシュメモリのデータ保護

キャッシュメモリはプロセッサを構成する回路の中で最も間欠故障(注5)が起きやすい回路のため、特に重点的にデータ保護機能を装備しています。

SPARC64 VII+/VIIの1次キャッシュメモリは、命令部は二重化+パリティ、データ部はECC、2次キャッシュメモリはすべてECCで保護されています。そのため1bitエラーをもれなく検出し、訂正することができます。

1bitエラーが多発すると、way単位で動的に段階的に縮退します。 SPARC64 VII+/VIIの2次キャッシュメモリは12way構造(注6)なので、1wayでエラーが発生して縮退しても、残りの11wayで動作し続けます。そのため、万一の際でもシステムの継続運用が可能であり、さらに性能劣化を最小限に抑えられます。他社のプロセッサの場合、キャッシュメモリでエラーが起きると、リブートして縮退するか、プロセッサ単位での動的縮退が一般的なので、キャッシュメモリのエラーがシステムの可用性や性能に大きく影響します。

注5:間欠故障は、不特定の箇所で一時的にデータエラーが発生する現象で、ソフトエラーとも呼ばれます。外部からの放射線や電磁波、熱などの影響により、間欠故障が発生します。

注6:2次キャッシュメモリが12MBおよび6MBの場合12way構造、5.5MBの場合11way構造、5MBの場合10way構造。

演算器・レジスタのデータ保護

SPARC64 VII+/VIIの演算器、レジスタは、パリティやECCによりデータを保護 しています。演算器は実際に命令を実行する回路、レジスタは演算器で実行するデータを一時保管する回路です。

SPARC64 VII+/VIIでは、レジスタを信頼性の高い回路で構成しています。加えてパリティで保護しているので、万一1bitエラーが発生しても確実に検出します。エラーが検出されると、レジスタから再度データを読み込み、命令を再実行します。さらにSPARC64 VII+/VIIでは整数レジスタをECCで保護することで、信頼性を一層強化しました。

またSPARC64 VII+/VIIは、命令実行時に実行前のデータから実行結果のパリティビットを計算して、パリティビットの値と実行結果の整合性がとれているか確認します。そのため、命令実行途中で発生した1bitエラーも検出することができます。エラーが検出されると、演算器にあるデータを一度クリアして、レジスタから再度データを読み込み、命令を再実行します。

他社プロセッサの場合、演算器、レジスタについて何のエラーチェックも行っていないか、レジスタのみチェックをおこなうものがあります。前者では、演算器、レジスタの1bitエラーは検出できず、データ化けとなります。後者は、パリティビットを捨てて命令実行を行い、実行結果から再度パリティビットを付加する仕組みとなっています。そのため命令実行途中で発生した演算器の1bitエラーを検出することはできません。また検出したレジスタのエラーを訂正することもできません。

コアの縮退

コア内で訂正不可能なエラーが発生すると、コア単位で動的に縮退し、エラーが発生していないコアだけで動作を継続できます。

プロセッサのすべての動作を記録するヒストリ

SPARC64 VII+/VIIは動作を記録するために、ヒストリと呼ばれる専用回路を持っています。ヒストリは、プロセッサの動作を自動的に記録し、万一の故障原因の解明に役立ちます。

ソフトウェアが介入することなく通常動作に影響を与えずに、常にプロセッサの動作内容を記録します。そのため、他社のプロセッサと異なりエラー情報だけではなく、エラーが発生するまでの過程も確認することができます。ヒストリにより、より早く、より正確にエラーの原因解析を行うことができます。

ヒストリは、飛行機の航行中の高度や速度などを自動的に記録する、フライトレコーダと同じような役割を担います。