Skip to main content

Fujitsu

Japan

メインフレームの高信頼技術を継承した「SPARC64 XII」、「SPARC64 X+」、「SPARC64 X」


関連製品:SPARC M10-1, M10-4, M10-4S
SPARC M12-1, M12-2, M12-2S


SPARC M12に搭載されているプロセッサ「SPARC64™ XII(トゥエルブ)」および、SPARC M10に搭載されているプロセッサ「SPARC64 X+(テンプラス)」、「SPARC64 X(テン)」は、メインフレーム向けプロセッサで実装されてきたRAS(信頼性、可用性、保守性)技術を採用して設計しています。プロセッサエラーによるシステム停止を回避するために、全回路にエラー検出機構とリカバリー機構を装備し、高い信頼性を実現しています。

SPARC64 XIIプロセッサ パッケージデザイン

SPARC64 X+プロセッサ パッケージデザイン

SPARC64 XII、SPARC64 X+、SPARC64 Xでは、キャッシュメモリだけではなく演算器やレジスタもデータ保護することで、確実にエラーを検出します。エラー発生時には、 ECCによるデータ訂正やハードウェア命令リトライにより、エラーの自己修復を行います。訂正できないエラーが発生した場合、コア、キャッシュメモリ単位で動的に縮退します。また、プロセッサ内部では常に動作内容を記録しているので、エラー発生原因の特定などを迅速に行えます。

メインフレームプロセッサと同じRAS機能を持つプロセッサを採用することにより、信頼性の高いシステムをお客様に提供いたします。

表: SPARC64 XII、SPARC64 X+、SPARC64 XのRAS機能
  エラー監視/検出 エラー処理 記録
訂正 縮退
1次キャッシュメモリ 二重化+パリティ、ECC リトライ、ECC 動的way縮退注2 ヒストリー
2次キャッシュメモリ ECC ECC 動的way縮退注2
3次キャッシュメモリ
注3
ECC ECC 動的way縮退注2
演算器 パリティ注1、レジデュー ECC、ハードウェア命令リトライ コア縮退
レジスタ パリティ注1、ECC

(注1)パリティエラー検出時は、ハードウェア命令リトライ機能によりエラー訂正します。
(一定回数リトライ後もエラー検出時には固定障害と判断しリブート)
(注2)wayはキャッシュメモリを構成する単位です。
(注3)SPARC64 XIIプロセッサのみ

徹底したデータ保護により業務継続性を向上

キャッシュメモリのデータ保護

キャッシュメモリはプロセッサを構成する回路の中で最も間欠故障注4が起きやすい回路のため、特に重点的にデータ保護機能を装備しています。

SPARC64 XII、SPARC64 X+、SPARC64 Xの1次キャッシュメモリは、命令部は二重化+パリティ、データ部はECC、2次キャッシュメモリ、3次キャッシュメモリ注3はすべてECCで保護されています。そのため1bitエラーを検出し、訂正することができます。

1bitエラーが多発すると、way単位で動的縮退します。
SPARC64 XIIの場合、3次キャッシュメモリが4つ注5に分かれており、それぞれ16way構造なので、3次キャッシュメモリの1つの1wayでエラーが発生して縮退しても、エラーが発生した3次キャッシュメモリは15wayで、それ以外の3次キャッシュメモリは16wayで動作し続けます。 また、SPARC64 X+、SPARC64 X場合は、2次キャッシュメモリが24way構造注6なので、1wayでエラーが発生して縮退しても、残りの23wayで動作し続けます。
そのため、万一の際でもシステムの継続運用が可能であり、さらに性能劣化を最小限に抑えられます。他社のプロセッサの場合、キャッシュメモリでエラーが起きると、リブートして縮退するか、プロセッサ単位での動的縮退が一般的なので、キャッシュメモリのエラーがシステムの可用性や性能に大きく影響します。

(注4)間欠故障は、不特定の箇所で一時的にデータエラーが発生する現象で、ソフトエラーとも呼ばれます間欠故障は、外部からの放射線や電磁波、熱などが影響します。
(注5)SPARC M12-1へ搭載されているSPARC64 XIIの3次キャッシュメモリは、2つに分かれています。
(注6)2次キャッシュメモリが22MBの場合、22wayで構造されます。(SPARC M10-1)

演算器・レジスタのデータ保護

SPARC64 XII、SPARC64 X+、SPARC64 Xの演算器、レジスタは、パリティやECCによりデータを保護しています。演算器は実際に命令を実行する回路、レジスタは演算器で実行するデータを一時保管する回路です。

SPARC64 XII、SPARC64 X+、SPARC64 Xでは、レジスタを信頼性の高い回路で構成しています。加えてパリティで保護しているので、万一1bitエラーが発生しても確実に検出します。エラーが検出されると、レジスタから再度データを読み込み、命令を再実行します。さらに整数レジスタをECCで保護することで、信頼性を一層強化しました。

またSPARC64 XII、SPARC64 X+、SPARC64 Xは、命令実行時に実行前のデータから実行結果のパリティビットを計算して、パリティビットの値と実行結果の整合性がとれているか確認します。そのため、命令実行途中で発生した1bitエラーも検出することができます。エラーが検出されると、演算器にあるデータを一度クリアして、レジスタから再度データを読み込み、命令を再実行します。

エラー復旧できない場合は、障害箇所を動的に縮退し、故障の記録をヒストリーに残します。

コアの縮退

レジスタおよび演算器にてエラーを検出し、命令を再実行してもエラーが再発する場合には、故障箇所をコア単位で動的に縮退し、エラーが発生していないコアだけで動作を継続します。

プロセッサのすべての動作を記録するヒストリー

SPARC64 XII、SPARC64 X+、SPARC64 Xは動作を記録するために、ヒストリーと呼ばれる専用回路を持っています。ヒストリーは、プロセッサの動作を自動的に記録し、万一の故障原因の解明に役立ちます。

ソフトウェアが介入することなく通常動作に影響を与えずに、常にプロセッサの動作内容を記録します。そのため、エラー情報だけではなく、エラーが発生するまでの過程も確認することができます。ヒストリーにより、より早く、より正確にエラーの原因解析を行うことができます。