内存镜像和内存巡查(Patrol),改进系统可靠性
通过 ECC 和扩展 ECC进行内存数据保护
通过 ECC 和扩展 ECC进行内存数据保护。
ECC (错误检查与纠正)
ECC 数据保护机制通过准确地检查和纠正损坏数据来恢复单位错误。它为每个数据块添加一个ECC代码。
扩展 ECC (*1)
扩展 ECC 使用类似 ECC的机制来恢复保存在故障内存芯片上的数据 (DRAM)(*2)。
*1 这与 IBM的 Chipkill 功能相对应。
*2 对于T5440/T5240/T5140/T5120/T5220机型,因内存规格的原因,在某些特定的内存配置下不支持扩展ECC。
内存镜像提供内存冗余
SPARC Enterprise 具有内存冗余机制,称为 “内存镜像”,可改进单系统可靠性,保护内存中的所有数据,甚至可通过ECC机制防止不可恢复的多位错误。
SPARC Enterprise M4000 及以上型号支持该功能。
内存镜像操作
数据同时写到内存镜像的两面 (内存 A 和内存 B)。
数据读取时其有效性通过ECC来验证。如果没有发现错误,则内存访问控制器(Memory Access Controller)通过比较内存A和内存B中的数据重新确认数据的有效性。如果内存A检测到一个不可恢复的错误, 那么使用内存B中的数据进行读操作,反之亦然。

内存巡查(Patrol),早期的快速错误检测
硬件中的内存检测功能可检查并纠正内存错误,对内存进行降级以避免故障内存芯片(*3)所导致的OS 或应用故障。
内存访问控制器(Memory Access Controller )中的硬件功能无需消耗OS 或 CPU 资源即可进行快速的内存检测。

*3 也称作 “内存清洗器”
