HDD品質技術室には HDD技術、フィールド品質、品質技術という3つのグループがあります。
ETERNUS製品に搭載するHDDやSSDを選定し、採用するのがHDD技術グループです。フィールド品質グループはサポート部門と一緒にお客様から要望を承ったり、現在稼働中の製品に対して品質の監視などを担当します。品質技術グループは、フィールドでのお客様への対応やベンダーとの品質改良を介して品質を改善していくことを目的としています。
これまではこれらの業務を異なる部署で行っていました。それを1つの部署に一体化し、ベンダーとの交渉力を強化して、HDD / SSDに関してより高い品質を確保しようというのがHDD品質技術室の設立の目的です。
私は主にHDDの採用と評価を担当しています。HDDの採用は、ベンダーから新しい機能や容量のHDDがリリースされたタイミングで検討を開始します。採用が決まったら、ETERNUSに組み込んだときに問題はないか、品質や信頼性を徹底的に評価します。HDDは採用や評価に関して長い間蓄積してきたノウハウがあり、それを十分に活用できていると思います。
私はSSDの採用と評価の担当です。SSDについても採用の流れは同じです。HDDに比べると採用実績は少ないですが、FATEC(富士通アドバンストテクノロジ)にSSD / NANDに関してのノウハウが既に蓄積されており、これらの部署と連携しながら品質確保に努めています。
評価では、過去に発生した障害を洗い出し、再発を防止することが重要だと考えています。長年培ってきた経験をもとに、HDDの信頼性に関する評価を確実に行っています。
また、機能面では性能の評価に加え、従来機種との互換性について特に厳しくチェックしていきます。新しいHDD / SSDでも、旧機種が故障したときに搭載できるようにしなければなりません。HDD / SSDレベルでの性能や品質が確保できるように、徹底的に評価を行います。
ストレージシステムを停止させないためには、HDDやSSDのさらなる品質向上が重要になります。そうはいっても使用環境によっては問題が生じることもある。そのようなときでもシステムが停止しないように、「しきい値」を設けてSSDの性能がその値まで下がったらアラートを上げる機能をドライブに実装しています。これは富士通独自の機能です。そのアラートをETERNUS側で検知して故障を予兆し、未然に防ぎます。採用後はその機能が正常に動作するか検証を行います。
異常系を想定した試験を綿密に行っていることが挙げられると思います。装置側やHDDの故障を想定した擬似故障試験をしっかりと行って、期待されるエラーリカバリーができているか、ほかのHDDに影響を与えないか、装置稼働に影響がでないかなどを確認しています。
HDD / SSDの各種エラーに細かく対処できることです。例えばリトライして成功したら問題ない、2回までは想定の範囲内といったノウハウをかなり蓄積しています。そのノウハウを活かして、エラーが起きても闇雲にシステムを停止しないように努力しています。
現在はHDD / SSDを富士通内で開発しているわけではありませんが、研究所をはじめ、関連部署にHDD / SDDの技術に精通している人が多いことが強みです。その知識が評価時に活かされ、ノウハウとして蓄積されています。
HDDは大容量化が進み、この10年ほどで容量が100倍になりました。今後も容量を上げるテクノロジーが進化していくと思います。ただ、HDDは機械部品で構成されており、HSA(ヘッドスタックアセンブリ)を動かしてデータにアクセスするため、高速化に関しては限界があります。そのような状況の中、HDDより高速なSSDが世に出てきました。ETERNUSにも2010年から搭載しています。
当初SSDは高価格で、導入にあたって性能への要求と価格との兼ね合いを判断するのが非常に難しかったです。しばらくして、SSDに採用されているNAND型フラッシュメモリの需要が増大するとともに価格が下がり、SSD自体もストレージへの搭載できるほどの価格まで下がりました。それが2010年頃です。今後はエンタープライズ向けの製品としてますますブレイクしていくと思われます。
HDDは機械部品で構成されますが、SSDは半導体メモリで構成されます。構造がまったく違うので、HDDとは違う方向に進むと思います。
半導体メモリの数を増やせば、容量を2倍にすることは可能ですが、価格が上がってしまう。SSDに関しては大容量化よりも、高性能を追求しながらの低価格化へのニーズのほうが大きいでしょう。今後はいかに容量単価を下げてうまく活用できるかが課題になると思います。
これまでエンタープライズにおいては、SLC(Single Level Cell)方式のSSDが主流でした。SLC方式では1つのセルに1ビットの情報を書き込むため、アクセスが速く、動作が安定しています。その分、価格が高く、これ以上の低価格化は難しいところまできています。そのため、大幅に価格を下げられるMLC(Multiple Level Cell)方式に主流が移行しつつあります。MLC方式では1つのセルに2ビットの情報を書き込みます。今後1つのセルに書き込むビット数を増やすことで、さらに低価格化を進めていくことが可能です。
こうした特性がある一方で、MLC方式は、SLC方式と比べると若干速度が遅く動作の安定度もやや劣ります。コントローラーの技術が進み、SLC方式との性能の差はなくなりつつありますが、SLC方式とはまったく異なる問題が起きることもあります。もちろん、MLC方式のSSDについても徹底的に評価を行うことで回避し、そこで起こった問題などはノウハウとして今後に活かしていきます。
SLC方式で1セルあたり10万回、MLC方式で1万回と言われていますが、同じセルばかりに集中して読み書きを行うわけではなく、均等にアクセスするため、通常は書き換え回数の制限を気にする必要はありません。さらに、富士通では独自のシミュレーションを行い、少なくともストレージシステムの耐用年数である5年を意識する必要はないとの結論を得ています。
仮に書き換え回数の制限に達しても、いきなり故障するわけではなく、性能が少しずつ下がっていってやがて書き込みができない状態になります。先にお話ししたように、ドライブには性能が低下したらアラートを出す機能を実装していますので、故障の前に検知できます。
それはないです。用途に応じて棲み分けられていくでしょう。アクセス性能を重視する部分にはSSD、容量を重視する部分にはHDDなど、データの価値や用途によって1つのストレージの中で階層化して制御していくようになると思います。
ETERNUS ディスクアレイも自動階層制御機能をサポートしています。アクセス頻度などによってストレージをTier 0~2に分け、高速なアクセスを求められるTier 0にSSDを使います。今後は、階層化するだけでなく、いかにお客様に運用負担をかけずに自動的に制御するかが重要になると思います。
1つのHDDを採用するまでに、富士通内の関連部門やベンダーなど、多くの人とやりとりします。いろいろな意見があり、それに対して解決案を提示しながら、1つの結論をまとめていかなければならないことにいつも苦労しています。でもそこがやりがいにもなると考えています。
HDD / SDDに関しては海外のベンダーのほうが積極的で、次々と新しい製品をリリースしてきます。採用にあたって海外ベンダーの担当者と直接話をする機会も多いのですが、富士通は品質に関して特にうるさいということを、海外のベンダーに理解してもらうのが難しいです。
言葉だけでなく、お互いの会社のカルチャーを理解し合うことが大変ですね。富士通の品質へのこだわりは海外のベンダーには通じにくいです。なぜその試験が必要かと質問されます。そこを理解してもらい、必要な機能を盛り込んでもらうには、長い時間をかけて良い関係を構築しなければなりません。HDDに関してはそれなりに積み重ねてきたものがありますが、SSDに関しては一所懸命に関係構築をしているところです。
HDDは何か画期的な技術がない限り、性能や容量は大きく伸びることはありません。そのような状況の中で、ベンダーは工夫をこらした製品を提案してきます。それをどう使っていくか知恵を絞って考えていますが、1つの課題を克服していく実現力をアップすることが当面の目標です。
また、採用や評価を行う中で、HDDの新技術などさまざまな情報に触れる機会があります。それらの情報を吸収して、実際のシステムに展開していけるようになりたいです。
SSDの主流がMLC方式に移行し、低価格化が進めば、信頼性や書き込み回数の問題も出てきます。そうした課題に対処しつつ、品質をどのように保証していくのか、お客様が実際にどのように使っているのかそのユースケースも踏まえたうえで、現実的なモデルを考えていかなければと思っています。
(注)取材日:2013年1月10日
本稿記載の肩書きや、固有名詞等は取材日、または公開日時点のものであり、このページの閲覧時には変更されている可能性があることをご了承ください。
掲載日:2013年3月29日
卓越したスケーラビリティと高性能・高信頼テクノロジーを提供
ETERNUS DX ハイブリッドストレージシステム