- ストレージトップ
- 製品ラインナップ
- オールフラッシュストレージ
- ハイブリッドストレージ
- ソフトウェア・デファインド・ストレージ
- テープシステム
- バックアップ/アーカイブストレージ
- スイッチ
- ストレージ関連ソフトウェア
-
今までに発表した製品
今までに発表したETERNUS製品の販売状況や保守サービス状況、後継機がわかる製品変遷をご紹介
-
サブスクリプションモデル
使った分だけ料金を支払う柔軟な料金体系とオンプレミスならではの高い性能・セキュリティを両立
- ETERNUS関連情報
- お役立ち情報
-
ユニファイドストレージ徹底活用
お客様の選定・検討に有用な情報を集約
-
1分でマスター!オールフラッシュ
技術用語解説やフラッシュストレージの特長、展望などが1分程度で理解できる
-
ストレージ技術用語解説
ストレージ製品に関する技術用語を解説
-
用語集
ETERNUSにまつわる用語を解説
-
ストレージ市場動向
ストレージ市場における旬なテーマやストレージ管理者の課題を取り上げ、市場データを分析
-
ユニファイドストレージ徹底活用
- 富士通ストレージとは
-
コンセプト
多様化する業務ニーズに最適なストレージソリューションとは
-
VOICE
~ETERNUSの現場から
ETERNUSの開発や販売にまつわるエピソード、製品への熱い想いなど技術者の声をご紹介
-
ETERNUSメルマガご案内
新製品のご案内、サポート情報、展示会・セミナーなどのイベント情報を電子メールでお届け
-
コンセプト
Hadoopとは
Hadoop(ハドゥープ)は、データを複数のサーバに分散し、並列して処理するミドルウェア(ソフトウェア基盤)です。テラバイト、ペタバイト級大容量データの分析などを高速処理できるため、「ビッグデータ」活用における主要技術として活用が進んでいます。
Hadoop登場の背景
近年、大量でかつ多種多様なデータを分析し、その結果得られる情報をもとに、マーケティングや新たなビジネスを創出しようというICT活用が新たな潮流となっています。
例えば、ソーシャルメディアなどに日々蓄積する、テキストデータや音声、動画データなど非構造データも、その意味では価値のある「ビッグデータ」ですが、これらテラバイト(1兆バイト以上)からペタバイト(1,000兆バイト)におよぶデータを高速・効率的に処理するために、新たな手法が必要となりました。従来では一般的だった「対象となるデータを1つのサーバに蓄積し、あるキーワードで問いかけて、目的のデータを抽出する方法」では高速処理が難しいのです。
そこで考えられたのがデータを分散並列処理する手法です。つまり、データを複数のサーバに分散させ、各サーバに計算処理させることで、1台のコンピュータでは難しい大容量データの高速分析処理を行おうというものです。
ただ、分散並列処理を行う上ではいくつかの課題もありました。例えば、複数のサーバをネットワークでつなぎ、データを分散させたり、計算処理の同期をとったり、あるサーバが何らかの理由でストップした場合に対処する仕組みも求められるなど、複雑なシステム構築になるのです。当然、スピードアップや容量アップしようとする場合も容易ではありません。これらの課題に応えるのが、Hadoopなのです。
Hadoopのユニークな仕組み
Hadoopでは、1台のマスターサーバと、その配下につながる多数のスレーブサーバが連係プレーでデータの高速処理を行います。データ処理全体の流れをコントロールするのがマスターサーバで、実際の計算処理は配下のスレーブサーバが手分けして行います。したがって、スレーブサーバの台数が多ければ多いほど処理能力は高まり、爆発的に増大するデータを高速で計算処理できるようになるわけです。
Hadoopを特長づけているのは、HDFS(Hadoop Distributed File System)と呼ばれるファイルシステム、そしてMapReduceと呼ばれる計算プログラミングの2つの技術です。 HDFSは、多数のスレーブサーバのハードディスクを取りまとめ、そこに計算すべき膨大なデータを書き込んだり、また集計した結果を書き込んだりできる仮想的なファイルシステムです。 MapReduceは、計算処理を2つの手順、「Map処理(与えられたデータから欲しいデータを抽出・分解する)」と「Reduce処理(抽出されたデータ集計する)」でこなす手法です。各スレーブサーバは割り振られた分をMapReduceによって計算処理します。複数台のスレーブサーバで並列処理ができるので効率的です。
図1. Hadoopにおけるデータ処理全体の流れ
図2のMapReduceの処理イメージをご覧ください。「季節の人気おかずランキング(口コミ)」を例にとり、口コミより得た情報から、人気のおかずを抽出、分解、集計し、順位づけした略図です。
ユーザー数が1千万人を超える料理レシピサイトでは、約1年分の膨大すぎるRelational Data Baseのデータ解析に約10カ月要する見積もりに対し、Hadoopの利用により、その処理を1日半程度に短縮されたという事例もあります。
このように、HDFSとMapReduceの組み合わせで、現在、数ペタバイト程度のデータまでを迅速に分散並列処理できるようになっています。
図2. MapReduceの処理イメージ
課題と展望
Hadoopはオープンソースであるため、安価に導入が可能ですが、扱うスキルを持つ人材が求められます。より効率的に運用するには、どのようにデータを分散させればより効果的に処理が行えるか考えなければなりません。そのためにはサーバの配置やデータの処理単位について検討する必要があります。また、Hadoopだけでは詳細な分析や統計をカバーできないため、分析処理や統計処理をどのように連携して実行するかなどの課題もあります。
しかし、「ビッグデータ」時代の本格的な到来と共に、Hadoopをベースとしたパッケージも増えており、これらの課題も解決されつつあります。Hadoopは本格化するビッグデータ時代を牽引する主要技術の1つであり、今後さらに普及が進むものと考えられます。
富士通はNTTデータとともに、ディスクストレージシステム ETERNUSへのアクセス方法を拡張し、HadoopやPOSIX(Portable Operating System Interface for UNIX)対応のストレージシステムを共同開発しました。これはETERNUSを従来のHDFSの代わりに利用することが可能で、Hadoopから高性能に利用できることはもちろん、POSIXにより外部システムからも共有ストレージとして、統合管理およびETERNUSのバックアップ機能が利用できるといった特長で注目されています。
今後もストレージ 「ETERNUS」をはじめ、サーバ「PRIMERGY」「SPARC Enterprise」「PRIMEQUEST」などのハードウェア製品に加え、データの並列分散処理を可能にする「Big Data Platform」、統計・分析処理を行う「Big Data Middleware」などのソフトウェア製品群を提供することで、ビッグデータ活用に対するお客様の多様なニーズに対応してまいります。
掲載日:2012年9月26日
その他の関連情報
関連情報を探す
ストレージシステム ETERNUS製品・サービスに関するお問い合わせ
Webでのお問い合わせ
-
入力フォーム
当社はセキュリティ保護の観点からSSL技術を使用しております。
お電話でのお問い合わせ
-
0120-933-200(通話無料)
富士通コンタクトライン(総合窓口)
受付時間 9時~12時 および 13時~17時30分
(土曜・日曜・祝日・当社指定の休業日を除く)