GTM-MML4VXJ
Skip to main content

Hadoopとは

Hadoop(ハドゥープ)は、データを複数のサーバに分散し、並列して処理するミドルウェア(ソフトウェア基盤)です。テラバイト、ペタバイト級大容量データの分析などを高速処理できるため、「ビッグデータ」活用における主要技術として活用が進んでいます。

Hadoop登場の背景

近年、大量でかつ多種多様なデータを分析し、その結果得られる情報をもとに、マーケティングや新たなビジネスを創出しようというICT活用が新たな潮流となっています。
例えば、ソーシャルメディアなどに日々蓄積する、テキストデータや音声、動画データなど非構造データも、その意味では価値のある「ビッグデータ」ですが、これらテラバイト(1兆バイト以上)からペタバイト(1,000兆バイト)におよぶデータを高速・効率的に処理するために、新たな手法が必要となりました。従来では一般的だった「対象となるデータを1つのサーバに蓄積し、あるキーワードで問いかけて、目的のデータを抽出する方法」では高速処理が難しいのです。
そこで考えられたのがデータを分散並列処理する手法です。つまり、データを複数のサーバに分散させ、各サーバに計算処理させることで、1台のコンピュータでは難しい大容量データの高速分析処理を行おうというものです。
ただ、分散並列処理を行う上ではいくつかの課題もありました。例えば、複数のサーバをネットワークでつなぎ、データを分散させたり、計算処理の同期をとったり、あるサーバが何らかの理由でストップした場合に対処する仕組みも求められるなど、複雑なシステム構築になるのです。当然、スピードアップや容量アップしようとする場合も容易ではありません。これらの課題に応えるのが、Hadoopなのです。

Hadoopのユニークな仕組み

Hadoopでは、1台のマスターサーバと、その配下につながる多数のスレーブサーバが連係プレーでデータの高速処理を行います。データ処理全体の流れをコントロールするのがマスターサーバで、実際の計算処理は配下のスレーブサーバが手分けして行います。したがって、スレーブサーバの台数が多ければ多いほど処理能力は高まり、爆発的に増大するデータを高速で計算処理できるようになるわけです。

Hadoopの主な動作

Hadoopを特長づけているのは、HDFS(Hadoop Distributed File System)と呼ばれるファイルシステム、そしてMapReduceと呼ばれる計算プログラミングの2つの技術です。
HDFSは、多数のスレーブサーバのハードディスクを取りまとめ、そこに計算すべき膨大なデータを書き込んだり、また集計した結果を書き込んだりできる仮想的なファイルシステムです。
MapReduceは、計算処理を2つの手順、「Map処理(与えられたデータから欲しいデータを抽出・分解する)」と「Reduce処理(抽出されたデータ集計する)」でこなす手法です。各スレーブサーバは割り振られた分をMapReduceによって計算処理します。複数台のスレーブサーバで並列処理ができるので効率的です。

下図は、MapReduceの処理イメージです。
「季節の人気おかずランキング(口コミ)」を例にとり、口コミより得た情報から、人気のおかずを抽出、分解、集計し、順位づけした略図です。

MapReduceによってカウントした場合の例

ユーザー数が1千万人を超える料理レシピサイトでは、約1年分の膨大すぎるRelational Data Baseのデータ解析に約10カ月要する見積もりに対し、Hadoopの利用により、その処理を1日半程度に短縮されたという事例もあります。
このように、HDFSとMapReduceの組み合わせで、現在、数ペタバイト程度のデータまでを迅速に分散並列処理できるようになっています。

課題と展望

Hadoopはオープンソースであるため、安価に導入が可能ですが、扱うスキルを持つ人材が求められます。より効率的に運用するには、どのようにデータを分散させればより効果的に処理が行えるか考えなければなりません。そのためにはサーバの配置やデータの処理単位について検討する必要があります。また、Hadoopだけでは詳細な分析や統計をカバーできないため、分析処理や統計処理をどのように連携して実行するかなどの課題もあります。
しかし、「ビッグデータ」時代の本格的な到来と共に、Hadoopをベースとしたパッケージも増えており、これらの課題も解決されつつあります。Hadoopは本格化するビッグデータ時代を牽引する主要技術の1つであり、今後さらに普及が進むものと考えられます。


富士通はNTTデータとともに、ディスクストレージシステム ETERNUSへのアクセス方法を拡張し、HadoopやPOSIX(Portable Operating System Interface for UNIX)対応のストレージシステムを共同開発しました。これはETERNUSを従来のHDFSの代わりに利用することが可能で、Hadoopから高性能に利用できることはもちろん、POSIXにより外部システムからも共有ストレージとして、統合管理およびETERNUSのバックアップ機能が利用できるといった特長で注目されています。

今後もストレージ 「ETERNUS」をはじめ、サーバ「PRIMERGY」「SPARC Enterprise」「PRIMEQUEST」などのハードウェア製品に加え、データの並列分散処理を可能にする「Big Data Platform」、統計・分析処理を行う「Big Data Middleware」などのソフトウェア製品群を提供することで、ビッグデータ活用に対するお客様の多様なニーズに対応してまいります。

ストレージシステム ETERNUS製品・サービスに関するお問い合わせ

Webでのお問い合わせ

入力フォーム

当社はセキュリティ保護の観点からSSL技術を使用しております。

お電話でのお問い合わせ

0120-933-200 富士通コンタクトライン(総合窓口)

受付時間 9時~17時30分
(土曜・日曜・祝日・当社指定の休業日を除く)


ETERNUSサイトについて | サイトのご利用方法 | 総合索引

GTM-5LTXMS