GTM-MML4VXJ
Skip to main content
  1. ホーム >
  2. 製品 >
  3. ソフトウェア >
  4. ライブラリー >
  5. 特集 >
  6. 富士通フォーラム2013 東京 セミナーレポート「ビッグデータ活用編」

富士通フォーラム2013 東京 セミナーレポート
バッチ処理の高速化から始めるビッグデータ活用

富士通フォーラム2013 東京 セミナーレポート:バッチ処理の高速化から始めるビッグデータ活用

富士通株式会社 ミドルウェア事業本部 商品企画室 シニアマネージャー 小籔 正晴の写真

近年、ビッグデータはICTの重要なキーワードの1つとなっています。企業におけるビッグデータの意義は、これまでにない価値の発見や新たなビジネス領域の開拓にありますが、多くの企業がバッチ処理の高速化といった既存領域のデータ処理についてもビッグデータ活用の技術に期待をよせています。

「富士通フォーラム2013 東京」において、ミドルウェア事業本部 商品企画室 シニアマネージャー 小籔正晴は、「バッチ処理の高速化から始めるビッグデータ活用」と題するセミナーを行いました。本セミナーレポートでは、バッチ処理時間の短縮による業務プロセス変革と、その実現に必要となるHadoop適用の課題と解決のポイントを中心に、これからの企業成長の鍵となるビッグデータ利活用についてご紹介します。

[2013年8月30日掲載]

バッチ処理の高速化による業務プロセス改革

ビッグデータ利活用ニーズの約半数は既存領域のデータ処理改革

ビッグデータ利活用の本質は、ビジネス活動において発生する様々な情報を収集、分析することで、新たな価値の発見や予兆の把握を行い、サービスを変革し、今までにはなかったビジネス領域への展開を実現することにあります。
しかし、新たな領域のビジネスだけでなく、企業活動のあらゆるシーンでビッグデータ利活用への期待が高まっています。2012年度の富士通におけるビッグデータ商談では、1.既存領域のデータ処理改革が47%、2.埋もれているデータの利活用が39%、3. 新たな領域でデータを利活用が14%の3つのニーズに大きく分かれました。

 
【図1:ビッグデータ利活用の3つのニーズ】

「ビッグデータ利活用のニーズにおいて約半数を占めた既存領域のデータ処理改革とは、主に既存のバッチ処理の高速化に対する期待です。ビッグデータ活用の技術により長時間を要していたバッチ処理の大幅な時間短縮を図り、短サイクルでバッチ処理を実行していくことで、コストを抑制しながら業務プロセス改革が図れる。これを多くの企業が認識し始めたといえるでしょう」(小籔)
例えば、製造業においてはバッチ処理時間の大幅短縮により日々の製品原価の把握が可能となり、損益ラインを正確に判断した上での商談活動や、製造工程で発生したロスなどの問題への迅速な対応が実現できます。また、小売業のケースでは従来、12時間を要していた在庫計算のバッチ処理を1時間に短縮することにより前日の在庫状態に基づいた自動発注を行い、在庫量の適正化を実現しています。

このように「バッチ処理時間を劇的に短縮したい」といった要件に対し注目を集めているのが、並列分散処理ソフトウェア「Hadoop」です。

Hadoop適用における課題と解決のポイント

Hadoopは、低コストの汎用PCサーバを活用し並列処理を低コストで実現できることが大きな特徴です。その特徴を可能にしているのが、分散ファイルシステムHDFS(Hadoop Distributed File System)に分割、格納されたデータを、MapReduceと呼ぶフレームワークを使って複数サーバ上で起動したアプリケーションに割り当てて並列実行するといった仕組みです。アプリケーションは並列処理を意識することはなく、バッチ処理の並列化を比較的容易に実装できます。またサーバを追加するだけで処理能力の向上が図れるためスケールアウトもスムーズです。

「Hadoopはバッチ処理の高速化に適した技術ですが、考慮すべき点として、1.既存システムとHadoopのデータ連携による性能ロス、2.既存ジョブからのアプリケーション移行コスト、3.Hadoop用リソースの確保の3つの課題があります。各課題と解決のポイントについてご紹介します」(小籔)

  1. 既存システムとHadoopのデータ連携による性能ロス
    通常、既存システムが出力したファイルをHadoopにロードしHadoopで処理した結果をアンロードして既存システムに転送するといった、既存システムとHadoop間のデータ連携が必要です。
    このデータ連携時間のロスを解消するために既存システムとHadoop間でのデータ共有を実現しているのが、並列分散処理ソフトウェア「Interstage Big Data Parallel Processing Server(インターステージ ビッグデータ パラレル プロセッシング サーバ)」です。既存システムが入出力するファイルをHadoopで直接処理することができるため、Hadoopの処理の前後でのデータ連携は不要となります。
    ある原価計算におけるバッチ処理時間の試算では、データ量30ギガバイトで、本来の処理に要する時間15分に加え、データ連携の時間として往路20分、復路15分を要することになりますが、「Interstage Big Data Parallel Processing Server」の導入により本来の処理に要する時間15分だけで処理は完了できます。

 

 

 
【図2:既存システムとHadoopのデータ連携による性能ロスを解消】

  1. 既存ジョブからのアプリケーション移行コスト
    既存ジョブの多くは、RDBを用いずファイルを使うCOBOLアプリケーションのケースと、アプリケーションからSQLを使ってRDBのデータを処理するケースの2種類に当てはまります。この2つのケースについて移行コストの課題と解決のポイントをご紹介します。
  • RDBを用いずファイルを使うCOBOLアプリケーションのケース
    このケースでは、COBOLアプリケーションで記述されたデータ処理をJavaに書き換えることに加え、COBOL形式の入出力ファイルをJavaで扱えるCSV形式などに変換することが必要です。
    この移行コストを削減するために、富士通のオープンプラットフォームCOBOL開発環境「NetCOBOL(ネットコボル)」は、既存のCOBOLアプリケーションに手を加えることなくHadoop上で並列実行させることを実現しました。COBOLアプリケーションがそのまま使えることはもとよりCOBOL形式のデータも変換することなくHadoopで処理できるため、既存システムとのデータ連携も容易です。

 

 

 
【図3:既存COBOL資産をそのままHadoopで使用】

  • アプリケーションからSQLを使ってRDBのデータを処理するケース
    このケースでは、SQLで記述されていた処理をJavaアプリケーションで実装する必要があります。
    このコストを削減するために、富士通のCSV/XMLデータ加工ツール「Interstage Data Effector(インターステージ データ エフェクター)」は、SQLで記述されていた処理を簡易言語で置き換えることにより、既存資産をよりスムーズにHadoopへ移行することができるようになりました。RDBからアンロードしたCSVファイルに対し、結合、レコード加工、集計を簡易言語で記述できることに加え、Javaアプリケーションよりも高い処理性能を実現できます。

 
【図4:CSVファイルに対し結合、レコード加工、集計を簡易言語で記述】

  1. Hadoop用リソースの確保
    バッチ処理の実行時にしか利用しないHadoopのICTリソースをどのように効率的に確保するかも重要なポイントになります。最も多いオンプレミス型で構築する場合、各システムで共通のバッチ処理基盤としてHadoopを構築し、さまざまなバッチ処理に交替で利用する方法を選択できます。また、プライベートクラウド上にHadoop用の仮想マシンを構築しリソースの有効活用を図る方法や、パブリッククラウドを必要なときに必要な分だけ利用する方法もあります。

 
【図5:Hadoop用リソースを効率的に確保するための方法】

Hadoopの適用における様々な課題に対し、上記解決のポイントを押さえることで容易に、なおかつコストを抑制しながらバッチ処理の大幅な高速化を実現できます。これによって業務プロセスを変えるというところから着手することがビッグデータ利活用の第一歩となります。
次頁では、さらにその先のデータ利活用として「埋もれているデータの利活用」と「新たな領域でデータを利活用」のポイントについてご紹介します。

次のページに移動します

  • 1
  • 2

次へarrow-double


FUJITSU’s Middlware Newsのご案内

本コンテンツに関するお問い合わせ

Webでのお問い合わせ

入力フォームはこちらから

当社はセキュリティ保護の観点からSSL技術を使用しております。

お電話でのお問い合わせ

富士通コンタクトライン(総合窓口)0120-933-200

受付時間 9時~17時30分
(土曜・日曜・祝日・当社指定の休業日を除く)