GTM-MML4VXJ
Skip to main content

Japan

  1. ホーム >
  2. ICTのmikata>
  3. 第08回 AIを作るか使うか~素材(データ)は揃っていますか?

第08回 AIを作るか使うか~素材(データ)は揃っていますか?

AI活用の「いろは」

株式会社チェンジ 執行役員
株式会社ボイスタート 取締役
高橋 範光 氏

2019年04月22日更新

ここ1年から2年、AIプロジェクトがそこかしこで立ち上がる話を耳にしてきました。しかし、実際のAIプロジェクトの多くがうまく進んでいないという話も後を絶ちません。

AIプロジェクトが失敗する要因には様々な理由がありますが、そもそも材料となるデータを揃えられないという問題がそのうちの1つとして挙げられます。そこで、今回は「AIを作るか使うか」ということについてふれていきます。

AIに学習させるデータが揃っていない企業は多い

AI構築を検討される企業の多くが、「社内には大量にデータがあるので、これを活用すればAI構築が可能でしょう」と話されます。ただ、実際にはこのデータをAIに学習させるには、あまりにも整備されていなかったり、読み込める形になっていなかったり、また、そのデータの中には正しくないものが含まれていたりすることもあります。

ある調査では、AI構築のためのデータが整備されている企業は1割程度との報告もあります。なぜこのようなことが起きるのでしょうか。

「AI構築には大量のデータが必要である」という言葉を聞き、単に「データがあればいい」と思っていることが原因の一つといえます。AIに学習させるためには、そのための形をしたデータが必要です。にもかかわらず、AIとは関係なく蓄積したデータを転用しようとして、うまくいかないという状況に陥っているのです。

例えば、紙をスキャンしたPDFやワードなどのデータが混在しているものを、そのままAIに学習させるのは難しく、時間を要します。

さらに、仮に、デジタル化され、整理されたデータがあればいいというわけでもありません。たとえば、基幹系のデータベースに格納されているデータがあったとしても、それらの多くは結果の記録データであるため、正確な時系列のプロセスが記録されたものではありません。にもかかわらず、この結果の記録データを使って、時系列での予測や分類をしようとして失敗するのです。

イメージ

データを揃えるためには地道な努力が不可欠

もう1つ大きな問題となるのが、AIに学習させるためには教師データ、すなわち学習用のデータに含まれる答えとなるタグ付け(AIの業界では「アノテーション」という)が必要であるということです。異常の検知であれば、いつ異常があったか。画像から人物を特定する場合、どれが人物か。これらのタグ付け作業(アノテーション作業)はとても大変かつ時間を要するものであり、AI構築のための大きな障壁となっています。

では、AI構築のための学習データの準備をどのように進めていけばいいでしょうか。ここでも、冒頭の「社内には大量にデータがあるので、これを活用すればAI構築が可能でしょう」という考えは、逆に仇となります。多くの企業が、既存データを使って効率的に学習データを作成しようとして、途中で諦めてしまうということがおきているのです。

AIを構築するということは、学習データを作成しなければはじまらないということを肝に銘じ、たとえ地道で時間がかかる作業であったとしても、諦めず取り組むようにしましょう。実際、とある企業はAI構築のための学習データ作成に約2年を要したという話もあります。それだけの覚悟が必要なのです。

最近ではアノテーション作業の外注や、アノテーション専用ツールなどもでてきており、多少稼働は軽減できつつありますが、それでも決して楽な作業ではないということを是非理解して取り組んでください。

また、最近は、既存データへのアノテーションではなく、ゼロからタグ付きデータを作っていくというアプローチをとる企業も増えてきています。例えば、あるクリーニング店は、レジの自動化AI構築のためにクリーニングに持ち込まれる様々な衣類の画像を自ら撮影し学習データを作成する作業をゼロからおこなったそうです。中途半端に衣類の写真を集めてから加工・タグ付けするよりも、ゼロから作ったほうが、より信頼できる良いデータを手戻り無く用意できるということなのです。

AIを作らずに使うという選択肢

ここまでAI構築のための学習データの話をしてきましたが、実は学習データを作らなくてもAIを利用できる方法があります。クラウド上にあるAIを利用するという方法です。これは、学習済みAIと呼ばれ、事前に教師データ用意して学習させ、高い精度がでているAIをわれわれが利用するというものです。

たとえば、クラウドサービス提供事業者は、画像認識のAIや音声認識・翻訳のAIなど様々なAIを用意し、いずれも初期費用をおさえ、利用した分だけ支払えばよいサブスクリプション形式で提供されています。とても簡単に使えるので、もし利用目的にあうようなAIが見つかれば、利用しない手は無いでしょう。

イメージ

学習済AIを活用する上でのポイント

前述したような学習済みAIが選択肢として入ってくる中、「どのクラウドの学習済AIが良いですか?」という質問を、最近頻繁にうけるようになりました。実は、各クラウドの学習済AIは、それぞれ微妙に学習観点がちがっています。そこで、どれが一番いいのか、特に精度面で優れたものを聞かれます。

ただ、クラウド上の学習済みAIの違いは、単純に一律に精度で比較するのではなく、人で言うところの「個性」のような違いだと捉えることができます。すなわち、どのクラウドの学習済AIが一番自分たちの利用目的にあっているかを検証して、活用していくことが大事なのです。

しかし、それでもAIを比較したいという方もいらっしゃいますが、もう1点気をつける必要があります。それは、学習済AIは定期的に更新されるということです。クラウドの学習済AIは提供した段階でそれ以降更新がないものではなく、定期的に教師データを与え、精度を高めています。逆に言うと、現時点で選択したクラウドが、今後も同様に高い精度を維持し続けられるかどうかは、やってみないとわからないということなのです。

ですから、「どのクラウドの学習済AIが良いか?」と選定に時間をかけるのではなく、これらの学習済AIはAPI形式で提供されていますので、都度良いものを評価し、良いものを利用していくという考えを持つことが良いでしょう。

そして、教師データを作るためにAIを活用する

最後に今回のまとめです。

AIを作るにはデータの用意が不可欠であり、それには相応の時間がかかります。諦めてしまっては、AI構築は実現しません。ですから、地道にデータを作り、AIを構築して、利用してもらいながら、新たなデータを収集して、今後の学習に活かし、精度向上に努めるという考え方が大事です。

次回の第9回は、「AIに寄り添う」というテーマで、もう1つのAIプロフェクトの失敗要因である「精度向上」についてふれていきます。次回もご期待ください。

著者プロフィール

高橋氏

株式会社チェンジ 執行役員
株式会社ボイスタート 取締役
高橋 範光 氏

株式会社チェンジ執行役員として、ビッグデータやAI(人工知能)に従事

  • 株式会社ボイスタート取締役
  • ビッグデータマガジン編集長
  • 総務省統計局データサイエンス・オンライン講座「社会人のためのデータサイエンス演習」講師
  • 独立行政法人情報処理推進機構 第4次産業革命に対応したスキル標準検討WG委員
  • (一社)オープンガバメント・コンソーシアム 高度IT人材育成分科会理事
  • (一社)データサイエンティスト協会 スキル委員
  • 大阪府立大学 非常勤講師
  • 著書:道具としてのビッグデータ(日本実業出版)

お問い合わせ

Webでのお問い合わせ

入力フォーム

当社はセキュリティ保護の観点からSSL技術を使用しております。

お電話でのお問い合わせ

0120-835-554 お客様総合センター

受付時間 9時から17時30分まで
(土日、祝日及び当社指定の休業日を除く)
[注] お問い合わせ内容の正確な把握、およびお客様サービス向上のため、お客様との会話を記録・録音させて頂く場合がありますので、予めご了承ください。