GTM-MML4VXJ
Skip to main content

AI・機械学習の魅力とワナ

2017年3月1日 更新


ビッグデータという言葉が生まれて数年が経ちました。最近では、「ビッグデータから新たな価値を創出」といった類の事例報告が毎日のように紙面を賑わすようになってきています。これは、多くの企業や自治体で、具体的なビッグデータの活用が進んでいることの表れです。そして、これらの多くの事例で利用されている技術に人工知能(以下、AI)と機械学習があります。本稿では、AIの中でも機械学習の魅力とワナを紹介し、今後の展望を述べます。

ビッグデータの花形技術 : 「AI・機械学習」

機械学習とはもともと、人間が経験から学習する過程をコンピュータ上で実現することを目指した、AIの主要な研究分野です。現在では、数値やテキスト、画像、音声などの様々なデータから、規則性やパターン、知識などを発見し、現状の把握や将来を予測するのに利用されています。人間が明示的にプログラムするのではなく、データからコンピュータが自動的に見つけ出すところがこの技術のポイントです。

機械学習は一般的に、同じ種類のデータであれば、データ数の増加に伴い精度を向上させることができます。従来はデータ数も少なく実用上十分な精度が出なかったため、適用範囲も限定されていましたが、膨大な数のデータを活用できるビッグデータ時代にあって、まさに花形の技術として活用が進んでいます。

以下に、機械学習の魅力をわかりやすい事例で2つご紹介します。

コンピュータ将棋 : AI・機械学習で名人に迫る

近年のコンピュータ将棋は、人間のプロ棋士に肩を並べるほど強くなっています。なぜこれほどまでにコンピュータ将棋は強くなったのでしょうか。答えは機械学習の適用にあります。

コンピュータ将棋は、将棋の強い人の大局観や経験に基づくノウハウをプログラムすることで強くなってきました。しかし、主流であったこの方法とは全く異なるやり方がコンピュータ将棋にブレイクスルーを起こしました。それが、機械学習を用いた将棋ソフトです(図1)。

[図1 コンピュータ将棋ソフトの進化]

[図1 コンピュータ将棋ソフトの進化]

このソフトは、プロ棋士の棋譜データ(初手から終局までの着手を記したデータ)から、局面の評価関数を学習させます。局面評価関数とは、ある局面における優劣を点数で表すための関数であり、いわば将棋の強さの肝です。近年の局面評価関数は、6万局を超える棋譜から1億にもおよぶ最適なパラメーターを自動学習しています。

機械学習を用いた将棋ソフトは、将棋の高段者が考案したわけではありません。そうでなくても、プロ棋士に比肩する将棋ソフトを作れたことは、機械学習の大きな魅力を示しています。

ヘルスケア : AI・機械学習で生活習慣病の発症を予見する

次に、生活習慣病の発症リスクの予測に機械学習を適用した事例を紹介します。

多くの健康保険組合において、医療費の疾病別支出に対する生活習慣病の占める割合は非常に高く、生活習慣病の予防は、従業員の健康推進に加えて、医療給付金抑制のための重要な課題となっています。我々は、将来の発症リスクを高精度に予測することができれば予防に役立つと考え、実証実験を行いました。

実証実験では、富士通の従業員26,000名の過去3年分の健康診断データとレセプトデータから、1年後の糖尿病の発症リスクを予測しました。機械学習を適用することで、極めて高い精度で予測できることが分かりましたが、別の観点でも非常に興味深い結果を得ました。

厚生労働省「標準的な健診・保健指導プログラム【改訂版】(平成25年4月)」によると、血糖検査に関する受診対象の基準値は、空腹時血糖値が126mg/dl 以上、HbA1c(ヘモグロビンA1c)値が6.5%以上と定められています。しかしながら、これら2つの項目だけを用いた場合、さまざまな機械学習手法をいくらチューニングしても実用上十分な精度を出すことはできませんでした。

我々は、糖尿病とは一見関係のないと思われる他の健康診断項目やレセプトデータを利用することで(図2)、これら2つの項目を使った場合よりも予測精度を25%以上も向上させることに成功したのです。医学的な知見に基づいているわけではありませんが、一見関係のないと思われる項目を組み合わせることで、予測精度が向上する可能性があることは機械学習の魅力と言えます。

[図2 糖尿病の発症リスクの予測]

[図2 糖尿病の発症リスクの予測]

AI・機械学習のワナ

しかし、現在の機械学習は万能な技術なのでしょうか。データさえあれば、機械学習を適用することで必ず十分な効果をあげることができるのでしょうか。筆者の答えはNoです。実際、オープンソースの機械学習ライブラリを使ってみたが全く精度が上がらない、といった声もよく聞かれます。

技術的な観点から見た場合、これにはいくつかの理由があります。

まず、機械学習の分野にはNo Free Lunch定理という有名な定理があります。これは平たく言うと、どんな問題やどんなデータに対しても最高の精度を出せる万能な機械学習手法は存在しないという定理です。

機械学習と一口に言っても様々な手法が存在し、問題やデータによってそれぞれの手法の精度はまちまちなのです。機械学習の適用で陥りやすいワナは、ある特定の機械学習手法だけを適用するのは極めて危険だということです。機械学習で最高の精度を手に入れるためには、様々な手法を検証してみる必要があります。

次のワナは、機械学習の適用で最も重要な作業の1つである特徴選択にあります。特徴とは、機械学習に入力するデータ項目のことであり、この特徴をどう選ぶか、どう作るかによって機械学習の精度は大幅に変化します。一般的には、データベースのデータ項目や時系列データそのものを特徴として機械学習に適用しても十分な精度が出ない場合がほとんどです。これは機械学習の適用で頻出するワナです。先生が生徒の能力を高めるために良い教材を与えるように、機械学習にもよい特徴を与えなければうまく働かないのです。

機械学習の手法や特徴の選択は試行錯誤を伴い、一般的に非常に時間がかかります。また、高度なノウハウや大規模な計算機環境が必要とされる場合も多いでしょう。機械学習の適用で行き詰った場合は、専門のコンサルティングを受けるのも1つの手といえます。例えば、富士通は、ビッグデータ分析の専門家であるキュレーターが上記の問題解決を行う「データキュレーションサービス」というコンサルティングサービスを提供しています。

AI・機械学習の今後

今後、ビッグデータは増加の一途を辿り、機械学習のビジネス適用がさらに加速することは間違いありません。現段階では、過去データに機械学習を適用することで成果が見込めることが分かった、という実証的な事例が多いですが、今後はビジネスの現場にどんどん機械学習が入り込んでいき、機械学習の開発というより運用に重点が移っていくと考えられます。

また、機械学習自体の技術も発展してきています。脳機能を模したニューラルネットワークに大きな進展があり、並列計算技術やGPUなどを活用することで、従来は困難であった多層のニューラルネットを膨大なデータから学習することを可能にしたDeep Learningという技術が誕生しています。Deep Learningは、画像認識や音声認識などのコンペティションで桁違いの精度を出しているだけではなく、特徴選択自体をコンピュータが行う可能性を示しています。ビジネス適用の事例も出始めており、ここ3年のうちには、画像認識や音声認識のみならず広い分野での活用が本格化すると筆者は見ています。


岡本 青史

株式会社 富士通研究所
知識情報処理研究所 人工知能研究センター
センター長

1991年、株式会社富士通研究所入社。機械学習や推論、情報検索等の研究開発に従事。2011年、富士通株式会社に異動し、ビッグデータ分析業務に従事。2014年、富士通研究所に復職後、人工知能の研究開発に従事。

医療データ解析への期待と課題

富士通は、2013年12月に「未来医療開発センター」を設立し、ゲノム・臨床情報等を包括するマルチオミックス情報を付加した次世代電子カルテの構築および個人向け健康情報サービスの事業化をめざして、医療機関・大学・企業等との共同研究を進めています。

大量のデータを活用するということ

私たちの身近で行われているデータ活用とは、大量のデータから知識を得ることです。企業や組織として、データを効果的に活用していくためのコツと、データ活用モデルを作成する富士通のサービス、「データキュレーションサービス」をご紹介します。

人を中心とした新しい人工知能「Zinrai」が拓く新しい未来とは

富士通IoT・ビッグデータ活用フォーラム「人工知能(AI)が拓く近未来~富士通研究所の先端技術開発と検証~」では、11月2日に発表した富士通のAI技術ブランド「Human Centric AI Zinrai」の概要と、これまでに開発してきたAIの先端技術を紹介しました。

現場革新を実現するビッグデータ利活用ソリューション

販売実績情報に、地域情報や気象情報を組み合わせた高度なデータ利活用を、セールスやマーケティングなどの現場部門が自ら実践することで、現場力向上・業務最適化を実現するソリューションをご紹介します。

参考資料

富士通のビッグデータに関するお問い合わせ・ご相談

Webでのお問い合わせ

入力フォーム

当社はセキュリティ保護の観点からSSL技術を使用しております。

お電話でのお問い合わせ

0120-933-200 富士通コンタクトライン(総合窓口)

受付時間 9時~17時30分
(土曜・日曜・祝日・当社指定の休業日を除く)