GTM-MML4VXJ
Skip to main content

医療データ解析への期待と課題

2017年3月1日 更新


ゲノム情報が命を救う

2003年に読み取りに成功したゲノム情報が、臨床応用される時代に入りました。米国での事例として、ニック・フォルカー少年や女優アンジェリーナ・ジョリーの話題はしばしば引き合いに出されます。

ニック少年は、摂食のたびに潰瘍が生じるという重篤な疾患を発症し、3歳までに130回もの外科手術を受け続けていました。主治医のハワード・ヤコブ医師(ウィスコンシン大学)は、ゲノム解析によってミトコンドリアDNAに16,000個の変異(健常者との違い)を検出し、最終的に1個の原因遺伝子を特定しました。遺伝子治療の結果、少年は1ヶ月半後には食事ができるようになり、現在は普通の生活を送っているといいます。

また、アンジェリーナが、ゲノム解析でBRCA-1遺伝子の変異(乳がんの発症リスクが上がる)を知り、母親と祖母が発症したという事実を根拠に乳房切除したことは、ショッキングなニュースとして世界中に伝えられました。

日本でも、個人向け遺伝子解析サービスが事業として開始されています。

ゲノム情報が投薬を変える

医薬品が効果的に働く患者の割合は3割程度といわれていますが、患者としては高額で効果が出ない薬は受け入れ難いものです。今後増えると期待される分子標的薬(疾患の原因と考えられるタンパク質に特異的に作用する医薬品)は、標的とするタンパク質を発現している患者では効果が見られますが、そうでない場合はまったく効かないこともわかっており、患者のゲノム情報をもとに、投薬効果が予測できます。

米国3大病院のひとつであるメイヨークリニックでは、2万人もの患者の全ゲノムを解析し、特定の医薬品投与に際しては、事前に適合性を見極めて治療効果を向上させているといいます。

この背景には、DNA読み取り装置(シークエンサ)のコスト/パフォーマンスが劇的に向上してきたことがあげられます。米国では、いわゆる次世代シークエンサによって、千ドルで全ゲノムの読み取りが可能とさえ言われています。日本では、読み取り用試薬を輸入しなければならないためランニングコストの低減が難しいかもしれませんが、臨床でのゲノム解析の重要性が指摘され、期待がよせられています。(注1)

AI・機械学習による、がん発生部位識別のトライアル

DNAは核酸の配列として表現され、その並びは本質的に変化しないものと考えられています。しかしながら、生活習慣や環境条件によって DNAに他の物質(メチルやアセチルなど)が結合して性質が変わることがあり(エピゲノム)、これが原因となって本来作られるべきタンパク質の発現が変化し、がんなどの疾患が誘起される場合があります。

米国のTCGAサイト(The Cancer Genome Atlas:注2)では、このような、がん関連データ(数十種類のがんに関するがん患者および健常者の実測データ)が公開されています。これらのデータをもとに、機械学習によって、がん発生部位がどの程度識別できるかを調査しましたので、紹介したいと思います。3疾患程度の識別なら、散布図を描いて新たな 点を打てば視覚的に識別できそうですが、疾患部位が増えれば人の目では識別困難となり、何らかの識別システムが必要となるはずというのが試行の動機です。

一患者のDNAメチル化率(DNAのどの部分配列がどの程度変化しているかを定量化した情報)のデータ列を入力とし、これに対応する疾患 部位(健常ならば該当なし)を出力とするニューラルネットを構築しました。ニューラルネットは、1950年代に理論化され1980年代に応用研究が進められた人工知能技術(AI)の一つで、入出力が多項式近似できないような複雑なデータの関数関係を自動生成する、強力で簡便な機械学習の一手法です(図1)。研究開発はしばらく沈黙していましたが、“ビッグデータ”の波に乗って画像認識への応用で再び注目されるに至っています。

図:ニュートラルネット(NN)の構造と機能

[図1 ニューラルネット(NN)の構造と機能]

上記サイトから8種類のがん情報(正常細胞の情報も含む350GBのデータ)をダウンロードし、1,850件の入出力データで学習したニューラルネットに、異なる1,849件の入力データを与えたところ、94%という高い精度で疾患部位が識別できることが示されました。

これにより、

  • DNAメチル化情報が高い臓器特異性をもつこと
  • データの性質がよければAI・機械学習が極めて有効であること

が確認できました。

学習にあたっては、米国のCpGサイト(注3)の公開情報(配列のどの部分にメチル化が観測され得るかといった知見)と、いくつかの前処理を通して、1件あたり約49万項目あったデータを300項目まで削減しました。巨大なデータを扱う際には、やみくもに解析するのではなく、蓄積された知見を最大限活用して事前に情報整理することも実際には重要です。

近い将来、リキッドバイオプシーなどの血液測定技術の精緻化によって微量な血液中のがん細胞由来DNAが検出できるようになれば、より簡便に転移の発生が検知できるようになると期待されます。さらに、学習アルゴリズムの一部機能を利用して影響度の大きい入力項目を判別することで、特定の疾患の発症を示唆するマーカー遺伝子が追求できる可能性もあります。巨大なデータをどう扱うかにとどまらず、その複雑さをどう解釈していくかも重要な研究課題です。

医療データ解析への期待と課題

2013年6月、安倍内閣は「国民の健康寿命延伸」を政府方針として掲げました。これを受けてさまざまな産官学連携プロジェクトが立ち上がり、研究開発が精力的に進められています。

富士通は、2013年12月に「未来医療開発センター」を設立し、現行の電子カルテシステムをベースに、ゲノム・臨床情報等を包括するマルチオミックス情報を付加した次世代電子カルテの構築および個人向け健康情報サービスの事業化をめざして、医療機関・大学・企業等との共同研究を進めています(注4)。

しかしながら、実際には患者情報の利用は難しく、

  • データ利用の許諾や個人情報としての取り扱いに関するコンセンサスの形成
  • 判明した事実をデータ提供者に還元することへの配慮
    • *治療法が確立していない疾患に関するリスク開示の是非など
  • 膨大なデータを効率よく処理するための計算環境の整備とアルゴリズムの開発
  • ノイズや欠損値を含む臨床データの扱い

等々、解決しなければならない倫理的・法的・社会的・技術的課題が山積しています。

共同研究では、どのようなデータがあればどのような解析ができ、データ提供者にどのような情報が還元できるか、あるいは、還元していくべきかを、技術開発と併せて合意形成していこうとしています。


松本 俊二

富士通株式会社
ヘルスケアシステム事業本部
エグゼリサーチャー

1983年 東京大学工学部物理工学科卒、同年富士通株式会社入社。人工知能応用システムの研究開発、IT創薬の研究開発を経て、2013年から、富士通株式会社 未来医療開発センターにて、IT創薬・医療データサイエンスを担当。

AI・機械学習の魅力とワナ

多くの企業や自治体で、具体的にビッグデータの活用が進んでいますが、これらの多くの事例で利用されている技術に人工知能(AI)・機械学習があります。本稿では、AI・機械学習の魅力とワナを紹介し、今後の展望を述べます。

人を中心とした新しい人工知能「Zinrai」が拓く新しい未来とは

富士通IoT・ビッグデータ活用フォーラム「人工知能(AI)が拓く近未来~富士通研究所の先端技術開発と検証~」では、11月2日に発表した富士通のAI技術ブランド「Human Centric AI Zinrai」の概要と、これまでに開発してきたAIの先端技術を紹介しました。

富士通のビッグデータに関するお問い合わせ・ご相談

Webでのお問い合わせ

入力フォーム

当社はセキュリティ保護の観点からSSL技術を使用しております。

お電話でのお問い合わせ

0120-933-200 富士通コンタクトライン(総合窓口)

受付時間 9時~17時30分
(土曜・日曜・祝日・当社指定の休業日を除く)