解释AI的推算理由和依据的技术“Deep Tensor”与知识图谱相结合

本技术介绍参考了以下链接
English

2018年06月20日

解释AI的推算理由和依据的技术
“Deep Tensor”与知识图谱相结合

株式会社富士通研究所(注1)(以下简称,富士通研究所)和富士通株式会社(以下简称,富士通)开发出了一项可提示人工智能(以下简称,AI)的推算理由和学术依据的技术。它通过将富士通研究所独创的学习图结构数据的AI技术“Deep Tensor(深度张量)(注2)”,与积累了学术文献等专业知识的图谱(注3)--图结构的知识库相关联,可从学习了大量数据的AI的推算结果中,提示推算理由和学术依据。

开发背景

近年来,机器学习技术发展速度惊人,在某些领域它的表现甚至超越了人类。虽然深度学习模拟人类神经网络可以获得较高的识别和分类性能,但专家和开发人员自身无法对答案的依据做出解释,所以它被称为黑盒型AI。这种特性令人担忧,它将阻碍该技术应用到问责制的关键任务领域,这些任务需要使用了AI的专家对判断做出说明。因此,针对黑盒型AI需要开发一种具有解释功能的技术。

富士通研究所开发了一项Deep Tensor技术,它基于Deep Learning机器学习技术,学习可描述复杂现象的图结构数据,在安全领域等获得了很高的推算精度(注4)。另外,我们还开发了通过分析文本数据,从文本中提取知识的自然语言处理技术,以及在Web上构建数据知识库的LOD(注5)技术,并提供名为“LOD4ALL(注6)”的免费服务。

我们还对这些技术进行了系统化处理,构建了一个知识图谱,它是一个图结构的知识库,可以机器处理数据含义和周边知识。

课题

黑盒型AI的优点是仅通过学习大量数据便可获得自动分类和推算未知输入数据的功能,但另一方面,它最大的问题在于无法通过学习算法来解释推算的理由。近年来,为了确定输入数据中对推算结果影响较大的部分,世界各地正在进行各种研究。在图像识别中,它仅限于能够解释图像的哪个部分影响了识别结果。

另外,为了利用AI更好地解决问题,专家们需要根据推算结果查阅学术文献等,以判断AI的推算结果是否正确。尤其对于只知道部分相关性的事件,专家需要找到支持这些推算的证据,并将其联系起来进行理解。

开发的技术

此次富士通研究所开发了一项技术,通过将Deep Tensor与基于各种外部数据构建的知识图谱相关联,可提示Deep Tensor的推算理由和依据(图1)。该技术可识别出对推算结果影响较大的因子(部分图),将其与知识图谱的“部分图”相对应,并在知识图谱上将它们连接,构成一系列作为推算依据的信息。

20180620-figure1

图1 新开发技术的概要

此次开发的技术,主要由以下两部分技术组成:

  1. 推算因子识别技术

    在Deep Tensor中,对于那些数据相同但表达方式不同而很难学习的图结构数据,通过同时进行图结构数据到张量(注7)数学表达式的转换方式学习,和Deep Learning学习,可实现高精度的图结构数据学习。

    此次,我们开发了一种技术,通过对每个输入数据的Deep Learning输出结果进行逆向搜索,可识别出对推算结果影响较大的多个因子,作为输入数据的“部分图”。该技术基于输入到Deep Learning系统的张量间的相似性,提取推算结果中的每个决定要素,然后通过从张量到图结构数据的逆转换,识别与提取要素对应的输入“部分图”。

  2. 依据构成技术

    通过将对推算影响较大的多个因子与知识图谱相关联,可识别出与每个因子相关的信息。通过追踪图结构可以从识别的部分获取相关知识。但由于知识图谱利用图结构存储了大量信息间的各种关系,因此,单纯地追踪图结构,会出现推算理由与无关信息相关联的问题。

    该技术以多个推算因子作为线索来搜索图结构,提取与识别的推算因子高度相关的信息,构成推算依据。

效果

此次,富士通研究所设计了一项模拟实验,以提高基因组医疗(注8)专家的调查工作效率。我们利用生物信息学领域的公共数据库,医学文献数据库的训练数据和知识图谱(注9),针对只知道部分相关性的事件,验证是否可以找到并连结其支持依据。

首先,学习基于公共数据库构建的基因突变与致病性的关系,然后提取学术论文及相关信息,找出对推算有影响的因子和依据。结果表明,基因突变(红色)作为推算目标时,可以同时看到以下内容,即对推算结果有显著影响的多个因子(蓝色),和从知识图谱中获取的医学文献等学术上的支持依据(黄色),以及疾病候选(紫色)。

20180620-figure2

图2 面向基因组医疗的数据应用

今后

今后,在医疗研究机构的配合下,我们将验证这项技术所提示的依据对专家是否有意义,是否容易理解。此外,我们还计划将该技术应用于其它领域,如金融领域,运用规章制度和规则等知识来检验自动贷款推算的有效性等。

我们还将利用该技术继续拓展各领域的知识图谱并推广PoC,计划于2018年度将其作为富士通“Zinrai”的相关服务实现商业化。

另外,评估该技术有效性时使用的部分数据是与国立大学法人京都大学共同研发取得的成果,是国立研究开发法人日本医疗研究开发机构(AMED)“临床基因组信息综合数据库整备业务”中“构建促进基因组医疗的临床基因组信息知识基础设施”的一部分。

注释

 注1 株式会社富士通研究所:
社长 佐佐木 繁
总公司所在地 日本神奈川县川崎市
 注2Deep Tensor(深度张量):
基于表示人与物关系的图形结构数据 可获得新认知的技术“Deep Tensor”(2017年3月20日研究所技术介绍)
 注3 知识图谱:
语义图结构的知识库。通过相互连接表示从各种信息源收集的信息关系。
 注4 在安全领域等获得了很高的推算精度:
“可高精度检测恶意软件入侵的AI技术”(2018年5月23日研究所技术介绍)
 注5 LOD(Linked Open Data):
以Linked Data格式发布的数据集群中的一种知识图谱。目前,拥有900多个主要数据发布网站,共1万多个数据集的Linked Data,使用的数据格式易于机器处理,且不依赖于特定的应用程序。它是W3C(World Wide Web Consortium)推荐的Web上使用的数据发布格式,W3C是与Web相关的各种技术和规格的标准化组织。
 注6 LOD4ALL:
富士通研究所2013年发布的LOD应用检索服务
 注7 张量:
用多维数组表示的数据,矩阵、向量等概念的泛化。
 注8 基因组医疗:
在基因水平上分析细胞,在患者个体水平上提供合适的药物进行治疗。
 注9 生物信息学领域的公共数据库,医学文献数据库的训练数据和知识图谱:
通过记录了致病性基因突变的数据库ClinVar建立学习数据,通过医学论文PubMed和基因目录Gene Ontology等构建知识图谱。部分数据是富士通与国立大学京都大学共同研发所取得的成果。