Skip to main content

Fujitsu

English | 日本語

China

本技术介绍参考了以下链接
English

2017年03月20日

基于表示人与物关系的图形结构数据
可获得新认知的技术“Deep Tensor”

获取知识的机器学习技术,超越了传统Deep Learning的极限,
在IoT、金融、药物研发领域效果得到验证

株式会社富士通研究所(注1)(以下简称,富士通研究所)开发出了一种机器学习技术“Deep Tensor”(深度张量),对于表示人与物关系的图形结构数据能够进行准确分析。

图1

图1 图形结构表示数据与张量表示

开发背景

近年来,在诸多领域,用于表示人与物关系的图形结构数据(图1)得到大量积累,例如设备间需要进行通信的IoT行业,银行帐户间需要进行交易日志数据处理的金融业,基于化学物质组合数据库的药物研发行业等。富士通研究所长久以来致力于LOD(注2)的图形结构数据检索与分析技术的研发,希望通过对这些图形结构数据进行准确地分类与分析,创造新的价值,拓展业务范围。

课题

传统的图形结构数据分类,根据人们事先关注的部分图形是否属于分类对象的图形结构数据进行分类。可是,当分类对象为大量的图形结构数据时,由于事先关注的部分图形中有很多未能表示的特征,因此难以实现准确的分类。

Deep Learning技术能够自动提取数据的特征要素,在图像和语音识别等方面受到关注。而图形结构数据由于结构复杂,由大小和表现形式不同的各种数据混杂而成,所以很难利用Deep Learning技术解决。

开发的技术

本次富士通研究所开发出了一种Deep Learning的新技术,能够准确学习表示人与物关系的各种图形结构数据。

开发的技术具有如下特征:

1. 新型张量分解技术可将图形结构数据转换成统一的表现形式

该技术使用一种叫做张量(注3)的数学表达式,通过扩展向量和矩阵,表示具有多种表现形式的图形结构数据(图1)。它利用最尖端的数据挖掘技术,一种叫做张量分解(注4)的数学操作,将这些数据转换为统一的表现形式(图2)。传统技术并不一定能将相似的图形结构数据转换为相似的张量表示,而本次开发的可进行张量分解的技术,最大限度地提高了与任意基准模式的相似度。

图2

图2 基于本技术的图形结构数据分类

2. 该技术在进行神经网络学习的同时,可优化统一的表现形式

通过将神经网络学习过程中经常使用的误差反向传播算法(注5)的适用范围扩大到张量表示,可最大限度地提高分类精度,同时还可优化统一的表现形式(图3)。具体来讲,就是根据基准模式发生变化时神经网络的分类误差变化大小,更新张量表示的基准模式。

图3

图3 神经网络学习与统一的表现形式优化


效果

基于这项新的Deep Learning技术,通过利用计算机或IoT设备等的通信日志、金融交易、化学组成等可用图形结构表示的数据,实现了新的分析。

在一项实验中,该技术被应用于化合物结构与活性开放数据库PubChem BioAssay(注6)的数据,然后进行虚拟筛选,在计算机上搜索药物候选化合物。结果显示,它能够学习数十万种化合物结构和活性的关系,与使用支持向量机(注7)的传统技术相比,是它的约100倍。通过对现有技术未能捕捉到的特征进行提取,其活性预测精度提高了约10%,达到了80%左右。这项技术能够大大节省药物研发时间,降低成本。

此外,在另一项试验中,该技术被应用于入侵检测的基准数据(注8),对表示主机之间通信关系的图形结构数据进行非法活动检测和攻击检测。结果显示,与使用支持向量机的传统方法相比,成功地降低了20%以上的误报率,能够有效提高网络监控业务的效率。另外,如果将该技术应用于电子货币的交易记录以及贷款中介服务的贷款记录等,可对非法金融操作进行监控,对是否能够贷款进行判定。


今后

富士通研究所将进一步提高图形结构数据分类技术的精确度,并将其作为“Zinrai”的核心技术,目标于2017年上半年投入实际应用。另外,我们还将不断推进深度学习技术在各种数据形式中的广泛应用,继续为各项领域提供高品质的数据分析。

点评

擅长大规模数据学习的Deep Learning技术,因其对生命科学领域中种类繁多且规模较大的数据也能进行学习,在医药行业备受关注。其中所面临的重大课题就是如何设计适合用来预测药物疗效及副作用等各种功效的化合物特征量。富士通的新Deep Learning技术可以基于学习数据,自动生成适用于预测的特征量,预计该技术会给药物研发领域带来巨大影响。

京都大学 大学院医学研究科 人类健康科学系 大数据医科学领域 教授 奥野 恭史

注释

注1 株式会社富士通研究所:
社长 佐佐木 繁
总公司所在地 日本神奈川县川崎市
注2Linked Open Data(LOD):
世界上公开的关联开放数据。
注3 张量:
基于矩阵与向量等概念已被泛化的多维阵列来表现的数据。
注4 张量分解:
一种可将多维阵列分解为要素间多重相关关系和的技术。
注5 误差反向传播算法:
一种可以减少神经网络分类误差的算法。
注6 PubChem BioAssay:
世界上最大的生化试验数据库,收录有药理及毒性试验中的化合物结构和活性数据。
注7 支持向量机:
可精确分离数据,进行高维空间平面计算的机器学习技术。
注8 基准数据:
DARPA Intrusion Detection Data Sets。