即使样本数据不足,也能实现高精度学习的AI新技术“Wide Learning”

本技术介绍参考了以下链接
English

2019年03月29日

即使样本数据不足,也能实现高精度学习的AI新技术“Wide Learning”

富士通株式会社和株式会社富士通研究所 (注1)(以下简称:富士通研究所),开发了一种机器学习技术“Wide Learning”,即使无法获得学习所需的数据量,也可实现高精度判断。

开发背景

近年来,人工智能(以下简称:AI)已开始应用于医疗、市场营销、金融等各个领域,人们期待可以通过AI的判断决策,支持各项业务和自动化的发展。但是,由于行业不同,通常情况下,很难获得足够的数据量供AI学习,这会导致学习结果精度较低,无法应用于实际问题。此外,即使AI具备了高精度的识别或分类性能,很多时候,专家或开发人员自身都无法解释AI为何会得出该答案。因此,他们无法承担责任为现场提供解释说明,这导致AI无法实施部署。

课题

基于传统深度学习的AI,通过学习大量数据(需判断的目标样本数据),实现了高精度判断。但是,在现实场景中,很多时候都存在需判断的目标数据极端不足的情况。在这种情况下,很难实现对未知数据的高精度判断。另外,以传统的深度学习为基础的AI学习模型,是黑盒子型模型,存在着无法阐述AI判断理由、缺乏透明性的问题。因此,需要开发一种新的AI技术,在样本数据不足的情况下也能实现高精度判断,同时兼具透明性,以解决各种社会问题。

开发的技术

此次,富士通研究所开发了一种新的机器学习技术“Wide Learning”,在样本数据不足的情况下,也可实现高精度判断。“Wide Learning”技术具有以下2点特征:

  1. 组合数据项目,提取大量假设

    该技术将所有数据项的组合模式视为假设,然后根据标签类别的命中率确定每个假设的重要性。例如,利用AI对商品购买趋势进行分析时,将此前的购买者/未购买者(类别标签)的数据项目,如<女性/持有驾照> <未婚/20 ~ 34岁>等所有模式进行组合,分析这些假设与实际商品购买者的数据的吻合度。这时,达到一定水平以上命中率的假设被定义为重要假设,称为“知识块”。这样,即使原始目标数据不足,系统也可提取所有值得研究的假设,有助于发现至今未曾想到的假设。

    假设示例及知识块的提取

    图1. 假设示例及知识块的提取

  2. 调整知识块的影响度,建立高精度的分类模型

    根据提取的多个知识块和标签构建分类模型。这时,如果构成知识块的项目经常与其它构成知识块的项目重叠,系统则会控制并降低它们对分类模型的影响程度(权重)。这样,即使在标签和数据不平衡的情况下,也可实现高精度分类模型的学习。

    例如,在商品购买数据中,未购买的男性的数据占大多数时,如果不控制影响度进行AI学习,得到的知识块(与性别无关,包含<持有驾照>项目)不会对分类产生太大影响。在此次开发的技术中,针对项目重叠问题,通过对包含<男性>知识块的影响度进行控制,并将包含<持有驾照>知识块(占少数)的影响度相对提高进行AI学习,可实现正确分类<男性>、<持有驾照>的模型构建。

构建分类模型时调整知识块的影响度

图2. 构建分类模型时调整知识块的影响度

效果

本技术已应用于数字营销和医疗等领域并得到了验证。 

在使用UC Irvine Machine Learning Repository (注2)中市场营销和医疗领域的基准数据进行的测试中,与深度学习相比数据精度提高了约10 ~ 20%,另外还将高度潜在顾客或可能成为病患患者的漏报率降低了约20 ~ 50%。此次测试使用的营销数据,在约5000件顾客数据中,购买顾客的数据仅有约230件,这导致数据集十分不平衡。在这种情况下,基于深度学习计算的,被排除在促销对象之外的潜在顾客数量为120人,使用本技术的数量则减少至74人。 

另外,由于构成该技术基础的知识块,具有逻辑表达格式,因此可以解释说明判断理由,这有利于其在现实社会中的有效部署。即使根据新数据的结果,判断需要对模型进行修改,由于用户可以理解得出该结果的原因,因此可以进行更为恰当的修改。

今后

今后,富士通研究所将在非法利用、设备故障等低频率的事件处理业务,或金融交易、医疗诊断等需要AI判断理由等业务方面,继续展开实践。作为支持富士通株式会社的AI技术“FUJITSU Human Centric AI Zinrai”的新机器学习技术,富士通目标于2019财年实现该技术的商业化。 

另外,通过有效利用该技术具有的可解释原因的特征,富士通研究所将继续推进研究与开发,例如提高该技术在业务判断、决策支援方面的能力,以及包含与人类协作在内的基于该技术的整体系统设计等。

注释

 注1 株式会社富士通研究所:
社长 古田 英范
总公司所在地 日本神奈川县川崎市
 注2 UC Irvine Machine Learning Repository:
全球知名存储库,可提供大量数据集,用于机器学习的比较评估