一种自动标注技术,可加速时序数据的AI使用
本技术介绍参考了以下链接
English
2020年03月10日
一种自动标注技术,可加速时序数据的AI使用
有望应用于智能手机、设备传感器对人或机器的监测
株式会社富士通研究所(注1)(以下简称:富士通研究所)与国立大学法人熊本大学(注2)(以下简称:熊本大学)针对加速度传感器、陀螺仪传感器等的时序数据,开发了一种可轻松创建AI所需训练数据的技术。
开发背景
近年来,随着IoT的不断发展,我们可以从各种传感器获得大量的时序数据。例如,通过开发一种AI技术,基于加速度传感器监测到的数据特征,可以判断人或物体行为的意义。通过将该技术安装到智能手机或设备上,有望实现对人或机器的监测功能。为了使AI适用于这些时序数据,需要创建训练数据对AI进行训练。

图1 利用时序数据进行AI监测的示例
课题
从传感器获取的时序数据,是按时间顺序记录的数据列,对每个瞬间的值仅以数值形式进行记录。因此在为AI创建训练数据时,需要对数据进行标注,赋予数据“何时”(区间)、做了“什么”(标签)等意义。例如,跑步时加速度传感器的数据,混杂着跑步、走路和静止状态等。为了给AI创建训练数据,需要对各个数据进行区间划分,并标注上“在跑”“在走”“停止”等标签。
以往,创建这样的训练数据时,通常需要在测量时序数据的同时拍摄行为动作视频,并以秒为单位核对变化数值对应的动作,然后人工标注标签。由于该工作需要花费大量时间,工作负担巨大,导致时序数据较难适用于AI,因此需要一种自动化技术来减少标注作业的工作量。
开发的技术
此次,富士通研究所与熊本大学合作开发了一种可自动创建高精度训练数据的技术。基于该技术,即使包含多种行为动作,只需在每个较长区间(如1小时)输入1个表示主要在做“什么”的标签,便可实现时序数据的AI使用。开发的技术特点如下:
- 提取适当的区间
该技术通过学习时序数据中,同一动作持续进行时的特征和动作发生变化时的特征,可以从时序数据中适当地自动提取具有相同特征的时间段(注3)。
- 高精度标签标注
此次,针对每个长区间(如1小时),如果区间内大部分数据属于跑步状态,就给该区间标注一个“在跑”的粗略标签。富士通研究所利用经过训练的深度神经网络来预测这些标签,推测出的标签可用来计算时序数据中对预测贡献度最高的区间。通过将贡献程度高的时间段作为候选标签并对其进行统计,可创建出能够实现准确预测的训练数据。

图2 开发技术的整体示意图
效果
富士通研究所与熊本大学通过模仿工厂研磨等作业的行为动作,对加速度传感器的时序数据进行了标签标注实验。结果显示,该技术可正确标注92%的时间段。由此可以确定,通过该技术创建的训练数据,与人工精细标注创建的训练数据具有同等精度。
基于该技术,利用时序数据可轻松创建用于AI的训练数据。因此,我们有望通过进一步研发实现传感器捕捉特征的AI判断。另外,由于该技术仅根据时序数据的数值特征进行判断,不依赖于传感器种类,因此它还可应用于温度传感器、脉搏传感器等其它类型的传感器。
今后
富士通研究所正利用各领域的时序数据对该技术进行验证实验,目标将其作为富士通株式会社AI技术“FUJITSU Human Centric AI Zinrai”的时序数据预处理技术,实现实用化。