本技术介绍参考了以下链接
English
2017年07月07日
加速IoT数据分析的数据库集成技术
通过优化数据转换、减少数据传输量,提速4.5倍,实现并行分布式执行的自动化
株式会社富士通研究所(注1)(以下简称,富士通研究所)开发出了一项新技术,可将作为企业关键系统且用于数据分析的关系数据库,以及用于积累大量非结构化IoT数据的NoSQL数据库集成并进行快速分析。
近年来,IoT和传感器技术的发展日新月异,我们可以获得原来难以获取的信息。通过将这些新数据与现有的关键信息系统数据关联,预期可对尚未能实现的各领域进行分析。
例如,在零售业商店内可以获得各种IoT数据:通过对顾客所持移动设备Wi-Fi等的信号强度进行分析,即可知道顾客在店内所处的位置;分析监控摄像头的视频数据,便可掌握顾客的行动路线、年龄性别属性,及顾客是在看商品还是手里拿着商品等详细情况。将这些数据与购买商品或销售数据等现有的业务数据有效结合并加以利用,可以帮助企业实现One to One营销策略,提供适合于每个客户的产品与服务。
以前,将关系数据库与NoSQL数据库组合进行分析时,为了将存储于NoSQL数据库的非结构化数据转换成关系数据库可以处理的结构化数据,一般通过提前定义格式的方式,可以实现快速转换和分析处理数据。但随着IoT数据使用的增强,由于需要经常追加新的分析信息,因此很难提前定义格式。如增加新传感器,或现有传感器、视频基于软件更新提供更多数据时,需要追加顾客的视线、行为、情感等新的分析信息。另外,数据分析人员一直在寻找不需要提前定义数据格式的方法,以便快速尝试新的分析。但如果无法提前确定格式的话,就会出现查询数据库时转换处理开销大,进行分析时处理时间增加的问题。
本次富士通研究所开发出了无需提前定义数据格式,便可与NoSQL数据库之间进行快速无缝分析的技术,以及将Apache Spark(注2)聚类作为分布式并行基础平台的快速分析技术。并将开发的技术安装到PostgreSQL(注3),作为NoSQL数据库,利用存储了JSON(注4)格式非构造数据的MongoDB(注5)进行了性能评估。
图1 开发技术的结构概念
该技术的主要特点如下:
通过对数据库查询(SQL查询)进行分析,包括访问NoSQL数据库中的数据,提取指定所需字段和数据类型的部分,确定数据转换所需的格式。基于该结果,优化查询,通过统一转换NoSQL数据减少开销,实现了与原来提前定义数据格式相同的处理性能。
图2 优化JSON格式数据转换
通过对数据库查询进行分析,将过滤处理等部分处理从PostgreSQL转移到 NoSQL。利用该技术可从NoSQL数据源减少并加速数据传输量。
图3 减少来自NoSQL(MongoDB)的数据传输量
可在Apache Spark上高效分布执行组合了多个关系数据库与NoSQL数据库的查询。基于每个数据库存储的数据位置等信息,自动确定最佳的数据分割,从而避免Apache Spark各节点负载不均衡。
图4 Apache Spark聚类的自动化分布式执行
此次开发的技术已安装到PostgreSQL,并作为NoSQL数据库,用MongoDB进行了性能评估。TPC-H基准查询可对决策支持系统(DSS:Decision Support System)性能进行评估,评估结果表明,将上述第1和第2项技术结合使用,整体处理时间是传统技术的4.5倍。利用上述第3项技术对4节点Apache Spark聚类进行评估时,与1节点相比,性能提高到原来的3.6倍。
基于新开发的技术,可通过作为企业领域主流的SQL接口高效访问传感器数据等IoT数据,它可以灵活对应IoT数据格式的频繁更改,还可快速处理包括IoT数据在内的数据分析。
富士通研究所将继续推进新开发技术在大规模Apache Spark聚类应用中的验证,并计划于2017年通过富士通株式会社使其实现商品化。