从超过5千万条记录的数据集中通过机器学习在几个小时内生成高精度预测模型的技术

企业信息
事业方针
社长致辞
富士通在中国
Fujitsu Way
公共信息
- 富士通先端科技（上海）有限公司
- 成功案例
- 联系我们
- 活动
- 新闻
- Feature Stories
- 富士通科学与技术杂志
- CIO全球智能
- 研究开发
  - 事业内容
  - 研究成果展示
  - 研究所技术介绍
- 产品资料
- 社交媒体免责声明
富士通博物馆
富士通品牌
企业的社会责任

本技术介绍参考了以下链接
English

2015年12月28日

从超过5千万条记录的数据集中通过机器学习
在几个小时内生成高精度预测模型的技术
使大规模数据的实时分析成为可能，以促进大数据商业推广

株式会社富士通研究所（注1）（以下简称，富士通研究所）开发了可以从超过5千万条记录的数据集中通过机器学习在几个小时内生成高精度预测模型的技术。

开发背景

随着智能手机普及，使收集数量庞大的传感器数据成为可能，为了从这些数据中提取有价值的信息，机器学习等先进的分析技术正被广泛地采用。例如，利用电子商务网站的访问日志，可以发现在什么时候，什么网站上访问的会员容易发生退会，通过提前发现这些人，可以采取预防措施。另外，通过学习每日用电量数据的增减模式，可以预测用电量增加时间和时期，并通过在发电，输电和蓄电环节的更精确的控制，降低用电成本。在这样的高精度预测中，由机器学习生成预测模型的方法被认为是有效的。

根据不同的目的机器学习算法有不同的方法，它们在预测准确性和运行时间上是不同的。根据分析数据的不同采用最佳预测精度的算法，如要获得了更精确的预测，还要微调其运行条件。因此，要生成一个有效的预测模型需要找到算法及其运行条件的组合。

课题

使用穷举的机器学习，需要尝试算法和条件的每一个可能的组合，由于组合的数目很大，需要数天来考察，所以是不切实际的。因此，以往通常都是根据分析师的经验选择算法和条件的组合，所以最终结果在很大程度上取决于分析师的技能。当数据量很大，分析要超过一晚的情况下，通常只能采用数量有限的组合或者只用小部分的数据集，很难在有限的时间内获得高精度的分析结果。

开发的技术

富士通研究所开发的技术，通过估算机器学习的结果，从少量样本数据中生成并自动微调高精度预测模型。该技术原型在OSS的并行运行平台Apache Spark（注2）上运行（图1）。

该技术的主要特点如下：

1.估算机器学习的运行时间和预测的准确性

每个标准的机器学习算法，边调整记录数和数据属性数目边测量实际的机器学习运行时间，并基于这些测量建立了一个运行时间的估算模型。另外，在实际应用中为了提高估算的准确性，会根据实际运行时间进行校正。

富士通研究所根据以前使用的算法和配置的组合，以及由它们获得的预测模型的精确度建立了数据库，并以此估算新组合的预测准确性。由此，能够基于最小量的样本数据进行评估，而不牺牲预测的准确性。

通过估算运行时间和一个预测模型的精度，获得快速且高精度的预测模型。

用于估算在一个机器学习算法的预测准确性的技术已经存在，但还没有可应用于多个算法和不同大小数据集的技术。因为本技术在每次机器学习运行时，记录当时的条件（算法，记录数，属性的数目，基础设施的信息等等）和实际的运行时间，并将其反映到估算上，所以使用次数越多，能获得的精度就越高。

2.自动调节机器学习算法的控制技术（图2）

本技术从所有候选组合中选择时间效率好的学习，高效并行的不断进行循环学习。在现有的技术中，没有办法决定根据什么顺序什么组合进行学习，而是依赖于分析师的经验手工选定条件进行分析。本技术结合了运行时间和预测精度估算的综合判断，获取能够大概率的提高预测精度且短时间运行结束的算法和设置的候选组合，然后以分布式运行选择的组合。由此，实现了能够兼顾运行时间以最佳的顺序执行的算法，并能够迅速获得高精度的机器学习模型。由于该技术会自动并且高效的选择最有效的组合，因此不需依赖于分析师的经验。

图2 本技术的架构

效果

富士通研究所使用5千万条记录规模的数据集在8台12CPU的服务器上运行内部测试，现有技术将需要大约一周的时间建立一个预测模型，达到96％的预测精度，本技术达到了这一水平仅需两个多小时。还有，通过对30万个web访问日志的访问分析表明，本技术的机器学习可以在实际场景应用。

这项技术可以用于，提供诸如首都圈中每个家庭用电量需求的预测，也可以在几十万用户规模的在线服务中检测用户的退会意图。

今后

富士通研究所的目标是通过富士通大数据产品(Fujitsu Analytic's solutions)等，在2015年度实现商业化。

注释

注1 株式会社富士通研究所：: 社长佐相秀幸
总公司所在地日本神奈川县川崎市
注2 Apache Spark：: 这个软件平台由加州大学伯克利分校的研究组织AMPLab开发，以高速处理内存驻留数据为特点的大数据并行处理软件平台。该开源软件现在由Apache软件基金会维护。富士通研究所是AMPLab的赞助商。

页首