存档内容

注意：该页面为存档页面，其内容可能已过时。

基于人工智能模型的高精度手写字符串识别技术

在中国科学院自动化研究所中文手写数据库的识别精度达到最高水平

富士通研究开发中心有限公司,株式会社富士通研究所

北京, 2016-11-08

富士通研究开发有限公司（注解1）（以下简称“FRDC”）与株式会社富士通研究所（注解2）（以下简称“富士通研究所”）面向手写字符串的图像识别，共同开发出了一种能够输出可信赖识别结果的人工智能模型，该模型对中文手写字符串的识别性能达到了世界最高精度。

以深层学习为代表的人工智能模型对于单一文字的识别已经超过了人类的识别能力（注解3），但应用于手写字符串识别时无法正确判断单一文字的分割，这对于实际应用来说是一个很大的障碍。本次针对手写字符串的图像识别，开发出了一种新型的人工智能模型，该模型可对正确文字输出高置信度，对非正确文字输出低置信度。利用该模型可将字符串的识别错误控制在原来的一半以下，从而大幅度提高了手写文本数字化录入的工作效率。

我们今后会将该技术充分应用于富士通株式会社（以下简称“富士通”）的AI技术“Human Centric AI Zinrai（Zinrai）（以下简称“Zinrai”）” 当中。

有关该技术的详细内容，已于10月24日（星期一）在中国召开的国际会议“The 15th International Conference on Frontiers in Handwriting Recognition (ICFHR2016)”上发表。

【开发背景】

文字识别被认为是人工智能最成功的应用领域之一。富士通研究所在文字识别方面具有几十年的丰富研发经验，并且在日文语言处理上也积累了机械翻译等大量技术。FRDC和富士通研究所应用该技术，将模仿人类大脑功能的人工智能技术灵活应用于文字识别，从而实现对中文手写单一文字的识别在世界上首次超过了相当于人类识别能力的识别率（注解3）。

但中文字符串属于复杂的汉字序列，如果文字的分割不准确则很难做出正确的识别。

【课题】

基于人工智能的传统手写字符串识别，首先是通过监督样本的训练来模拟人类的识别过程，学习单个文字的模式特征。其次是通过字符串图像中的空白部分等信息将其分割成偏旁部首，再将分割后的部首分别表示为单一区域（图1上一行）和将相邻部首组合为一个合并区域（图1下一行）的状态。假定这些区域仅包含单一文字，利用基于学习的识别算法输出候选文字和置信度。置信度越接近1，候选文字的可信度就越高。最后挑选出平均置信度最高的序列组合，并将其作为字符串的识别结果输出（图1最下段）。传统的基于深度学习的技术对偏旁部首等非正确文字图像会输出高置信度，这时就很难确定文字的正确分割区域。

图1: 传统深度学习模型的字符串识别结果

【开发的技术】

通过异构深度学习模型（Heterogeneous Deep Learning），在用于训练的监督样本中增加由偏旁部首及其组合而构成的非正确文字类，开发出了只对正确文字输出高置信度的技术。该技术特征如下：

1. 包含非正确文字的异构深度学习模型的学习技术

异构深度学习模型利用传统的有监督正确文字样本和有监督非正确文字样本。相比于有监督正确文字样本的数量，需要分解文字为部首、再通过进一步组合而得到的有监督非正确文字样本的数量则更为庞大。为此我们开发出了一项技术，即在中文字符串中将毗邻的部首进行组合作为非正确文字，并对其提取特征和识别。因此，对这种非平衡样本分布的深度学习模型也可进行有效的学习（图2a）。

2. 利用置信度的高低实现手写字符串的准确分割的技术

开发出了有效判别字符串中文字分割的技术（图2b）。即将候选区域图像输入到训练完毕的异构深度学习模型，仅输出正确文字部分的识别结果。对于非正确文字的输入，由于非正确文字类的置信度较高，因此正确文字的置信度输出较低，从而实现对正确文字候选区域输出高置信度，对非正确文字候选区域输出低置信度的功能。另外，应用现有的中文语言处理模型技术，对识别候选进行分析，判断其是否为正确的中文字符串，然后在此基础上输出最终识别结果。

利用上述识别技术，对于包含非正确文字的字符串组合而言，由于其置信度数值有所降低，所以选择具有最高平均置信度数值的字符串识别结果进行输出可以得到正确的识别结果（图3）。

图2: 异构深度学习模型的训练及识别处理

图3: 异构深度学习模型的字符串识别结果

【效果】

在中国科学院自动化所“Institute of Automation, Chinese Academy of Science (CASIA)”于2010年公开的标准手写中文数据库上的评测显示，与传统技术相比我们的识别精度能提高5%，最高达到96.3%。该技术可以大幅度提高手写文本数字化的工作效率。

【今后】

该技术对于单词之间没有空格的中文、日文、韩文等语言较为有效。通过将该技术与富士通研究所经过多年技术积累研发出的最具优势的日文语言处理技术相融合，会更加有利于大幅度提高日文自由手写文字的识别精度。该技术目标于2017年应用到富士通AI技术“Zinrai”当中。今后在面向日本的手写票据数字化等的解决方案中也将得到进一步采用。

【商标】

所列商标名称等固有名词系各公司的商标或注册商标。

【注释】

富士通研究开发中心有限公司：总公司中国北京董事长佐佐木繁
株式会社富士通研究所：总部神奈川县川崎市、代表取缔役社长佐佐木繁
超过人类的识别性能：利用模仿了人类大脑功能的人工智能技术，中文字符识别率达到了96.7%
（2015年9月17日新闻稿）http://pr.fujitsu.com/jp/news/2015/09/17.html

关于Fujitsu（富士通）集团

Fujitsu(富士通)是世界领先的日本信息通信技术（ICT）企业，提供全方位的技术产品、解决方案和服务。在全球拥有约156,000名员工，客户遍布世界100多个国家。我们凭借在ICT领域的丰富经验和实力，致力于与客户携手共创美好的未来社会。富士通集团（东京证券交易所上市代码：6702）截至2016年3月31日财政年度的合并收益为4.7兆日元（410亿美元）。
如需更多资讯，请浏览：http://www.fujitsu.com

关于富士通研究开发中心

富士通研究开发中心有限公司是日本富士通株式会社投资440万美元在中国境内设立的第一家独资法人研发机构。公司的研究领域覆盖了富士通株式会社的所有业务范围，即信息处理、通信、半导体和软件服务4大领域。
公司成立于1998年2月，公司的经营范围涉及多媒体系统的硬件、软件、半导体元器件与材料的技术开发和技术转让，提供相关的技术服务与咨询。
如需更多资讯，请浏览：http://www.fujitsu.com/cn/frdc/

≪本技术详情咨询≫

电话： 044-754-2328(直拨)
邮箱：hndwrt-recog@ml.labs.fujitsu.com
公司：株式会社富士通研究所
知识情报处理研究所

新闻ID： 2016-11-08
日期： 2016-11-08
城市： 北京
公司： 富士通研究开发中心有限公司, 株式会社富士通研究所

页首