Skip to main content

Fujitsu

English | 日本語

China

存档内容

注意:该页面为存档页面,其内容可能已过时。

通过利用模仿人类大脑工作原理的人工智能技术,汉字手写文字识别率达到96.7%

世界范围内首次超越了学会倡导的“人类识别率”精度

富士通研究开发中心有限公司,株式会社富士通研究所

北京, 2015-09-17

富士通研究开发中心有限公司(注1)(以下简称:FRDC)与株式会社富士通研究所(注2)(以下简称:富士通研究所)通过利用模仿人类大脑工作原理的人工智能技术,在世界范围内首次开发出了识别率达96.7%的手写文字识别技术,该精度超越了学会倡导的与人类识别精度相当的识别水平。

国际会议“ICDAR (International Conference on Document Analysis and Recognition)”在文档图像处理领域处于世界领先地位,FRDC与富士通研究所在该会议举办的手写文字(汉字)识别竞赛(注3)中获得第一名(识别率达到94.8%),实现了业界最高精度。为了进一步提高识别精度,需要进行变形文字的多样性学习,构筑多样性学习的新系统。

此次,基于可捕捉模仿人类大脑中文字特征的分层模型,为了扩大神经细胞间的连接规模,更为详细地学习文字的变形,开发出了可由文字基本模式自动生成各种变形模式的技术。该技术使手写文字(汉字)的识别率超越了与人类识别精度相当(注4)的96.1%,达到了96.7%。

通过该技术,可望实现计算机输入操作和确认工作的自动化。

【开发背景】

通常,人类可简单识别文字、图像、声音等媒体。但因为会发生识别对象的变形、明亮度不同等各种变化,并存在类似的对象物体,计算机很难轻易识别,该问题成为人工智能研究的一大课题。

FRDC与富士通研究所在文字识别领域拥有几十年的丰富经验,手写汉字识别技术在日本的金融、保险领域被广泛应用,并在中国政府的人口普查中得到采用,用于8亿张票据的识别,实现了商业化的技术水准。2010年开始从事基于深层学习(Deep Learning)的人工智能文字识别技术研究。2013年开发的人工智能文字识别技术,在文档图像处理权威国际会议举办的手写文字(汉字)识别竞赛中获得第一名(识别率达94.8%),实现了业界最高精度。

【课题】

文字识别技术基于设想的人类大脑神经细胞的分层连接模型,学习人类在识别时使用的众多文字模式特征,并进行记忆。输入文字图像后,首先在前段网络层捕捉文字的简单特征,然后再在后段网络层捕捉文字的复杂特征。这样就可以按层自动进行文字识别的有效特征提取,与特征(神经细胞)对应的学习结果按各文字存储起来。与输入文字时的学习一样,识别时也按层进行特征提取,基于学习结果,与特征(神经细胞)对应的文字被确认为识别结果并被输出。

为了进一步提高识别精度,需要进行变形文字的多样性学习,并构筑多样性学习的新系统。虽然已经实现了业界最高精度,但还未达到与人类相当的识别能力(识别率为96.1%)。

【开发的技术】

此次通过在设想的分层模型中,将神经细胞间的连接规模扩大50倍以上,我们开发出了可自动生成各种文字变形模式的技术。利用该技术,可进行更为细致的学习,手写文字(汉字)的识别率超越了与人类识别精度相当的96.1%,达到96.7%。开发的技术具有如下特征:

1. 扩大分层模型规模

此次,在用于文字识别的分层模型中,为了将神经细胞的连接规模扩大,能够更加细致地学习,我们将连接数由传统技术(识别率94.8%)的约280万增加到约1亿5千万,从而提高了识别精度(图1图2)。

文字识别过程及在各神经细胞间学习到的特征的可视化
图1 文字识别过程及在各神经细胞间学习到的特征的可视化
扩大分层模型的规模以提取更多的特征
图2 扩大分层模型的规模以提取更多的特征

2. 基于三维随机变形生成各种文字样本

汉字作为识别对象,其文字种类大约有3,800种(注5),因此收集各文字的实际变形模式极为困难。为此,我们开发出了将现有文字样本进行随机变形,自动生成各种学习文字样本的技术。利用该技术,在分层模型中学习各种变形文字模式成为可能(图3)。

基于三维随机变形生成学习文字样本
图3 基于三维随机变形生成学习文字样本

传统的随机变形方法只使用二维变形模型,不能模拟光影以及笔画轻重的变化。为此,我们开发了基于三维随机变形的文字样本生成技术。除文字模式图像上的X坐标、Y坐标外,将各像素的灰度值作为Z坐标的参数,即可生成各种变形模式。

【效果】

该技术使手写文字(汉字)的识别率超越了与人类识别精度相当的96.1%,达到96.7%。

通过该技术,有望实现计算机输入操作和确认工作的自动化。

【今后】

FRDC与富士通研究所将进一步推动文字识别技术的高精度化,以及文字以外的媒体识别应用,目标于2015年将该技术投入使用。

另外,我们也在探讨该技术对于数字、英文字母、日语等多种语言的文字识别应用。

【关于商标】

所列产品名称等固有名词为各公司商标或者注册商标。

【注释】
  1. 富士通研究开发中心有限公司:
    总公司所在地 中国北京,董事长 佐佐木繁。
  2. 株式会社富士通研究所:
    总公司所在地 神奈川县川崎市,代表取缔役社长 佐相秀幸。
  3. 手写文字(汉字)识别竞赛:
    文档图像处理领域国际会议(ICDAR 2013)举办的手写文字(汉字)识别竞赛。
    使用手写汉字数据库(3755类、715测试样本/类)进行。
  4. 与人类识别精度相当:
    文档图像处理领域的国际会议(ICDAR 2013)举办的手写文字(汉字)识别竞赛中提及的识别率。
  5. 大约有3,800种:
    中国《汉字内码扩展规范》中定义的一级汉字的数量,和日文常见汉字类似。

关于Fujitsu(富士通)集团

Fujitsu(富士通)是世界领先的日本信息通信技术(ICT)企业,提供全方位的技术产品、解决方案和服务。在全球拥有约159,000名员工,客户遍布世界100多个国家。我们凭借在ICT领域的丰富经验和实力,致力于与客户携手共创美好的未来社会。富士通集团(东京证券交易所上市代码:6702)截至2015年3月31日财政年度的合并收益为4.8兆日元(400亿美元)。
如需更多资讯,请浏览:http://www.fujitsu.com

关于富士通研究开发中心

富士通研究开发中心有限公司是日本富士通株式会社投资440万美元在中国境内设立的第一家独资法人研发机构。公司的研究领域覆盖了富士通株式会社的所有业务范围,即信息处理、通信、半导体和软件服务4大领域。
公司成立于1998年2月,公司的经营范围涉及多媒体系统的硬件、软件、半导体元器件与材料的技术开发和技术转让,提供相关的技术服务与咨询。
如需更多资讯,请浏览:http://www.fujitsu.com/cn/frdc/

关于富士通研究所

富士通研究所是富士通集团的全资子公司,成立于1968年,是全世界知名的研究中心之一。研究所通过分布在日本、中国、美国和欧洲的分支机构形成全球化研究网络,在下一代业务、计算机服务器、网络、电子器件和先进材料等领域进行广泛的基础型和应用型研究。
如需更多资讯,请浏览:http://jp.fujitsu.com/labs/en

株式会社富士通研究所
知识信息处理研究所

电话: 电话: 044-754-2652(直拨)
邮箱: 邮箱:big-i-ext@ml.labs.fujitsu.com
公司:株式会社富士通研究所

新闻ID: 2015-09-17
日期: 2015-09-17
城市: 北京
公司: 富士通研究开发中心有限公司