存档内容
注意:该页面为存档页面,其内容可能已过时。
富士通利用人工智能开发业界最高精度手写中文识别技术
利用人工智能模拟人脑工作;获得国际最大文档图像处理会议简体中文手写识别竞赛冠军
富士通研究开发中心有限公司,株式会社富士通研究所
2013-08-21
富士通研究开发中心有限公司(注1)与株式会社富士通研究所(注2)开发了一种基于人工智能的手写字符识别技术,该技术通过模拟人脑的工作原理达到了业界最高的识别精度。
传统的手写字符识别技术试图利用笔画的数量和夹角信息进行识别。然而对于严重形变的字符,传统方法常常失效。通过“学习”这些变形字符的特征来提高识别精 度是一个非常耗时的过程。富士通开发的新技术运用人工智能的原理处理字符,可以像人脑一样更快更深入的学习到字符的本质特征。本技术将学习时间锐减到传统 方法的1/17,同时达到94.8%的识别精度。
这项技术在近期举行的国际手写中文字符识别竞赛中获得了第一名。竞赛结果将于2013年8月25~29日在美国华盛顿特区召开的第12届文档分析与识别国际会议(International Conference on Document Analysis and Recognition, ICDAR)上正式公布。
通过本技术可以大幅提高手写文本数字化录入的工作效率。
【 开发背景 】
目前手写文字在合同签名及信封地址等很多场合还保持着广泛的应用,手写文本的高效数字化录入将是一项长期需求。
【 课题 】
每一个书写人都有自己独特的书写风格。传统字符识别方法试图寻找孤立字符的笔画数和夹角信息来识别文字。然而,严重变形的字符可能无法通过这种方法正确识别。为提高识别精度而进行“学习”会是一个耗时的过程。
【 开发的方法 】
本技术运用人工智能算法学习像人脑一样更快更深入的提取字符特征进行识别,将学习时间锐减到传统方法的1/17,同时达到94.8%的识别精度。以下是本技术的特征:
1.更高的识别精度
通常字符识别系统需要收集大量训练数据进行学习。为达到更高的识别精度需要处理海量的训练数据。本技术与人类记忆文字的过程相似,通过持续输入大量训练字符数据,让识别系统学习到有效的特征。这一过程利用了一个与人脑细胞组织架构类似的分层网络模型来处理数据(图2)。首先,输入的字符图像由第一处理层提取简单特征。然后,处理结果被移送至第二层提取更复杂的特征,以此类推。这一分层系统可以自动提取出最有效区分不同字符类别的特征,每个文字对应的特征(细胞)响应被记忆在系统中。
识别过程采用与学习过程同样的分层系统来提取字符特征,对输入字符的识别结果取决于其在网络中是否激起已学习到的特定文字的特征(类似脑细胞)响应。
富士通的研究人员通过构造这样一套模拟人脑细胞连接方式响应特定输入的模型,同时增加模型中的单元连接数至传统网络规模的7倍左右,以提高识别精度。
2.更快的学习速度
由于模型中的“细胞”单元连接数大幅增加,整个学习过程需要更长的处理时间。为处理海量的训练数据,研究人员使用了图形处理器(GPU)。这些芯片可以实现高度并行计算,从而将学习速度提升17倍。普通芯片耗时4个月的学习过程仅需一周即可完成。
在一项由国际文档分析和识别大会(ICDAR2013)举办的手写汉字识别竞赛中,本技术取得了第一名,实现业界最高的字符识别率94.8%。
【 效果 】
本技术可以应用于简体中文和日文手写文字识别,对严重变形的文字也能实现高精度识别,从而有效降低了数据输入中的错误率和数字化成本。
【 将来 】
富士通研究所将继续提高本技术的精度。
【 关于商标 】
所提及的制品名等专有名词为各社的商标或注册商标。
关于Fujitsu(富士通)集团
Fujitsu(富士通)是世界领先的日本信息通信技术(ICT)企业,提供着全方位的技术产品、解决方案和服务。在全球拥有约17万名员工,客户遍布世 界100多个国家。我们凭借在ICT领域的丰富经验和实力,致力于与客户携手共创美好的未来社会。富士通集团(东京证券交易所上市代码:6702)截至 2013年3月31日财政年度的合并收益为4.4兆日元(470亿美元)
如需更多资讯,请浏览:http://www.fujitsu.com
新闻ID: 2013年8月21日
日期: 2013-08-21
公司:
富士通研究开发中心有限公司,
株式会社富士通研究所