GTM-W5W3BK9
Skip to main content
  1. 首页 >
  2. 关于富士通 >
  3. 公共信息 >
  4. 新闻 >
  5. 新闻存档 >
  6. 2017年 >
  7. 削减训练数据的深度学习技术

削减训练数据的深度学习技术

用于中国古籍文字识别的学习训练数据减少了70%

富士通研究开发中心有限公司

北京, 2017-02-21

富士通研究开发中心有限公司(注1)(以下简称:FRDC)开发出了一项高精度识别中国古籍文字的深度学习技术,利用该技术,以少量的学习数据便可实现高精度的文字识别。这项技术通过结合以下两种引擎进行学习,一种是利用古籍文字图像以及与之关联的文字(训练数据)进行学习的深度学习识别引擎、另一种的是针对任意两个文字图像是否为同一文字这一特点进行学习的深度学习引擎。与传统方法相比,这项技术可以利用少量训练数据获得高精度的识别率,在一项针对中国古籍文字识别的研究中减少了70%的训练数据。

该技术对加快中国图书馆大量馆藏古籍文献的数字化、促进古籍文献共享以及历史考察等学术研究,都将起到积极的推动作用。

本技术已于1月31日(星期二)在美国旧金山举行的国际会议“IS&T International Electronic Imaging Symposium 2017”上展示发表。

【开发背景 】

中国拥有5000多万册古籍,这些古籍具有极高的传承价值和依然鲜活的使用价值。然而,随着时间的流逝和人类活动的影响,这些文化遗产不断遭到侵蚀和破坏。 图书馆在保存古籍文献时,通常将其影像以数字图像的形式加以存储。但除了对文献进行保护以外,通过ICT技术(信息通信技术)充分利用古籍文献数据时,则需要将数字图像中的文字进行文本数据化。目前,通过专家的手工标注,只完成了少部分古籍文献的文本数据化,要想实现古籍文献的全文数字化,还需要大量的时间与成本。

【 课题 】

基于深度学习的文字识别,首先利用文字图像和与之正确关联的文字训练数据,让识别引擎进行学习。这时,训练数据越多,识别精度就越高。目前古籍数字化中所面临的问题是,需要准备充足的训练数据才能适应古籍文献文字的识别,以专家手工标注的方式很难满足这一要求。

相对而言,文字类别数较少的英文字母和数字的识别,通过汇总相同文字的训练数据进行特征学习,也可用较少的学习数据来提高识别精度。但这些技术很难应用于中国古代文献中字体繁多、即使文字相同但形状各异的复杂情况。

【 开发的技术 】

针对中国古籍文献的文字识别,FRDC开发出了以少量训练数据实现高精度识别的技术。这项技术的特征如下。

  • 1.在有限的训练数据基础上,充分利用未被作为训练数据采用的文字图像数据

    为了增加可供学习利用的数据,将迄今为止未与正确文字关联、而且未被作为训练数据采用的大量文字图像应用到学习过程当中。如图1所示,利用初始识别引擎X,给这些文字图像标注一个伪标记即可用于学习。在这一阶段,由于识别引擎X的学习还不够充分,所以,文字图像的标注结果里面含有不正确的伪文字标记(图1中用红色文字标记)。

  • 2.对具有相同文字标记的文字图像特征模式与具有不同文字标记的文字图像特征模式进行比对,在比对信息的基础上用识别引擎进行学习

    从带有伪标记文字的文字图像中任意抽取两个样本,组成图像对,并输入到反映了识别引擎X学习结果的两个结构相同的识别引擎Y、Z。在这种情况下,根据两个文字图像是否为同一文字的比对结果,再让识别引擎X学习。通过重复这个步骤,随着识别引擎X的学习,不正确的伪文字标记数量会持续减少,识别精度也会不断提高。通过学习性能良好的识别引擎X进行识别,即使使用少量的训练数据也可达到高精度的识别。

cn-pic1

图1 开发出的文字识别技术结构

【 效果】

本技术已在作为中国古籍文献文字识别数据公开的1000幅中国敦煌古籍文献图像(注2)识别评测中得到了应用。结果显示,与采用训练数据学习的传统技术相比,为达到传统技术81%的识别精度,本技术仅需使用非常少量的训练数据(平均一个文字类别所需的训练数据量削减了约70%)。另外,在此次评测中,平均一个文字用50个训练数据学习时,相比于以前报道的82%,本技术的识别率达到了88%。

cn-pic2

图2 开发出的文字识别技术效果(应用于敦煌文献识别的结果)

【 将来 】

FRDC今后会将本技术应用于中国古籍文献数字化技术的解决方案,继续扩大其在中国各地图书馆、古文献档案馆中的应用,推广集成古籍图像数字化和可检索文本保存的一体化文化保护方案。本技术还可有效提高文字类型较多的日语、韩语等语种的文字识别精度。为了2018年在富士通AI技术「Human Centric AI Zinrai」中得到有效利用,我们会继续将采用少量训练数据进行有效学习的深度学习引擎机制应用到识别对象较多的领域,例如,图像数据的分类,植物种类的识别等。

【 关于商标 】

所提及的产品名等专有名词为各公司的商标或注册商标。

【 注释 】

  • (注1) 富士通研究开发中心有限公司: 董事长 佐佐木繁,本社 中国北京市。
  • (注2) 中国敦煌古籍文献图像:中国国家图书馆以公众和学术使用为的目,在互联网上公布的一组古代文献图像和数字文本集。没有访问限制,可广泛利用,因此,经常被作为古代文献文字识别技术的识别精度基准而利用。 http://idp.nlc.gov.cn/

关于Fujitsu(富士通)集团

Fujitsu(富士通)是世界领先的日本信息通信技术(ICT)企业,提供全方位的技术产品、解决方案和服务。在全球拥有约156,000名员工,客户遍布世界100多个国家。我们凭借在ICT领域的丰富经验和实力,致力于与客户携手共创美好的未来社会。富士通集团(东京证券交易所上市代码:6702)截至2016年3月31日财政年度的合并收益为4.7兆日元(410亿美元)。
如需更多资讯,请浏览:http://www.fujitsu.com

关于富士通研究开发中心

富士通研究开发中心有限公司是日本富士通株式会社投资440万美元在中国境内设立的第一家独资法人研发机构。公司的研究领域覆盖了富士通株式会社的所有业务范围,即信息处理、通信、半导体和软件服务4大领域。
公司成立于1998年2月,公司的经营范围涉及多媒体系统的硬件、软件、半导体元器件与材料的技术开发和技术转让,提供相关的技术服务与咨询。
如需更多资讯,请浏览:http://www.fujitsu.com/cn/frdc/

≪本技术详情咨询≫

电话: 电话: +86-10-59691538(直拨)
邮箱: 邮箱:hndwrt-recog@ml.labs.fujitsu.com
公司:富士通研究开发中心有限公司

新闻ID: 2017-02-21
日期: 2017-02-21
城市: 北京
公司: 富士通研究开发中心有限公司