GTM-W5W3BK9
Skip to main content
  1. 首页 >
  2. 关于富士通 >
  3. 公共信息 >
  4. 新闻 >
  5. 新闻存档 >
  6. 2016年 >
  7. 针对中国古籍文档图像的印章检索技术

针对中国古籍文档图像的印章检索技术

富士通研究开发中心有限公司

2016-03-30

富士通研究开发中心有限公司(注1)开发了一种用于中国古籍文档图像的印章检索技术。利用先进的图像处理技术将中国古籍文档图像中的印章准确提取,然后通过高精度的自适应两级图像搜索策略将提取的印章图像与海量印章图像数据库进行匹配,进而获取印章的印文、作者、朝代等基本属性。这项技术不仅能拉近普通大众与印章篆刻艺术之间的距离,让更多的人了解这项独一无二的世界非物质文化遗产,同时也能为图书馆、博物馆的研究人员提供非常重要的印章分析和比对工具。期待该技术的推出为中国古籍的保护和研究工作做出更大的贡献。

【开发背景】

作为一种特殊的古籍信息元素,钤印(也称印章)包含了重要的古籍版本信息。在古籍普查中有专门的钤印表,著录古籍在递藏过程中所钤盖的印章信息,包括印章释文、所有者朝代、所有者姓名、印文类型、印章形状等。在古籍数字资源库开发过程中,古籍钤印及释文也应成为可检索的对象,以提供对版本源流、藏书文化研究的重要支撑。

目前针对古籍文档图像中的印章提取、检索与分析工作大多通过手工完成,耗时耗力。广大的学者、专家以及收藏爱好者面对浩瀚的古籍钤印无从下手。针对这样的需求,我们开发了先进的印章自动检测技术,通过该技术提取经典古籍中钤盖的大量印章,建立了海量数据库。同时开发了高精度的印章图像检索技术,针对海量印章数据库内容进行快速匹配,进而满足用户对印章自动化检索与分析的需求。

【 课题 】

传统的印章提取方法一般通过提取图像中满足特定形状及颜色的区域来实现印章检测功能,这些算法适用于清晰的现代文档图像。由于中国古籍文档种类繁多,钤印也形状各异,且大多文档纸张退化现象严重,传统方法在古籍文档图像中并不适用。因此,我们利用印章区域为封闭的红色笔画密集区域这一特征,有效的克服了古籍文档图像噪声多、背景复杂等不利因素,实现了中国古籍文档图像的印章高效自动提取。

此外,大规模印章数据库检索是一项用户期待的应用。基于字符分割的传统光学字符识别技术(OCR)难以应对变化多样的印章形状和复杂的篆文排版方式。我们设计了一种由简到繁的自适应两级图像搜索策略,以整体印章图像为单元实现了快速精确的印章图像检索。

【 开发的方法 】

1. 基于笔画稳定区域(Stable Stroke Region, SSR)的印章提取技术

对典型的中国古籍文档图像来说,印章区域一般为封闭的红色笔画密集区域。针对这一特点,首先通过颜色空间变化,在更符合人类感知颜色原理的颜色空间中增强图像中红色的区域。同时,我们利用文字区域在不同的阈值下能够保持较稳定的笔画特征这一特点,提出了SSR技术,结合封闭区域判断等技术,可提取出文档图像中的红色印章区域。

提取印章区域后,通过颜色分离等技术,将印章与背景图像分离出来,得到干净、清晰的印章图像。

典型的中国古籍文档扫描影像(左)通过颜色空间增强红色区域(右)图1:典型的中国古籍文档扫描影像(左)通过颜色空间增强红色区域(右)

通过SSR技术,在不同阈值下寻找笔画特征稳定的区域图2:通过SSR技术,在不同阈值下寻找笔画特征稳定的区域

印章区域提取和基于颜色的背景分离图3:印章区域提取和基于颜色的背景分离

2. 自适应的两级图像搜索策略

由于中国古代印章种类多样,内容、形式千变万化。形制有方、圆、长方、不规则状等,阴文、阳文兼有,有的私印还和各种图案相结合。印章最重要的组成部分就是印面文字,一般以篆文为主,篆书在其长期的演变过程中形成了繁多的篆法。传统的OCR技术会遇到字符切分困难,学习样本缺乏等问题。我们提出了自适应的两级图像搜索策略。以印章图像整体为检索对象,避开复杂的文字切分问题。首先采用快速的全局笔画分布特征在大数据库上进行快速查找,然后针对与背景文字重合的复杂印章或边界提取不准确的印章,在小规模候选集上采用精确的局部纹理匹配。

两级印章图像检索流程图3:印章区域提取和基于颜色的背景分离

3. 海量印章数据库建立

为了囊括中国古代大多数名家、收藏家以及篆刻家的经典印章作品,我们与国内图书馆和高校展开密切合作,对大量现存的珍贵古籍文献以及印鉴资源进行了数字化工作,结合上文提到的印章提取技术,获取了海量的印章图像,总印章数达到5万余方。

【 将来 】

富士通研究开发中心将与各地图书馆、博物馆积极开展合作,推广印章检索技术在中国古籍数字化中的应用,根据用户反馈对现有的技术进行提高和改善,并进一步扩大印章数据库,为将来印章印文的自动识别算法的开发奠定基础。

【 关于商标 】

所提及的制品名等专有名词为各社的商标或注册商标。

【注释】

  1. (注1)富士通研究开发中心有限公司: 董事长 佐佐木繁、本社 中国北京市。

关于Fujitsu(富士通)集团

Fujitsu(富士通)是世界领先的日本信息通信技术(ICT)企业,提供全方位的技术产品、解决方案和服务。在全球拥有约159,000名员工,客户遍布世界100多个国家。我们凭借在ICT领域的丰富经验和实力,致力于与客户携手共创美好的未来社会。富士通集团(东京证券交易所上市代码:6702)截至2015年3月31日财政年度的合并收益为4.8兆日元(400亿美元)。
如需更多资讯,请浏览:http://www.fujitsu.com

关于富士通研究开发中心

富士通研究开发中心有限公司是日本富士通株式会社投资440万美元在中国境内设立的第一家独资法人研发机构。公司的研究领域覆盖了富士通株式会社的所有业务范围,即信息处理、通信、半导体和软件服务4大领域。
公司成立于1998年2月,公司的经营范围涉及多媒体系统的硬件、软件、半导体元器件与材料的技术开发和技术转让,提供相关的技术服务与咨询。
如需更多资讯,请浏览:http://www.fujitsu.com/cn/frdc/

技术联络

电话: 电话: 010-59691538(直拨)
邮箱: 邮箱:sunjun@cn.fujitsu.com
公司:富士通研究开发中心有限公司
信息技术研究部

新闻ID: 2016-03-30
日期: 2016-03-30
公司: 富士通研究开发中心有限公司