存档内容

注意：该页面为存档页面，其内容可能已过时。

针对文档图像压缩的高精度图文分离技术

2015-02-12

富士通研究开发中心有限公司注^(注1)开发了一种用于提高文档图像压缩率的高精度图片/文字分离技术。利用先进的图像处理技术将文档图像中的文字和背景图片准确分离开来，然后通过有针对性的选择压缩编码方法处理不同的图层，最终输出一幅画质接近原图的高压缩比图像。

与传统图文分离技术不同，我们的技术能够以像素精度将整幅图像划分为四种区域：深色文字或线条，浅色文字或线条，图片或图形，背景区域。基于准确的像素属性分类，可有效处理各种复杂文档中图文混排的分离问题。采用高分辨率来还原文字，保留锐利边缘，以较低分辨率处理背景图片，从而使整个图像的质量得到了保证。此项技术使得传统印刷资料能以高质量扫描图像的形式数字化，并轻易地在因特网上进行发布与传播，在纸质世界和比特世界之间搭起了一座桥梁。

本技术将于2月12日在美国旧金山举行的国际会议「IS&T/SPIE Symposium on Electronic Imaging 2015」上展示发表。

【开发背景】

随着网络媒体的逐渐兴起和扫描存储设备的成本逐步降低，越来越多的文件开始以数字化形式在网络上保存和传播。然而世界上90%以上的信息仍然停留在纸上。这其中包含大量极具传播价值的珍贵文档，例如经典书籍、绘画、文献资料等。制约它们在网上发布的一个瓶颈就在于扫描图像的文件大小问题。为保证文字的可读性和影像的清晰度，用较高分辨率扫描的文件十分巨大，传统网络图像格式难以同时保证可接受的图像质量和高压缩率。广大网络内容开发者们面对现存的印刷材料宝库只能望洋兴叹。我们开发的图文分离技术用于扫描图像的高质量压缩，能够有效满足上述文档数字化及其在网上高速传播的需求。

【课题】

传统图像压缩方法（如JPEG，JPEG2000 等）的适用对象是自然场景图像，通过计算图像中的频率域特征来实现全图的整体压缩。这些算法对包含丰富文字、图形、图像的扫描文档并不适合，经常在字符、线条的周边区域出现严重的压缩噪声。目前，按照最新的混合光栅内容（Mixed Raster Content，MRC）框架标准，文档图像压缩领域形成了一套独有的算法流程。一般来说，要确保文字和线条的清晰度需要较高的分辨率（通常为 300dpi），而图像和纸张的背景则不需要那么高的分辨率（通常为 100~150dpi）。因此，为保证清晰度，提高压缩率，最好的方法就是将这些元素分为不同的层来进行处理。如何在像素级别精度上准确区分背景层 ( 纸的纹理和图片 ) 和前景层 ( 文本和线条 )是影响文档压缩算法性能的一个重要标志，也是MRC框架中的一项关键技术。

【开发的方法】

我们开发的图文分离算法综合考虑了文档图像中影响文字的多种变化因素（如：字体，字号，笔画灰度和极性，文本行方向等），进行了有针对性的优化。避免了两种典型的文字提取错误：

文字区域丢失：如果某些文字被误判为背景，会导致这些区域的字符笔画变得模糊。
背景元素被误检测为文字：在这些区域会出现很强的伪边缘，同时内部灰度层次感降低。

对于一幅原始的彩色文档图像，首先计算局部灰度分布和边缘强度特征，进行文字候选区域的提取。然后在候选区域根据文字的极性进行笔画外轮廓的优化和粘连笔划之间背景孔洞的去除。最后，每个像素将被分为四种类型之一，即深色文字或线条（文字颜色比背景底色要深），浅色文字或线条（文字颜色比背景底色要浅），图片或图形，文档背景。图一给出了本方法的一个典型效果图。

图一：图文分离效果图。原图像（左图）被划分为四种不同的区域（右图）

原图像（左）	原图像（左）
深色文字或线条	以黑色表示
浅色文字或线条	以深灰色表示
图片或图形	以浅灰色表示
文档背景	以白色表示

图文分离技术产生的前景层和背景层通常都不是一个规则的矩形区域。例如：文字位置的像素从原图像剥离后，会在背景层留下大量“空洞”，这些“空洞”必须填充上符合背景属性的有效像素，才能最大限度的利用各种压缩编码算法。我们采用多尺度奇异值分解的方法来快速填充前景层和背景层，以满足后续压缩算法的需求。图二显示的是填充算法的典型效果。

图二：填充算法典型效果图。从左到右依次为：原图像，前景/背景分离图，背景层填充图，前景层填充图。

通过应用这种图文分离方法进行文档压缩，可以将一幅以300DPI扫描的彩色图像从25MB压缩到30~100KB，比传统的JPEG或GIF格式文件提高5到10倍的压缩比率。它可以将以前由于扫描文件大小原因而难以在网上发布的资料轻易地搬上因特网，从而使人类宝贵的知识遗产能够得到更为广泛的传播。

【将来】

富士通研发中心将与合作伙伴一起向图书馆，出版机构等文档数字化单位推广基于图文分离的文档压缩技术，并根据客户的反馈进行技术的改善和提高。

【关于商标】

所提及的制品名等专有名词为各社的商标或注册商标。

【注释】

（注1）富士通研究开发中心有限公司：董事长佐佐木繁、本社中国北京市。

关于Fujitsu（富士通）集团

Fujitsu（富士通）是世界领先的日本信息通信技术（ICT）企业，提供全方位的技术产品、解决方案和服务。在全球拥有约162,000名员工，客户遍布世界100多个国家。我们凭借在ICT领域的丰富经验和实力，致力于与客户携手共创美好的未来社会。富士通集团（东京证券交易所上市代码：6702）截至2014年3月31日财政年度的合并收益为4.8兆日元（460亿美元）。
如需更多资讯，请浏览：http://www.fujitsu.com

关于富士通研究开发中心

富士通研究开发中心有限公司是日本富士通株式会社投资440万美元在中国境内设立的第一家独资法人研发机构。公司的研究领域覆盖了富士通株式会社的所有业务范围，即信息处理、通信、半导体和软件服务4大领域。
公司成立于1998年2月，公司的经营范围涉及多媒体系统的硬件、软件、半导体元器件与材料的技术开发和技术转让，提供相关的技术服务与咨询。
如需更多资讯，请浏览：http://www.fujitsu.com/cn/frdc/

技术联络

Mobile: 010-59691538(直拨)
邮箱：sunjun@cn.fujitsu.com
公司：富士通研究开发中心有限公司
信息技术研究部

新闻ID： 2015年2月12日
日期： 2015-02-12
公司： 富士通研究开发中心有限公司

页首

存档内容

针对文档图像压缩的高精度图文分离技术

【 开发背景 】

【 课题 】

【 开发的方法 】

【 将来 】

【 关于商标 】

【 注释 】