FUJITSU

  1. 富士通研究开发中心 >
  2. 成果展示 >
  3. 自动表格分类系统介绍

自动表格分类系统介绍

富士通研究开发中心(FRDC) 信息技术研究部

概要

金融与保险等行业中存在大批需要处理录入的表单,这些表单的类别繁多,在做进一步处理之前,自动表格分类是一个必须的环节。我们针对中文表格的特点设计开发出一套自动表格分类系统,大规模的实际应用证明了我们系统的优越性。

解决方案

中文表格往往通过表格线条和关键字等信息来区分不同的类别。此外,不同的表格的背景颜色和纹理,以及纸张的质量相差很大。我们针对中文表格的这些特点,开发出了一种高效的表格线条提取技术。同时,通过融合表格线条和表格中关键字区域的识别信息,对相似表格的识别性能得到大大的提高。

技术要点

  1. 表格线条自动抽取
  2. 信息融合

概要图

自动表格分类系统概要图

自动表格分类系统概要图

效果

对某四大国有银行的493类不同表格50124张样本的分类试验表明,我们自动表格分类系统的分类精度(正确率)达到99.67%,完全达到了实用要求。


于浩

电邮:yu@cn.fujitsu.com

孙俊

电邮:sunjun@cn.fujitsu.com