自动表格分类系统介绍
富士通研究开发中心(FRDC) 信息技术研究部
概要
金融与保险等行业中存在大批需要处理录入的表单,这些表单的类别繁多,在做进一步处理之前,自动表格分类是一个必须的环节。我们针对中文表格的特点设计开发出一套自动表格分类系统,大规模的实际应用证明了我们系统的优越性。
解决方案
中文表格往往通过表格线条和关键字等信息来区分不同的类别。此外,不同的表格的背景颜色和纹理,以及纸张的质量相差很大。我们针对中文表格的这些特点,开发出了一种高效的表格线条提取技术。同时,通过融合表格线条和表格中关键字区域的识别信息,对相似表格的识别性能得到大大的提高。
技术要点
- 表格线条自动抽取
- 信息融合
概要图

自动表格分类系统概要图
效果
对某四大国有银行的493类不同表格50124张样本的分类试验表明,我们自动表格分类系统的分类精度(正确率)达到99.67%,完全达到了实用要求。
于浩
孙俊
