手写体中国地址识别介绍
富士通研究开发中心(FRDC) 信息技术研究部
【概要】
金融与保险行业中存在大批需要处理录入的表单,其中无约束的手写地址信息不仅频繁出现,也最难识别,成为表单自动录入和处理的瓶颈问题。本项目采用了非传统识别技术—关键字提取和整体识别技术,避免了传统单字分割造成的错误,取得了非常好的效果。
【解决方案】
表单地址框一般有两种格式,一种是每字一框,如图1所示。这种格式需要的书写空间较大,文字分割简单。另一种是一个框中书写所有字符,如图2所示。这种格式所需书写空间较小,任意文字间隔,文字分割较难。
图1. 书写格式1
图2. 书写格式2
现在,对放宽书写限制的需求越来越强,也就是对第二中格式的需求。然而传统识别技术在处理第二种情况时避免不了分割错误这一瓶颈问题。为此,本系统中采用了关键字抽取和整体识别技术。首先,抽取地址中标志段的字符,如市,区,路,街,道,巷,村等,称为为关键字;其次,抽取关键字前标志段名的字符串,称为词。这极大地避免了分割错误,使整体性能得到提高。
【技术要点】
- 关键字抽取
- 整体识别
【概要图】

手写体中国地址识别系统概要图
【效果】
| 字符串识别率 | 字符识别率 |
| 91.58% | 95.17% |
岩见田
于浩
孙俊
