汉语词性标注语料库
富士通研究开发中心(FRDC) 信息技术研究部
【概要】
《汉语词性标注语料库》是对人民日报1998年全文(约2,600万字)进行了人工词性标注的语料库,是最大的汉语词性标注语料库。
【详细介绍】
《汉语词性标注语料库》是对人民日报1998年全文(约2,600万字)进行了人工词性标注的语料库。目前词性的标记集里除了有26个基本词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,从语料库应用的角度,增加了专有名词(人名nr、地名ns、机构名称nt、其他专有名词nz)等其他标记(如下所示),总共使用了39个标记。
- 专有名词:人名、地名、团体机关单位名称、其他专有名词
- 语素的子类标记:名语素、动语素、形容语素、时间语素、副语素
- 动词和形容词细分:动词的名词用法、动词的副词用法、形容词的名词用法、形容词的副词用法
制作《汉语词性标注语料库》的整个过程如下:
- 制作《现代汉语语料库加工规范》。
- 以《规范》为基准,开发“词语切分与词性标注”工具软件。
- 从试作的人民日报一天标注语料中,整理出正确例子和典型的错例。以《规范》为基准,制订《现代汉语语料库加工手册》。
- 以《规范》和《手册》为教材,对参加工作的人员进行培训。
- 至少3人校对。
现已完成的全年的标注语料库的正确率为99.5%。
《汉语词性标注语料》是在北京大学计算语言学研究所以及富士通研究开发中心的研究人员的参与下,在北大中文系、上海师范大学、南京师范大学、烟台师范学院、北京语言文化大学、中国语文现代化学会和国家语委语言文字应用研究所的协作下制作完成的。
【实例】
19980101-01-001-006/m 在/p 1998年/t 来临/v 之际/f ,/w 我/r 十分/m 高兴/a 地/u 通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w [中国/ns 国际/n 广播/vn 电台/n]nt 和/c [中央/n 电视台/n]nt ,/w 向/p 全国/n 各族/r 人民/n ,/w 向/p [香港/ns 特别/a 行政区/n]ns 同胞/n 、/w 澳门/ns 和/c 台湾/ns 同胞/n 、/w 海外/s 侨胞/n ,/w 向/p 世界/n 各国/r 的/u 朋友/n 们/k ,/w 致以/v 诚挚/a 的/u 问候/vn 和/c 良好/a 的/u 祝愿/vn !/w
岩见田
于浩
孟遥
