GTM-W5W3BK9
Skip to main content
  1. 首页 >
  2. 关于富士通 >
  3. 公共信息 >
  4. 新闻 >
  5. 新闻存档 >
  6. 2001年 >
  7. 公开「人民日报标注语料库」

公开「人民日报标注语料库」

富士通研究开发中心有限公司

北京, 2001-08-29

北京大学计算语言学研究所和富士通研究开发中心有限公司,得到人民日报社新闻信息中心的许可,从1999年4月起,共同制作1998年全年2600万汉字的「人民日报标注语料库」。这项大规模的语言工程预计将在2002年4月底以前完成。

世界上,从20世纪70年代美国的「Brown Corpus」问世以来,制作了许多语料库,规模也越来越大,也出现了带标记的语料库。这些语料库对自然语言处理作出了很大的贡献。中国也出现了一些语料库,但大规模的汉语标注语料库目前还没有。北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作1年的带词性标记的「人民日报标注语料库」。标注语料库就是把文章中的语句按词切开,并对每个词标上词性标记。汉语信息处理的专家们希望有大规模的汉语标注语料库的呼声强烈,「人民日报标注语料库」这一大规模汉语标注语料库能满足汉语信息处理专家们的要求。

0829_5

东京工业大学田中教授的演讲—《形态句法分析和语言理解》

为了促进这个集中了众多专家智慧的「人民日报标注语料库」的广泛使用,为中文信息处理的发展作出实际的贡献,同时也为了进一步完善这个标注语料库,北京大学、富士通及人民日报社三方决定首先在大学、研究所等限定的范围内,从2001年8月28日起,有偿公开现已完成的1998年上半年的「人民日报标注语料库」(约1,300万字=约730万词)。公开范围将逐步扩大。计划明年公开1998年全年的「人民日报标注语料库」。为了便于人们了解「人民日报标注语料库」,三方还同时在各自的网站上免费公开1个月的「人民日报标注语料库」,欢迎广大研究人员自由下载。

为了配合「人民日报标注语料库」的公开,北京大学、富士通、人民日报社于2001年8月28日在北京共同举办了“公开「人民日报标注语料库」”研讨会。研讨会邀请了日本及全国各地的40多位语言学、计算语言学以及相关领域的专家参加。日本东京工业大学田中穗积教授和国家语委语言文字应用研究所冯志伟教授分别作了题为「形态句法分析和语言理解的若干问题」和「中文标注语料库研究的历史与现状」的专题报告;北京大学俞士汶教授作了「大规模汉语标注语料库」的报告。中国教育部语言信息管理司王铁锟副司长也在会上作了重要讲话。他们的精彩报告和讲话,引起了与会者的极大兴趣。与会者一致反映,这次研讨会议题明确,讨论热烈,洋溢着浓厚的学术气氛,都认为很有收获。

据了解,半年「人民日报标注语料库」的光盘由人民日报新闻信息中心负责销售,1300万字高质量的现代汉语标注语料库的售价只有人民币2000元。

相关图片

0829_1
富士通研究开发中心有限公司
石崎洋之总经理致辞
0829_2
致贺词的富士通(中国)有限公司
总经理武田春仁
0829_3
参加人员的全体合影
0829_4
研讨会现场

新闻ID: 2001-08-29
日期: 2001-08-29
城市: 北京
公司: 富士通研究开发中心有限公司