存档内容
注意:该页面为存档页面,其内容可能已过时。
成功研发多语言专利一体化检索系统,该系统可以支持多语言专利的便利检索和查看
使用一种语言,即可查询和查看多语专利,专利检索更方便
富士通研究开发中心有限公司
北京, 2012-08-01
富士通株式会社、株式会社富士通研究所和富士通研究开发中心有限公司成功研发了一个多语言专利一体化检索系统。在该系统中,用户输入中、英、日任意一种语言的关键词,即可实现对这三种语言的专利的一体化检索。同时,系统内置的专利翻译功能,能够将检索得到的信息按照用户输入的语言类型反馈给用户,极大地方便了用户对专利内容的了解和获取。该系统的核心模块----机器翻译的性能,在专利翻译领域已经超越其他公司类似产品。
【 开发背景 】
专利的数量和质量是衡量一个国家的创新能力、产业后 劲的重要指标之一。在世界范围内,美国、日本、中国都是专利申请大国。在2010年,这三个国家的专利申请量占全世界专利申请量的50%以上。特别在中 国,专利的申请逐渐受到中国企业的重视,专利的申请量逐年上升。在这样的情况下,各个国家之间需要对相互的专利申请情况有所了解,相关的企业或个人也需要 了解专利的发表情况。
如何能够方便快速的检索到不同国家的相关专利文献?如何了解不同国家、不同的企业的专利发表情况?如何能够了解不同语言书写的专利文献的具体内容?富士通研究开发中心研发的多语言专利一体化检索系统,目前可以支持检索中、英、日三语专利,技术上可以进一步扩展到其他语言。
【 解决方案 】
为了满足不同人员对于不同语言的专利文献的查看的需求,富士通研究开发中心研发了一个专门用于专利翻译的机器翻译系统,该系统可以实现中、日、英三语的相互翻译,其中中英翻译和中日翻译的翻译精度分别为80.7%和 67.6%,可以满足专业人士的一般检索分析要求。
当用户使用汉语、日语、英语三语中的任意一种语言检索中国、日本、欧美专利时,系统将检索请求自动翻译成其他两种语言,并统一检索三语的专利数据库,将结果以用户输入的语言类型返回给用户。系统还可以对检索的结果进行统计和分析,并提供可视化的分析结果。
【 所开发的技术 】
这个系统的核心部分是机器翻译模块,我们开发了规则与统计相结合的机器翻译技术,用该技术来实现各种语言的专利信息之间的互相翻译。具体的技术要点如下所示。
1) 基于规则的改写技术
专利文献具有句子长、结构性强等特点,而一般的机器翻译系统对于长句子的翻译效果较差。如果能够将长句子转换为多个短句子,再进行翻译,则能大大改善翻译的质量。基于规则的改写技术,即利用专利文献结构性强的特点,将专利文献中的长句子转换为短句子,再将其输入机器翻译系统进行翻译的技术。通过采用该技术,可以大大提高译文的可读性。
2) 基于层次短语的统计机器翻译模型
当前最流行的统计机器翻译模型有基于短语的模型、基于层次短语的模型、基于句法的模型等。其中,基于短语的模型较为成熟,应用较为广泛,但其翻译能力相对一般;而基于句法的模型由于其翻译速度慢、对系统要求高等问题,也难以实用化。基于层次短语的模型,在翻译效果和翻译性能上有较好的平衡,支持层次化的短语,能够有效解决机器翻译中的长距离调序问题。
3) 利用依存树信息的机器翻译系统
随着机器翻译技术的不断进步,不同的句法的知识被逐步引入到机器翻译过程中,从而提高机器翻译的性能。本系统从两个方面利用了依存树信息,从而提高机器翻译系统的性能:第一,该系统利用依存树信息过滤翻译规则,从而减少规则数量,提高翻译速度;第二,该系统利用依存树结构调整翻译中的语块顺序,从而提高翻译质量。
【 主要成果 】
在跨语言专利检索系统的研发过程中取得的主要成果如下:
专利申请:共11项
论文发表:在ACL(The Association for Computational Linguistics), COLING(International Conference on Computational Linguistics)等国际顶级会议上发表多篇论文
竞赛获奖:
NIST2009 (National Institute of Standards and Technology) 机器翻译中英翻译竞赛,在所有中国参赛单位中名列第一。
NTCIR2011 (NII Test Collection for IR Systems) 专利翻译比赛中,日英翻译在所有中国参赛单位中名列第一。
【 今后 】
1.机器翻译技术是该系统的核心技术之一,我们将不断致力于机器翻译质量的提高,以提供更好的用户体验。
2.专利数据是该系统的基础资源,我们将不断收集和整理各种专利数据,使我们的系统在数据方面具有更高的覆盖率。
3.查询速度的提高也将是我们未来努力的一个方面。
关于Fujitsu(富士通)集团
Fujitsu(富士通)是世界领先的日本信息通信技术(ICT)企业,提供着全方位的技术产品、解决方案和服务。在全球拥有超过17万名员工,客户遍布 世界100多个国家。我们凭借在ICT领域的丰富经验和实力,致力于与客户携手共创美好的未来社会。富士通集团(东京证券交易所上市代码:6702)截至 2012年3月31日财政年度的合并收益为4.5兆日元(540亿美元)。
如需更多资讯,请浏览:http://www.fujitsu.com
新闻ID: 2012年8月1日
日期: 2012-08-01
城市: 北京
公司:
富士通研究开发中心有限公司