Skip to main content

Fujitsu

English | 日本語

China

存档内容

注意:该页面为存档页面,其内容可能已过时。

在世界各地公开数据中自动添加链接技术的开发

添加链接到LOD(Linked Open Data),推进数据的活用

株式会社富士通研究所,富士通研究开发中心有限公司

2014-01-16

株式会社富士通研究所(注1)和富士通研究开发中心有限公司(注2)和Fujitsu Laboratories of Europe Limited (注3)在国家与企业所持有的数据和在世界各地发表的Linked Open Data((注4)、以下为LOD)之中发现了表示相同对象的数据,并开发了自动添加链接的技术。

目前,LOD作为在互联网上发表数据的一种机制开始得到推广。通过把LOD的各个数据与发表在不同网页上的开放数据相链接,数据使用者可以用这个链接浏览数个网页并找到和使用所需的数据。但是,为了链接到其他网页上的数据,必须理解公开数据的内容并找出相关的部分,这一点是利用LOD机制来发表数据的一个课题。

通过本技术可以实现从表述或数据构造的类似性上推算同一对象,并且添加链接。例如,可以把国家公开的数据作为LOD发表,把企业所公开的数据与世界各地的LOD相结合使用,从而提高公开数据的利用价值。

富士通研究所将从2014年1月中旬(预定)起公开运营可与本技术相合作的LOD搜索服务(http://lod4all.net/)

【 开发背景 】

在2013年6月的G8首脑会议上,就“公开数据宪章”达成协议,公开数据快速受到了瞩目。2012年7月,日本的内阁府IT战略本部也制定了“电子行政公开数据战略”,并且,2013年6月,在内阁会议上制定的“世界最先进IT国家创造宣言”中,“公共数据面向民众公开(公开数据)」被列为三大支柱之一。

富士通研究所与爱尔兰国立高威大学(National University of Ireland Galway)的研究机构The INSIGHT Centre for Data Analytics (旧称:Digital Enterprise Research Institute)共同收集世界各地的LOD,并开发了统一检索的LOD活用平台(注5)

【 课题 】

LOD技术对不同网页上公开的数据进行分析,如果发现有相关联的数据就通过增加链接的方式进行推荐。由此,数据使用者可以综合利用位于多个网站上的数据。但是,在不同网页上发表的数据即使表示的是同一个对象但往往数据的构造不同,表述也不同,所以单单检查关键字匹配是无法解决问题的。因此,数据的制作者需要事先检查要链接的数据,理解那个数据的构造和表述,并使之与生成的数据相匹配。

而且,以前没有通过多个数据公开网站来发现相关数据的方法,所以数据的制作者只能添加已知数据的链接。针对分散在Web上的多个数据,对其添加链接是很困难的。

【 新开发的技术 】

此次开发了以LOD活用平台为基础的,从表述和数据构造的类似性中添加链接的技术。可以从数个数据中自动的找出同一对象。以下为新开发的技术的特征。

1. 针对数据中的人物,组织,场所等对象,利用LOD来推断是否为同一数据,进行推断的技术包括如下几点的组合。

  • 解决不同数据构造:使用表述的类似度来测定数据构造的类似度(①)
  • 解决不同表述:使用LOD内的数据构造,收集相同对象的不同表述(②)
  • 解决不确定性:将数据构造及表述的类似性参数化,使用机器学习的方法来判定同一性(③)
0116-1
图一:新开发的算法概要

本技术在中国和美国学术会议中举办的评测竞赛中都获得了第一名(注6)

2. 与LOD活用平台的结合

通过收集在世界各地公开的LOD,并与统一检索的LOD活用平台相结合,可以从全世界的LOD中找出表示相同对象的数据。例如,不只针对英語版的数据集,对于各国語版的数据集也可以同时添加链接。

【 效果 】

通过使用此次开发的技术,可以在全世界公开的LOD中找出表示相同对象的数据,并且添加链接。例如,可以方便地实现将国家所持有的数据作为LOD发表,将企业所持有的数据与LOD相组合使用等。

富士通研究所从2014年1月中旬(预定)起发表结合了本技术的LOD检索服务。本检索技术可使用LOD活用平台的视觉以及对话交互的界面。在世界各地公开的LOD中,对满足许可和下载条件(注7)的数据集可以检索其概要并参考其数据中的内容。

0116-2
图二:检索界面的示例

【 今后 】

此次开发的用全球公开的LOD添加链接的技术正在对日本中央和地方政府机关的各项公开数据进行验证实验,希望在2015年实现实用化。

【 关于商标 】

记载的商品名及其他的固有名词,是各公司的商标或是注册商标。


  • [1] 株式会社富士通研究所:

    代表取缔役社长 富田达夫、本社 神奈川县川崎市。

  • [2] 富士通研究开发中心有限公司:

    董事长 佐々木繁、地点 中国北京。

  • [3] Fujitsu Laboratories of Europe Limited:

    代表取缔役社长 中田恒夫、地点 英国伦敦。

  • [4] Linked Open Data(LOD):

    作为新的数据公开形式在Web上公开的Linked Data数据集群。Web相关技术的标准化团体W3C(World Wide Web Consortium)推荐使用便于机器处理的不依赖于特定应用的RDF(Resource Description Framework)数据表现形式。

  • [5] LOD活用基盘:

    可以存储大量LOD,并实现高速统一检索的技术。 「公开数据的活用革新! 面向有链接的公开数据(LOD: Linked Open Data)大量存储数据・检索技术的开发」(2013年4月3日新闻发表)(http://pr.fujitsu.com/jp/news/2013/04/3-1.html)。

  • [6] 中国和美国学术会议举办的评测竞赛中都获得了第一名:

    在中国计算机学会主办的NLP&CC2013中关于中文微博实体链接评测、以及美国国立标准技术研究所主办的Text Analysis Conference Knowledge Base Population 2013中关于Cross-Lingual Entity Linking评测中取得了第一名。

  • [7] 许可及下载条件:

    此次发表的检索服务的对象是获得了可以进行二次利用许可的数据许以及允许经过网页进行下载的数据集合。

关于Fujitsu(富士通)集团

Fujitsu(富士通)是世界领先的日本信息通信技术(ICT)企业,提供着全方位的技术产品、解决方案和服务。在全球拥有约17万名员工,客户遍布世界100多个国家。我们凭借在ICT领域的丰富经验和实力,致力于与客户携手共创美好的未来社会。富士通集团(东京证券交易所上市代码:6702)截至2013年3月31日财政年度的合并收益为4.4兆日元(470亿美元)
如需更多资讯,请浏览:http://www.fujitsu.com

富士通研究开发中心有限公司

富士通研究开发中心有限公司是日本富士通株式会社投资440万美元在中国境内设立的第一家独资法人研发机构。公司的研究领域覆盖了富士通株式会社的所有业务范围,即信息处理、通信、半导体和软件服务4大领域。
公司成立于1998年2月,公司的经营范围涉及多媒体系统的硬件、软件、半导体元器件与材料的技术开发和技术转让,提供相关的技术服务与咨询。
如需更多资讯,请浏览:http://www.fujitsu.com/cn/about/local/subsidiaries/frdc/

社会创新研究所 知识平台研究部

电话: 电话: 044-754-2652(直拨)
邮箱: 邮箱:lod@ml.labs.fujitsu.com
公司:株式会社富士通研究所

信息技术研究部

电话: 电话: 010-59691000(代表)
邮箱: 邮箱:mengyao@cn.fujitsu.com
公司:富士通研究开发中心有限公司

新闻ID: 2014年01月16日
日期: 2014-01-16
公司: 株式会社富士通研究所, 富士通研究开发中心有限公司, 富士通欧洲研究所