Skip to main content

Fujitsu

English | 日本語

China

存档内容

注意:该页面为存档页面,其内容可能已过时。

自动整理数以亿计的网页,分类更加简单

株式会社富士通研究所

东京, 2001-07-16

富士通研究所(代表取缔役社长:藤崎道雄、总部:川崎市)很有效地收集了世界上大量的网页,运用网上的链接解析技术和自然语言处理技术等,自动筛选适合的网页,开发了根据地区或种类进行分类整理的技术。运用此技术,可以将至今依靠人工收集或分类的英特网上的信息,按种类或地区等自动、迅速地收集、分类、分析,实现英特网上的分类服务及大幅度降低内部网上的信息共享服务的成本。

另外,作为本技术的一部分,7月11日起已经开始在国内最大级的地区信息分类网站town@niftyhttp://town.nifty.com/)上运用,该网站将尼富提(音译)株式会社运营的英特网服务(@nifty)上的约130万条的各地区信息进行数据库化。

在本研究所建立了可以连续收集数以亿计的行业第一个英特网目录中心(ICC:Internet Contents Center),正在向富士通集团内部提供最新的英特网信息。

【开发的背景】

近年来,英特网或内部网上目录不断增加,随着宽带英特网时代的到来,越来越多的信息需要流通。所以,让读者及时地获得信息,变得越来越重要,也越来越困难。例如,对于购物或信息网站的运营方来说,以有限的人手收集、提示让读者满意的网上信息,变得很难。并且,监视本行业的信息和对本公司产品的意见、谣传等各个种类的信息,及早采取对策,对现在企业来说至关重要,但是又不可能投入大量的人手。

【开发的内容】

为了有效地将英特网上如此大量的信息进行分析、管理,我们开发了信息收集技术、网页解析技术、监视技术。同时,以这些技术为基础,在本研究所内建立了英特网目录中心(ICC),以便随时收集、分析最新的英特网信息。

1.信息收集技术

信息收集技术是根据服务内容,高效率地收集有用网页的技术。通过网页的内容或网上链接的关系,可以将适合分类服务的网页优先收集。例如,通过对英特网内网页的链接进行解析,就可以更有效地收集适合本企业的、与业务有关联的网页。还可以将各种服务所需的大量的URL群,按种类、地区进行整理。

2.网页解析技术

根据网上的链接关系和网页的内容,通过链接解析、信息抽出、自动分类技术,自动生成网页或其关键词的各种二次信息。例如,通过解析连接,推定人气度,把人气高的网页自动地按地区或种类进行分类,全自动地归纳出各行业的优良URL集(即目录一览表)。实际上,目前正在将约1亿到50万以上网页的优良网站进行严格筛选,自动建立着约600个种类、4万个以上的地区的分类目录一览表。因此,可以降低分类服务方的信息收集、整理的成本。

3.监视技术

是将运用1 . 和2 . 技术,收集、解析的二次信息,进行各种各样形式的视觉化的技术。例如,以月为单位显示人气度时间上的推移,这样就可以清晰地显示外界不易抓住的网站人气度时间上的变动。并且,以分钟为单位,随时监测信息收集技术收集的特定题目网页数量的推移,便可以监视网页上关于自己公司产品的情况。

以上的技术应用到英特网或内部网的信息提供技术上的话,便可以降低经营成本,持续、高效地提供信息服务。今后将计划应用于企业内部的分类网站、英特网上的分类网站等。

0716

新闻ID: 2001-07-16
日期: 2001-07-16
城市: 东京
公司: 富士通研究所