FUJITSU

  1. 富士通研究开发中心 >
  2. 成果展示 >
  3. ICC ( Internet Content Center ) 介绍

ICC ( Internet Content Center ) 介绍

富士通研究开发中心(FRDC) 信息技术研究部

【概要】

ICC是Internet Content Center(互联网内容中心)的缩写,是由富士通研究所开发的一个自动网站分类系统,收集、分析、整理了亿数量级的web页面。

【解决方案】

ICC从两个方面对特定的网站进行分类。一个是地域分类,即该网页的内容属于哪个地区。就中文版而言,第一级地域分类为:华东、华北、东北、西北、华南、华中、西南、港澳台7个地区,华北又分为北京、天津、河北、山西、内蒙古等。另一个是内容分类,在内容分类上目前分为五大类:企业/机构/团体、信息技术、体育、外商投资信息服务、宾馆餐饮和旅游。内容分类也呈现多级体系,例如,信息技术又可分为网络与通信、计算机软件、计算机硬件、自动化和人工智能等。

【技术要点】

  1. 分类:利用了HTML文本中的meta信息,采用了基于字符串匹配的分类技术
  2. 排序:根据链接重要度排序,其算法是Pagerank的一个变种。简单来说,被链接越多的网站越重要

【概要图】

ICC概要图

ICC概要图

放大


岩见田

电邮:iwamida@cn.fujitsu.com

于浩

电邮:yu@cn.fujitsu.com