ICC ( Internet Content Center ) 介绍
富士通研究开发中心(FRDC) 信息技术研究部
【概要】
ICC是Internet Content Center(互联网内容中心)的缩写,是由富士通研究所开发的一个自动网站分类系统,收集、分析、整理了亿数量级的web页面。
【解决方案】
ICC从两个方面对特定的网站进行分类。一个是地域分类,即该网页的内容属于哪个地区。就中文版而言,第一级地域分类为:华东、华北、东北、西北、华南、华中、西南、港澳台7个地区,华北又分为北京、天津、河北、山西、内蒙古等。另一个是内容分类,在内容分类上目前分为五大类:企业/机构/团体、信息技术、体育、外商投资信息服务、宾馆餐饮和旅游。内容分类也呈现多级体系,例如,信息技术又可分为网络与通信、计算机软件、计算机硬件、自动化和人工智能等。
【技术要点】
- 分类:利用了HTML文本中的meta信息,采用了基于字符串匹配的分类技术
- 排序:根据链接重要度排序,其算法是Pagerank的一个变种。简单来说,被链接越多的网站越重要
【概要图】
岩见田
于浩

