Lyric WebPage Recognition System (LWRS)
富士通研究开发中心(FRDC) 信息技术研究部
【概要】
Internet上的信息日益增多,出现了各类的信息服务。但是,一些涉及到版权或个人隐私的信息也同时在没有授权的情况下被发布到互联网上,歌词信息就是其中的一个典型例子。所以,我们要在Internet上找出提供歌词的网络站点,并根据授权情况,提出进一步的服务或处罚。
【解决方案】
LWRS系统采用了基于网络机器人(Robot)信息收集平台的歌词网页识别机制对歌词信息提供站点进行识别。其解决方案如下:
1. 在网络机器人信息收集平台之上对网页进行识别。
2. 对识别出的歌词网页所对应的URL进行分析,确定出歌词信息提供站点。
本系统的技术要点在于对歌词网页的识别。
【技术要点】
- 特征信息:利用歌词网页本身的特征词信息进行匹配搜索。
- 文体信息:利用歌词网页的文体波动特征进行识别。
- 符号特征:利用符号特征进行辅助识别。
- 分级识别:基于以上识别算法,对网页进行分级识别。
【概要图】
岩见田
于浩
王主龙

