北京, 2015-05-20
富士通研究开发中心有限公司注1开发了一种概念级的用户情绪原因检测技术。该技术目的在于针对特定事件,检测微博用户表现出的各种情绪的产生原因。首先,我们设计了一种基于主题监督式的二元语言模型用于发现事件相关微博中用户表现出的各种情绪主题;其次,利用一种上下文相关的PageRank排序方法进行有效的多词单元检测以发现每种情绪产生的原因;最后,微博表情符号和微博用户情绪之间的关联关系也能够从上述的情绪主题检测结果中得到。
以往的词语级别的情绪原因检测技术是通过发现与情感词语共现次数最多的词或者词组从而检测出情绪原因。与其相比,我们的技术不仅能够发现基于情感词的显性情绪表达,同时还能够发现隐性的情绪表达方式。因此,我们的技术能够得到更准确的情绪原因检测结果。此外,我们的技术还能够检测微博表情符号和微博用户情绪之间的关联关系。我们设定的概念级的用户情绪原因检测技术能够为企业提供对与之相关的事件的情绪原因检测,这对企业的业务推广、品牌营销或危机管理都有非常大的帮助。
本技术将于5月20日在意大利佛罗伦萨举行的国际会议「24th World Wide Web Conference」上展示发表。
【开发背景】
情绪原因检测是获取用户对于相关事件的情绪信息的主要方法之一。然而,用户对不同事件的情绪表达差别很大,而且包含很多非情绪词的表达方式。现有用户情绪原因检测技术利用相同的情绪词典对不同事件的情绪信息进行分析,并且忽略了非情绪词的情绪表达方式,因此效果欠佳。我们设计了一种新型的概念级的用户情绪原因检测技术用于处理这些问题。
【 课题 】
传统情绪原因检测方法往往设定情绪词语为用户情绪表达方式的唯一方式。然而,情绪本身是一种抽象的概念,并且情绪词语仅仅是用户表达情绪的一种最直接明显的方式,而不是唯一的方式。因此,仅仅检测与情绪词语共同出现的频率最高的词语或者词组作为情绪原因是不全面的。网络用户的情绪表达方式有很高的多样性,而且很多情绪表达方式并不像情绪词语那样明显。因此,对概念主题级别的隐性情绪表达方式进行检测对于用户情绪和用户情绪原因的深层分析是非常重要的。
【 开发的方法 】
概念级的用户情绪原因检测技术包含四个功能模块,分别是:数据预处理及分词模块、情绪主题检测模块、情绪原因检测模块和‘情绪词-情绪’关联检测模块。图一给出了概念级的用户情绪原因检测技术的整体流程示意图。
图一:概念级的用户情绪原因检测技术示意图
在概念级的用户情绪原因检测技术的四个功能模块中,情绪主题检测模块是我们的技术区别于以往词语级别的情绪原因检测技术的最关键步骤。图二给出了在该功能模块中我们用于发现情绪主题的主题监督式二元语言模型的图解。为了发现情绪主题,我们在主题模型计算过程中添加了情绪词语在情绪主题上的二值分布be。该分布的作用是使得一个情绪词出现在对应的情绪主题内的概率为1,出现于其他无关的情绪主题内的概率为0,以此限定情绪词语与情绪主题之间的对应关系。
图二: (a) LDA主题模型 [Blei et al. 2003]; (b) 二元主题模型 [Yan et al. 2013];
(c) 我们提出的主题监督式二元语言模型
概念级的用户情绪原因检测技术特别适用从短文本(微博)中检测用户情绪的原因,同时,该技术不但可以检测出显式的情绪原因还可以检测出隐含的用户情绪原因。在实际微博数据测试中,用户情绪原因的检出率从83%提高到94%。
Blei, D. M., Ng, A. Y., Jordan, M. I. 2003. Latent Dirichlet Allocation. Journal of Machine Learning Research 3: 993-1022.
Yan, X., Guo, J., Lan, Y., Cheng, X. 2013. A biterm topic model for short texts. In Proceedings of the 22nd International World Wide Web Conference, pp. 1445–1456.
【 将来 】
富士通研发中心将与合作伙伴一起向中国企业推广用户情绪原因检测技术,并根据客户的反馈进行技术的改善和提高。
【 关于商标 】
所提及的制品名等专有名词为各社的商标或注册商标。
【注释】
(注1)富士通研究开发中心有限公司: 董事长 佐佐木繁、本社 中国北京市。