本技术介绍参考了以下链接
English
2016年2月22日
根据发言者的语音实时精准识别资料中对应区域的技术
株式会社富士通研究所(注1)(以下简称,富士通研究所)开发了可以从远程会议与演讲使用的资料中,实时精准识别发言者语音对应区域的技术。
商务活动中,参与者交流时有时需要共享资料,例如使用宣传册进行产品介绍,按会议日程举办会议,会议中使用幻灯片资料等。这时,需要将信息正确、迅速、易懂地传达给对方。
富士通研究所为了提高商务交流效率,开发出了基于语音识别技术实时识别对话内容的技术。该系统在使用资料进行交流时,可为提供信息起到辅助作用。
一般通过语音词汇在资料中出现的频率识别发言对应的部分。这种方法通常针对录制的语音进行检测,如果语音中包含的词汇得到充分提取,该方法是有效的。但该方法不适用于语音的实时位置识别,当发言者只说了几个单词时,该方法无法识别单词的频率。另外,目前的语音识别技术,误识率高达10%,因此只从几个单词识别的话,误识别会很大地影响识别精度。
富士通研究所通过将电子会议的共享资料与解说语音内容相对照,开发出了可以实时精准识别对应解说区域的技术。
开发的技术具有以下特点:
在日语中有很多像“色”、“音”、“日”等这种发音简短的单词(发音规则与中文不同),它们发音相似,因此在语音识别中容易产生误识别。富士通研究所将这些发音简短的单词与它们前后的单词相结合,作为一个单词存储在语音识别辞典中,误识率与本公司传统技术相比减少了60%。
富士通研究所通过统计方法,计算出语音解说顺序与文章构成的关系,文章构成包括资料布局、段落结构、资料中说明文字的位置等。这时研究人员发现发言者在讲解完某个内容后,继续讲解距离该内容较远章节的频率骤降。基于该解说顺序特征与解说部分所含词汇的使用频率,缩小了接下来讲解内容的范围,只需识别少量词汇,即可实现精确识别对应的解说区域。
研究人员基于本技术尝试研发并评价了自动指示系统,将远程会议使用的幻灯片作为共享资料,发言者解说时自动强调显示与语音对应的区域(图4)。例如将解说开始后强调显示对应区域的时间设置为2秒,这时识别精度由70%提高到了97%。
将该技术与鼠标光标等传统指示方法进行比较与评价,解说易懂程度提高了30%,显示的烦琐度降低了一半。该技术对远程会议交流起到了有效的辅助作用。
富士通研究所目标在2016年将基于该技术的远程交流辅助系统投放市场。另外,计划与研究所研发的视线检测技术、翻译技术相结合,扩大该技术的应用范围,提高业务效率。例如在呼叫中心为操作员提供常见问题的相关信息,服务台业务支持,教育支持等。