根据发言者的语音实时精准识别资料中对应区域的技术

关于富士通

企业信息
事业方针
社长致辞
富士通在中国
Fujitsu Way
公共信息
- 富士通先端科技（上海）有限公司
- 成功案例
- 联系我们
- 活动
- 新闻
- Feature Stories
- 富士通科学与技术杂志
- CIO全球智能
- 研究开发
  - 事业内容
  - 研究成果展示
  - 研究所技术介绍
- 产品资料
- 社交媒体免责声明
富士通博物馆
富士通品牌
企业的社会责任

本技术介绍参考了以下链接
English

2016年2月22日

根据发言者的语音实时精准识别资料中对应区域的技术

株式会社富士通研究所（注1）（以下简称，富士通研究所）开发了可以从远程会议与演讲使用的资料中，实时精准识别发言者语音对应区域的技术。

开发背景

商务活动中，参与者交流时有时需要共享资料，例如使用宣传册进行产品介绍，按会议日程举办会议，会议中使用幻灯片资料等。这时，需要将信息正确、迅速、易懂地传达给对方。

富士通研究所为了提高商务交流效率，开发出了基于语音识别技术实时识别对话内容的技术。该系统在使用资料进行交流时，可为提供信息起到辅助作用。

图1 使用共享资料时交流辅助系统的应用

课题

一般通过语音词汇在资料中出现的频率识别发言对应的部分。这种方法通常针对录制的语音进行检测，如果语音中包含的词汇得到充分提取，该方法是有效的。但该方法不适用于语音的实时位置识别，当发言者只说了几个单词时，该方法无法识别单词的频率。另外，目前的语音识别技术，误识率高达10%，因此只从几个单词识别的话，误识别会很大地影响识别精度。

开发的技术

富士通研究所通过将电子会议的共享资料与解说语音内容相对照，开发出了可以实时精准识别对应解说区域的技术。

开发的技术具有以下特点：

不易发生误识别，可自动生成语音识别辞典(图2)
在日语中有很多像“色”、“音”、“日”等这种发音简短的单词(发音规则与中文不同)，它们发音相似，因此在语音识别中容易产生误识别。富士通研究所将这些发音简短的单词与它们前后的单词相结合，作为一个单词存储在语音识别辞典中，误识率与本公司传统技术相比减少了60%。

图2 自动生成语音识别辞典
基于统计方法计算解说顺序的特征，提高识别精度(图3)
富士通研究所通过统计方法，计算出语音解说顺序与文章构成的关系，文章构成包括资料布局、段落结构、资料中说明文字的位置等。这时研究人员发现发言者在讲解完某个内容后，继续讲解距离该内容较远章节的频率骤降。基于该解说顺序特征与解说部分所含词汇的使用频率，缩小了接下来讲解内容的范围，只需识别少量词汇，即可实现精确识别对应的解说区域。
图3 基于解说顺序的特征和词汇使用频率，识别解说区域

效果

研究人员基于本技术尝试研发并评价了自动指示系统，将远程会议使用的幻灯片作为共享资料，发言者解说时自动强调显示与语音对应的区域(图4)。例如将解说开始后强调显示对应区域的时间设置为2秒，这时识别精度由70%提高到了97%。

将该技术与鼠标光标等传统指示方法进行比较与评价，解说易懂程度提高了30%，显示的烦琐度降低了一半。该技术对远程会议交流起到了有效的辅助作用。

图4 用于远程会议的讲解区域自动指示系统

今后

富士通研究所目标在2016年将基于该技术的远程交流辅助系统投放市场。另外，计划与研究所研发的视线检测技术、翻译技术相结合，扩大该技术的应用范围，提高业务效率。例如在呼叫中心为操作员提供常见问题的相关信息，服务台业务支持，教育支持等。

注释

注1 株式会社富士通研究所：: 社长佐相秀幸
总公司所在地日本神奈川县川崎市

页首