Skip to main content

Fujitsu

English | 日本語

China

本技术介绍参考了以下链接
English

2016年2月22日

根据发言者的语音实时精准识别资料中对应区域的技术

株式会社富士通研究所(注1)(以下简称,富士通研究所)开发了可以从远程会议与演讲使用的资料中,实时精准识别发言者语音对应区域的技术。

开发背景

商务活动中,参与者交流时有时需要共享资料,例如使用宣传册进行产品介绍,按会议日程举办会议,会议中使用幻灯片资料等。这时,需要将信息正确、迅速、易懂地传达给对方。

富士通研究所为了提高商务交流效率,开发出了基于语音识别技术实时识别对话内容的技术。该系统在使用资料进行交流时,可为提供信息起到辅助作用。

使用共享资料时交流辅助系统的应用
图1 使用共享资料时交流辅助系统的应用


课题

一般通过语音词汇在资料中出现的频率识别发言对应的部分。这种方法通常针对录制的语音进行检测,如果语音中包含的词汇得到充分提取,该方法是有效的。但该方法不适用于语音的实时位置识别,当发言者只说了几个单词时,该方法无法识别单词的频率。另外,目前的语音识别技术,误识率高达10%,因此只从几个单词识别的话,误识别会很大地影响识别精度。

开发的技术

富士通研究所通过将电子会议的共享资料与解说语音内容相对照,开发出了可以实时精准识别对应解说区域的技术。

开发的技术具有以下特点:

  1. 不易发生误识别,可自动生成语音识别辞典(图2)

    在日语中有很多像“色”、“音”、“日”等这种发音简短的单词(发音规则与中文不同),它们发音相似,因此在语音识别中容易产生误识别。富士通研究所将这些发音简短的单词与它们前后的单词相结合,作为一个单词存储在语音识别辞典中,误识率与本公司传统技术相比减少了60%。

    自动生成语音识别辞典
    图2 自动生成语音识别辞典
  2. 基于统计方法计算解说顺序的特征,提高识别精度(图3)

    富士通研究所通过统计方法,计算出语音解说顺序与文章构成的关系,文章构成包括资料布局、段落结构、资料中说明文字的位置等。这时研究人员发现发言者在讲解完某个内容后,继续讲解距离该内容较远章节的频率骤降。基于该解说顺序特征与解说部分所含词汇的使用频率,缩小了接下来讲解内容的范围,只需识别少量词汇,即可实现精确识别对应的解说区域。

  3. 基于解说顺序的特征和词汇使用频率,识别解说区域
    图3 基于解说顺序的特征和词汇使用频率,识别解说区域

效果

研究人员基于本技术尝试研发并评价了自动指示系统,将远程会议使用的幻灯片作为共享资料,发言者解说时自动强调显示与语音对应的区域(图4)。例如将解说开始后强调显示对应区域的时间设置为2秒,这时识别精度由70%提高到了97%。

将该技术与鼠标光标等传统指示方法进行比较与评价,解说易懂程度提高了30%,显示的烦琐度降低了一半。该技术对远程会议交流起到了有效的辅助作用。

用于远程会议的讲解区域自动指示系统
图4 用于远程会议的讲解区域自动指示系统


今后

富士通研究所目标在2016年将基于该技术的远程交流辅助系统投放市场。另外,计划与研究所研发的视线检测技术、翻译技术相结合,扩大该技术的应用范围,提高业务效率。例如在呼叫中心为操作员提供常见问题的相关信息,服务台业务支持,教育支持等。


注释

注1 株式会社富士通研究所:
社长 佐相秀幸
总公司所在地 日本神奈川县川崎市