GTM-W5W3BK9
Skip to main content
  1. 首页 >
  2. 关于富士通 >
  3. 公共信息 >
  4. 研究开发 >
  5. 研究成果展示 >
  6. 高品质的中文语音合成技术

高品质的中文语音合成技术

【概要】

语音合成技术作为一种语音输出手段,广泛应用于各种信息实时输出服务中,如呼叫中心、汽车导航、语音网页、辅助教学、特殊人群(视力障碍)服务等。合成的语音是否正确、流畅、自然,很大程度上影响着用户体验和服务质量。通过对韵律生成、多音字/数字符号处理等关键技术的研究,我们的TTS系统在确保可懂度的基础上能够合成出高品质高自然度的输出语音。

【解决方案】

1. 高自然度的韵律节奏

一个具有高自然度的语音合成系统在语音停顿、发音时长和语调等方面都需要尽可能的接近真实人的发音。为此,我们研究分析了影响发音时长的各种因素,为每一种发音进行统计归类,通过建立统计模型来精确的预测音长。此外,为实现高自然度的语调,我们采用多样的语调模板来充分刻画汉语韵律节奏的特色,以确保具有高自然度韵律节奏的合成语音。

2.强大的多音字、数字、特殊符号处理能力

文本中往往包括多音字、数字和特殊符号,能否正确的理解和判断这些内容的发音,是影响合成语音可懂度的一个重要因素。为了正确解决这些特殊内容的发音问题,我们采用了规则和统计学习相结合的方法,在大规模语料中对多音字、数字和特殊符号所在的上下文语境进行统计分析,为每一个字符建立预测模型,从而可以准确的判断出他们的正确读音。

【技术要点】

  1. 基于决策树的音长预测模型
  2. 基于多变量分析和聚类分析得到的基频调型模板
  3. 基于上下文语境的统计学习

【概要图】

概要图

联系方式:

于浩:yu@cn.fujitsu.com

刘汝杰:rjliu@cn.fujitsu.com