企业信息
事业方针
社长致辞
富士通在中国
Fujitsu Way
公共信息
- 富士通先端科技（上海）有限公司
- 成功案例
- 联系我们
- 活动
- 新闻
- Feature Stories
- 富士通科学与技术杂志
- CIO全球智能
- 研究开发
  - 事业内容
  - 研究成果展示
  - 研究所技术介绍
- 产品资料
- 社交媒体免责声明
富士通博物馆
富士通品牌
企业的社会责任

存档内容

注意：该页面为存档页面，其内容可能已过时。

高品质的中文语音合成技术

【概要】

语音合成技术作为一种语音输出手段，广泛应用于各种信息实时输出服务中，如呼叫中心、汽车导航、语音网页、辅助教学、特殊人群（视力障碍）服务等。合成的语音是否正确、流畅、自然，很大程度上影响着用户体验和服务质量。通过对韵律生成、多音字/数字符号处理等关键技术的研究，我们的TTS系统在确保可懂度的基础上能够合成出高品质高自然度的输出语音。

【解决方案】

1. 高自然度的韵律节奏

一个具有高自然度的语音合成系统在语音停顿、发音时长和语调等方面都需要尽可能的接近真实人的发音。为此，我们研究分析了影响发音时长的各种因素，为每一种发音进行统计归类，通过建立统计模型来精确的预测音长。此外，为实现高自然度的语调，我们采用多样的语调模板来充分刻画汉语韵律节奏的特色，以确保具有高自然度韵律节奏的合成语音。

2.强大的多音字、数字、特殊符号处理能力

文本中往往包括多音字、数字和特殊符号，能否正确的理解和判断这些内容的发音，是影响合成语音可懂度的一个重要因素。为了正确解决这些特殊内容的发音问题，我们采用了规则和统计学习相结合的方法，在大规模语料中对多音字、数字和特殊符号所在的上下文语境进行统计分析，为每一个字符建立预测模型，从而可以准确的判断出他们的正确读音。

【技术要点】

基于决策树的音长预测模型
基于多变量分析和聚类分析得到的基频调型模板
基于上下文语境的统计学习

【概要图】

联系方式：

于浩：yu@cn.fujitsu.com

刘汝杰：rjliu@cn.fujitsu.com

页首