注意:该页面为存档页面,其内容可能已过时。
【概要】
语音合成技术作为一种语音输出手段,广泛应用于各种信息实时输出服务中,如呼叫中心、汽车导航、语音网页、辅助教学、特殊人群(视力障碍)服务等。合成的语音是否正确、流畅、自然,很大程度上影响着用户体验和服务质量。通过对韵律生成、多音字/数字符号处理等关键技术的研究,我们的TTS系统在确保可懂度的基础上能够合成出高品质高自然度的输出语音。
【解决方案】
1. 高自然度的韵律节奏
一个具有高自然度的语音合成系统在语音停顿、发音时长和语调等方面都需要尽可能的接近真实人的发音。为此,我们研究分析了影响发音时长的各种因素,为每一种发音进行统计归类,通过建立统计模型来精确的预测音长。此外,为实现高自然度的语调,我们采用多样的语调模板来充分刻画汉语韵律节奏的特色,以确保具有高自然度韵律节奏的合成语音。
2.强大的多音字、数字、特殊符号处理能力
文本中往往包括多音字、数字和特殊符号,能否正确的理解和判断这些内容的发音,是影响合成语音可懂度的一个重要因素。为了正确解决这些特殊内容的发音问题,我们采用了规则和统计学习相结合的方法,在大规模语料中对多音字、数字和特殊符号所在的上下文语境进行统计分析,为每一个字符建立预测模型,从而可以准确的判断出他们的正确读音。
【技术要点】
【概要图】