使用交叉舌语音转换构建多语言TT

论文标题

使用交叉舌语音转换构建多语言TT

Building Multi lingual TTS using Cross Lingual Voice Conversion

论文作者

Sun, Qinghua, Nagamatsu, Kenji

论文摘要

在本文中，我们提出了一种新的跨语性语音转换（VC）方法，该方法可以使用PPGS（语音后验）从一个DNN模型中生成所有语音参数（MCEP，LF0，BAP），并使用多个ASR声学模型从输入的语音中提取。使用提出的VC方法，我们尝试了三种不同的方法来构建多语言TTS系统，而无需记录多语言语料库。进行了聆听测试，以评估转换的语音和目标语音之间的语音质量（自然性）和语音相似性。结果表明，方法1达到了最高水平的自然性（以5分制为3.28 MO）和相似性（2.77 MO）。

In this paper we propose a new cross-lingual Voice Conversion (VC) approach which can generate all speech parameters (MCEP, LF0, BAP) from one DNN model using PPGs (Phonetic PosteriorGrams) extracted from inputted speech using several ASR acoustic models. Using the proposed VC method, we tried three different approaches to build a multilingual TTS system without recording a multilingual speech corpus. A listening test was carried out to evaluate both speech quality (naturalness) and voice similarity between converted speech and target speech. The results show that Approach 1 achieved the highest level of naturalness (3.28 MOS on a 5-point scale) and similarity (2.77 MOS).

下载PDF全文

下载文献需遵守相关版权规定

论文标题