百度表示,Deep Voice 2可以“学习数百种不同的语音,从每个说话者那里吸收的数据不到半个小时,但却可以实现很高的音质。”而上一代产品要达到类似的目的,每个声音需要接受20小时的训练。在短短几个月的时间内,该系统便在效率上进一步超越谷歌WaveNet。
百度表示,与之前的TTS系统不同,Deep Voice 2可以完全凭借自己的能力找到进行训练的语音之间的共同特点,不需要接受任何事先指导。“Deep Voice可以学习并完美模仿数百种语音。”该公司在博客中说。
百度还在一篇论文中总结道,该公司的神经网络只需要通过数百个不同的讲话者吸收很小的声音样本便可创作很好的语音效果。由此看来,可能要不了多久就能听到数字语音助手用更加自然的语音与我们交流。(书聿)