在与机器进行语音交谈时,人们都更倾向于希望机器的声音有一定的语调和情感,这样比起那些机械、一字一顿的机器声更受欢迎。主要还是因为让人感觉「我在跟一个人说话」。
在业界,要达到这一效果,通常有两种解决方案:一是拼接式语音合成(Concatenative Synthesis),先录制单个说话者的大量语音片段,形成一定规模的语料库,接着从中提取特征以完成相应的语段音频。二是参数化的方法,利用数学模型对已知的声音进行排列、组装成词语或句子来重新创造音频。
相比拼接式的语音合成,参数化方法所形成的语音片段更自然,但两种方法都是对语音进行机械式的拼接,且其中还需要经过多道复杂的程序才得以完成,称得上是一项大型工程。日常的语音导航系统就是依靠这样的方法进行语音、语调的合成。
在百度位于美国硅谷的人工智能实验室(AI Lab),除了自动驾驶技术之外,他们还有一项重要的研究项目——Deep Voice,该项目组主要致力于人工智能语音技术研发。
在今年3 月份,该研究部门首次向外界推出了Deep Voice(深度语音系统),该系统是一个完全由深度神经网络构建的语音转文本(TTS,Text-to-Speech)系统,最大的亮点在于能实时合成人工语音。
Deep Voice 仿照传统文字转语音的途径,采用相似的结构,替换上相应的组件。其实现主要依靠由深度学习网络搭建成的语音合成神经网络系统(Real-Time Neural Text-to-Speech for Production)对所采集的数据集、语音进行提炼,进一步生成新的音频。在这一过程中,无需进行数据注释等任何手动工作,大大简化了语音合成流程且有高品质效果。(论文地址:https://arxiv.org/pdf/1702.07825.pdf)
近日,在时隔不到 3 个月的时间,百度 Deep Voice 发布了最新的研究成果并推出 Deep Voice 2。Deep Voice 2 的主要更新在于,可实时合成上百种口音的音频,而上一代的系统仅能合成一个人声。(百度官方提供了多个示例样本:http://research.baidu.com/deep-voice-2-multi-speaker-neural-text-speech/)
在该系统中,机器完成每个口音模仿的学习仅需半小时的时间,同样的,在这个语音合成的过程中,并不需要任何的人工调整。相比上一代,Deep Voice 2 的运行速度快了好几倍。
与上一代的运行思路不同的是,在形成多个口音音频的过程中,Deep Voice 2 从数百个人声样本中提取数据、特征,建立一个音频模型,语音合成神经网络根据这些模型进行调整以设计出不同特征的声音。
对于Deep Voice 2 的意义,百度官方表示,其在个人语音助理、电子阅读器等应用中有非常大的想象空间,如为个人提供不同音色的文本朗读。
类似的,Google 旗下DeepMind 深度学习实验室早在去年公布了其利用卷积神经网络(convolutional neural networks)对原始音频波形(RawSoundWave)建模的语音合成技术WaveNet,同样是一种通过原始语音合成新音频的技术,且效果也相当接近原音。
通过人类语音训练过的卷积神经网络能辨别语音、语言的音频模式,对WaveNet 系统输入新的文本信息后,该系统会根据新的语音特征来生成新的原始音频波段来读出这个新的文本信息:
不过,WaveNet 需要对整个的原始音频波形(Raw SoundWave)进行计算,而每输出一秒音频神经网络必须处理16000 个样本,所以其运算量不小。
从技术更新上看,百度比Google DeepMind 的要走在更前且短时间内实现迅速发展。但两者的技术均处在实验室阶段,不管是在它们各自的语音操作系统和应用中,还是在硬件接入上,都有着巨大的发挥空间。(本文作者:Jes@深圳湾)■