浙大联手微软推出可唱中英文歌的AI系统
- 相关推荐
作者:DIGITIMES涂翠珊
浙江大学与微软(Microsoft)研究团队利用音乐网站数据训练出一款能够演唱中、英文歌曲的AI系统。这套名为DeepSinger的AI系统可省去歌手反复进录音室修正的麻烦,但也可能衍生造假的问题。
浙江大学与微软研究团队利用特殊的方法,从演唱资料中撷取出歌手音色,并利用这些资料训练出能合成歌声,演唱中英文歌曲的AI系统DeepSinger。
以往歌手录完歌曲后,若要修改、调整,便得重进一次录音室,但AI声音合成技术出现后,将可免去这层麻烦,省下不少时间与费用。然而另一方面,这类技术也有可能被用于深度伪造(Deepfake),让歌手唱出从未唱过的歌词。
研究团队解释,歌声有复杂的模式与节奏,不论是长度、音高都要控制,因此比起说话声音更难合成。此外,目前并没有太多可用的歌声训练数据集、训练用的歌词需透过人工分析,这些因素都是打造歌声合成系统时的挑战。
DeepSinger使用的训练方法,包含多个数据探勘(Data Mining)和数据建模步骤。系统首先从音乐网站爬取(Crawl)了多个语言的热门歌曲,再利用开放源码工具Spleeter撷取歌声,并分割成一个个句子。接着,DeepSinger会将歌词中每个音素的演唱长度撷取出来,根据模型生成的信赖分数过滤歌词与歌声,再依此处理不完美或失真的训练数据。
研究团队指出,DeepSinger可透过歌词、歌声长度、音调信息与参考音讯,合成出准确且自然的高质量歌声。在一项针对200名用户所做的调查中,DeepSinger生成歌曲与原始训练音讯的平均意见分数(MOS)只差了0.34~0.76。
研究团队计划在未来利用WaveNet这类更复杂的AI技术投入子模型的训练,希望能进一步提升歌声的质量。