腾讯音乐在音质 AIGC 的应用与实践
导读 本次分享内容为腾讯音乐天琴实验室在音质 AIGC 方面的应用与实践。
主要包括以下几大部分:
-
背景介绍
-
音乐分离
-
音乐超分
-
臻品母带
-
问答环节
分享嘉宾|何礼 腾讯音乐 高级研究员
编辑整理|张少华
内容校对|李瑶
出品社区|DataFun
01背景介绍
QQ 音乐在 12.0 时,完善了音乐音质音效体系。
不仅在 SQ 和 HQ 上提高了标准,同时在音效方面提出了臻品 2.0,对标 Apple Music 的立体声空间音频。此外,还成为了国内首家引入杜比全景声的音乐流媒体平台。
AIGC 的应用主要聚焦在用户听歌"听得舒心"的场景。QQ 音乐多年来一直致力于音质的优化,包括算法、检测、标准制定、客户端的播放等各个方面。音乐 AIGC 的主要场景包括音乐分离、音乐超分和臻品母带。接下来分别进行介绍。
02音乐分离
音乐分离是音乐领域的一个主流的研究方向。
从早期 18 年的语音分离技术 Conv-TasNet、20 年的 PG 频域分离算法 Spleeter,到 21 年字节提出的 ResUNetDecouple+,用更深的网络进行人声分离,再到 22 年 Meta 提出的 Hybrid Demucs 成为 MDX2021 的冠军。2023 年QQ 音乐与 AI lab 合作推出了一个子带分离模型 BSRNN,其基本原理包括两个方面,首先是对整个信号的一个频域进行子带的切分,切分之后从时域帧间序列建模,再对频域子带进行序列建模。
参考文献:Luo Y, Yu J. Music source separation with band-split rnn[J]. arXiv preprint arXiv:2209.15174, 2022.
这里的核心思想是音乐信号除了在时间上存在着很强的相互关系,同时在频域上也存在着很强的关系,BSRNN 从音乐信号的本质考虑分离任务,相比于之前直接用更深的网络,或者从 CV 等其他领域去迁移到音频领域的方式,对音乐领域可能具有更强的适配性。
音乐分离技术的第一个应用场景是臻品全景声,其基本原理是参考杜比全景声的制作流程,将音乐分离出多个轨道信号,再利用全景声的空间混音技术,获得有空间感的臻品全景声。
另外一些应用场景包括,TME 聚星平台、TME Studio 和启明星,直接面向用户提供音乐分离服务,包括声伴分离,6 轨分离,大家可以到官网体验。
除了在 QQ 音乐上应用音乐分离,在全民 K 歌上也有很多应用场景,比如全民 K 歌临境音效,作为 VIP 用户的核心权益,用户可以 DIY 音效,在分离之后,用户可以根据自己的喜好去设置乐器的不同摆放方位,获得实时空间感的体验。此外,音乐分离还可以用于全民 K 歌五维打分模板的制作,以及全民 K 歌伴奏库,帮助实现伴奏分离,补充全民 K 歌伴奏库。
另外,音乐分离还应用在懒人听书,比如长音频消伴场景。因为有些长音频,会存在背景音乐或噪声,而用户可能只关注于内容本身,这时可以通过干声分离技术为用户提供纯净版的音频,也就是更优质的音质选项。音乐分离技术还应用到了 AIGC-X,通过干声分离将歌曲人声分离出来,然后通过模型去判断这个人声是否是 AI 生成的。另一应用场景是启明星音色试唱,通过声伴分离,干声音色转换,再与伴奏 mix,生成一个新的试听 Demo。
音乐分离还会用在低频公益,这是专门针对听障人士的歌曲增强与补偿。还会有一些ToB 的应用场景。
整体来讲,BSRNN 技术的基本原理是基于频域切分子带的思路,切分后对时域和频域进行序列建模,从而更加适用于音乐任务。分离业务包括三类,一类是作为一个子模块支持各个业务,另一类是 ToC 的应用,直接提供给用户,最后一类是一些 ToB 的商务合作。
03音乐超分
音乐超分主要应用在臻品音质 2.0,可以在端上对 CD 或者 MP3 的品质进行实时处理,能够达到 96kHz/24bit 的 Hi-Res 音质。
04臻品母带
接下来介绍行业首创的一个功能,臻品母带。
什么是母带?回顾歌曲的整个制作流程,歌曲创作的时候包括作曲、编曲,在录制和混音之后,形成最终的母带,通常在流媒体下发的时候,会编码成各种不同的码率进行流媒体播放。母带可以认为是最原始的一个音质品质,通常至少会有 192 kHz/24bit。SQ 品质,标准可能最高会达到 48kHz/24bit。
实际上从右下图不同品质的频响曲线可以看到,通过一些有损或无损编码,SQ 跟母带主要差异集中在一些高频的部分,低频部分实际上是一致的。对于有损编码,主要涉及到 MP3 这类的编码方式,通常为了极限的压缩空间,除了高频与母带有差异,它的低频可能会有一些丢失,因为它对体系要求会更高一些。因此这里的母带可能需要对低频进行修复,对高频进行还原。
QQ 音乐臻品母带功能,实现了统一进行低频修复和高频还原,实现了更佳的优化效果,同时大幅减少了推理耗时,降低了计算成本。
最新的臻品母带 2.0 版本于 2023 年 7 月上线之后,业务指标有了明显的增长。
总结一下这一部分的内容,首先,母带是一个歌曲制作完成后的最初版本,它的格式能达到 192kHz/24bit。端侧模型,与 1.0 相比,2.0 采用了统一的模型进行低频修复和高频还原,主客观指标和推理耗时显著优于 1.0。在业务上线之后,PU、UV、人均时长等指标,以及口碑都有着比较明显的提升。
以上就是本次分享的内容,谢谢大家。
05问答环节
Q:可以分离一段音频的不同人声吗?
A:不同人声可能有两种情况,一种是类似于合唱的情况,另一种是和声。合唱是 A 和 B 都会唱。和声的情况更常见,一般歌曲都有和声。QQ 音乐是可以将和声分离出来的。
以上就是本次分享的内容,谢谢大家。