跨音频类型实现先进的零样本波形音频生成
对话式人工智能
2024年 9月 5日

令人惊叹的音频内容是虚拟世界的重要组成部分。音频生成式 AI 在创建此类内容方面发挥着关键作用,NVIDIA 正在不断突破这一研究领域的极限。BigVGAN 是与 NVIDIA 应用深度学习研究团队和 NVIDIA NeMo 团队合作开发的生成式 AI 模型,专门用于音频波形合成,可实现先进的结果。BigVGAN 生成波形的速度比实时快几个数量级,并且在语音、环境声音和音乐等各种音频类型中表现出强大的稳健性。
本文将讨论 BigVGAN v2,它可以显著提高速度和质量,助力打造所生成的音频与真实音频相去甚远的未来。BigVGAN v2 的亮点包括:
- 先进的音频质量,由多种音频类型的不同指标来衡量。
- 利用经过优化的 CUDA 内核,合成速度最高可提升 3 倍。
- 即用型预训练检查点,支持多种音频配置。
- 支持高达 44 kHz 的采样率,这是人类能够听到的最高声音频率
BigVGAN:通用神经声码器
BigVGAN 是一款通用神经声码器,专门用于使用 Mel spectrograms 作为输入合成音频波形。神经声码器是音频生成式 AI 中的基石方法,可从紧凑型声学特征(如 Mel spectrogram)生成声波。BigVGAN 可通过 GitHub 上的 NVIDIA/BigVGAN 以开源形式提供。
BigVGAN 是一种全卷积架构(Figure 1),具有多个使用转置卷积的上采样块,然后是多个残差扩展卷积层。它具有名为 Anti-Aliased Multi-Periodicity Composition(AMP)的新型模块,专为生成波形而设计。
AMP 专注于合成高频和周期性声波,从音频信号处理原理中汲取灵感。它应用了名为 Snake 的周期激活函数,该函数可在生成周期性声波时为架构提供感应偏差。它还应用了抗锯齿滤波器,以减少生成的波形中不希望出现的伪影。如需了解详情,请参阅 BigVGAN:采用大规模训练的通用神经声码器。

图 1. BigVGAN 架构和使用周期激活函数 (Snake1d) 的抗锯齿多周期合成模块 (AMP),以及用于通用波形合成的低通滤波器。
生成世界上的每一种声音
波形音频生成是构建虚拟世界的关键组成部分,长期以来一直是一个活跃的研究领域。尽管波形音频生成很重要,但当前的声编码方法通常会在高频声波中生成缺乏精细细节的音频。BigVGAN v2 有效地解决了这个问题,可以提供具有增强精细细节的高质量音频。
BigVGAN v2 使用 NVIDIA A100 Tensor Core GPU 进行训练,其音频数据比上一代产品多出 100 多倍,该数据集旨在封装世界上的每种声音,包括多种语言的语音、来自日常物体的环境声音以及各种仪器。因此,BigVGAN v2 可以使用单个模型从多个领域生成高质量声波。
达到人耳能检测到的最高频率
之前的波形合成器的采样率仅限于在 22 kHz 到 24 kHz 之间。然而,BigVGAN v2 将此范围扩展到 44 kHz,封装了整个人类听觉频谱。这与人耳可以检测到的最高频率相匹配,而采样率不超过 40 kHz。因此,BigVGAN v2 可以重现全面的音景,例如捕获所有内容,从鼓声的强劲混响到音乐中铃声的清晰闪烁等
使用自定义 CUDA 内核加快合成速度
与其前身相比,BigVGAN v2 还通过使用自定义 CUDA 内核加速了合成速度,其推理速度比原始 BigVGAN 快 3 倍。为 BigVGAN v2 编写的优化推理 CUDA 内核可以在单个 NVIDIA A100 GPU 上生成音频波形,速度比实时快 240 倍。
BigVGAN v2 音频质量结果
与开源前一代产品相比,BigVGAN v2 24 kHz 的语音和通用音频音频质量更胜一筹,并且大幅提升(图 2 和图 3)。

图 2. LibriTTS-dev 语音数据上的 BigVGAN v2 24 kHz 与 BigVGAN 结果对比。

图 3. 基于 MUSDB18-HQ 音乐数据的 BigVGAN v2 24 kHz 与 BigVGAN 模型结果对比。
此外,全新 BigVGAN v2 44 kHz 型号的音频质量可与开源高质量神经音频编解码器 Descript Audio Codec (.dac) 相媲美(图 4 和 5)。

图 4. 使用 HiFi-TTS-dev 语音数据的 BigVGAN v2 44 kHz 与 Descript Audio Codec 结果对比。

图 5. BigVGAN v2 44 kHz 与使用 MUSDB18-HQ 音乐数据的 Descript Audio Codec 结果对比。
所有结果表明,所生成波形的质量与以下指标相关:
结束语
NVIDIA 致力于提供人人都能使用的出色音频生成式 AI。BigVGAN v2 的发布将神经声码器技术和音频质量提升到新的高度,甚至可以达到人类听觉感知的极限。
BigVGAN v2 在音频合成领域树立了新标准,可为所有音频类型提供先进的质量,并覆盖人类的全方位听力。其合成速度现在比最初的 BigVGAN 快3倍,确保对各种音频配置进行高效处理。
在深入了解 BigVGAN v2 之前,我们鼓励用户查看模型卡,以获得无缝的体验。