跨音频类型实现先进的零样本波形音频生成

2024年 9月 5日

令人惊叹的音频内容是虚拟世界的重要组成部分。音频生成式 AI 在创建此类内容方面发挥着关键作用，NVIDIA 正在不断突破这一研究领域的极限。BigVGAN 是与 NVIDIA 应用深度学习研究团队和 NVIDIA NeMo 团队合作开发的生成式 AI 模型，专门用于音频波形合成，可实现先进的结果。BigVGAN 生成波形的速度比实时快几个数量级，并且在语音、环境声音和音乐等各种音频类型中表现出强大的稳健性。

本文将讨论 BigVGAN v2，它可以显著提高速度和质量，助力打造所生成的音频与真实音频相去甚远的未来。BigVGAN v2 的亮点包括：

先进的音频质量，由多种音频类型的不同指标来衡量。
利用经过优化的 CUDA 内核，合成速度最高可提升 3 倍。
即用型预训练检查点，支持多种音频配置。
支持高达 44 kHz 的采样率，这是人类能够听到的最高声音频率

BigVGAN：通用神经声码器

BigVGAN 是一款通用神经声码器，专门用于使用 Mel spectrograms 作为输入合成音频波形。神经声码器是音频生成式 AI 中的基石方法，可从紧凑型声学特征（如 Mel spectrogram）生成声波。BigVGAN 可通过 GitHub 上的 NVIDIA/BigVGAN 以开源形式提供。

BigVGAN 是一种全卷积架构（Figure 1），具有多个使用转置卷积的上采样块，然后是多个残差扩展卷积层。它具有名为 Anti-Aliased Multi-Periodicity Composition（AMP）的新型模块，专为生成波形而设计。

AMP 专注于合成高频和周期性声波，从音频信号处理原理中汲取灵感。它应用了名为 Snake 的周期激活函数，该函数可在生成周期性声波时为架构提供感应偏差。它还应用了抗锯齿滤波器，以减少生成的波形中不希望出现的伪影。如需了解详情，请参阅 BigVGAN：采用大规模训练的通用神经声码器。

The BigVGAN diagram details the flow and interaction between different layers and modules within the BigVGAN framework, highlighting the innovative use of periodic activation functions and filtering methods to improve synthesis fidelity.

图 1. BigVGAN 架构和使用周期激活函数 (Snake1d) 的抗锯齿多周期合成模块 (AMP)，以及用于通用波形合成的低通滤波器。

生成世界上的每一种声音

波形音频生成是构建虚拟世界的关键组成部分，长期以来一直是一个活跃的研究领域。尽管波形音频生成很重要，但当前的声编码方法通常会在高频声波中生成缺乏精细细节的音频。BigVGAN v2 有效地解决了这个问题，可以提供具有增强精细细节的高质量音频。

BigVGAN v2 使用 NVIDIA A100 Tensor Core GPU 进行训练，其音频数据比上一代产品多出 100 多倍，该数据集旨在封装世界上的每种声音，包括多种语言的语音、来自日常物体的环境声音以及各种仪器。因此，BigVGAN v2 可以使用单个模型从多个领域生成高质量声波。

达到人耳能检测到的最高频率

之前的波形合成器的采样率仅限于在 22 kHz 到 24 kHz 之间。然而，BigVGAN v2 将此范围扩展到 44 kHz，封装了整个人类听觉频谱。这与人耳可以检测到的最高频率相匹配，而采样率不超过 40 kHz。因此，BigVGAN v2 可以重现全面的音景，例如捕获所有内容，从鼓声的强劲混响到音乐中铃声的清晰闪烁等